Sunteți pe pagina 1din 34

Capitolul II

PRELUCRAREA PRIMARĂ A DATELOR

2.1. CONŢINUTUL PRELUCRĂRII DATELOR


STATISTICE
O persoană pentru a exprima o acţiune trebuie să aşeze într-o formă
logică cuvintele în propoziţii sau fraze. În mod analog, datele referitoare la
indicatorii societăţilor comerciale dintr-un departament, la preţurile şi
cantităţile de mărfuri desfăşurate pe o piaţă etc. pentru a evidenţia esenţa,
regularitatea, din forma de manifestare a fenomenelor cercetate trebuie
prelucrate, sistematizate, centralizate şi grupate.
Valorile individuale ale caracteristicilor înregistrate, în funcţie de scopul
analizei, prezintă variaţii mari de la o unitate la alta creând în mod aparent
impresia că ele ar fi independente între ele. Din această cauză ansamblul
datelor înregistrate nu permite cunoaşterea esenţei din forma de manifestare a
fenomenelor investigate.
Datele statistice înregistrate, printr-o modalitate de observare totală sau
parţială, sunt utile în procesul de cunoaştere şi pregătire a deciziilor numai dacă
sunt supuse unor operaţiuni de prelucrare. Prelucrarea, ca etapă a cercetării
statistice, cuprinde operaţii (de rafinare sau transformare) cu ajutorul cărora se
realizează trecerea de la datele individuale la indicatorii derivaţi, sintetici,
care reflectă esenţa din manifestarea fenomenelor. Să presupunem că într-o
colectivitate (populaţie) s-au observat carateristicile x1, x2, ..., xm. De exemplu:
cantitatea mărfurilor vândute; preţul de pe piaţă al mărfurilor, valoarea adăugată;
profitul brut; numărul de angajaţi; volumul activelor fixe etc. Datele culese de la
cele n unităţi din colectivitatea investigată sunt sistematizate sub următoarea
formă:
40 Statistică generală
Tabelul 2.1.
Forma generală de sistematizare a datelor statistice

i/j Caracteristici statistice observate (X)


Unităţile investigate ale colectivităţii
(populaţiei) x1 x2 … xj … xm

1 x11 x12 … x1j … x1m


2 x21 x22 … x2j … x2m
: … …
i xi1 xi2 … xij … xim
: : : : :
n xn1 xne2 … xnj … xnm

Forma matriceală a datelor sistematizate se caracterizează prin


următoarele trăsături:
- elementele fiecărei coloane j j = 1, m reprezintă valorile caracteristicii
( )
xj înregistrate la toate cele n unităţi. Datele x ij i=1,n sunt egale sau/şi
diferite între ele;
- elementele fiecărei linii i i = 1, n reprezintă valorile caracteristicilor
x j j = 1, m înregistrate la fiecare unitate i i = 1, n din colectivitatea investigată;
( )
- elementele matricei x ij i=1,n, j=1,m sunt nule şi/sau nenule,
pozitive şi/sau negative;
- mărimea matricei (m, n) depinde atât de numărul caracteristicilor
precizate în programul observării cât şi de numărul de unităţi investigate.
Pentru desprinderea aspectelor esenţiale şi stabile din manifestarea
fenomenelor analizate datele statistice sistematizate trebuie să fie supuse unor operaţii
de prelucrare. Prelucrarea datelor statistice înregistrate poate fi primară sau secundară.
Prelucrarea primară cuprinde operaţii de clasificări, de grupări, de
comparări, de prezentare sub formă de tabele, grafice sau serii statistice.
Prin efectuarea acestor operaţii se realizează sintetizarea datelor individuale la
nivelul grupelor sau claselor, se calculează indicatori absoluţi şi/sau relativi, se
prezintă sintezele efectuate prin tabele, grafice sau serii statistice. Sintetizarea
datelor individuale la nivelul grupelor sau claselor şi apoi la nivelul colectivităţii,
este însoţită de o pierdere inevitabilă de informaţii, deoarece se elimină ceea ce
este neesenţial şi întâmplător. În acelaşi timp se câştigă sub aspectul obţinerii unei
noi informaţii, sintetice, care nu pot fi obţinute direct din datele primare (structura
colectivităţii, tendinţa centrală etc.). Rezultatele operaţiilor de prelucrare primară
sunt elementele de intrare pentru prelucrarea secundară în urma căreia se
Capitolul II 41
estimează valori tipice, omogenitatea şi asimetria distribuţiilor, intensitatea
legăturilor dintre fenomenul analizat şi factorii săi de influenţă etc.
În cazul în care scopul cercetării declanşate necesită un volum mare
de operaţii, diverse, de prelucrare este necesar să se elaboreze, de la caz la
caz, planuri de prelucrare informatică a datelor.

2.2. METODE DE STRUCTURARE A


COLECTIVITĂŢILOR STATISTICE ÎN FUNCŢIE DE
UNA SAU MAI MULTE CARACTERISTICI
Obiectivele metodelor. Principalele metode prin care se realizează
trecerea de la datele primare înregistrate la valorile tipice, sintetice, sunt
metodele de structurare ale colectivităţilor după una sau mai multe
caracteristici statistice şi anume metode de clasificare şi grupare.
Obiectivul principal al metodelor de clasificare sau/şi grupare îl
reprezintă formarea de clase sau grupe de unităţi omogene, din colectivitatea
(populaţia) investigată. Prin grupă sau clasă omogenă înţelegem acea
grupă sau clasă în care sunt incluse acele unităţi din colectivitate la care
valorile individuale ale caracteristicii (lor) urmărită(e) prezintă variaţii
(abateri) minime, explicate prin influenţa factorilor întâmplători.
Potrivit acestui obiectiv se poate spune că gruparea şi clasificarea
datelor statistice sunt subordonate scopului cercetării şi sunt declanşate
după o analiză aprofundată a colectivităţii investigate în vederea identificării
grupelor sau claselor calitativ distincte şi omogene. În cazul în care nu se
acordă o importanţă deosebită operaţii există riscul de a se forma clase sau
grupe care nu se deosebesc calitativ, iar cunoaşterea obiectivă a aspectelor
esenţiale ar fi imposibilă.
Grupările şi clasificările pot fi specifice fiecărei cercetări
concrete sau pot avea un caracter permanent. Criteriile (caracteristicile)
de clasificare sau grupare se aleg în funcţie de scopul cercetării astfel încât
să conducă la structurarea colectivităţii în grupe sau clase omogene. Cu cât
complexitatea fenomenelor urmărite este mai mare, cu atât mai mult este
necesară gruparea unităţilor din colectivitate (populaţie) după mai multe
caracteristici aflate în relaţii de interdependenţă obiectivă. Grupările sau
clasificările, care pun în evidenţă tipuri de fenomene, sunt grupări sau
clasificări tipologice şi care de multe ori au un caracter permanent.
De exemplu: clasificarea populaţiei pe grupe de vârstă; clasificarea
societăţilor comerciale pe ramuri de activitate sau în profil teritorial etc.
42 Statistică generală

2.2.1. Clasificarea statistică


Istoria statisticii consemnează că încă din cele mai vechi timpuri s-a
utilizat metoda clasificării, un prim pas în cunoaştere fiind omogenizarea
materialului faptic (observat) pentru a evidenţia asemănarea,
tipicitatea straturilor (claselor) formelor individuale de manifestare ale
fenomenelor de masă.
În orice ştiinţă clasificarea prezintă o importanţă metodologică
deosebită, deoarece facilitează trecerea de la „masa amorfă” de date
înregistrate la informaţie. Acesta este şi motivul pentru care astăzi, când
mijloacele informatice sunt extrem de permisive, asistăm la o largă
diversitate a tehnicilor de clasificare (sau de clusterizare).
În esenţă, clasificarea – ca metodă statistică -, utilizată potrivit
scopului cercetării, presupune operaţii complexe de sistematizare a unui
ansamblu de unităţi sau noţiuni, pe baza caracteristicilor lor comune, în
clase de unităţi, a claselor de unităţi în clase de clase de unităţi ş.a.m.d., cu
scopul ca fiecare clasă astfel obţinută să ocupe un loc precis şi stabil
într-o structură sau ierarhie. În cadrul operaţiei de clasificare se disting:
o obiectele (unităţile) de clasificat;
o criteriul (criteriile) după care se efectuează clasificarea;
o clasele rezultate din operaţii de clasificare.
Operaţiile de clasificare a ansamblului de unităţi observate
presupune respectarea anumitor cerinţe:
o completitudine: fiecare unitate trebuie repartizată unei clase
(clasificarea are în vedere ansamblul unităţilor observate şi nu
lasă “rest”);
o unicitatea: fiecare unitate aparţine unei clase şi numai una
(clasele formate trebuie să fie, deci, disjuncte, adică nici o unitate
nu poate fi repartizată simultan în mai multe clase);
o omogenitatea: unităţile care aparţin aceleiaşi clase trebuie să fie
asemănătoare (diferenţele dintre unităţile care aparţin aceleiaşi
clase trebuie să fie minime);
o organizarea ierarhică: pe fiecare nivel de clasificare criteriul
trebuie să fie unic; trecerea de la un nivel la altul se realizează
prin creşterea gradului de generalitate al criteriului adoptat.
Utilizarea metodei clasificării, în principiu, presupune parcurgerea
succesivă a două etape:
1. Etapa I: în această etapă se realizează o clasificare pe orizontală a
ansamblului de unităţi observate. Unităţile sunt repartizate în clase
(grupe) cu acelaşi grad de generalitate, dar (pe cât posibil)
disjuncte.
Capitolul II 43
2. Etapa II: în această etapă se realizează o ierarhizare pe verticală în
ordinea generalităţii, prin trecerea la operaţii aplicate claselor obţinute
iniţial, acestea sunt cointegrate în clase de clase sau, dimpotrivă, sunt
divizate în subclase mai compacte.
În practica statistică, în clasificare se utilizează pentru structurarea
unităţilor populaţiei statistice o gamă largă de criterii. De exemplu, natura
criteriului de clasificare conduce la distincţia dintre clasificările naturale
(situaţii în care criteriul este ales în mod obiectiv, în conformitate cu
trăsăturile intrinseci ale unităţilor observate) şi clasificări artificiale (situaţii
în care unităţile sunt repartizate după criterii subiective, convenţionale).
Menţionăm în acest sens sistemele standardizate de clasificări şi
nomenclatoare utilizate în statistica publică, şi care cuprind, printre
altele: clasificarea ramurilor din economia naţională (CREN); clasificarea
activităţilor din economia naţională (CAEN); clasificarea produselor şi
serviciilor asociate activităţilor (CPSA); nomenclatorul profesiilor (NP);
nomenclatorul indicatorilor economico-sociali (NIES) etc.

2.2.1.1. Clasificarea după variabile calitative


Aşa cum rezultă din cele prezentate anterior, clasificarea
(stratificarea) reflectă, ca orice formă logică de reprezentare şi abstractizare,
o operaţie de tip conceptual reprezentând o anumită modalitate de a
distinge unităţile populaţiei statistice prin divizarea lor după
caracteristici comune în submulţimi (clase sau grupe) relativ omogene.
Obiectivul urmărit prin această operaţie este acela de a identifica straturi
tipice în structura populaţiei, de a obţine indicatori generalizatori,
diferenţiaţi pe clase, necesari pentru analiza statistică.
Cazul cel mai simplu este acela în care după o anumită variabilă
calitativă A, unităţile populaţiei se separă prin dichotomie în două clase
complementare:
o clasa unităţilor de tip U1 – care posedă modalitatea directă de
exprimare a variabilei;
o clasa unităţilor de tip non-U1 (sau U 1 ) – care nu posedă
modalitatea directă de exprimare a variabilei U1 (modalitatea
directă fiind absentă).
Cazul prezentat ar putea sugera faptul că operaţia de clasificare s-ar
putea rezuma la numărarea şi ordonarea unităţilor posesoare sau non-
posesoare de caracteristici calitative. Dimpotrivă, problematica nu este
simplă deoarece pentru maximizarea cantităţii de informaţie necesară
cunoaşterii suntem înclinaţi să formăm clase şi subclase compacte cu
grade diferite de omogenitate, să structurăm populaţia după mai multe
44 Statistică generală
variabile calitative. De exemplu, dacă analizăm trei variabile calitative U1,
U2, U3 se vor identifica următoarele tipuri de clase:
o clase de ordinul unu de unităţi la care este prezenţa caracteristicii
specificate – simbolizate prin U1, U2, U3;
o clase de ordinul unu de unităţi la care este absentă caracteristica
specificată – simbolizate prin U 1 , U 2 , U 3 ;
o clase de ordinul 2 (tip “mixtură”) în care apar combinaţii ale
posesiei şi/sau absenţei caracteristicii - simbolizată prin
U1 U 2 ; U1 U 2 ; U1 U 2 ; U1 U 2 ; U1 U 3 ; U1 U 3 ; U1 U 3 ; U1 U 3 ; U 2 U 3 ; U 2 U 3 ; U 2 U 3 ; U 2 U 3

o clase de ordinul trei de tipul U 1 U 2 U 3 ; U 1 U 2 U 3 ; U 1 U 2 U 3 ...


Numărul absolut de cazuri observate şi incluse într-o grupă (clasă) se
numeşte frecvenţă de grupă (clasă) şi se va nota prin acelaşi simbol dar
inclus în paranteze rotunde. De exemplu: U 1 U 2 U 3 este clasa de ordinul 3,
iar ( U 1 U 2 U 3 ) numărul de unităţi posesoare simultan de U1, U2, U3 sau
frecvenţa clasei specificate de ordinul 3.
Generalizând, se poate spune că în cazul a n variabile calitative se
pot forma grupe de ordinul r (cu r ≤ n ) cu frecvenţă absolută
corespunzătoare numită frecvenţă de grupă de ordinul r. Mai mult, se
poate demonstra că dacă numărului total de unităţi din populaţia N i se
atribuie, în mod convenţional, ordinul zero, atunci există un număr de 3n
frecvenţe de grupă de diferite ordine. Exemplificăm această afirmaţie în
tabelul 2.2.

Tabel 2.2.
Frecvenţe de grupă a unei populaţii formate din N unităţi descrisă prin
patru caracteristici calitative (U1, U2, U3, U4)

Ordinul r al grupei de
Frecvenţe de grupă de ordinul r r = 0,4 ; n = 1,4
unităţi r = 0,4
0 N
(U1) (U2) (U3) (U4)
1
(U1 ) (U 2 ) (U 3 ) (U 4 )
(U1 U 2 ) (U1 U 3 ) (U1 U 4 ) (U 2 U 3 ) (U 2 U 4 ) (U 3 U 4 )
(U1 U 2 ) (U1 U 3 ) (U1 U 4 ) (U 2 U 3 ) (U 2 U 4 ) (U 3 U 4 )
2
(U1 U 2 ) (U1 U 3 ) (U1 U 4 ) (U 2 U 3 ) (U 2 U 4 ) (U 3 U 4 )
(U1 U 2 ) (U1 U 3 ) (U1 U 4 ) (U 2 U 3 ) (U 2 U 4 ) (U 3 U 4 )
Capitolul II 45
(U1 U 2 U 3 ) (U1 U 2 U 4 ) (U1 U 3 U 4 ) (U 2 U 3 U 4 )
(U1 U 2 U 3 ) (U1 U 2 U 4 ) (U1 U 3 U 4 ) (U 2 U 3 U 4 )
(U1 U 2 U 3 ) (U1 U 2 U 4 ) (U1 U 3 U 4 ) (U 2 U 3 U 4 )
(U1 U 2 U 3 ) (U1 U 2 U 4 ) (U1 U 3 U 4 ) (U 2 U 3 U 4 )
3
(U1 U 2 U 3 ) (U1 U 2 U 4 ) (U1 U 3 U 4 ) (U 2 U 3 U 4 )
(U1 U 2 U 3 ) (U1 U 2 U 4 ) (U1 U 3 U 4 ) (U 2 U 3 U 4 )
(U1 U 2 U 3 ) (U1 U 2 U 4 ) (U1 U 3 U 4 ) (U 2 U 3 U 4 )
(U1 U 2 U 3 ) (U1 U 2 U 4 ) (U1 U 3 U 4 ) (U 2 U 3 U 4 )
(U1 U 2 U 3 U 4 ) (U1 U 2 U 3 U 4 )
(U1 U 2 U 3 U 4 ) (U1 U 2 U 3 U 4 )
(U1 U 2 U 3 U 4 ) (U1 U 2 U 3 U 4 )
(U1 U 2 U 3 U 4 ) (U1 U 2 U 3 U 4 )
4
(U1 U 2 U 3 U 4 ) (U1 U 2 U 3 U 4 )
(U1 U 2 U 3 U 4 ) (U1 U 2 U 3 U 4 )
(U1 U 2 U 3 U 4 ) (U1 U 2 U 3 U 4 )
(U1 U 2 U 3 U 4 ) (U1 U 2 U 3 U 4 )

Analizând datele din tabelul anterior observăm următoarele:


o Suma frecvenţelor de grupă este 81 = 34 = N.
o Frecvenţele de grupă nu sunt independente ci sunt legate între
ele prin anumite relaţii. De exemplu:
N = (U1 ) + (U 2 )
{

(U1 ) = (U1 U 2 ) + (U1 U 2 )


1424 3

(U1 U 2 ) = (U1 U 2 U 3 ) + (U1 U 2 U 3 )


M
Prin urmare, fiecare frecvenţă de grupă poate fi
exprimată cu ajutorul de ordin imediat mai înalt. Mai
mult, orice frecvenţă de grupă se poate exprima cu ajutorul
frecvenţelor de ordinul cel mai înalt.
o Frecvenţele de grupă, corespunzătoare grupelor specificate prin
toate caracteristicile considerate numite şi frecvenţe de grupă
finale sunt în număr de 2n. În exemplul anterior există 24 = 16
frecvenţe de grupă finale.
46 Statistică generală
o Populaţia statistică investigată este definită în mod unic printr+o
serie de frecvenţe de grupă care îndeplineşte următoarele
condiţii: numărul elementelor sale este 2n şi elementele sale
sunt independente între ele. O astfel de serie de frecvenţe de
grupă se numeşte serie fundamentală (unidimensională).
o Operaţia de dichotomizare a populaţiei statistice după un număr
mai mare de trei sau patru caracteristici calitative devine greoaie.
În activitatea practică, în cazul în care suntem în posesia
anumitor frecvenţe de grupă se putea opera cu ele astfel încât să
se determine mai întâi grupele finale, iar apoi, pe baza lor, se vor
exprima diferite frecvenţe de grupă a căror cunoaştere este
necesară.
O observare statistică riguros organizată, urmată de
prelucrări şi grupări corespunzătoare – fiind vizată una şi aceeaşi
populaţie – oferă frecvenţe de grupă ce nu se contrazic în nici
un fel. Se spune despre asemenea date că asigură condiţia de
concordanţă. Această condiţie este aceea ca frecvenţele de
grupă finale să fie nenegative. Lipsa acestei condiţii, lipsa de
concordanţă a datelor privind frecvenţele de grupă ne sugerează
faptul că în procesul de observare au existat erori (lipsa
concordanţei în timp şi spaţiu; folosirea diferitelor surse şi
materiale de informare etc.).
Această condiţie de concordanţă a informaţiei privind
sistemul de grupări este importantă şi din alte motive:
1. Ea sugerează şi metoda cu ajutorul căreia se poate
verifica într-un ansamblu de frecvenţe de grupă,
însăşi concordanţa. De exemplu, dacă se cunosc doar
frecvenţele de grupă finale pozitive (obţinute prin
excluderea din simbol a celor care sunt de tip non) pe
baza acestora pot fi determinate frecvenţe de grupă
nedeterminate, atunci când seriile de date sunt
incomplete. Deci, atunci cu siguranţă seria este
concordantă.
2. O consecinţă importantă a acestei condiţii de
concordanţă facilitează aflarea probabilităţii ca
alegând la întâmplare o unitate sau un grup de unităţi
dintr-o populaţie statistică aceasta sa prezinte anumite
modalităţi ale unor caracteristici calitative.
3. Pe baza condiţiei de concordanţă se poate determina
numărul minim de unităţi la care s-a înregistrat
prezenţa simultană a caracteristicilor calitative
Capitolul II 47
U1,U2,…,Um şi acesta este dat de inegalitatea:
( U1 U 2 ...U m ) ≥ ( U1 ) + ( U 2 ) + ... + ( U m ) − (m − 1) N (2.1)
Pentru exemplificarea acestei observaţii prezentăm următoarea
aplicaţie. Presupunem o serie de studenţi (N = 100), într-o sesiune de
examene, la următoarele examene: analiză matematică, statistică şi
informatică. La sfârşitul sesiunii au promovat 89% (U1) la analiză, 91% (U2)
la statistică şi 92% (U3) la informatică. Numărul minim de integralişti este
dat de inegalitatea ( U 1 U 2 U 3 ) ≥ ( U 1 ) + ( U 2 ) + ( U 3 ) − (3 − 1)100 ⇒ ( U 1 U 2 U 3 ) ≥ 72
ceea ce înseamnă că cel puţin 72% din studenţii care au susţinut examenele
precizate sunt integralişti.
Clasificări complexe. După cum s-a observat din cele prezentate,
dacă sunt luate în considerare două variabile calitative, fiecare dintre ele
generează prin simpla dichotomie două subclase complementare. În
realitate, de cele mai multe ori variabila calitativă poate avea un număr
mare şi diferit de variante (modalităţi). De exemplu, populaţia se
divizează după variabila U1 în “k” grupe (clase) U11, U12, …, U1k, fiecare
din cele “k” clase se subdivid în “l” grupe după variabila U2 şi avem U21,
U22, …, U2l, apoi în mod similar după factorul U3 ş.a.m.d. se formează în
final grupe (clase) complexe (cu complexitate diferită).
În categoria clasificărilor complexe, un loc aparte îl ocupă
clasificările (grupările) multiple. Pentru realizarea acestora luăm în
considerare variabilele calitative U1 şi U2; variabila U1 conduce la frecvenţe
de grupă ( U 1i ) i =1,k , iar variabila U2 conduce la frecvenţe de grupă ( U 2 j ) j=1,l .
Rezultă, deci, că vor exista şi grupe (clase) combinate de tipul ( U 1i U 2 j ) , cu
i = 1, k, j = 1, l , care sunt în număr de k x l. Datele obţinute sunt sistematizate
şi prezentate în următoarea formă tabelară (tabelul nr. 2.3):

Tabel 2.3

U11 U12 … U1i … U1k Total


U21 (U11 U21) (U12 U21) … (U1i U21) … (U1k U21) (U21)
… … … … … … … …
U2j (U11 U2j) (U12 U2j) … (U1i U2j) … (U1k U2j) (U2j)
… … … … … … … …
U2l (U11 U2l) (U12 U2l) … (U1i U2l) … (U1k U2l) (U2l)
Total (U11) (U12) … (U1i) … (U1k) N

Analizând forma tabelară anterioară se observă următoarele:


48 Statistică generală
1. (U1i U2j) reprezintă numărul de unităţi din populaţie simultan prezintă
atât prezenţa modalităţii U1i cât şi prezenţa modalităţii U2j.
2. Tabelul prezentat se numeşte tabel de contingenţă de tip k xl şi este
înzestrat cu următoarele proprietăţi:
a. Suma frecvenţelor de grupă din coloana “i” reprezintă totalul
unităţilor din clasa U1i – la care s-a înregistrat prezenţa
modalităţii U1i indiferent de variantele înregistrate ale variabilei
l
U2. Deci, pe coloane ∑ ( U1i U 2 j ) = ( U1i ), i = 1, k şi analog pe
j=1
k
rânduri ∑ ( U1i U 2 j ) = ( U 2 j ), j = 1, l (2.2) .
i =1

b. Sumele frecvenţelor de grupă ( U 1i ), i = 1, k şi ( U 2 j ), j = 1, l sunt


egale între ele şi egale cu volumul populaţiei
k l
∑ ( U1i ) =∑ ( U 2 j ) = N (2.3)
i =1 j=1

c. Există un număr de k x l grupe finale, iar numărul lor total


(inclusiv N) este (k+1) x (l+1).
d. Frecvenţele de grupă finale de tipul ( U 1i ), ( U 2 j ), ( U 1i U 2 j ) pentru
orice i = 1, k, j = 1, l definesc complet datele unui tabel de
contingenţă (de tip k x l). În cazul omisiunilor de înregistrare a
datelor este posibil să se stabilească limitele între care se vor
încadra frecvenţele de grupă necunoscute.
e. Datele dintr-un astfel de tabel de contingenţă sunt concordante
dacă lipsesc frecvenţele negative – aceasta fiind o condiţie
necesară şi suficientă.
f. Problematica analizată într-un tabel de contingenţă de tip k x l
nu diferă de cea din categoria tabelelor dichotomice de tip 2 x 2.
În esenţă, aceasta poate fi structurată în două categorii:
I. O problemă de ordin general, deseori pusă în practică
(ea va fi tratată pe larg în capitolul consacrat analizei
dependenţelor statistice), se referă la măsura în care
variabila U1 este – în ansamblul populaţiei –
dependentă de variabila U2 şi care ar fi intensitatea
acestei dependenţe. Pentru aceasta se vor utiliza
coeficienţii de contingenţă totală, care sintetizează
natura generală (globală) a dependenţei.
II. O a doua mare problemă care interesează (teoretic şi
practic) se referă la asocierile parţiale dintre
Capitolul II 49
diferitele variante (modalităţi) ale factorilor studiaţi.
Acest caz solicită o analiză de detaliu: prin
transformări succesive dimensiunea tabelului
iniţial (k x l) se reduce, iar apoi cu tabelele de tip
2x2 se urmăresc diferite asocieri la nivelul claselor
(pătratelor sau “celulelor”) elementare (compacte)
adiacente sau al grupelor de câte patru, cinci, …
frecvenţe (când proprietăţile tabelului initţial fac
posibile asemenea operaţii). Se va putea stfel constata
(şi demonstra matematic) că aceste proprietăţi sunt
satisfăcute doar de tabelele de contingenţă
izotropice1 şi care vor fi studiate la capitolul dedicat
regresiei şi corelaţiei. În acest context precizăm doar
faptul că una din proprietăţile izotropiei în tabelele
de contingenţă amintite se referă la satisfacerea
egalităţilor (pentru orice i = 1, k şi j = 1, l ) de tipul
( U 1i )( U 2 j )
( U 1i U 2 j ) = (2.4) , ceea ce ar sugera o
N
independenţă totală între U1 şi U2.
După cum s-a arătat, grupările multiple, clasificările multiple s-au
format în tabele de contingenţă după ce populaţia statistică a fost divizată în
“k” clase U11,U12,…,U1k (după factorul U1), iar fiecare din aceste clase în
continuare au fost divizate (după U2) în “l” clase: U21,U22,…,U2l.
Clasificările (grupările) multiple complementare se obţin în mod evident
şi prin luarea în considerare a absenţei modalităţii non-U1 (sau U 1 ) în
combinaţie cu non-U2 (sau U 2 ). În ambele situaţii, principiul clasificării
(grupării) este identic şi anume omogenitatea claselor compacte
formate. Numai în virtutea acestui principiu clasificările multiple conduc la
informaţii comparabile în timp, spaţiu şi din punct de vedere
organizatoric, la aprofundarea analizelor de asociere şi contingenţă.
Aceste precizări sunt utile pentru câteva observaţii concluzive referitoare la
metodologia statistică a clasificărilor multiple:
1. Centralizarea, clasificarea multiplă şi, apoi, prelucrarea datelor
statistice necesită operaţii greoaie dacă nu se face apel la
mijloace informatice corespunzătoare (absenţa acestora poate

1
Noţiunea de “izotropie” provine din fizică şi se referă la însuţirea unei substanţe de a avea
proprietăţi identice cu altele, indiferent de timpul şi spaţiul în care ele sunt măsurate. În
statistică, izotropia – în sensul amintit – se referă la însuşirea unor grupări multiple de a
avea asocieri de acelaşi semn în fiecare pătrat elementar.
50 Statistică generală
afecta direct omogenitatea şi compatibilitatea în ansamblul
datelor culese).
2. O clasificare multiplă poate fi privită ca o succesiune de
dichotomii. La fiecare partiţionare, o unitate poate fi inclusă în
una din alternativele U1 sau U 1 , U2 sau U 2 şi combinaţii ale
acestora. Dacă datele provin dintr-un sondaj statistic,
problematica expusă (prin implicaţiile ei) capătă dimensiuni
exprimate în termeni de estimaţii şi care se va trata în capitolul
3.
3. Cea mai importantă clasificare de tip omogen a unităţilor
populaţiei statistice este prin care toate aceste unităţi se distribuie
după o singură “stare” a variabilei calitative studiate. Aceasta
conduce la un tip de clasificare (clusterizare) ierarhică.
4. Deseori se întâlnesc clasificări multiple prezentate în tabele de
contingenţă aparent neizotropice. În practică, însă, printr-o
rearanjare convenabilă (scopului) a unor coloane sau rânduri din
tabele studiate se pot obţine tabele transformate cu proprietăţi
de izotropie; acestea pot, apoi, să fie reduse la tabele de tip 2x2
fără să existe riscul obţinerii unor asocieri cu semne diferite.
5. Din motive practice, în metodologia prezentată se pot utiliza
simultan nu numai variabile măsurabile de pe scala nominală ci
şi combinaţii de tipul una pe scala nominală şi alta (celelalte)
pe scala fie ordinală, fie de interval, fie de raport. Cert este
că una din aceste combinaţii trebuie să cuprindă o variabilă
nominală (cu una sau mai multe modalităţi de exprimare).

2.2.1.2. Clasificarea ierarhică


Obiectivul clasificării automatice îl reprezintă în colectivitatea
statistică investigată a unor clase (familii) de unităţi omogene un anumit
criteriu.
Pentru efectuarea unor clasificări automate pe un anumit ansamblu n
de unităţi este necesar să definim o distanţă sau mai general o măsură a
"asemănării" între unităţile clasificate.
Există mai multe metode de clasificare automate: partiţionarea;
partiţionarea în clase, în care unităţile colectivităţii pot să aparţină
simultan mai multor clase; clasificarea ierarhică etc.
Pentru efectuarea unei clasificări ierarhice a celor n unităţi dintr-o
colectivitate după o anumită caracteristică x, respectiv a datelor {x1, x2,...,xn}
este necesar să definim o "distanţă" pentru a obţine tabelul distanţelor dintre
Capitolul II 51
unităţi; în acelaşi mod se determină şi distanţele dintre subclasele
colectivităţii investigate.
În cadrul clasificării ierarhice un loc aparte îl ocupă metodele
"aglomerative". Acestea sunt sintetizate în următorul algoritm:
1. Identificarea perechilor (xi, xj) între care distanţa care le separă
să fie cea mai mică;
2. Agregarea perechilor (xi, xj) într-o singură clasă α şi elaborarea
unui nou tabel al distanţelor. Acest ultim tabel se formează suprimând liniile
şi colonele xi şi xj şi înlocuindu-le cu liniile şi coloanele relative de la clasa
α . Deci, noul tabel al distanţelor va avea mai puţin o linie şi o coloană.
3. Se repetă cele două operaţii până la obţinerea de clase
omogene sau până la agregarea unităţilor colectivităţii într-o singură clasă.
În funcţie de distanţele dintre unităţile unei clase formate şi celelalte
elemente există mai multe metode de clasificare şi anume: metoda simplei
înlănţuiri şi metoda înlănţuirii complete.
Metoda simplei înlănţuiri este o metodă de clasificare ierarhică care
presupune utilizarea distanţelor euclidiene pentru elaborarea tabelului cu
distanţe, sau a distanţei între două cele mai apropiate unităţi (distanţa
minimă). În cazul metodei înlănţuirii complete se ia în considerare distanţa
euclidiană între două elemente cele mai îndepărtate (distanţa maximă).
Între cele două metode există, deci, diferenţa că una ia în considerare
distanţa minimă, iar alta distanţa maximă.
Fie x1, x2, ..., xn valorile individuale ale caracteristicii x urmărite la
cele n unităţi din colectivitatea investigată şi pentru care se elaborează un
tabel la distanţele dintre valorile individuale respective. Acest tabel poate
avea următoarea formă:
Tabelul 2.4.
Tabelul distanţelor

d(x1, x2) d(x1, x3) … d(x1, xn)


d(x2, x3) … d(x2, xn)
:
d(xn-1, xn)

Unde: d(xi, xj) este distanţa euclidiană între xi şi xj (pentru i < j cu


valori de la 1 la n);
Algoritmul metodei simplei înlănţuiri presupune parcurgerea
următorilor paşi:
- se caută distanţa minimă d(xi, xj) cu i < j;
- elementele xi şi xj sunt agregate într-o nouă grupă C k = x i 4 x j ;
52 Statistică generală
- ansamblul de unităţi din colectivitatea statistică investigată este
partiţionată în: {x1}, ..., {xi-1}, ..., {xj-1}, {xj+1}, ..., {xn};
- se elaborează un nou tabel al distanţelor prin suprimarea liniilor şi
coloanelor corespunzătoare xi şi xj şi adăugând o linie şi o coloană
reprezentând distanţele dintre xm şi Ck, m = 1, 2, ..., n, m ! i şi m ! j, aflate
cu relaţia (2.5).
d(C k , x m ) = min{d(x i , x m ); d (x j , x m )} (2.5)
În cazul cel mai general distanţa dintre cele două calse sau grupe este
calculată după relaţia (2.6).
d(C k , C m ) = min{d(x i , x j ) cu x i c C k {x j c C m } (2.6)
Relaţia (2.6) se aplică în cazul în care grupele/clasele sunt formate
din unul sau două unităţi. regruparea datelor se vizualizează prin grafice
specifice cum ar fi de exemplu diagramele, pe axa absciselor a acestora se
reprezintă distanţele care separă clasele/grupele de unităţi.
Din algoritmul prezentat trebuie să precizăm faptul că o clasificare
automată a unităţilor unei colectivităţi nu conduce la cea mai bună structură
a colectivităţii, dar ea este mult mai reală decât clarificarea efectuată după
criterii (variabile) considerate de cercetător ca fiind reprezentative.

Aplicaţia 2.1. Ilustrăm metoda simplei înlănţuiri de clasificare pe


baza cifrelor de afaceri (mild. lei) înregistrate de cinci societăţi comerciale
A, B, C, D, E cu profil asemănător, în patru judeţe: Constanţa, Galaţi,
Ialomiţa. Datele (convenţionale) sunt prezentate în tabelul următor:

Tabelul 2.5.
(mild. lei)

Judeţul Judeţul Judeţul Judeţul


Constanţa Galaţi Brăila Ialomiţa
A 5,0 3,5 4,0 4,5
B 5,5 4,0 5,0 4,5
C 4,5 4,5 4,0 3,5
D 4,0 5,5 3,5 4,0
E 4,0 4,5 3,0 3,5

Pe baza datelor din tabelul 2.5 se calculează distanţele euclidiene


după relaţia:
n
d ij = d ( x i , x j ) = ∑ ( x i − x j ) 2 , cu i, j = 1, n (2.7)
i =1
Capitolul II 53
Se obţine astfel tabelul distanţelor euclidiene între societăţile
comerciale (tabelul 2.6).

Tabelul 2.6.

A B C D E
A 1,22 1,50 1,50 2,35 2,00
B 0 1,80 1,80 2,65 2,74
C 1,80 0 0 1,32 1,12
D 2,65 1,32 1,32 0 1,22
E 2,74 1,12 1,12 1,22 0

Tabelul (2.6) distanţelor euclidiene evidenţiază disimilitatea dintre


unităţi. Din tabelul precedent se ia în considerare jumătatea superioară a
tabelului simetric, adică tabelul 2.7.
Tabelul 2.7.

B C D E
A 1,22 1,50 2,35 2,00
B 1,80 2,65 2,74
C 1,32 1,12
D 1,22

Se observă că distanţa minimă de 1,12 între C şi E; Aceasta


înseamnă că o primă clasă/grupă se poate forma între C şi E. Se calculează,
de exemplu, distanţa dintre C şi E, pe de o parte, şi dintre C şi A, pe de altă
parte, şi se ia în considerare distanţa minimă dintre C şi A şi dintre E şi A.
Aceasta înseamnă:
d({C, E,}, E) = min {d(C, A), d(E, A)} = min {1, 5, 2} = 1, 5
Analog
d({C, E,}, B) = min {d(C, B), d(E, B)} = min {1, 80, 2,74} = 1, 8
şi
d({C, E,},D) = min {d(C, D), d(E, D)} = min {1, 32, 1, 22} = 1, 22
Noul tabel al distanţelor are forma următoare (tabelul 2.8).
Tabelul 2.8.

B C şi E D
A 1,22 1,50 2,35
B 1,80 2,65
C şi E 1,22
54 Statistică generală
Distanţa minimă prezentată în datele tabelului 2.6 este 1,22, între A şi B
(aceeaşi minimă distanţă există între grupul C şi E pe de o parte şi D pe de altă
parte); se regrupează, deci, în primul rând societăţile comerciale A şi B şi se
reface noul tabel al distanţelor, utilizând datele din tabelul 2.8. Se determină:
D({A, B},{C, E}) = min {d(A, {C, E}), d(B, {C, E})}= min {1,5, 1,8} = 1,5
şi analog d({A, B},D) = min {d(A,D), d(B, D) = min {2,35, 2,65} = 2,35
Noul tabel al distanţelor este următorul:

Tabelul 2.9.

C şi E D
A şi B 1,5 2,35
C şi E 1,22

Din tabelul precedent se observă că D, trebuie să fie integrat la


grupul format de societăţile C şi E. Noua distanţă va fi:
d({(C, E),D},{A, B,}) = min {d({C, E}), ÎA, B}};
d(D, {A, B}) = min {1,5, 2,35} = 1,50.
Se obţine astfel, următorul tabel al distanţelor (tabelul (2.10)).

Tabelul 2.8.

A şi B
C, E şi D 1,50

În final se observă două grupe/clase: ÎA şi BŞ şi ÎC, E şi DŞ care


sunt diferenţiate prin distanţa de 1,50. Dendograma care se obţine prin
agregări succesive este prezentată în fig. 2.1.

B
C
D
E

0 1 2 distanţa

Fig 2.1. Clasificarea simplu înlănţuită a celor cinci societăţi comerciale


Capitolul II 55
Un alt exemplu de clasificare ierarhică după acelaşi criteriu prezentat
anterior este următorul.

1 2 3 4 5 1 2U4 3 5
1 0 4 9 5 8 1 0 4 9 8
2 4 0 6 3 6 2U4 4 0 6 5
3 9 6 0 6 3 3 9 6 0 03
4 5 3 6 0 5 5 8 5 3 0
5 8 6 3 5 0
Aglomerarea (agregarea) 2 şi 4 la Aglomerarea (agregarea) 3
disimilaritatea 3 şi 5 la disimilaritatea 3

1 2U4 3U5
1 0 4 8 1U2U4 3U5
2U4 4 0 5 1U2U4 0 5
3U5 8 5 0 3U5 5 0
Aglomerare 1 şi 2U4 la Aglomerare finală 1U2U4 şi
disimilaritatea 4 3U5 la disimilaritatea 5

Rezultatul dendogramei

4 5

3 4
2 3
1 3
0 0
1 2 4 3 5 Ranguri de Criteriul
nivel valorilor

Figura 2.2. Exemplu de construcţie a unei dendograme

2.2.2. Gruparea datelor statistice


Realizarea scopului cercetării statistice necesită elaborarea nu numai
de clasificări dar şi de grupări simple şi/sau combinate, după uan sau mai
multe caracteristici numerice cuprinse în programul de observare.
Caracteristicile numerice de grupare pot fi cu variaţie discretă şi/sau
cu variaţie continuă. În funcţie de variaţia caracteristicii urmărite grupările
pot fi efectuate pe variante şi/sau pe intervale de variaţie.
56 Statistică generală
În cazul în care caracteristica urmărită prezintă un număr redus de
variante, în mod evident, se recomandă gruparea pe variante (tabelul
2.12). Această operaţiune de prelucrare constă în identificarea prin
numărare a unităţilor (frecvenţelor) la care se înregistrează aceeaşi
variantă a caracteristicii.
Exemplul 2.1. La finalul lanţului de asamblare a aspiratoarelor se
prelevează un eşantion de 20 aparate. În urma controlului tehnic de calitate
s-a constatat numărul de piese care prezintă o defecţiune, la fiecare aparat
prelevat. Datele înregistrate sunt următoarele:

Tabelul 2.11.

Numărul de piese care prezintă o defecţiune minoră


0 1 0 2 0
0 1 2 0 0
1 0 1 3 0
1 2 1 0 0

În urma grupării datelor pe variante (tabelul 2.12) se obţine


următoarea distanţă de frecvenţe:

Tabelul 2.12.
Distribuţia aparatelor după numărul pieselor defecte

Numărul de piese defecte Număr de aparate


0 10
1 6
2 3
3 1
Total 20

Gruparea datelor pe intervale de variaţie se utilizează atunci când


caracteristica numerică urmărită prezintă un număr mare de valori
individuale (exemplul 2.2.).

Exemplu 2.2. Din fişierul informatic "forţa de muncă" al Societăţii


Comerciale "GRUPO" se extrag următoarele date referitoare la
caracteristica "vechime în muncă" (ani).
Capitolul II 57
Tabelul 2.13.

Vechimea în muncă a personalului (ani)


9,4 8,4 12,0 16,3 11,9 16,8 9,8 7,0 11,5 12,6
8,3 8,0 9,5 12,1 11,0 14,1 13,1 7,1 12,6 12,1
11,0 12,2 14,0 9,4 10,2 13,4 7,3 14,6 11,1 10,3
11,2 11,0 11,4 15,4 12,5 10,5 10,0 11,9 13,2 15,6
16,3 11,2 11,1 12,8 10,6 10,5 15,0 10,2 13,1 12,0
13,8 10,3 9,8 12,4 11,4 10,4 8,2 9,3 11,6 9,4

Pentru structurarea colectivităţii, pentru evidenţierea grupelor


(straturilor) tipice din colectivitate, se pot forma grupări pe intervale egale
de variaţie sau pe intervale neegale.
Gruparea datelor pe intervale de variaţie necesită stabilirea
numărului de grupe şi a mărimii intervalelor. Nu există o regulă generală
valabilă de determinare a numărului de grupe care trebuie să se formeze. Cu
toate acestea, alegerea numărului de grupe nu se face mecanic, ci presupune
cunoaşterea variaţiei caracteristicii numerice, elaborarea mai multor
variante de grupe până se ajunge la soluţia cea mai potrivită, conformă cu
forma concretă de manifestare a fenomenului urmărit. Scopul operaţiei de
grupare necesită formarea unui număr de grupe care să nu fie nici prea mare,
dar nici prea mic. Cert este faptul că numărul de grupe (r) trebuie să fie
direct proporţional cu amplitudinea variaţiei (A) (2.8.).
A = xmax - xmin = 16,8 - 7,0 = 9,8 ani (2.8)
Unde: xmin = min {x1, x2, ..., x60} = 7,0 ani şi
xmax = max {x1, x2, ..., x60} = 16,8 ani
La variaţia valorilor individuale prezentate în tabelul 2.11
caracterizată printr-o amplitudine de 9,8 ani se pot forma 7 grupe. Pe baza
amplitudinii şi a numărului de grupe se determină mărimea intervalelor de
variaţie (h) după relaţia 2.9.
x max −x min 9,8 ani
h = Ar = r − 7 = 1, 5 ani
(2.9)
În literatura de specialitate se recomandă, în ipoteza repartiţiei
aproximativ normale a unităţilor colectivităţii după caracteristica urmărită,
utilizarea relaţiei lui Sturges (2.10) pentru determinarea mărimii
intervalelor de variaţie.
x max −x min
h = 1+3,322 log10 n (2.10)
După determinarea mărimii intervalelor de variaţie este necesar să se
determine limitele inferioare şi superioare ale intervalelor de grupare.
Stabilirea limitelor se poate face astfel:
58 Statistică generală
- limita superioară a fiecărui interval să se preia ca limită inferioară a
intervalului următor. În felul acesta se obţin intervale cu limită repetabilă
(2.11).
sup
x i − xi+1
inf
, i = 1, r − 1 (2.11)
- limitele inferioare şi superioare ale intervalelor de grupare
distincte, diferenţiate printr-o unitate (2.12).
sup
i+1 + x i
x inf + 1; i = 1, r − 1
(2.12)
Adoptând prima variantă (2.11) pentru datele din tabelul (2.13) se
determină intervalele de grupare care sunt prezentate în coloana 1 a
tabelului 2.14.

Tabelul 2.14.
Distribuţia personalului Societăţii Comerciale
"GRUPO" după vechime

Grupe de persoane
după vechime (ani) Încadrarea persoanelor pe
Număr de persoane
sup intervale de vechime
x iin f [ xi < xi
0 1 2
/// 3
6, 5 [ x < 8, 0
8, 0 [ x < 9, 5 ///// /// 8
///// ///// // 12
9, 5 [ x < 11, 0
11,0 ≤ x <12,0 ///// ///// ///// //// 19
///// //// 9
12, 5 [ x < 14, 0
14, 0 [ x < 15, 5 ///// 5
//// 4
15, 5 [ x < 17
TOTAL - 60

În coloana 2 a tabelului 2.14 este centrat numărul de persoane care


au vechime cuprinsă într-un anumit interval, sau frecvenţa de apariţie a
intervalului respectiv.
La repartizarea amplitudinii variaţiei pe intervale de grupare trebuie
să se ţină seama de următoarele recomandări:
- limitele de interval să se exprime prin numere întregi;
- să se formeze un astfel de număr de intervale de grupare pentru
a se obţine informaţii, suficient de analitice, în vederea caracterizării
colectivităţii;
Capitolul II 59
- intervalele de grupare formate trebuie să permită, la nevoie,
regruparea datelor fără să se reia operaţia de grupare sau de divizare a
intervalelor;
- fiecare interval de grupare trebuie să cuprindă un număr suficient
de mare de valori individuale care să faciliteze analiza statistică a
frecvenţelor.
În cazul în care se urmăreşte structura colectivităţii (populaţiei)
simultan după două sau mai multe caracteristici numerice, sau în cazul
în care se urmăreşte analiza modului de manifestare a interdependenţelor
dintre două variabile, se elaborează gruparea combinată.
Pentru elaborarea grupării combinate este necesar ca intervalele de
variaţie fixate pentru o primă caracteristică (x) - de regulă, caracteristica
factorială, cauzală - să se dividă în subgrupe după o a doua caracteristică
rezultativă (efect). Aceasta din urmă la rândul lor sunt divizate în sub-
subgrupe după o a treia caracteristică ş.a.m.d. Această caracterizare
ierarhică adânceşte analiza structurii colectivităţii, ea reprezentându-se sub
forma unui graf arborescent. Modelul general al grupării combinate a
unităţilor dintr-o colectivitate se reprezintă în tabelul 2.15.

Tabelul 2.15.
Modelul grupării combinate

Intervale după prima Intervale după a doua Număr de unităţi


caracteristică de grupare caracteristică de
grupare
sup sup
i [ xi < xi
x inf i [ yi < yi
y inf
0 1 2
sup
y in
1
f
− y1 n 1i
... ...
sup
sup y in f
− yj n 1j
1 −x1
xinf j
... ...
sup
m − ym
y in f
n 1m
TOTAL GRUPA 1 - n1.
: : :
sup
i − yi
y in f
n 1i
... ...
sup
sup yj − yj
in f
n 1j
i −xi
xinf
... ...
sup
m − ym
y in f
n 1m
TOTAL GRUPA i - ni.
60 Statistică generală
: : :
sup
y inf
r − yr n ri
... ...
sup
r −xr
xinf
sup yj − yj
inf
n rj
... ...
sup
m − ym
y inf n rm
TOTAL GRUPA r - nr.
TOTAL GENERAL - n

Rezultatele unei grupări combinate se pot prezenta într-un tabel (cu o


altă formă decât cea prezentată) cu două intrări, numit tabel de
contingenţă. Acest tabel are următoarea formă generală:

Tabelul 2.16

Intervale Intervale (grupe) după variabila y


(grupe)
Total
după y 1inf − y 1sup yinf sup
2 − y2 … yinf sup
j − yj … yinf sup
m − ym
variabila x
x1inf − x1sup n 11 n 12 … n 1j … n 1m n 1.
x inf
2 − x sup
2 n 21 n 22 … n 2j … n 2m n 2.
… … … … … … … …
x inf sup
i − xi n i1 n i1 … n ij … n im n i.
… … … … … … … …
x inf sup
r − xr n r1 n r2 … n rj … n rm n r.
Total n .1 n .2 … n .j … n .m n ..

În cadrul tabelului de mai sus întâlnim următoarele tipuri de


frecvenţe:
1. frecvenţe absolute ale evenimentelor compuse: {n ij }i =1,r , j=1,m
definesc numărul de unităţi la care simultan variabila X prezintă
valori în intervalul “i” şi variabila Y prezintă valori în intervalul “j”;
2. frecvenţe marginale absolute: în raport cu variabilele analizate
există:
m
- frecvenţe marginale ale lui X: n i. = ∑ n ij , i = 1, r (2.13)
j=1
exprimă numărul de unităţi din populaţie la care pentru X s-au
înregistrat valori încadrate în intervalul “i”, indiferent de grupa în
care se încadrează valorile variabilei Y.
Capitolul II 61
r
- frecvenţe marginale ale lui Y: n . j = ∑ n ij , j = 1, m (2.14)
i =1
este numărul total de unităţi la care pentru Y s-au înregistrat
valori încadrate în grupa “j”, indiferent în ce grupă se încadrează
valorile înregistrate de variabila X.
r m r m
3. n .. = ∑ ∑ n ij = ∑ n i. = ∑ n . j (2.15) reprezintă numărul total al
i =1 j=1 i =1 j=1

unităţilor din populaţia statistică la care s-au observat variabilele X


şiY.
În urma grupării combinate ale cărei rezultate se prezintă într-un
tabel de contingenţă (de tip r x m) se obţin:
- r distribuţii de frecvenţe formate după Y;
- m distribuţii de frecvenţe formate după X;
- o distribuţie marginală formată după X;
- o distribuţie marginală formată după Y;
- o distribuţie bidimensională de frecvenţe formată simultan după
X şi Y.
Prin urmare, gruparea statistică ca metodă de prelucrare primară are
o serie de funcţii cognitive care se referă la:
- evidenţierea structurii colectivităţii cercetate pe tipuri calitative;
- evidenţierea mutaţiilor structurale produse în colectivitatea studiată, pe
plan teritorial, în dinamica şi ca urmare a modalităţilor de organizare ale
acestora;
- reflectarea tendinţelor de manifestare ale variaţiei caracteristicilor
urmărite;
- stabilirea şi interpretarea direcţiei şi formei sub care se manifestă
tendinţa legăturii dintre fenomene şi factorii de influenţă.

2.3. Agregarea/centralizarea datelor statistice


Gruparea/clasificarea datelor statistice culese este însoţită sau
precedată de operaţii de centralizare/agregare în scopul obţinerii unor
indicatori sintetici absoluţi.
După nivelul la care se execută operaţiile de centralizare / agregare
se disting:
- centralizarea/gruparea simplă: se efectuează la nivelul
colectivităţii negrupate, nestructurate;
- centralizarea/agregarea pe grupe/clase: se efectuează la nivelul
grupelor/claselor în care a fost structurată colectivitatea. Într-o
clasificare/agregare ierarhică agregarea datelor individuale se face succesiv în
62 Statistică generală
concordanţă cu nivele (treptele) acesteia până se ajunge la nivelul întregului
ansamblu.
- centralizarea/agregarea datelor statistice se face prin
aditivitate sau prin aplicarea unor tehnici speciale.
Prin operaţiile de aditivitate se obţin la nivelul grupelor/claselor
indicatori sintetici sub formă de sume/totaluri. Aditivitatea nu trebuie efectuată
mecanic, ci respectându-se anumite restricţii (cerinţe) dintre care amintim:
- datele individuale agregate trebuie să aibă acelaşi conţinut, să se
refere la aceeaşi trăsătură calitativă, să exprime aceeaşi categorie de fapte
individuale;
- datele care sunt centralizate/agregate să aibă caracter primar, de
volum;
- datele individuale trebuie să fie exprimate în aceleaşi unităţi de
măsură etc.
Altă modalitate de agregare a datelor statistice presupune utilizarea
unor tehnici speciale (de exemplu, calculul nivelelor medii), utilizarea
ponderilor sau a coeficienţilor de echivalenţă. De exemplu, valoarea
agregată a valorilor individuale privind productivitatea muncii, costul unitar
etc. se obţin ca medie simplă sau ponderată. Agregarea/centralizarea
cantităţilor de mărfuri desfăcute pe piaţă de către o societate comercială
presupune utilizarea preţurilor respective practicate în diferite perioade. În
alte cazuri agregarea/centralizarea datelor statistice se efectuează prin
"numărare pe categorii". Rezultatele operaţiilor de grupare/clasificare a
datelor statistice sunt prezentate prin tabele, grafice şi serii.

2.4. METODE DE PREZENTARE A DATELOR


STATISTICE

2.4.1. Tabele statistice


Una dintre cele mai adecvate modalităţi de prezentare a datelor
statistice o reprezintă forma tabelară, deoarece ea permite caracterizarea
structurii colectivităţii (populaţiei) investigate, a legăturilor dintre
grupele sale tipice etc. Tabelul statistic (TS) este format dintr-o reţea
adecvată de linii paralele orizontale şi verticale în care sunt încadrate
datele, cuprinde şi una sau mai multe serii statistice. Tabelul statistic este
elaborat cu dublu scop: pentru sistematizarea datelor în vederea prelucrării şi
obţinerii indicatorilor sintetici; pentru prezentarea rezultatelor prelucrării
primare şi secundare.
Oricare ar fi destinaţia TS el trebuie să fie elaborat după anumite reguli
de conţinut şi de formă, trebuie să aibă anumite elemente obligatorii şi anume:
Capitolul II 63
- subiectul TS. Acesta este reprezentat de colectivitatea sau
eşantionul la care se referă datele;
- predicatul TS. El se referă la sistemul de caracteristici primare sau
derivate ale căror valori individuale sunt sistematizate;
- macheta TS. Aceasta este formată din reţeaua de rânduri şi coloane
în care se înscriu în mod ordonat datele, titlul general, titlurile interioare (se
înscriu în capetele rubricilor), notele explicative şi sursa datelor.
În funcţie de scopul analizei şi al prelucrării, în teoria şi practica
statistică, se elaborează şi se utilizează o multitudine de tabele statistice.
Dintre acestea evidenţiem următoarele:
- tabele simple, descriptive. Acestea sunt elaborate pentru prezentarea
indicatorilor statistici ai unităţilor complexe investigate, ordonaţi din punct de
vedere cronologic, teritorial sau organizatoric;
- tabele utilizate în prelucrare. Acestea sunt instrumente
intermediare utilizate pentru parcurgerea unor algoritmi de calcul;
- tabele de prezentare a datelor statistice structurate pe
grupe/clase de variaţie;
- tabele de contingenţă. Acestea sunt tabele cu dublă intrare de forma
tabelului 2.16.
O formă particulară a tabelului de contingenţă este tabelul de
asociere de tip 2 x 2 (tabelul 2.17). Acesta prezintă repartiţia unităţilor după
două caracteristici alternative corelate între ele.

Tabelul 2.17.
Asocierea frecvenţelor după două caracteristici alternative

Variantele alternative ale


caracteristicii y (ex.: profilul
Variantele alternative ale societăţilor comerciale)
Total
caracteristicii x (ex.: mediul) y1(de ex. y2 (de ex.
PRODUCŢIE) COMERŢ)
DA sau NU y1=1 (NU sau y2=0)
x1(DA sau x1=1)
n11(=80.000) n12(=60.000) n1'(140.000)
(de ex. URBAN)
x2 (NU sau x2=0)
n21=35.000 n22(=10.000) n2'(45.000)
(de ex. RURAL)
Total n.1(=115.000) n.2(=70.000) n..(185.000)

- tabele statistice de prezentare a valorilor funcţiilor biometrice


sau a repartiţiilor statistice teoretice. În această categorie încadrăm
tabelele de mortalitate, tabelele repartiţiei binomiale, tabelele distribuţiilor
Fisher, Student, Krustal-Wallis, Wilcoxon, Gauss-Laplace etc.;
64 Statistică generală
Tabelele statistice, indiferent de tipul lor, de modalitatea lor de
elaborare (manuală sau automată), conţin una sau mai multe serii.

2.4.2. Serii statistice


Seriile statistice reprezintă o altă modalitate de prezentare a datelor.
Seria statistică, ca rezultat al sistematizării şi/sau grupării, defineşte
corespondenţa dintre două şiruri de date statistice în care primul
reprezintă variaţia caracteristicii urmărite, iar al doilea şir cuprinde
frecvenţele de apariţie a variantelor caracterisiticii. În forma cea mai
generală o serie statistică cu o singură caracteristică se prezintă astfel:
x 1 x 2 ... x r
x
n 1 n 2 ... n r (2.16)
Unde: x1, x2, ..., xn sunt variante înregistrate pentru caracteristica x;
n1, n2, ..., nr sunt frecvenţele de apariţie ale variantelor
caracteristicii x.
Forma generală a seriei statistice (2.16) impune unele observaţii şi
anume:
- seria trebuie să ofere informaţii cu privire la succesiunea,
mărimea valorilor înregistrate şi a frecvenţelor corespunzătoare;
- între cele două şiruri de date există o legătură univocă, în sensul
că unei valori individuale oarecare îi corespunde o anumită frecvenţă,
respectiv un număr care arată de câte ori se repetă valoarea individuală
respectivă.
În funcţie de natura caracteristicilor urmărite, seriile statistice sunt
clasificate în: serii de repartiţie sau serii de distribuţie; serii cronologice
(sau de timp); serii teritoriale (sau de spaţiu) şi serii descriptive sau
enumerative.
Seriile de repartiţie (de distribuţie) sunt elaborate atunci când
caracteristica urmărită este numerică (cantitativă).
Seriile cronologice (de timp sau dinamice) prezintă evoluţia în timp
a unui fenomen sau descrie un anumit proces. Forma generală a unei serii
cronologice este prezentată în tabelul 2.18.
Capitolul II 65
Tabelul 2.18.

Variabila timp (t) Valorile caracteristice


A 1
0 y0
1 y1
2 y2
, ,
, ,
, ,
t yt
, ,
, ,
, ,
T yr

Tabelul 2.19

Unităţi teritoriale Valorile caracteristice (y)


A 1
A yA
B yB
, ,
, ,
, ,
I yr
, ,
, ,
, ,
Z y2

Seriile teritoriale (sau de spaţiu) prezintă variaţia teritorială a


caracteristicii analizate. În aceste serii valorile caracteristicii se referă la
unităţile teritoriale din care fac parte. În mod frecvent aceste serii se obţin
după criterii administrativ-teritoriale, ceea ce înseamnă că în cadrul acestora
spaţiul este variabil, iar timpul şi structura organizatorică sunt considerate
fixe. Seriile teritoriale sunt reprezentate grafic cu ajutorul hărţilor sau sub
formă de cartograme sau cardiograme.
Seriile descriptive sau enumerative se prezintă sub formă de liste a
unităţilor după o anumită caracteristică.
Elaborarea seriilor şi tabelelor statistice reprezintă nu numai un
mijloc eficient de prezentare a datelor statistice dar şi o operaţie
premergătoare pentru reprezentarea grafică.

2.4.3. Grafica datelor statistice. Principii şi reguli


de reprezentare grafică
Grafica statistică se utilizează în scopul vizualizării mărimii şi
variaţiei independente şi/sau interdependente a datelor, în scopul
66 Statistică generală
popularizării acestora sau pentru a facilita desfăşurarea unor operaţii
de prelucrare, previziune şi planificare. Elementele de grafică statistică se
aleg în funcţie de specificul fenomenelor analizate, de relaţiile dintre datele
care pot fi vizualizate. Deci, prin grafica statistică nu se ilustrează atât datele
în sine cât proporţiile şi rapoartele dintre date. Din această cauză se
apelează la lungimi, suprafeţe, şi volume.
Reprezentările grafice ale datelor statistice fac apel la figuri
geometrice, sisteme de coordonate, hărţi, desene figurale etc.
Trasarea corectă a graficelor statistice se efectuează pe baza unor
reguli care se referă atât la conţinut cât şi la formă. O parte din regulile
de elaborare a graficelor statistice sunt comune cu cele ale tabelelor, iar
altele sunt specifice. Astfel, pentru interpretarea completă şi corectă a
mesajului transmis de grafic este necesar ca acesta să aibă: legendă; reţea şi
scară de reprezentare; axele de coordonate explicite.
Legenda graficului explică în formă sintetizată semnificaţia
simbolurilor utilizate. Reţeaua de reprezentare (de mai multe ori nu este
vizibilă) este formată dintr-o mulţime de linii paralele orizontale şi verticale
sau din cercuri concentrice, după cum graficul este trasat: în coordonate
rectangulare sau în coordonate polare. În mod frecvent, în practica statistică
graficele sunt trasate în sistemul de coordonare rectangulare.
Pe axa OX a acestora se vor fixa variantele sau intervalele de
variaţie ale caracteristicii independente, momentele sau intervalele de timp,
iar pe axa OY se vor fixa frecvenţele, valorile caracteristicii a cărei evoluţie
este urmărită, valorile sau intervalele de variaţie ale caracteristicii
dependente. Pentru a respecta proporţiile din date este necesar ca pe cele
două axe punctele să fie fixate la scară.
Principalele tipuri de grafice care se trasează în acest sistem de axe
sunt următoarele: histograma, poligonul frecvenţelor; curba cumulativă
de frecvenţe; diagramele prin benzi şi coloane; cronograma (pentru
seriile cronologice); corelograma (pentru seriile interdependente) etc. O
parte din aceste grafice sunt trasate în cadrul acestui paragraf, iar restul în
cuprinsul lucrării.
Exemplul 2.3. Societatea comercială "ANDREX" prezintă în
trimestrul I 2000 şi 2001 următoarele date referitoare la timpul de lucru:
Capitolul II 67
Tabelul 2.20
Indicatorii timpului de lucru la S.C. "ANDEX"

Trimestrul I Trimestrul I
Indicatori
2000 2001
1. Fond de timp maxim disponibil din care: 3.865.100 3.773.000
2. Fond de timp efectiv lucrat 3.688.155 3.602.700
3. Fond de timp nelucrat 176.000 170.300

Mărimea fondului de timp lucrat din cele două trimestre este


vizualizată în figura 2.3.

3.865.155 3.602.700
ore-om ore-om

Trim. I 2000 Trim. I 2001

Fig. 2.3. Fondul de timp efectiv lucrat (ore-om) la S.C. "ANDREX"

Pentru sesizarea mai rapidă a modificărilor din structura fondului de


timp maxim disponibil se trasează diagrama de structură, pătratul de
structură sau cercul de strucutră.
În scop publicitar sau pentru popularizarea unor aspecte esenţiale din
manifestarea unor fenomene se trasează diagramele prin benzi şi coloane,
figuri naturale etc.
O structurare a graficelor statistice (frecvent utilizate în practică),
după natura caracteristicilor (variabilelor) analizate, permit identificarea
următoarelor categorii:
1. Reprezentări grafice ale seriilor de distribuţie unidimensionale. Ele
se elaborează în corespondenţă cu natura variabilei atributive:
- În cazul variabilelor calitative sau cantitativ discrete se pot
elabora distribuţii empirice de variante elaborate prin:
ƒ diagrama prin bare (batoane);
ƒ diagrama frecvenţelor cumulate crescător sau
descrescător după variaţia prdinelor de mărime ale
variantelor din serie.
68 Statistică generală
- În cazul variabilelor continue, generându-se serii de distribuţie
(repartiţie) de frecvenţe pe intervale, acestea pot fi vizualizate
prin:
ƒ histogramă: în cazul intervalelor egale, ambele fiind
identice, înălţimile dreptunghiurilor adiacente
corespunzătoare sunt proporţionale cu frecvenţele
absolute sau relative; în cazul repartiţiilor cu intervale
inegale, înălţimile dreptunghiurilor sunt proporţionale cu
frecvenţele reduse calculate ca raport între frecvenţele
absolute şi mărimile intervalelor formate.
ƒ poligonul frecvenţelor. Acesta, ca şi histograma,
vizualizează densităţile repartiţiilor.
ƒ curba cumulativă (crescătoare sau descrescătoare) a
frecvenţelor. Aceasta vizualizează funcţia de repartiţie
analizată.
ƒ În demografie, prin piramida vârstelor (pe sexe) se
vizualizează distribuţia populaţiei după vârstă.
2. Reprezentarea grafică a seriilor de distribuţie (repartiţie)
bidimensionale. Constituite pe baza tabelelor de contingenţă, acestea
vizualizează densitatea distribuţiei simultană a frecvenţelor după
variabilele numerice luate în studiu.
3. Reprezentări grafice ale mărimilor relative de structură (ponderilor
sau greutăţilor specifice). Acestea sunt vizualizate prin diagrama de
structură trasată cu ajutorul unor figuri geometrice: cercul,
dreptunghiul, pătratul, paralelipipedul etc.
4. Reprezentări grafice ale seriilor cronologice. Acestea se pot realiza:
- în coordonate rectangulare: cronograma (histograma);
diagrama prin coloane; diagrama prin coloane în aflux;
diagrama prin benzi.
- în coordonate polare (pentru vizualizarea oscilaţiilor
periodice): diagrama sectorială; diagrama radială;
diagrama în spirală.
5. Reprezentări grafice ale seriilor teritoriale prin mijloace specifice
cum ar fi cartograma şi cartodiagramele.
În prezent, programele informatice de tip STATGRAF oferă
mijloace eficiente de vizualizare a datelor statistice. Grija esenţială care
trebuie avută în vedere este aceea a vizualizării reale a proporţiilor din
date.
Capitolul II 69

Întrebări de control
• Ce se înţelege prin prelucrare statistică primară şi care sunt
principalele operaţii implicate ?
• Care sunt funcţiile operaţiilor de structurare a datelor ?
• Care sunt paşii algoritmului de clasificare ierarhică ?
• Care este obiectivul agregării datelor statistice şi prin ce metode se
realizează aceasta ?
• Ce se înţelege prin serie statistică teritorială şi cum se reprezintă ea
grafic ?
• Ce se înţelege prin serie cronologică şi prin ce metode se reprezintă
ea grafic ?
• Firma „VIM” specializată în cercetări de piaţă a intervievat 1309
persoane pentru testarea preferinţelor acestora faţă de câteva posturi
de televiziune. Date înregistrate sunt sistematizate astfel:
Vârsta Număr persoane
Până la 18 ani, total 494
Din care:
- Antena 1 89
- ProTV 211
- 7 abc 107
- Prima TV 87
19-29 ani, total 327
Din care:
- Antena 1 57
- ProTV 130
- 7 abc 81
- Prima TV 59
30-39 ani, total 91
Din care:
- Antena 1 38
- ProTV 29
- 7 abc 14
- Prima TV 10
40-49 ani, total 140
Din care:
- Antena 1 77
- ProTV 42
- 7 abc 11
70 Statistică generală
- Prima TV 10
50-59 ani, total 136
Din care:
- Antena 1 63
- ProTV 28
- 7 abc 36
- Prima TV 9
60 ani şi peste, total 121
Din care:
- Antena 1 59
- ProTV 30
- 7 abc 21
- Prima TV 11
Se cere:
- Să se grupeze datele de mai sus şi să se prezinte rezultatul într-
un total de contingenţă.
- Să se vizualizeze datele de mai sus prin cele mai adecvate
metode.
• Graficele statistice trasate în coordonate polare se utilizează în mod
curent pentru vizualizarea:
a) oricărei serii de date statistice;
b) seriilor de repartiţie;
c) trendului (tendinţei) din evoluţia în timp a unui fenomen;
d) evoluţia în timp a unui fenomen afectată de oscilaţii sezoniere;
e) tendinţei legăturii dintre variabile şi pentru alegerea modelelor
de regresie.
• În reprezentările grafice ale datelor statistice se utilizează:
a) în exclusivitate scara aritmetică;
b) în funcţie de ordinul de mărime a datelor se utilizează după caz scara
aritmetică, logaritmică, semilogaritmică, dublu logaritmică etc.;
c) în funcţie de ordinul de mărime a datelor scala nominală,
ordinală de intervale, de rapoarte, continuă sau discretă;
d) orice scară, numai graficul să fie trasat într-un sistem de axe
rectangulare;
e) orice scară, numai graficul să fie trasat într-un sistem de axe polare.
• Cartograma se foloseşte pentru a reprezenta grafic:
a) unităţi statistice cu două dimensiuni, întotdeauna după o
caracteristică;
b) unităţi statistice cu două dimensiuni, întotdeauna după mai
multe caracteristici;
Capitolul II 71
c) unităţi statistice cu două dimensiuni, niciodată după mai multe
caracteristici;
d) unităţi statistice cu două dimensiuni, după una sau mai multe
caracteristici;
e) cartograma nu este un grafic utilizat de statistică.
• Dacă în urma grupării unui set de date pe intervale de variaţie egale,
se obţin frecvenţele nule, atunci se recomandă:
a) să se regrupeze datele după o altă caracteristică;
b) se utilizează în continuare aceeaşi distribuţie neţinând cont de
frecvenţele nule;
c) se utilizează în continuare distribuţia dacă este doar o singură
frecvenţă nulă;
d) se regrupează datele, mărind numărul de intervale de variaţie;
e) se regrupează datele mărind dimensiunea intervalului.
• Formula lui Sturges se poate aplica pentru determinarea:
a) amplitudinii variaţiei unei caracteristici;
b) valorii maxime dintr-un set de date;
c) valorii minime dintr-un set de date;
d) numărului de grupe;
e) numărului de caracteristici.
• O serie de timp se reprezintă grafic printr-o:
a) corelogramă;
b) diagramă de structură;
c) cronogramă (historiogramă);
d) cartogramă;
e) cartodiagramă.
• Graficele statistice în coordonate polare se utilizează în mod curent
pentru vizualizarea:
a) oricărei serii de date statistice;
b) seriilor de repartiţie;
c) evoluţiei trendului din evoluţia unui fenomen;
d) evoluţiei unui fenomen afectat de oscilaţii sezoniere;
e) tendinţei legăturii dintre variabile şi alegerea modelului de
regresie.
• Se cunosc următoarele date privind „numărul de facturi” întocmite
de S.C. „Anonimus” S.R.L. în luna noiembrie 2000:
Data Nr. facturi Data Nr. facturi Data Nr. facturi
1 6 11 10 21 14
2 10 12 14 22 12
3 12 13 6 23 11
4 10 14 18 24 10
72 Statistică generală
5 8 15 13 25 8
6 9 16 9 26 4
7 10 17 14 27 12
8 11 18 12 28 9
9 12 19 17 29 12
10 9 20 12 30 16

I II III
Grupe de Grupe de Grupe de
Nr. Nr. Nr.
zile după nr. zile după nr. zile după nr.
zile zile zile
de facturi de facturi de facturi
0–5 1 0–5 1 0–6 55
6 – 11 13 6 – 10 16 7 – 14 90
11 – 15 13 11 – 15 10 15 – 22 103
15 – 20 3 16 – 20 3 23 – 30 82

IV V
Intervale ale
Intervale ale
numărului Nr.
Nr. zile numărului de
zilnic de zile
facturi
facturi
(0 – 5] 1 [0 – 5) 1
(5 – 10] 13 [5 – 10) 9
(10 – 15] 13 [10 – 15) 17
(15 – 20] 3 [16 – 20) 3

Populaţia statistică studiată este structurată şi prezentată în:


a) Tabelul I;
b) Tabelul II;
c) Tabelul III;
d) Tabelul IV;
e) Tabelul V.
• Histograma:
a) este un grafic specific seriilor cronologice;
b) reflectă densitatea repartiţiei statistice;
c) este un grafic de volum;
d) reflectă forma repartiţiei;
e) este similară cu diagrama prin coloane.

S-ar putea să vă placă și