Sunteți pe pagina 1din 0

Capitolul II

PRELUCRAREA PRIMAR A DATELOR


2.1. CONINUTUL PRELUCRRII DATELOR
STATISTICE
O persoan pentru a exprima o aciune trebuie s aeze ntr-o form
logic cuvintele n propoziii sau fraze. n mod analog, datele referitoare la
indicatorii societilor comerciale dintr-un departament, la preurile i
cantitile de mrfuri desfurate pe o pia etc. pentru a evidenia esena,
regularitatea, din forma de manifestare a fenomenelor cercetate trebuie
prelucrate, sistematizate, centralizate i grupate.
Valorile individuale ale caracteristicilor nregistrate, n funcie de scopul
analizei, prezint variaii mari de la o unitate la alta crend n mod aparent
impresia c ele ar fi independente ntre ele. Din aceast cauz ansamblul
datelor nregistrate nu permite cunoaterea esenei din forma de manifestare a
fenomenelor investigate.
Datele statistice nregistrate, printr-o modalitate de observare total sau
parial, sunt utile n procesul de cunoatere i pregtire a deciziilor numai dac
sunt supuse unor operaiuni de prelucrare. Prelucrarea, ca etap a cercetrii
statistice, cuprinde operaii (de rafinare sau transformare) cu ajutorul crora se
realizeaz trecerea de la datele individuale la indicatorii derivai, sintetici,
care reflect esena din manifestarea fenomenelor. S presupunem c ntr-o
colectivitate (populaie) s-au observat carateristicile x
1
, x
2
, ..., x
m
. De exemplu:
cantitatea mrfurilor vndute; preul de pe pia al mrfurilor, valoarea adugat;
profitul brut; numrul de angajai; volumul activelor fixe etc. Datele culese de la
cele n uniti din colectivitatea investigat sunt sistematizate sub urmtoarea
form:

40 Statistic general
Tabelul 2.1.
Forma general de sistematizare a datelor statistice

Caracteristici statistice observate (X)
i / j
Unitile investigate ale colectivitii
(populaiei)
x
1
x
2
x
j
x
m

1 x
11
x
12
x
1j
x
1m

2 x
21
x
22
x
2j
x
2m

:
i x
i1
x
i2
x
ij
x
im

: : : : :
n x
n1
x
ne2
x
nj
x
nm


Forma matriceal a datelor sistematizate se caracterizeaz prin
urmtoarele trsturi:
- elementele fiecrei coloane
j j = 1, m

reprezint valorile caracteristicii
x
j
nregistrate la toate cele n uniti. Datele
(
x
ij
)
i=1,n
sunt egale sau/i
diferite ntre ele;
- elementele fiecrei linii
i i = 1, n
reprezint valorile caracteristicilor
x
j
j = 1, m
nregistrate la fiecare unitate
i i = 1, n
din colectivitatea investigat;
- elementele matricei
(
x
ij
)
i=1,n, j=1,m
sunt nule i/sau nenule,
pozitive i/sau negative;
- mrimea matricei (m, n) depinde att de numrul caracteristicilor
precizate n programul observrii ct i de numrul de uniti investigate.
Pentru desprinderea aspectelor eseniale i stabile din manifestarea
fenomenelor analizate datele statistice sistematizate trebuie s fie supuse unor operaii
de prelucrare. Prelucrarea datelor statistice nregistrate poate fi primar sau secundar.
Prelucrarea primar cuprinde operaii de clasificri, de grupri, de
comparri, de prezentare sub form de tabele, grafice sau serii statistice.
Prin efectuarea acestor operaii se realizeaz sintetizarea datelor individuale la
nivelul grupelor sau claselor, se calculeaz indicatori absolui i/sau relativi, se
prezint sintezele efectuate prin tabele, grafice sau serii statistice. Sintetizarea
datelor individuale la nivelul grupelor sau claselor i apoi la nivelul colectivitii,
este nsoit de o pierdere inevitabil de informaii, deoarece se elimin ceea ce
este neesenial i ntmpltor. n acelai timp se ctig sub aspectul obinerii unei
noi informaii, sintetice, care nu pot fi obinute direct din datele primare (structura
colectivitii, tendina central etc.). Rezultatele operaiilor de prelucrare primar
sunt elementele de intrare pentru prelucrarea secundar n urma creia se
Capitolul II 41
estimeaz valori tipice, omogenitatea i asimetria distribuiilor, intensitatea
legturilor dintre fenomenul analizat i factorii si de influen etc.
n cazul n care scopul cercetrii declanate necesit un volum mare
de operaii, diverse, de prelucrare este necesar s se elaboreze, de la caz la
caz, planuri de prelucrare informatic a datelor.
2.2. METODE DE STRUCTURARE A
COLECTIVITILOR STATISTICE N FUNCIE DE
UNA SAU MAI MULTE CARACTERISTICI
Obiectivele metodelor. Principalele metode prin care se realizeaz
trecerea de la datele primare nregistrate la valorile tipice, sintetice, sunt
metodele de structurare ale colectivitilor dup una sau mai multe
caracteristici statistice i anume metode de clasificare i grupare.
Obiectivul principal al metodelor de clasificare sau/i grupare l
reprezint formarea de clase sau grupe de uniti omogene, din colectivitatea
(populaia) investigat. Prin grup sau clas omogen nelegem acea
grup sau clas n care sunt incluse acele uniti din colectivitate la care
valorile individuale ale caracteristicii (lor) urmrit(e) prezint variaii
(abateri) minime, explicate prin influena factorilor ntmpltori.
Potrivit acestui obiectiv se poate spune c gruparea i clasificarea
datelor statistice sunt subordonate scopului cercetrii i sunt declanate
dup o analiz aprofundat a colectivitii investigate n vederea identificrii
grupelor sau claselor calitativ distincte i omogene. n cazul n care nu se
acord o importan deosebit operaii exist riscul de a se forma clase sau
grupe care nu se deosebesc calitativ, iar cunoaterea obiectiv a aspectelor
eseniale ar fi imposibil.
Gruprile i clasificrile pot fi specifice fiecrei cercetri
concrete sau pot avea un caracter permanent. Criteriile (caracteristicile)
de clasificare sau grupare se aleg n funcie de scopul cercetrii astfel nct
s conduc la structurarea colectivitii n grupe sau clase omogene. Cu ct
complexitatea fenomenelor urmrite este mai mare, cu att mai mult este
necesar gruparea unitilor din colectivitate (populaie) dup mai multe
caracteristici aflate n relaii de interdependen obiectiv. Gruprile sau
clasificrile, care pun n eviden tipuri de fenomene, sunt grupri sau
clasificri tipologice i care de multe ori au un caracter permanent.
De exemplu: clasificarea populaiei pe grupe de vrst; clasificarea
societilor comerciale pe ramuri de activitate sau n profil teritorial etc.
42 Statistic general
2.2.1. Clasificarea statistic
Istoria statisticii consemneaz c nc din cele mai vechi timpuri s-a
utilizat metoda clasificrii, un prim pas n cunoatere fiind omogenizarea
materialului faptic (observat) pentru a evidenia asemnarea,
tipicitatea straturilor (claselor) formelor individuale de manifestare ale
fenomenelor de mas.
n orice tiin clasificarea prezint o importan metodologic
deosebit, deoarece faciliteaz trecerea de la masa amorf de date
nregistrate la informaie. Acesta este i motivul pentru care astzi, cnd
mijloacele informatice sunt extrem de permisive, asistm la o larg
diversitate a tehnicilor de clasificare (sau de clusterizare).
n esen, clasificarea ca metod statistic -, utilizat potrivit
scopului cercetrii, presupune operaii complexe de sistematizare a unui
ansamblu de uniti sau noiuni, pe baza caracteristicilor lor comune, n
clase de uniti, a claselor de uniti n clase de clase de uniti .a.m.d., cu
scopul ca fiecare clas astfel obinut s ocupe un loc precis i stabil
ntr-o structur sau ierarhie. n cadrul operaiei de clasificare se disting:
o obiectele (unitile) de clasificat;
o criteriul (criteriile) dup care se efectueaz clasificarea;
o clasele rezultate din operaii de clasificare.
Operaiile de clasificare a ansamblului de uniti observate
presupune respectarea anumitor cerine:
o completitudine: fiecare unitate trebuie repartizat unei clase
(clasificarea are n vedere ansamblul unitilor observate i nu
las rest);
o unicitatea: fiecare unitate aparine unei clase i numai una
(clasele formate trebuie s fie, deci, disjuncte, adic nici o unitate
nu poate fi repartizat simultan n mai multe clase);
o omogenitatea: unitile care aparin aceleiai clase trebuie s fie
asemntoare (diferenele dintre unitile care aparin aceleiai
clase trebuie s fie minime);
o organizarea ierarhic: pe fiecare nivel de clasificare criteriul
trebuie s fie unic; trecerea de la un nivel la altul se realizeaz
prin creterea gradului de generalitate al criteriului adoptat.
Utilizarea metodei clasificrii, n principiu, presupune parcurgerea
succesiv a dou etape:
1. Etapa I: n aceast etap se realizeaz o clasificare pe orizontal a
ansamblului de uniti observate. Unitile sunt repartizate n clase
(grupe) cu acelai grad de generalitate, dar (pe ct posibil)
disjuncte.
Capitolul II 43
2. Etapa II: n aceast etap se realizeaz o ierarhizare pe vertical n
ordinea generalitii, prin trecerea la operaii aplicate claselor obinute
iniial, acestea sunt cointegrate n clase de clase sau, dimpotriv, sunt
divizate n subclase mai compacte.
n practica statistic, n clasificare se utilizeaz pentru structurarea
unitilor populaiei statistice o gam larg de criterii. De exemplu, natura
criteriului de clasificare conduce la distincia dintre clasificrile naturale
(situaii n care criteriul este ales n mod obiectiv, n conformitate cu
trsturile intrinseci ale unitilor observate) i clasificri artificiale (situaii
n care unitile sunt repartizate dup criterii subiective, convenionale).
Menionm n acest sens sistemele standardizate de clasificri i
nomenclatoare utilizate n statistica public, i care cuprind, printre
altele: clasificarea ramurilor din economia naional (CREN); clasificarea
activitilor din economia naional (CAEN); clasificarea produselor i
serviciilor asociate activitilor (CPSA); nomenclatorul profesiilor (NP);
nomenclatorul indicatorilor economico-sociali (NIES) etc.
2.2.1.1. Clasificarea dup variabile calitative
Aa cum rezult din cele prezentate anterior, clasificarea
(stratificarea) reflect, ca orice form logic de reprezentare i abstractizare,
o operaie de tip conceptual reprezentnd o anumit modalitate de a
distinge unitile populaiei statistice prin divizarea lor dup
caracteristici comune n submulimi (clase sau grupe) relativ omogene.
Obiectivul urmrit prin aceast operaie este acela de a identifica straturi
tipice n structura populaiei, de a obine indicatori generalizatori,
difereniai pe clase, necesari pentru analiza statistic.
Cazul cel mai simplu este acela n care dup o anumit variabil
calitativ A, unitile populaiei se separ prin dichotomie n dou clase
complementare:
o clasa unitilor de tip U
1
care posed modalitatea direct de
exprimare a variabilei;
o clasa unitilor de tip non-U
1
(sau 1 U ) care nu posed
modalitatea direct de exprimare a variabilei U
1
(modalitatea
direct fiind absent).
Cazul prezentat ar putea sugera faptul c operaia de clasificare s-ar
putea rezuma la numrarea i ordonarea unitilor posesoare sau non-
posesoare de caracteristici calitative. Dimpotriv, problematica nu este
simpl deoarece pentru maximizarea cantitii de informaie necesar
cunoaterii suntem nclinai s formm clase i subclase compacte cu
grade diferite de omogenitate, s structurm populaia dup mai multe
44 Statistic general
variabile calitative. De exemplu, dac analizm trei variabile calitative U
1
,
U
2
, U
3
se vor identifica urmtoarele tipuri de clase:
o clase de ordinul unu de uniti la care este prezena caracteristicii
specificate simbolizate prin U
1
, U
2
, U
3
;
o clase de ordinul unu de uniti la care este absent caracteristica
specificat simbolizate prin 3 2 1 U , U , U ;
o clase de ordinul 2 (tip mixtur) n care apar combinaii ale
posesiei i/sau absenei caracteristicii - simbolizat prin
3 2
3
2 3
2 3 2
3 1
3
1 3
1 3 1
2 1
2
1 2
1 2 1
U U ; U U ; U U ; U U ; U U ; U U ; U U ; U U ; U U ; U U ; U U ; U U

o clase de ordinul trei de tipul ... U U U ; U U U ; U U U
3
2
1
3
2 1 3 2 1

Numrul absolut de cazuri observate i incluse ntr-o grup (clas) se
numete frecven de grup (clas) i se va nota prin acelai simbol dar
inclus n paranteze rotunde. De exemplu:
3 2 1
U U U este clasa de ordinul 3,
iar (
3 2 1
U U U ) numrul de uniti posesoare simultan de U
1
, U
2
, U
3
sau
frecvena clasei specificate de ordinul 3.
Generaliznd, se poate spune c n cazul a n variabile calitative se
pot forma grupe de ordinul r (cu n r ) cu frecven absolut
corespunztoare numit frecven de grup de ordinul r. Mai mult, se
poate demonstra c dac numrului total de uniti din populaia N i se
atribuie, n mod convenional, ordinul zero, atunci exist un numr de 3
n

frecvene de grup de diferite ordine. Exemplificm aceast afirmaie n
tabelul 2.2.


Tabel 2.2.
Frecvene de grup a unei populaii formate din N uniti descris prin
patru caracteristici calitative (U
1
, U
2
, U
3
, U
4
)


Ordinul r al grupei de
uniti 4 , 0 r =
Frecvene de grup de ordinul r 4 , 0 r = ; 4 , 1 n =
0 N
1
(U
1
) (U
2
) (U
3
) (U
4
)
) U ( ) U ( ) U ( ) U ( 4 3 2 1
2
) U U ( ) U U ( ) U U ( ) U U ( ) U U ( ) U U (
4 3 4 2 3 2 4 1 3 1 2 1

) U U ( ) U U ( ) U U ( ) U U ( ) U U ( ) U U ( 4
3
4
2
3
2
4
1
3
1
2
1

) U U ( ) U U ( ) U U ( ) U U ( ) U U ( ) U U (
4
3
4
2
3
2
4
1
3
1
2
1
) U U ( ) U U ( ) U U ( ) U U ( ) U U ( ) U U ( 4 3 4 2 3 2 4 1 3 1 2 1
Capitolul II 45
3
) U U U ( ) U U U ( ) U U U ( ) U U U (
4 3 2 4 3 1 4 2 1 3 2 1

) U U U ( ) U U U ( ) U U U ( ) U U U ( 4
3 2
4
3 1
4
2 1
3
2 1

) U U U ( ) U U U ( ) U U U ( ) U U U (
4
3
2 4
3
1 4
2
1 3
2
1

) U U U ( ) U U U ( ) U U U ( ) U U U (
4 3
2
4 3
1
4 2
1
3 2
1
) U U U ( ) U U U ( ) U U U ( ) U U U ( 4 3
2
4 3
1
4 2
1
3 2
1

) U U U ( ) U U U ( ) U U U ( ) U U U (
4
3 2
4
3 1
4
2 1
3
2 1
) U U U ( ) U U U ( ) U U U ( ) U U U ( 4
3
2 4
3
1 4
2
1 3
2
1
) U U U ( ) U U U ( ) U U U ( ) U U U ( 4 3 2 4 3 1 4 2 1 3 2 1
4
) U U U U ( ) U U U U (
4 3 2
1
4 3 2 1

) U U U U ( ) U U U U (
4 3 2
1 4
3 2 1

) U U U U ( ) U U U U (
4
3
2
1
4
3
2 1

) U U U U ( ) U U U U (
4 3
2 1
4 3
2
1

) U U U U ( ) U U U U ( 4
3 2
1 4
3 2 1

) U U U U ( ) U U U U (
4
3 2 1
4
3 2
1

) U U U U ( ) U U U U ( 4
3
2 1 4
3
2
1

) U U U U ( ) U U U U ( 4 3 2 1 4 3 2
1


Analiznd datele din tabelul anterior observm urmtoarele:
o Suma frecvenelor de grup este 81 = 3
4
= N.
o Frecvenele de grup nu sunt independente ci sunt legate ntre
ele prin anumite relaii. De exemplu:
{
M
43 42 1
) U U U ( ) U U U ( ) U U (
) U U ( ) U U ( ) U (
) U ( ) U ( N
3
2 1 3 2 1 2 1
2
1 2 1 1
2
1
+ =
+ =
+ =


Prin urmare, fiecare frecven de grup poate fi
exprimat cu ajutorul de ordin imediat mai nalt. Mai
mult, orice frecven de grup se poate exprima cu ajutorul
frecvenelor de ordinul cel mai nalt.
o Frecvenele de grup, corespunztoare grupelor specificate prin
toate caracteristicile considerate numite i frecvene de grup
finale sunt n numr de 2
n
. n exemplul anterior exist 2
4
= 16
frecvene de grup finale.
46 Statistic general
o Populaia statistic investigat este definit n mod unic printr+o
serie de frecvene de grup care ndeplinete urmtoarele
condiii: numrul elementelor sale este 2
n
i elementele sale
sunt independente ntre ele. O astfel de serie de frecvene de
grup se numete serie fundamental (unidimensional).
o Operaia de dichotomizare a populaiei statistice dup un numr
mai mare de trei sau patru caracteristici calitative devine greoaie.
n activitatea practic, n cazul n care suntem n posesia
anumitor frecvene de grup se putea opera cu ele astfel nct s
se determine mai nti grupele finale, iar apoi, pe baza lor, se vor
exprima diferite frecvene de grup a cror cunoatere este
necesar.
O observare statistic riguros organizat, urmat de
prelucrri i grupri corespunztoare fiind vizat una i aceeai
populaie ofer frecvene de grup ce nu se contrazic n nici
un fel. Se spune despre asemenea date c asigur condiia de
concordan. Aceast condiie este aceea ca frecvenele de
grup finale s fie nenegative. Lipsa acestei condiii, lipsa de
concordan a datelor privind frecvenele de grup ne sugereaz
faptul c n procesul de observare au existat erori (lipsa
concordanei n timp i spaiu; folosirea diferitelor surse i
materiale de informare etc.).
Aceast condiie de concordan a informaiei privind
sistemul de grupri este important i din alte motive:
1. Ea sugereaz i metoda cu ajutorul creia se poate
verifica ntr-un ansamblu de frecvene de grup,
nsi concordana. De exemplu, dac se cunosc doar
frecvenele de grup finale pozitive (obinute prin
excluderea din simbol a celor care sunt de tip non) pe
baza acestora pot fi determinate frecvene de grup
nedeterminate, atunci cnd seriile de date sunt
incomplete. Deci, atunci cu siguran seria este
concordant.
2. O consecin important a acestei condiii de
concordan faciliteaz aflarea probabilitii ca
alegnd la ntmplare o unitate sau un grup de uniti
dintr-o populaie statistic aceasta sa prezinte anumite
modaliti ale unor caracteristici calitative.
3. Pe baza condiiei de concordan se poate determina
numrul minim de uniti la care s-a nregistrat
prezena simultan a caracteristicilor calitative
Capitolul II 47
U
1
,U
2
,,U
m
i acesta este dat de inegalitatea:
) 1 . 2 ( N ) 1 m ( ) U ( ... ) U ( ) U ( ) U ... U U (
m 2 1 m 2 1
+ + +
Pentru exemplificarea acestei observaii prezentm urmtoarea
aplicaie. Presupunem o serie de studeni (N = 100), ntr-o sesiune de
examene, la urmtoarele examene: analiz matematic, statistic i
informatic. La sfritul sesiunii au promovat 89% (U
1
) la analiz, 91% (U
2
)
la statistic i 92% (U
3
) la informatic. Numrul minim de integraliti este
dat de inegalitatea 72 ) U U U ( 100 ) 1 3 ( ) U ( ) U ( ) U ( ) U U U (
3 2 1 3 2 1 3 2 1
+ +
ceea ce nseamn c cel puin 72% din studenii care au susinut examenele
precizate sunt integraliti.
Clasificri complexe. Dup cum s-a observat din cele prezentate,
dac sunt luate n considerare dou variabile calitative, fiecare dintre ele
genereaz prin simpla dichotomie dou subclase complementare. n
realitate, de cele mai multe ori variabila calitativ poate avea un numr
mare i diferit de variante (modaliti). De exemplu, populaia se
divizeaz dup variabila U
1
n k grupe (clase) U
11
, U
12
, , U
1k
, fiecare
din cele k clase se subdivid n l grupe dup variabila U
2
i avem U
21
,
U
22
, , U
2l
, apoi n mod similar dup factorul U
3
.a.m.d. se formeaz n
final grupe (clase) complexe (cu complexitate diferit).
n categoria clasificrilor complexe, un loc aparte l ocup
clasificrile (gruprile) multiple. Pentru realizarea acestora lum n
considerare variabilele calitative U
1
i U
2
; variabila U
1
conduce la frecvene
de grup
k , 1 i
i 1
) U (
=
, iar variabila U
2
conduce la frecvene de grup
l , 1 j
j 2
) U (
=
.
Rezult, deci, c vor exista i grupe (clase) combinate de tipul ) U U (
j 2 i 1
, cu
l , 1 j , k , 1 i = = , care sunt n numr de k x l. Datele obinute sunt sistematizate
i prezentate n urmtoarea form tabelar (tabelul nr. 2.3):

Tabel 2.3

U
11
U
12
U
1i
U
1k
Total
U
21
(U
11
U
21
) (U
12
U
21
) (U
1i
U
21
) (U
1k
U
21
) (U
21
)

U
2j
(U
11
U
2j
) (U
12
U
2j
) (U
1i
U
2j
) (U
1k
U
2j
) (U
2j
)

U
2l
(U
11
U
2l
) (U
12
U
2l
) (U
1i
U
2l
) (U
1k
U
2l
) (U
2l
)
Total (U
11
) (U
12
) (U
1i
) (U
1k
) N

Analiznd forma tabelar anterioar se observ urmtoarele:
48 Statistic general
1. (U
1i
U
2j
) reprezint numrul de uniti din populaie simultan prezint
att prezena modalitii U
1i
ct i prezena modalitii U
2j
.
2. Tabelul prezentat se numete tabel de contingen de tip k xl i este
nzestrat cu urmtoarele proprieti:
a. Suma frecvenelor de grup din coloana i reprezint totalul
unitilor din clasa U
1i
la care s-a nregistrat prezena
modalitii U
1i
indiferent de variantele nregistrate ale variabilei
U
2
. Deci, pe coloane k , 1 i ), U ( ) U U (
i 1
l
1 j
j 2 i 1
= =

=
i analog pe
rnduri ) 2 . 2 ( l , 1 j ), U ( ) U U (
j 2
k
1 i
j 2 i 1
= =

=
.
b. Sumele frecvenelor de grup k , 1 i ), U (
i 1
= i l , 1 j ), U (
j 2
= sunt
egale ntre ele i egale cu volumul populaiei
) 3 . 2 ( N ) U ( ) U (
l
1 j
j 2
k
1 i
i 1
= =

= =

c. Exist un numr de k x l grupe finale, iar numrul lor total
(inclusiv N) este (k+1) x (l+1).
d. Frecvenele de grup finale de tipul ) U U ( ), U ( ), U (
j 2 i 1 j 2 i 1
pentru
orice l , 1 j , k , 1 i = = definesc complet datele unui tabel de
contingen (de tip k x l). n cazul omisiunilor de nregistrare a
datelor este posibil s se stabileasc limitele ntre care se vor
ncadra frecvenele de grup necunoscute.
e. Datele dintr-un astfel de tabel de contingen sunt concordante
dac lipsesc frecvenele negative aceasta fiind o condiie
necesar i suficient.
f. Problematica analizat ntr-un tabel de contingen de tip k x l
nu difer de cea din categoria tabelelor dichotomice de tip 2 x 2.
n esen, aceasta poate fi structurat n dou categorii:
I. O problem de ordin general, deseori pus n practic
(ea va fi tratat pe larg n capitolul consacrat analizei
dependenelor statistice), se refer la msura n care
variabila U
1
este n ansamblul populaiei
dependent de variabila U
2
i care ar fi intensitatea
acestei dependene. Pentru aceasta se vor utiliza
coeficienii de contingen total, care sintetizeaz
natura general (global) a dependenei.
II. O a doua mare problem care intereseaz (teoretic i
practic) se refer la asocierile pariale dintre
Capitolul II 49
diferitele variante (modaliti) ale factorilor studiai.
Acest caz solicit o analiz de detaliu: prin
transformri succesive dimensiunea tabelului
iniial (k x l) se reduce, iar apoi cu tabelele de tip
2x2 se urmresc diferite asocieri la nivelul claselor
(ptratelor sau celulelor) elementare (compacte)
adiacente sau al grupelor de cte patru, cinci,
frecvene (cnd proprietile tabelului initial fac
posibile asemenea operaii). Se va putea stfel constata
(i demonstra matematic) c aceste proprieti sunt
satisfcute doar de tabelele de contingen
izotropice
1
i care vor fi studiate la capitolul dedicat
regresiei i corelaiei. n acest context precizm doar
faptul c una din proprietile izotropiei n tabelele
de contingen amintite se refer la satisfacerea
egalitilor (pentru orice k , 1 i = i l , 1 j = ) de tipul
) 4 . 2 (
N
) U )( U (
) U U (
j 2 i 1
j 2 i 1
= , ceea ce ar sugera o
independen total ntre U
1
i U
2
.
Dup cum s-a artat, gruprile multiple, clasificrile multiple s-au
format n tabele de contingen dup ce populaia statistic a fost divizat n
k clase U
11
,U
12
,,U
1k
(dup factorul U
1
), iar fiecare din aceste clase n
continuare au fost divizate (dup U
2
) n l clase: U
21
,U
22
,,U
2l
.
Clasificrile (gruprile) multiple complementare se obin n mod evident
i prin luarea n considerare a absenei modalitii non-U
1
(sau 1 U ) n
combinaie cu non-U
2
(sau 2 U ). n ambele situaii, principiul clasificrii
(gruprii) este identic i anume omogenitatea claselor compacte
formate. Numai n virtutea acestui principiu clasificrile multiple conduc la
informaii comparabile n timp, spaiu i din punct de vedere
organizatoric, la aprofundarea analizelor de asociere i contingen.
Aceste precizri sunt utile pentru cteva observaii concluzive referitoare la
metodologia statistic a clasificrilor multiple:
1. Centralizarea, clasificarea multipl i, apoi, prelucrarea datelor
statistice necesit operaii greoaie dac nu se face apel la
mijloace informatice corespunztoare (absena acestora poate

1
Noiunea de izotropie provine din fizic i se refer la nsuirea unei substane de a avea
proprieti identice cu altele, indiferent de timpul i spaiul n care ele sunt msurate. n
statistic, izotropia n sensul amintit se refer la nsuirea unor grupri multiple de a
avea asocieri de acelai semn n fiecare ptrat elementar.
50 Statistic general
afecta direct omogenitatea i compatibilitatea n ansamblul
datelor culese).
2. O clasificare multipl poate fi privit ca o succesiune de
dichotomii. La fiecare partiionare, o unitate poate fi inclus n
una din alternativele U
1
sau 1 U , U
2
sau 2 U i combinaii ale
acestora. Dac datele provin dintr-un sondaj statistic,
problematica expus (prin implicaiile ei) capt dimensiuni
exprimate n termeni de estimaii i care se va trata n capitolul
3.
3. Cea mai important clasificare de tip omogen a unitilor
populaiei statistice este prin care toate aceste uniti se distribuie
dup o singur stare a variabilei calitative studiate. Aceasta
conduce la un tip de clasificare (clusterizare) ierarhic.
4. Deseori se ntlnesc clasificri multiple prezentate n tabele de
contingen aparent neizotropice. n practic, ns, printr-o
rearanjare convenabil (scopului) a unor coloane sau rnduri din
tabele studiate se pot obine tabele transformate cu proprieti
de izotropie; acestea pot, apoi, s fie reduse la tabele de tip 2x2
fr s existe riscul obinerii unor asocieri cu semne diferite.
5. Din motive practice, n metodologia prezentat se pot utiliza
simultan nu numai variabile msurabile de pe scala nominal ci
i combinaii de tipul una pe scala nominal i alta (celelalte)
pe scala fie ordinal, fie de interval, fie de raport. Cert este
c una din aceste combinaii trebuie s cuprind o variabil
nominal (cu una sau mai multe modaliti de exprimare).
2.2.1.2. Clasificarea ierarhic
Obiectivul clasificrii automatice l reprezint n colectivitatea
statistic investigat a unor clase (familii) de uniti omogene un anumit
criteriu.
Pentru efectuarea unor clasificri automate pe un anumit ansamblu n
de uniti este necesar s definim o distan sau mai general o msur a
"asemnrii" ntre unitile clasificate.
Exist mai multe metode de clasificare automate: partiionarea;
partiionarea n clase, n care unitile colectivitii pot s aparin
simultan mai multor clase; clasificarea ierarhic etc.
Pentru efectuarea unei clasificri ierarhice a celor n uniti dintr-o
colectivitate dup o anumit caracteristic x, respectiv a datelor {x
1,
x
2
,...,x
n
}
este necesar s definim o "distan" pentru a obine tabelul distanelor dintre
Capitolul II 51
uniti; n acelai mod se determin i distanele dintre subclasele
colectivitii investigate.
n cadrul clasificrii ierarhice un loc aparte l ocup metodele
"aglomerative". Acestea sunt sintetizate n urmtorul algoritm:
1. Identificarea perechilor (x
i
, x
j
) ntre care distana care le separ
s fie cea mai mic;
2. Agregarea perechilor (x
i
, x
j
) ntr-o singur clas i elaborarea
unui nou tabel al distanelor. Acest ultim tabel se formeaz suprimnd liniile
i colonele x
i
i x
j
i nlocuindu-le cu liniile i coloanele relative de la clasa
. Deci, noul tabel al distanelor va avea mai puin o linie i o coloan.
3. Se repet cele dou operaii pn la obinerea de clase
omogene sau pn la agregarea unitilor colectivitii ntr-o singur clas.
n funcie de distanele dintre unitile unei clase formate i celelalte
elemente exist mai multe metode de clasificare i anume: metoda simplei
nlnuiri i metoda nlnuirii complete.
Metoda simplei nlnuiri este o metod de clasificare ierarhic care
presupune utilizarea distanelor euclidiene pentru elaborarea tabelului cu
distane, sau a distanei ntre dou cele mai apropiate uniti (distana
minim). n cazul metodei nlnuirii complete se ia n considerare distana
euclidian ntre dou elemente cele mai ndeprtate (distana maxim).
ntre cele dou metode exist, deci, diferena c una ia n considerare
distana minim, iar alta distana maxim.
Fie x
1
, x
2
, ..., x
n
valorile individuale ale caracteristicii x urmrite la
cele n uniti din colectivitatea investigat i pentru care se elaboreaz un
tabel la distanele dintre valorile individuale respective. Acest tabel poate
avea urmtoarea form:
Tabelul 2.4.
Tabelul distanelor

d(x
1
, x
2
) d(x
1
, x
3
) d(x
1
, x
n
)
d(x
2
, x
3
) d(x
2
, x
n
)
:
d(x
n-1
, x
n
)

Unde: d(x
i
, x
j
) este distana euclidian ntre x
i
i x
j
(pentru i < j cu
valori de la 1 la n);
Algoritmul metodei simplei nlnuiri presupune parcurgerea
urmtorilor pai:
- se caut distana minim d(x
i
, x
j
) cu i < j;
- elementele x
i
i x
j
sunt agregate ntr-o nou grup
C
k
= x
i
4 x
j
;

52 Statistic general
- ansamblul de uniti din colectivitatea statistic investigat este
partiionat n: {x
1
}, ..., {x
i-1
}, ..., {x
j-1
}, {x
j+1
}, ..., {x
n
};
- se elaboreaz un nou tabel al distanelor prin suprimarea liniilor i
coloanelor corespunztoare x
i
i x
j
i adugnd o linie i o coloan
reprezentnd distanele dintre x
m
i C
k
, m = 1, 2, ..., n, m
!
i i m
!
j, aflate
cu relaia (2.5).

d
(
C
k
, x
m
)
= min{d
(
x
i
, x
m
)
; d(x
j
, x
m
)}
(2.5)
n cazul cel mai general distana dintre cele dou calse sau grupe este
calculat dup relaia (2.6).

d
(
C
k
, C
m
)
= min{d
(
x
i
, x
j
)
cu x
i
c C
k
{x
j
c C
m
}
(2.6)
Relaia (2.6) se aplic n cazul n care grupele/clasele sunt formate
din unul sau dou uniti. regruparea datelor se vizualizeaz prin grafice
specifice cum ar fi de exemplu diagramele, pe axa absciselor a acestora se
reprezint distanele care separ clasele/grupele de uniti.
Din algoritmul prezentat trebuie s precizm faptul c o clasificare
automat a unitilor unei colectiviti nu conduce la cea mai bun structur
a colectivitii, dar ea este mult mai real dect clarificarea efectuat dup
criterii (variabile) considerate de cercettor ca fiind reprezentative.

Aplicaia 2.1. Ilustrm metoda simplei nlnuiri de clasificare pe
baza cifrelor de afaceri (mild. lei) nregistrate de cinci societi comerciale
A, B, C, D, E cu profil asemntor, n patru judee: Constana, Galai,
Ialomia. Datele (convenionale) sunt prezentate n tabelul urmtor:

Tabelul 2.5.
(mild. lei)

Judeul
Constana
Judeul
Galai
Judeul
Brila
Judeul
Ialomia
A 5,0 3,5 4,0 4,5
B 5,5 4,0 5,0 4,5
C 4,5 4,5 4,0 3,5
D 4,0 5,5 3,5 4,0
E 4,0 4,5 3,0 3,5

Pe baza datelor din tabelul 2.5 se calculeaz distanele euclidiene
dup relaia:
n , 1 j , i cu , ) x x ( ) x , x ( d d
n
1 i
2
j i j i ij
= = =

=
(2.7)
Capitolul II 53
Se obine astfel tabelul distanelor euclidiene ntre societile
comerciale (tabelul 2.6).

Tabelul 2.6.

A B C D E
A 1,22 1,50 1,50 2,35 2,00
B 0 1,80 1,80 2,65 2,74
C 1,80 0 0 1,32 1,12
D 2,65 1,32 1,32 0 1,22
E 2,74 1,12 1,12 1,22 0

Tabelul (2.6) distanelor euclidiene evideniaz disimilitatea dintre
uniti. Din tabelul precedent se ia n considerare jumtatea superioar a
tabelului simetric, adic tabelul 2.7.

Tabelul 2.7.

B C D E
A 1,22 1,50 2,35 2,00
B 1,80 2,65 2,74
C 1,32 1,12
D 1,22

Se observ c distana minim de 1,12 ntre C i E; Aceasta
nseamn c o prim clas/grup se poate forma ntre C i E. Se calculeaz,
de exemplu, distana dintre C i E, pe de o parte, i dintre C i A, pe de alt
parte, i se ia n considerare distana minim dintre C i A i dintre E i A.
Aceasta nseamn:
d({C, E,}, E) = min {d(C, A), d(E, A)} = min {1, 5, 2} = 1, 5
Analog
d({C, E,}, B) = min {d(C, B), d(E, B)} = min {1, 80, 2,74} = 1, 8
i
d({C, E,},D) = min {d(C, D), d(E, D)} = min {1, 32, 1, 22} = 1, 22
Noul tabel al distanelor are forma urmtoare (tabelul 2.8).

Tabelul 2.8.

B C i E D
A 1,22 1,50 2,35
B 1,80 2,65
C i E 1,22

54 Statistic general
Distana minim prezentat n datele tabelului 2.6 este 1,22, ntre A i B
(aceeai minim distan exist ntre grupul C i E pe de o parte i D pe de alt
parte); se regrupeaz, deci, n primul rnd societile comerciale A i B i se
reface noul tabel al distanelor, utiliznd datele din tabelul 2.8. Se determin:
D({A, B},{C, E}) = min {d(A, {C, E}), d(B, {C, E})}= min {1,5, 1,8} = 1,5
i analog d({A, B},D) = min {d(A,D), d(B, D) = min {2,35, 2,65} = 2,35
Noul tabel al distanelor este urmtorul:

Tabelul 2.9.

C i E D
A i B 1,5 2,35
C i E 1,22

Din tabelul precedent se observ c D, trebuie s fie integrat la
grupul format de societile C i E. Noua distan va fi:
d({(C, E),D},{A, B,}) = min {d({C, E}), A, B}};
d(D, {A, B}) = min {1,5, 2,35} = 1,50.
Se obine astfel, urmtorul tabel al distanelor (tabelul (2.10)).

Tabelul 2.8.

A i B
C, E i D 1,50

n final se observ dou grupe/clase: A i B i C, E i D care
sunt difereniate prin distana de 1,50. Dendograma care se obine prin
agregri succesive este prezentat n fig. 2.1.

A
B
C
D
E
0 1
2
distana

Fig 2.1. Clasificarea simplu nlnuit a celor cinci societi comerciale
Capitolul II 55
Un alt exemplu de clasificare ierarhic dup acelai criteriu prezentat
anterior este urmtorul.

1 2 3 4 5 1 2U4 3 5
1 0 4 9 5 8 1 0 4 9 8
2 4 0 6 3 6 2U4 4 0 6 5
3 9 6 0 6 3 3 9 6 0 03
4 5 3 6 0 5 5 8 5 3 0
5 8 6 3 5 0

Aglomerarea (agregarea) 2 i 4 la
disimilaritatea 3

Aglomerarea (agregarea) 3
i 5 la disimilaritatea 3

1 2U4 3U5
1 0 4 8 1U2U4 3U5
2U4 4 0 5 1U2U4 0 5
3U5 8 5 0 3U5 5 0

Aglomerare 1 i 2U4 la
disimilaritatea 4

Aglomerare final 1U2U4 i
3U5 la disimilaritatea 5

Rezultatul dendogramei

1 2 4 3 5
4 5
3 4
0 0
1 3
2 3
Ranguri de
nivel
Criteriul
valorilor


Figura 2.2. Exemplu de construcie a unei dendograme
2.2.2. Gruparea datelor statistice
Realizarea scopului cercetrii statistice necesit elaborarea nu numai
de clasificri dar i de grupri simple i/sau combinate, dup uan sau mai
multe caracteristici numerice cuprinse n programul de observare.
Caracteristicile numerice de grupare pot fi cu variaie discret i/sau
cu variaie continu. n funcie de variaia caracteristicii urmrite gruprile
pot fi efectuate pe variante i/sau pe intervale de variaie.
56 Statistic general
n cazul n care caracteristica urmrit prezint un numr redus de
variante, n mod evident, se recomand gruparea pe variante (tabelul
2.12). Aceast operaiune de prelucrare const n identificarea prin
numrare a unitilor (frecvenelor) la care se nregistreaz aceeai
variant a caracteristicii.
Exemplul 2.1. La finalul lanului de asamblare a aspiratoarelor se
preleveaz un eantion de 20 aparate. n urma controlului tehnic de calitate
s-a constatat numrul de piese care prezint o defeciune, la fiecare aparat
prelevat. Datele nregistrate sunt urmtoarele:

Tabelul 2.11.

Numrul de piese care prezint o defeciune minor
0 1 0 2 0
0 1 2 0 0
1 0 1 3 0
1 2 1 0 0

n urma gruprii datelor pe variante (tabelul 2.12) se obine
urmtoarea distan de frecvene:

Tabelul 2.12.
Distribuia aparatelor dup numrul pieselor defecte

Numrul de piese defecte Numr de aparate
0 10
1 6
2 3
3 1
Total 20

Gruparea datelor pe intervale de variaie se utilizeaz atunci cnd
caracteristica numeric urmrit prezint un numr mare de valori
individuale (exemplul 2.2.).

Exemplu 2.2. Din fiierul informatic "fora de munc" al Societii
Comerciale "GRUPO" se extrag urmtoarele date referitoare la
caracteristica "vechime n munc" (ani).




Capitolul II 57
Tabelul 2.13.

Vechimea n munc a personalului (ani)
9,4 8,4 12,0 16,3 11,9 16,8 9,8 7,0 11,5 12,6
8,3 8,0 9,5 12,1 11,0 14,1 13,1 7,1 12,6 12,1
11,0 12,2 14,0 9,4 10,2 13,4 7,3 14,6 11,1 10,3
11,2 11,0 11,4 15,4 12,5 10,5 10,0 11,9 13,2 15,6
16,3 11,2 11,1 12,8 10,6 10,5 15,0 10,2 13,1 12,0
13,8 10,3 9,8 12,4 11,4 10,4 8,2 9,3 11,6 9,4

Pentru structurarea colectivitii, pentru evidenierea grupelor
(straturilor) tipice din colectivitate, se pot forma grupri pe intervale egale
de variaie sau pe intervale neegale.
Gruparea datelor pe intervale de variaie necesit stabilirea
numrului de grupe i a mrimii intervalelor. Nu exist o regul general
valabil de determinare a numrului de grupe care trebuie s se formeze. Cu
toate acestea, alegerea numrului de grupe nu se face mecanic, ci presupune
cunoaterea variaiei caracteristicii numerice, elaborarea mai multor
variante de grupe pn se ajunge la soluia cea mai potrivit, conform cu
forma concret de manifestare a fenomenului urmrit. Scopul operaiei de
grupare necesit formarea unui numr de grupe care s nu fie nici prea mare,
dar nici prea mic. Cert este faptul c numrul de grupe (r) trebuie s fie
direct proporional cu amplitudinea variaiei (A) (2.8.).
A = x
max
- x
min
= 16,8 - 7,0 = 9,8 ani (2.8)
Unde: x
min
= min {x
1,
x
2, ...,
x
60
} = 7,0 ani i
x
max
= max {x
1,
x
2, ...,
x
60
} = 16,8 ani
La variaia valorilor individuale prezentate n tabelul 2.11
caracterizat printr-o amplitudine de 9,8 ani se pot forma 7 grupe. Pe baza
amplitudinii i a numrului de grupe se determin mrimea intervalelor de
variaie (h) dup relaia 2.9.

h =
A
r
=
xmax
x
min
r

9,8 ani
7
= 1, 5ani
(2.9)
n literatura de specialitate se recomand, n ipoteza repartiiei
aproximativ normale a unitilor colectivitii dup caracteristica urmrit,
utilizarea relaiei lui Sturges (2.10) pentru determinarea mrimii
intervalelor de variaie.

h =
xmaxx
min
1+3,322 log
10
n
(2.10)
Dup determinarea mrimii intervalelor de variaie este necesar s se
determine limitele inferioare i superioare ale intervalelor de grupare.
Stabilirea limitelor se poate face astfel:
58 Statistic general
- limita superioar a fiecrui interval s se preia ca limit inferioar a
intervalului urmtor. n felul acesta se obin intervale cu limit repetabil
(2.11).

x
i
sup
x
i+1
inf
, i = 1, r 1
(2.11)
- limitele inferioare i superioare ale intervalelor de grupare
distincte, difereniate printr-o unitate (2.12).

x
i+1
inf
+ x
i
sup
+ 1; i = 1, r 1
(2.12)
Adoptnd prima variant (2.11) pentru datele din tabelul (2.13) se
determin intervalele de grupare care sunt prezentate n coloana 1 a
tabelului 2.14.

Tabelul 2.14.
Distribuia personalului Societii Comerciale
"GRUPO" dup vechime

Grupe de persoane
dup vechime (ani)

ncadrarea persoanelor pe
intervale de vechime
Numr de persoane
0 1 2
6, 5 [ x < 8, 0

/// 3
8, 0 [ x < 9, 5
///// /// 8
9, 5 [ x < 11, 0

///// ///// // 12
11,0 x <12,0
///// ///// ///// //// 19
12, 5 [ x < 14, 0

///// //// 9
14, 0 [ x < 15, 5
///// 5
15, 5 [ x < 17

//// 4
TOTAL - 60

n coloana 2 a tabelului 2.14 este centrat numrul de persoane care
au vechime cuprins ntr-un anumit interval, sau frecvena de apariie a
intervalului respectiv.
La repartizarea amplitudinii variaiei pe intervale de grupare trebuie
s se in seama de urmtoarele recomandri:
- limitele de interval s se exprime prin numere ntregi;
- s se formeze un astfel de numr de intervale de grupare pentru
a se obine informaii, suficient de analitice, n vederea caracterizrii
colectivitii;
x
i
i n f
[ x
i
< x
i
sup
Capitolul II 59
- intervalele de grupare formate trebuie s permit, la nevoie,
regruparea datelor fr s se reia operaia de grupare sau de divizare a
intervalelor;
- fiecare interval de grupare trebuie s cuprind un numr suficient
de mare de valori individuale care s faciliteze analiza statistic a
frecvenelor.
n cazul n care se urmrete structura colectivitii (populaiei)
simultan dup dou sau mai multe caracteristici numerice, sau n cazul
n care se urmrete analiza modului de manifestare a interdependenelor
dintre dou variabile, se elaboreaz gruparea combinat.
Pentru elaborarea gruprii combinate este necesar ca intervalele de
variaie fixate pentru o prim caracteristic (x) - de regul, caracteristica
factorial, cauzal - s se divid n subgrupe dup o a doua caracteristic
rezultativ (efect). Aceasta din urm la rndul lor sunt divizate n sub-
subgrupe dup o a treia caracteristic .a.m.d. Aceast caracterizare
ierarhic adncete analiza structurii colectivitii, ea reprezentndu-se sub
forma unui graf arborescent. Modelul general al gruprii combinate a
unitilor dintr-o colectivitate se reprezint n tabelul 2.15.


Tabelul 2.15.
Modelul gruprii combinate

Intervale dup prima
caracteristic de grupare
Intervale dup a doua
caracteristic de
grupare
x
i
inf
[ x
i
< x
i
sup

y
i
inf
[ y
i
< y
i
sup
Numr de uniti
0 1 2
x
1
inf
x
1
sup

y
1
in f
y
1
sup
...
y
j
in f
y
j
sup
...
y
m
in f
ym
sup

n
1i
...
n
1j
...
n
1m

TOTAL GRUPA 1 - n
1.

: : :
x
i
inf
x
i
sup

y
i
inf
y
i
sup
...
y
j
inf
y
j
sup
...
y
m
inf
ym
sup

n
1i
...
n
1j
...
n
1m

TOTAL GRUPA i - n
i.

60 Statistic general
: : :
x
r
inf
xr
sup

y
r
inf
yr
sup
...
y
j
inf
y
j
sup
...
y
m
inf
ym
sup

n
ri
...
n
rj
...
n
rm

TOTAL GRUPA r - n
r.

TOTAL GENERAL - n

Rezultatele unei grupri combinate se pot prezenta ntr-un tabel (cu o
alt form dect cea prezentat) cu dou intrri, numit tabel de
contingen. Acest tabel are urmtoarea form general:

Tabelul 2.16

Intervale (grupe) dup variabila y Intervale
(grupe)
dup
variabila x
sup
1
inf
1
y y
sup
2
inf
2
y y
sup
j
inf
j
y y

sup
m
inf
m
y y
Total
sup
1
inf
1
x x
11
n
12
n j 1
n

m 1
n
. 1
n
sup
2
inf
2
x x
21
n
22
n j 2
n

m 2
n
. 2
n

sup
i
inf
i
x x
1 i
n
1 i
n ij
n

im
n
. i
n

sup
r
inf
r
x x
1 r
n
2 r
n rj
n

rm
n
. r
n
Total
1 .
n
2 .
n j .
n

m .
n
..
n

n cadrul tabelului de mai sus ntlnim urmtoarele tipuri de
frecvene:
1. frecvene absolute ale evenimentelor compuse:
m , 1 j , r , 1 i
ij
} n {
= =

definesc numrul de uniti la care simultan variabila X prezint
valori n intervalul i i variabila Y prezint valori n intervalul j;
2. frecvene marginale absolute: n raport cu variabilele analizate
exist:
- frecvene marginale ale lui X: ) 13 . 2 ( r , 1 i , n n
m
1 j
ij . i
= =

=

exprim numrul de uniti din populaie la care pentru X s-au
nregistrat valori ncadrate n intervalul i, indiferent de grupa n
care se ncadreaz valorile variabilei Y.
Capitolul II 61
- frecvene marginale ale lui Y: ) 14 . 2 ( m , 1 j , n n
r
1 i
ij j .
= =

=

este numrul total de uniti la care pentru Y s-au nregistrat
valori ncadrate n grupa j, indiferent n ce grup se ncadreaz
valorile nregistrate de variabila X.
3. ) 15 . 2 ( n n n n
r
1 i
m
1 j
j .
r
1 i
. i
m
1 j
ij ..

= = = =
= = = reprezint numrul total al
unitilor din populaia statistic la care s-au observat variabilele X
iY.
n urma gruprii combinate ale crei rezultate se prezint ntr-un
tabel de contingen (de tip r x m) se obin:
- r distribuii de frecvene formate dup Y;
- m distribuii de frecvene formate dup X;
- o distribuie marginal format dup X;
- o distribuie marginal format dup Y;
- o distribuie bidimensional de frecvene format simultan dup
X i Y.
Prin urmare, gruparea statistic ca metod de prelucrare primar are
o serie de funcii cognitive care se refer la:
- evidenierea structurii colectivitii cercetate pe tipuri calitative;
- evidenierea mutaiilor structurale produse n colectivitatea studiat, pe
plan teritorial, n dinamica i ca urmare a modalitilor de organizare ale
acestora;
- reflectarea tendinelor de manifestare ale variaiei caracteristicilor
urmrite;
- stabilirea i interpretarea direciei i formei sub care se manifest
tendina legturii dintre fenomene i factorii de influen.
2.3. Agregarea/centralizarea datelor statistice
Gruparea/clasificarea datelor statistice culese este nsoit sau
precedat de operaii de centralizare/agregare n scopul obinerii unor
indicatori sintetici absolui.
Dup nivelul la care se execut operaiile de centralizare / agregare
se disting:
- centralizarea/gruparea simpl: se efectueaz la nivelul
colectivitii negrupate, nestructurate;
- centralizarea/agregarea pe grupe/clase: se efectueaz la nivelul
grupelor/claselor n care a fost structurat colectivitatea. ntr-o
clasificare/agregare ierarhic agregarea datelor individuale se face succesiv n
62 Statistic general
concordan cu nivele (treptele) acesteia pn se ajunge la nivelul ntregului
ansamblu.
- centralizarea/agregarea datelor statistice se face prin
aditivitate sau prin aplicarea unor tehnici speciale.
Prin operaiile de aditivitate se obin la nivelul grupelor/claselor
indicatori sintetici sub form de sume/totaluri. Aditivitatea nu trebuie efectuat
mecanic, ci respectndu-se anumite restricii (cerine) dintre care amintim:
- datele individuale agregate trebuie s aib acelai coninut, s se
refere la aceeai trstur calitativ, s exprime aceeai categorie de fapte
individuale;
- datele care sunt centralizate/agregate s aib caracter primar, de
volum;
- datele individuale trebuie s fie exprimate n aceleai uniti de
msur etc.
Alt modalitate de agregare a datelor statistice presupune utilizarea
unor tehnici speciale (de exemplu, calculul nivelelor medii), utilizarea
ponderilor sau a coeficienilor de echivalen. De exemplu, valoarea
agregat a valorilor individuale privind productivitatea muncii, costul unitar
etc. se obin ca medie simpl sau ponderat. Agregarea/centralizarea
cantitilor de mrfuri desfcute pe pia de ctre o societate comercial
presupune utilizarea preurilor respective practicate n diferite perioade. n
alte cazuri agregarea/centralizarea datelor statistice se efectueaz prin
"numrare pe categorii". Rezultatele operaiilor de grupare/clasificare a
datelor statistice sunt prezentate prin tabele, grafice i serii.
2.4. METODE DE PREZENTARE A DATELOR
STATISTICE
2.4.1. Tabele statistice
Una dintre cele mai adecvate modaliti de prezentare a datelor
statistice o reprezint forma tabelar, deoarece ea permite caracterizarea
structurii colectivitii (populaiei) investigate, a legturilor dintre
grupele sale tipice etc. Tabelul statistic (TS) este format dintr-o reea
adecvat de linii paralele orizontale i verticale n care sunt ncadrate
datele, cuprinde i una sau mai multe serii statistice. Tabelul statistic este
elaborat cu dublu scop: pentru sistematizarea datelor n vederea prelucrrii i
obinerii indicatorilor sintetici; pentru prezentarea rezultatelor prelucrrii
primare i secundare.
Oricare ar fi destinaia TS el trebuie s fie elaborat dup anumite reguli
de coninut i de form, trebuie s aib anumite elemente obligatorii i anume:
Capitolul II 63
- subiectul TS. Acesta este reprezentat de colectivitatea sau
eantionul la care se refer datele;
- predicatul TS. El se refer la sistemul de caracteristici primare sau
derivate ale cror valori individuale sunt sistematizate;
- macheta TS. Aceasta este format din reeaua de rnduri i coloane
n care se nscriu n mod ordonat datele, titlul general, titlurile interioare (se
nscriu n capetele rubricilor), notele explicative i sursa datelor.
n funcie de scopul analizei i al prelucrrii, n teoria i practica
statistic, se elaboreaz i se utilizeaz o multitudine de tabele statistice.
Dintre acestea evideniem urmtoarele:
- tabele simple, descriptive. Acestea sunt elaborate pentru prezentarea
indicatorilor statistici ai unitilor complexe investigate, ordonai din punct de
vedere cronologic, teritorial sau organizatoric;
- tabele utilizate n prelucrare. Acestea sunt instrumente
intermediare utilizate pentru parcurgerea unor algoritmi de calcul;
- tabele de prezentare a datelor statistice structurate pe
grupe/clase de variaie;
- tabele de contingen. Acestea sunt tabele cu dubl intrare de forma
tabelului 2.16.
O form particular a tabelului de contingen este tabelul de
asociere de tip 2 x 2 (tabelul 2.17). Acesta prezint repartiia unitilor dup
dou caracteristici alternative corelate ntre ele.

Tabelul 2.17.
Asocierea frecvenelor dup dou caracteristici alternative

Variantele alternative ale
caracteristicii y (ex.: profilul
societilor comerciale) Variantele alternative ale
caracteristicii x (ex.: mediul) y
1
(de ex.
PRODUCIE)
DA sau NU y
1
=1
y
2
(de ex.
COMER)
(NU sau y
2
=0)
Total
x
1
(DA sau x
1
=1)
(de ex. URBAN)
n
11
(=80.000) n
12
(=60.000) n
1'
(140.000)
x
2
(NU sau x
2
=0)
(de ex. RURAL)
n
21
=35.000 n
22
(=10.000) n
2'
(45.000)
Total n.
1
(=115.000) n.
2
(=70.000) n..(185.000)

- tabele statistice de prezentare a valorilor funciilor biometrice
sau a repartiiilor statistice teoretice. n aceast categorie ncadrm
tabelele de mortalitate, tabelele repartiiei binomiale, tabelele distribuiilor
Fisher, Student, Krustal-Wallis, Wilcoxon, Gauss-Laplace etc.;
64 Statistic general
Tabelele statistice, indiferent de tipul lor, de modalitatea lor de
elaborare (manual sau automat), conin una sau mai multe serii.
2.4.2. Serii statistice
Seriile statistice reprezint o alt modalitate de prezentare a datelor.
Seria statistic, ca rezultat al sistematizrii i/sau gruprii, definete
corespondena dintre dou iruri de date statistice n care primul
reprezint variaia caracteristicii urmrite, iar al doilea ir cuprinde
frecvenele de apariie a variantelor caracterisiticii. n forma cea mai
general o serie statistic cu o singur caracteristic se prezint astfel:

x
x
1
x
2
... x
r
n
1
n
2
... n
r
(2.16)
Unde: x
1
, x
2
, ..., x
n
sunt variante nregistrate pentru caracteristica x;
n
1
, n
2
, ..., n
r
sunt frecvenele de apariie ale variantelor
caracteristicii x.
Forma general a seriei statistice (2.16) impune unele observaii i
anume:
- seria trebuie s ofere informaii cu privire la succesiunea,
mrimea valorilor nregistrate i a frecvenelor corespunztoare;
- ntre cele dou iruri de date exist o legtur univoc, n sensul
c unei valori individuale oarecare i corespunde o anumit frecven,
respectiv un numr care arat de cte ori se repet valoarea individual
respectiv.
n funcie de natura caracteristicilor urmrite, seriile statistice sunt
clasificate n: serii de repartiie sau serii de distribuie; serii cronologice
(sau de timp); serii teritoriale (sau de spaiu) i serii descriptive sau
enumerative.
Seriile de repartiie (de distribuie) sunt elaborate atunci cnd
caracteristica urmrit este numeric (cantitativ).
Seriile cronologice (de timp sau dinamice) prezint evoluia n timp
a unui fenomen sau descrie un anumit proces. Forma general a unei serii
cronologice este prezentat n tabelul 2.18.

Capitolul II 65
Tabelul 2.18.

Variabila timp (t) Valorile caracteristice
A 1
0 y
0

1 y
1

2 y
2

,
,
,
,
,
,
t y
t

,
,
,
,
,
,
T y
r


Tabelul 2.19

Uniti teritoriale Valorile caracteristice (y)
A 1
A y
A

B y
B

,
,
,
,
,
,
I y
r

,
,
,
,
,
,
Z y
2


Seriile teritoriale (sau de spaiu) prezint variaia teritorial a
caracteristicii analizate. n aceste serii valorile caracteristicii se refer la
unitile teritoriale din care fac parte. n mod frecvent aceste serii se obin
dup criterii administrativ-teritoriale, ceea ce nseamn c n cadrul acestora
spaiul este variabil, iar timpul i structura organizatoric sunt considerate
fixe. Seriile teritoriale sunt reprezentate grafic cu ajutorul hrilor sau sub
form de cartograme sau cardiograme.
Seriile descriptive sau enumerative se prezint sub form de liste a
unitilor dup o anumit caracteristic.
Elaborarea seriilor i tabelelor statistice reprezint nu numai un
mijloc eficient de prezentare a datelor statistice dar i o operaie
premergtoare pentru reprezentarea grafic.
2.4.3. Grafica datelor statistice. Principii i reguli
de reprezentare grafic
Grafica statistic se utilizeaz n scopul vizualizrii mrimii i
variaiei independente i/sau interdependente a datelor, n scopul
66 Statistic general
popularizrii acestora sau pentru a facilita desfurarea unor operaii
de prelucrare, previziune i planificare. Elementele de grafic statistic se
aleg n funcie de specificul fenomenelor analizate, de relaiile dintre datele
care pot fi vizualizate. Deci, prin grafica statistic nu se ilustreaz att datele
n sine ct proporiile i rapoartele dintre date. Din aceast cauz se
apeleaz la lungimi, suprafee, i volume.
Reprezentrile grafice ale datelor statistice fac apel la figuri
geometrice, sisteme de coordonate, hri, desene figurale etc.
Trasarea corect a graficelor statistice se efectueaz pe baza unor
reguli care se refer att la coninut ct i la form. O parte din regulile
de elaborare a graficelor statistice sunt comune cu cele ale tabelelor, iar
altele sunt specifice. Astfel, pentru interpretarea complet i corect a
mesajului transmis de grafic este necesar ca acesta s aib: legend; reea i
scar de reprezentare; axele de coordonate explicite.
Legenda graficului explic n form sintetizat semnificaia
simbolurilor utilizate. Reeaua de reprezentare (de mai multe ori nu este
vizibil) este format dintr-o mulime de linii paralele orizontale i verticale
sau din cercuri concentrice, dup cum graficul este trasat: n coordonate
rectangulare sau n coordonate polare. n mod frecvent, n practica statistic
graficele sunt trasate n sistemul de coordonare rectangulare.
Pe axa OX a acestora se vor fixa variantele sau intervalele de
variaie ale caracteristicii independente, momentele sau intervalele de timp,
iar pe axa OY se vor fixa frecvenele, valorile caracteristicii a crei evoluie
este urmrit, valorile sau intervalele de variaie ale caracteristicii
dependente. Pentru a respecta proporiile din date este necesar ca pe cele
dou axe punctele s fie fixate la scar.
Principalele tipuri de grafice care se traseaz n acest sistem de axe
sunt urmtoarele: histograma, poligonul frecvenelor; curba cumulativ
de frecvene; diagramele prin benzi i coloane; cronograma (pentru
seriile cronologice); corelograma (pentru seriile interdependente) etc. O
parte din aceste grafice sunt trasate n cadrul acestui paragraf, iar restul n
cuprinsul lucrrii.
Exemplul 2.3. Societatea comercial "ANDREX" prezint n
trimestrul I 2000 i 2001 urmtoarele date referitoare la timpul de lucru:

Capitolul II 67
Tabelul 2.20
Indicatorii timpului de lucru la S.C. "ANDEX"

Indicatori
Trimestrul I
2000
Trimestrul I
2001
1. Fond de timp maxim disponibil din care:
2. Fond de timp efectiv lucrat
3. Fond de timp nelucrat
3.865.100
3.688.155
176.000
3.773.000
3.602.700
170.300

Mrimea fondului de timp lucrat din cele dou trimestre este
vizualizat n figura 2.3.
Fig. 2.3. Fondul de timp efectiv lucrat (ore-om) la S.C. "ANDREX"

Pentru sesizarea mai rapid a modificrilor din structura fondului de
timp maxim disponibil se traseaz diagrama de structur, ptratul de
structur sau cercul de strucutr.
n scop publicitar sau pentru popularizarea unor aspecte eseniale din
manifestarea unor fenomene se traseaz diagramele prin benzi i coloane,
figuri naturale etc.
O structurare a graficelor statistice (frecvent utilizate n practic),
dup natura caracteristicilor (variabilelor) analizate, permit identificarea
urmtoarelor categorii:
1. Reprezentri grafice ale seriilor de distribuie unidimensionale. Ele
se elaboreaz n coresponden cu natura variabilei atributive:
- n cazul variabilelor calitative sau cantitativ discrete se pot
elabora distribuii empirice de variante elaborate prin:
diagrama prin bare (batoane);
diagrama frecvenelor cumulate cresctor sau
descresctor dup variaia prdinelor de mrime ale
variantelor din serie.
3.865.155
ore-om
3.602.700
ore-om
Trim. I 2000 Trim. I 2001
68 Statistic general
- n cazul variabilelor continue, generndu-se serii de distribuie
(repartiie) de frecvene pe intervale, acestea pot fi vizualizate
prin:
histogram: n cazul intervalelor egale, ambele fiind
identice, nlimile dreptunghiurilor adiacente
corespunztoare sunt proporionale cu frecvenele
absolute sau relative; n cazul repartiiilor cu intervale
inegale, nlimile dreptunghiurilor sunt proporionale cu
frecvenele reduse calculate ca raport ntre frecvenele
absolute i mrimile intervalelor formate.
poligonul frecvenelor. Acesta, ca i histograma,
vizualizeaz densitile repartiiilor.
curba cumulativ (cresctoare sau descresctoare) a
frecvenelor. Aceasta vizualizeaz funcia de repartiie
analizat.
n demografie, prin piramida vrstelor (pe sexe) se
vizualizeaz distribuia populaiei dup vrst.
2. Reprezentarea grafic a seriilor de distribuie (repartiie)
bidimensionale. Constituite pe baza tabelelor de contingen, acestea
vizualizeaz densitatea distribuiei simultan a frecvenelor dup
variabilele numerice luate n studiu.
3. Reprezentri grafice ale mrimilor relative de structur (ponderilor
sau greutilor specifice). Acestea sunt vizualizate prin diagrama de
structur trasat cu ajutorul unor figuri geometrice: cercul,
dreptunghiul, ptratul, paralelipipedul etc.
4. Reprezentri grafice ale seriilor cronologice. Acestea se pot realiza:
- n coordonate rectangulare: cronograma (histograma);
diagrama prin coloane; diagrama prin coloane n aflux;
diagrama prin benzi.
- n coordonate polare (pentru vizualizarea oscilaiilor
periodice): diagrama sectorial; diagrama radial;
diagrama n spiral.
5. Reprezentri grafice ale seriilor teritoriale prin mijloace specifice
cum ar fi cartograma i cartodiagramele.
n prezent, programele informatice de tip STATGRAF ofer
mijloace eficiente de vizualizare a datelor statistice. Grija esenial care
trebuie avut n vedere este aceea a vizualizrii reale a proporiilor din
date.


Capitolul II 69
ntrebri de control
Ce se nelege prin prelucrare statistic primar i care sunt
principalele operaii implicate ?
Care sunt funciile operaiilor de structurare a datelor ?
Care sunt paii algoritmului de clasificare ierarhic ?
Care este obiectivul agregrii datelor statistice i prin ce metode se
realizeaz aceasta ?
Ce se nelege prin serie statistic teritorial i cum se reprezint ea
grafic ?
Ce se nelege prin serie cronologic i prin ce metode se reprezint
ea grafic ?
Firma VIM specializat n cercetri de pia a intervievat 1309
persoane pentru testarea preferinelor acestora fa de cteva posturi
de televiziune. Date nregistrate sunt sistematizate astfel:
Vrsta Numr persoane
Pn la 18 ani, total 494
Din care:
- Antena 1 89
- ProTV 211
- 7 abc 107
- Prima TV 87
19-29 ani, total 327
Din care:
- Antena 1 57
- ProTV 130
- 7 abc 81
- Prima TV 59
30-39 ani, total 91
Din care:
- Antena 1 38
- ProTV 29
- 7 abc 14
- Prima TV 10
40-49 ani, total 140
Din care:
- Antena 1 77
- ProTV 42
- 7 abc 11
70 Statistic general
- Prima TV 10
50-59 ani, total 136
Din care:
- Antena 1 63
- ProTV 28
- 7 abc 36
- Prima TV 9
60 ani i peste, total 121
Din care:
- Antena 1 59
- ProTV 30
- 7 abc 21
- Prima TV 11
Se cere:
- S se grupeze datele de mai sus i s se prezinte rezultatul ntr-
un total de contingen.
- S se vizualizeze datele de mai sus prin cele mai adecvate
metode.
Graficele statistice trasate n coordonate polare se utilizeaz n mod
curent pentru vizualizarea:
a) oricrei serii de date statistice;
b) seriilor de repartiie;
c) trendului (tendinei) din evoluia n timp a unui fenomen;
d) evoluia n timp a unui fenomen afectat de oscilaii sezoniere;
e) tendinei legturii dintre variabile i pentru alegerea modelelor
de regresie.
n reprezentrile grafice ale datelor statistice se utilizeaz:
a) n exclusivitate scara aritmetic;
b) n funcie de ordinul de mrime a datelor se utilizeaz dup caz scara
aritmetic, logaritmic, semilogaritmic, dublu logaritmic etc.;
c) n funcie de ordinul de mrime a datelor scala nominal,
ordinal de intervale, de rapoarte, continu sau discret;
d) orice scar, numai graficul s fie trasat ntr-un sistem de axe
rectangulare;
e) orice scar, numai graficul s fie trasat ntr-un sistem de axe polare.
Cartograma se folosete pentru a reprezenta grafic:
a) uniti statistice cu dou dimensiuni, ntotdeauna dup o
caracteristic;
b) uniti statistice cu dou dimensiuni, ntotdeauna dup mai
multe caracteristici;
Capitolul II 71
c) uniti statistice cu dou dimensiuni, niciodat dup mai multe
caracteristici;
d) uniti statistice cu dou dimensiuni, dup una sau mai multe
caracteristici;
e) cartograma nu este un grafic utilizat de statistic.
Dac n urma gruprii unui set de date pe intervale de variaie egale,
se obin frecvenele nule, atunci se recomand:
a) s se regrupeze datele dup o alt caracteristic;
b) se utilizeaz n continuare aceeai distribuie neinnd cont de
frecvenele nule;
c) se utilizeaz n continuare distribuia dac este doar o singur
frecven nul;
d) se regrupeaz datele, mrind numrul de intervale de variaie;
e) se regrupeaz datele mrind dimensiunea intervalului.
Formula lui Sturges se poate aplica pentru determinarea:
a) amplitudinii variaiei unei caracteristici;
b) valorii maxime dintr-un set de date;
c) valorii minime dintr-un set de date;
d) numrului de grupe;
e) numrului de caracteristici.
O serie de timp se reprezint grafic printr-o:
a) corelogram;
b) diagram de structur;
c) cronogram (historiogram);
d) cartogram;
e) cartodiagram.
Graficele statistice n coordonate polare se utilizeaz n mod curent
pentru vizualizarea:
a) oricrei serii de date statistice;
b) seriilor de repartiie;
c) evoluiei trendului din evoluia unui fenomen;
d) evoluiei unui fenomen afectat de oscilaii sezoniere;
e) tendinei legturii dintre variabile i alegerea modelului de
regresie.
Se cunosc urmtoarele date privind numrul de facturi ntocmite
de S.C. Anonimus S.R.L. n luna noiembrie 2000:
Data Nr. facturi Data Nr. facturi Data Nr. facturi
1 6 11 10 21 14
2 10 12 14 22 12
3 12 13 6 23 11
4 10 14 18 24 10
72 Statistic general
5 8 15 13 25 8
6 9 16 9 26 4
7 10 17 14 27 12
8 11 18 12 28 9
9 12 19 17 29 12
10 9 20 12 30 16

I II III
Grupe de
zile dup nr.
de facturi
Nr.
zile

Grupe de
zile dup nr.
de facturi
Nr.
zile

Grupe de
zile dup nr.
de facturi
Nr.
zile
0 5 1 0 5 1 0 6 55
6 11 13 6 10 16 7 14 90
11 15 13 11 15 10 15 22 103
15 20 3 16 20 3 23 30 82

IV V
Intervale ale
numrului
zilnic de
facturi
Nr. zile
Intervale ale
numrului de
facturi
Nr.
zile
(0 5] 1 [0 5) 1
(5 10] 13 [5 10) 9
(10 15] 13 [10 15) 17
(15 20] 3 [16 20) 3

Populaia statistic studiat este structurat i prezentat n:
a) Tabelul I;
b) Tabelul II;
c) Tabelul III;
d) Tabelul IV;
e) Tabelul V.
Histograma:
a) este un grafic specific seriilor cronologice;
b) reflect densitatea repartiiei statistice;
c) este un grafic de volum;
d) reflect forma repartiiei;
e) este similar cu diagrama prin coloane.

S-ar putea să vă placă și