Sunteți pe pagina 1din 34

Capitolul II

PRELUCRAREA PRIMAR A DATELOR


2.1. CONINUTUL PRELUCRRII DATELOR STATISTICE
O persoan pentru a exprima o aciune trebuie s aeze ntr-o form logic cuvintele n propoziii sau fraze. n mod analog, datele referitoare la indicatorii societilor comerciale dintr-un departament, la preurile i cantitile de mrfuri desfurate pe o pia etc. pentru a evidenia esena, regularitatea, din forma de manifestare a fenomenelor cercetate trebuie prelucrate, sistematizate, centralizate i grupate. Valorile individuale ale caracteristicilor nregistrate, n funcie de scopul analizei, prezint variaii mari de la o unitate la alta crend n mod aparent impresia c ele ar fi independente ntre ele. Din aceast cauz ansamblul datelor nregistrate nu permite cunoaterea esenei din forma de manifestare a fenomenelor investigate. Datele statistice nregistrate, printr-o modalitate de observare total sau parial, sunt utile n procesul de cunoatere i pregtire a deciziilor numai dac sunt supuse unor operaiuni de prelucrare. Prelucrarea, ca etap a cercetrii statistice, cuprinde operaii (de rafinare sau transformare) cu ajutorul crora se realizeaz trecerea de la datele individuale la indicatorii derivai, sintetici, care reflect esena din manifestarea fenomenelor. S presupunem c ntr-o colectivitate (populaie) s-au observat carateristicile x1, x2, ..., xm. De exemplu: cantitatea mrfurilor vndute; preul de pe pia al mrfurilor, valoarea adugat; profitul brut; numrul de angajai; volumul activelor fixe etc. Datele culese de la cele n uniti din colectivitatea investigat sunt sistematizate sub urmtoarea form:

40

Statistic general

Tabelul 2.1. Forma general de sistematizare a datelor statistice


i/j Unitile investigate ale colectivitii (populaiei) 1 2 : i : n Caracteristici statistice observate (X) x1 x11 x21 xi1 : xn1 x2 x12 x22 xi2 : xne2 xj x1j x2j xij : xnj xm x1m x2m xim : xnm

Forma matriceal a datelor sistematizate se caracterizeaz prin urmtoarele trsturi: - elementele fiecrei coloane j j = 1, m reprezint valorile caracteristicii ( ) xj nregistrate la toate cele n uniti. Datele x ij i=1,n sunt egale sau/i diferite ntre ele; - elementele fiecrei linii i i = 1, n reprezint valorile caracteristicilor

x j j = 1, m nregistrate la fiecare unitate i i = 1, n din colectivitatea investigat; ( ) - elementele matricei x ij i=1,n , j=1,m sunt nule i/sau nenule, pozitive i/sau negative; - mrimea matricei (m, n) depinde att de numrul caracteristicilor precizate n programul observrii ct i de numrul de uniti investigate. Pentru desprinderea aspectelor eseniale i stabile din manifestarea fenomenelor analizate datele statistice sistematizate trebuie s fie supuse unor operaii de prelucrare. Prelucrarea datelor statistice nregistrate poate fi primar sau secundar. Prelucrarea primar cuprinde operaii de clasificri, de grupri, de comparri, de prezentare sub form de tabele, grafice sau serii statistice. Prin efectuarea acestor operaii se realizeaz sintetizarea datelor individuale la nivelul grupelor sau claselor, se calculeaz indicatori absolui i/sau relativi, se prezint sintezele efectuate prin tabele, grafice sau serii statistice. Sintetizarea datelor individuale la nivelul grupelor sau claselor i apoi la nivelul colectivitii, este nsoit de o pierdere inevitabil de informaii, deoarece se elimin ceea ce este neesenial i ntmpltor. n acelai timp se ctig sub aspectul obinerii unei noi informaii, sintetice, care nu pot fi obinute direct din datele primare (structura colectivitii, tendina central etc.). Rezultatele operaiilor de prelucrare primar sunt elementele de intrare pentru prelucrarea secundar n urma creia se

Capitolul II

41

estimeaz valori tipice, omogenitatea i asimetria distribuiilor, intensitatea legturilor dintre fenomenul analizat i factorii si de influen etc. n cazul n care scopul cercetrii declanate necesit un volum mare de operaii, diverse, de prelucrare este necesar s se elaboreze, de la caz la caz, planuri de prelucrare informatic a datelor.

2.2. METODE DE STRUCTURARE A COLECTIVITILOR STATISTICE N FUNCIE DE UNA SAU MAI MULTE CARACTERISTICI
Obiectivele metodelor. Principalele metode prin care se realizeaz trecerea de la datele primare nregistrate la valorile tipice, sintetice, sunt metodele de structurare ale colectivitilor dup una sau mai multe caracteristici statistice i anume metode de clasificare i grupare. Obiectivul principal al metodelor de clasificare sau/i grupare l reprezint formarea de clase sau grupe de uniti omogene, din colectivitatea (populaia) investigat. Prin grup sau clas omogen nelegem acea grup sau clas n care sunt incluse acele uniti din colectivitate la care valorile individuale ale caracteristicii (lor) urmrit(e) prezint variaii (abateri) minime, explicate prin influena factorilor ntmpltori. Potrivit acestui obiectiv se poate spune c gruparea i clasificarea datelor statistice sunt subordonate scopului cercetrii i sunt declanate dup o analiz aprofundat a colectivitii investigate n vederea identificrii grupelor sau claselor calitativ distincte i omogene. n cazul n care nu se acord o importan deosebit operaii exist riscul de a se forma clase sau grupe care nu se deosebesc calitativ, iar cunoaterea obiectiv a aspectelor eseniale ar fi imposibil. Gruprile i clasificrile pot fi specifice fiecrei cercetri concrete sau pot avea un caracter permanent. Criteriile (caracteristicile) de clasificare sau grupare se aleg n funcie de scopul cercetrii astfel nct s conduc la structurarea colectivitii n grupe sau clase omogene. Cu ct complexitatea fenomenelor urmrite este mai mare, cu att mai mult este necesar gruparea unitilor din colectivitate (populaie) dup mai multe caracteristici aflate n relaii de interdependen obiectiv. Gruprile sau clasificrile, care pun n eviden tipuri de fenomene, sunt grupri sau clasificri tipologice i care de multe ori au un caracter permanent. De exemplu: clasificarea populaiei pe grupe de vrst; clasificarea societilor comerciale pe ramuri de activitate sau n profil teritorial etc.

42

Statistic general

2.2.1. Clasificarea statistic


Istoria statisticii consemneaz c nc din cele mai vechi timpuri s-a utilizat metoda clasificrii, un prim pas n cunoatere fiind omogenizarea materialului faptic (observat) pentru a evidenia asemnarea, tipicitatea straturilor (claselor) formelor individuale de manifestare ale fenomenelor de mas. n orice tiin clasificarea prezint o importan metodologic deosebit, deoarece faciliteaz trecerea de la masa amorf de date nregistrate la informaie. Acesta este i motivul pentru care astzi, cnd mijloacele informatice sunt extrem de permisive, asistm la o larg diversitate a tehnicilor de clasificare (sau de clusterizare). n esen, clasificarea ca metod statistic -, utilizat potrivit scopului cercetrii, presupune operaii complexe de sistematizare a unui ansamblu de uniti sau noiuni, pe baza caracteristicilor lor comune, n clase de uniti, a claselor de uniti n clase de clase de uniti .a.m.d., cu scopul ca fiecare clas astfel obinut s ocupe un loc precis i stabil ntr-o structur sau ierarhie. n cadrul operaiei de clasificare se disting: o obiectele (unitile) de clasificat; o criteriul (criteriile) dup care se efectueaz clasificarea; o clasele rezultate din operaii de clasificare. Operaiile de clasificare a ansamblului de uniti observate presupune respectarea anumitor cerine: o completitudine: fiecare unitate trebuie repartizat unei clase (clasificarea are n vedere ansamblul unitilor observate i nu las rest); o unicitatea: fiecare unitate aparine unei clase i numai una (clasele formate trebuie s fie, deci, disjuncte, adic nici o unitate nu poate fi repartizat simultan n mai multe clase); o omogenitatea: unitile care aparin aceleiai clase trebuie s fie asemntoare (diferenele dintre unitile care aparin aceleiai clase trebuie s fie minime); o organizarea ierarhic: pe fiecare nivel de clasificare criteriul trebuie s fie unic; trecerea de la un nivel la altul se realizeaz prin creterea gradului de generalitate al criteriului adoptat. Utilizarea metodei clasificrii, n principiu, presupune parcurgerea succesiv a dou etape: 1. Etapa I: n aceast etap se realizeaz o clasificare pe orizontal a ansamblului de uniti observate. Unitile sunt repartizate n clase (grupe) cu acelai grad de generalitate, dar (pe ct posibil) disjuncte.

Capitolul II

43

2. Etapa II: n aceast etap se realizeaz o ierarhizare pe vertical n ordinea generalitii, prin trecerea la operaii aplicate claselor obinute iniial, acestea sunt cointegrate n clase de clase sau, dimpotriv, sunt divizate n subclase mai compacte. n practica statistic, n clasificare se utilizeaz pentru structurarea unitilor populaiei statistice o gam larg de criterii. De exemplu, natura criteriului de clasificare conduce la distincia dintre clasificrile naturale (situaii n care criteriul este ales n mod obiectiv, n conformitate cu trsturile intrinseci ale unitilor observate) i clasificri artificiale (situaii n care unitile sunt repartizate dup criterii subiective, convenionale). Menionm n acest sens sistemele standardizate de clasificri i nomenclatoare utilizate n statistica public, i care cuprind, printre altele: clasificarea ramurilor din economia naional (CREN); clasificarea activitilor din economia naional (CAEN); clasificarea produselor i serviciilor asociate activitilor (CPSA); nomenclatorul profesiilor (NP); nomenclatorul indicatorilor economico-sociali (NIES) etc. 2.2.1.1. Clasificarea dup variabile calitative Aa cum rezult din cele prezentate anterior, clasificarea (stratificarea) reflect, ca orice form logic de reprezentare i abstractizare, o operaie de tip conceptual reprezentnd o anumit modalitate de a distinge unitile populaiei statistice prin divizarea lor dup caracteristici comune n submulimi (clase sau grupe) relativ omogene. Obiectivul urmrit prin aceast operaie este acela de a identifica straturi tipice n structura populaiei, de a obine indicatori generalizatori, difereniai pe clase, necesari pentru analiza statistic. Cazul cel mai simplu este acela n care dup o anumit variabil calitativ A, unitile populaiei se separ prin dichotomie n dou clase complementare: o clasa unitilor de tip U1 care posed modalitatea direct de exprimare a variabilei; o clasa unitilor de tip non-U1 (sau U 1 ) care nu posed modalitatea direct de exprimare a variabilei U1 (modalitatea direct fiind absent). Cazul prezentat ar putea sugera faptul c operaia de clasificare s-ar putea rezuma la numrarea i ordonarea unitilor posesoare sau nonposesoare de caracteristici calitative. Dimpotriv, problematica nu este simpl deoarece pentru maximizarea cantitii de informaie necesar cunoaterii suntem nclinai s formm clase i subclase compacte cu grade diferite de omogenitate, s structurm populaia dup mai multe

44

Statistic general

variabile calitative. De exemplu, dac analizm trei variabile calitative U1, U2, U3 se vor identifica urmtoarele tipuri de clase: o clase de ordinul unu de uniti la care este prezena caracteristicii specificate simbolizate prin U1, U2, U3; o clase de ordinul unu de uniti la care este absent caracteristica specificat simbolizate prin U 1 , U 2 , U 3 ; o clase de ordinul 2 (tip mixtur) n care apar combinaii ale posesiei i/sau absenei caracteristicii - simbolizat prin
U1 U 2 ; U1 U 2 ; U1 U 2 ; U1 U 2 ; U1 U 3 ; U1 U 3 ; U1 U 3 ; U1 U 3 ; U 2 U 3 ; U 2 U 3 ; U 2 U 3 ; U 2 U 3

o clase de ordinul trei de tipul U 1 U 2 U 3 ; U 1 U 2 U 3 ; U 1 U 2 U 3 ... Numrul absolut de cazuri observate i incluse ntr-o grup (clas) se numete frecven de grup (clas) i se va nota prin acelai simbol dar inclus n paranteze rotunde. De exemplu: U 1 U 2 U 3 este clasa de ordinul 3, iar ( U 1 U 2 U 3 ) numrul de uniti posesoare simultan de U1, U2, U3 sau frecvena clasei specificate de ordinul 3. Generaliznd, se poate spune c n cazul a n variabile calitative se pot forma grupe de ordinul r (cu r n ) cu frecven absolut corespunztoare numit frecven de grup de ordinul r. Mai mult, se poate demonstra c dac numrului total de uniti din populaia N i se atribuie, n mod convenional, ordinul zero, atunci exist un numr de 3n frecvene de grup de diferite ordine. Exemplificm aceast afirmaie n tabelul 2.2. Tabel 2.2. Frecvene de grup a unei populaii formate din N uniti descris prin patru caracteristici calitative (U1, U2, U3, U4)
Ordinul r al grupei de uniti r = 0,4 0 1

Frecvene de grup de ordinul r r = 0,4 ; n = 1,4 N (U1) (U2) (U3) (U4) (U1 ) (U 2 ) (U 3 ) (U 4 )
(U1 U 2 ) (U1 U 3 ) (U1 U 4 ) (U 2 U 3 ) (U 2 U 4 ) (U 3 U 4 )
(U1 U 2 ) (U1 U 3 ) (U1 U 4 ) (U 2 U 3 ) (U 2 U 4 ) (U 3 U 4 )

(U1 U 2 ) (U1 U 3 ) (U1 U 4 ) (U 2 U 3 ) (U 2 U 4 ) (U 3 U 4 ) (U1 U 2 ) (U1 U 3 ) (U1 U 4 ) (U 2 U 3 ) (U 2 U 4 ) (U 3 U 4 )

Capitolul II
(U1 U 2 U 3 ) (U1 U 2 U 4 ) (U1 U 3 U 4 ) (U 2 U 3 U 4 )
(U1 U 2 U 3 ) (U1 U 2 U 4 ) (U1 U 3 U 4 ) (U 2 U 3 U 4 )

45

(U1 U 2 U 3 ) (U1 U 2 U 4 ) (U1 U 3 U 4 ) (U 2 U 3 U 4 )

(U1 U 2 U 3 ) (U1 U 2 U 4 ) (U1 U 3 U 4 ) (U 2 U 3 U 4 )


(U1 U 2 U 3 ) (U1 U 2 U 4 ) (U1 U 3 U 4 ) (U 2 U 3 U 4 )

(U1 U 2 U 3 ) (U1 U 2 U 4 ) (U1 U 3 U 4 ) (U 2 U 3 U 4 ) (U1 U 2 U 3 ) (U1 U 2 U 4 ) (U1 U 3 U 4 ) (U 2 U 3 U 4 )


(U1 U 2 U 3 ) (U1 U 2 U 4 ) (U1 U 3 U 4 ) (U 2 U 3 U 4 )

(U1 U 2 U 3 U 4 ) (U1 U 2 U 3 U 4 )
(U1 U 2 U 3 U 4 ) (U1 U 2 U 3 U 4 )

(U1 U 2 U 3 U 4 ) (U1 U 2 U 3 U 4 )

(U1 U 2 U 3 U 4 ) (U1 U 2 U 3 U 4 )
(U1 U 2 U 3 U 4 ) (U1 U 2 U 3 U 4 )

(U1 U 2 U 3 U 4 ) (U1 U 2 U 3 U 4 ) (U1 U 2 U 3 U 4 ) (U1 U 2 U 3 U 4 )


(U1 U 2 U 3 U 4 ) (U1 U 2 U 3 U 4 )

Analiznd datele din tabelul anterior observm urmtoarele: o Suma frecvenelor de grup este 81 = 34 = N. o Frecvenele de grup nu sunt independente ci sunt legate ntre ele prin anumite relaii. De exemplu: N = (U1 ) + (U 2 ) {

(U1 ) = (U1 U 2 ) + (U1 U 2 ) 1 4 2 4 3

(U1 U 2 ) = (U1 U 2 U 3 ) + (U1 U 2 U 3 ) M Prin urmare, fiecare frecven de grup poate fi exprimat cu ajutorul de ordin imediat mai nalt. Mai mult, orice frecven de grup se poate exprima cu ajutorul frecvenelor de ordinul cel mai nalt. o Frecvenele de grup, corespunztoare grupelor specificate prin toate caracteristicile considerate numite i frecvene de grup finale sunt n numr de 2n. n exemplul anterior exist 24 = 16 frecvene de grup finale.

46

Statistic general

o Populaia statistic investigat este definit n mod unic printr+o serie de frecvene de grup care ndeplinete urmtoarele condiii: numrul elementelor sale este 2n i elementele sale sunt independente ntre ele. O astfel de serie de frecvene de grup se numete serie fundamental (unidimensional). o Operaia de dichotomizare a populaiei statistice dup un numr mai mare de trei sau patru caracteristici calitative devine greoaie. n activitatea practic, n cazul n care suntem n posesia anumitor frecvene de grup se putea opera cu ele astfel nct s se determine mai nti grupele finale, iar apoi, pe baza lor, se vor exprima diferite frecvene de grup a cror cunoatere este necesar. O observare statistic riguros organizat, urmat de prelucrri i grupri corespunztoare fiind vizat una i aceeai populaie ofer frecvene de grup ce nu se contrazic n nici un fel. Se spune despre asemenea date c asigur condiia de concordan. Aceast condiie este aceea ca frecvenele de grup finale s fie nenegative. Lipsa acestei condiii, lipsa de concordan a datelor privind frecvenele de grup ne sugereaz faptul c n procesul de observare au existat erori (lipsa concordanei n timp i spaiu; folosirea diferitelor surse i materiale de informare etc.). Aceast condiie de concordan a informaiei privind sistemul de grupri este important i din alte motive: 1. Ea sugereaz i metoda cu ajutorul creia se poate verifica ntr-un ansamblu de frecvene de grup, nsi concordana. De exemplu, dac se cunosc doar frecvenele de grup finale pozitive (obinute prin excluderea din simbol a celor care sunt de tip non) pe baza acestora pot fi determinate frecvene de grup nedeterminate, atunci cnd seriile de date sunt incomplete. Deci, atunci cu siguran seria este concordant. 2. O consecin important a acestei condiii de concordan faciliteaz aflarea probabilitii ca alegnd la ntmplare o unitate sau un grup de uniti dintr-o populaie statistic aceasta sa prezinte anumite modaliti ale unor caracteristici calitative. 3. Pe baza condiiei de concordan se poate determina numrul minim de uniti la care s-a nregistrat prezena simultan a caracteristicilor calitative

Capitolul II

47

U1,U2,,Um i acesta este dat de inegalitatea:


( U1 U 2 ...U m ) ( U1 ) + ( U 2 ) + ... + ( U m ) (m 1) N (2.1)

Pentru exemplificarea acestei observaii prezentm urmtoarea aplicaie. Presupunem o serie de studeni (N = 100), ntr-o sesiune de examene, la urmtoarele examene: analiz matematic, statistic i informatic. La sfritul sesiunii au promovat 89% (U1) la analiz, 91% (U2) la statistic i 92% (U3) la informatic. Numrul minim de integraliti este dat de inegalitatea ( U 1 U 2 U 3 ) ( U 1 ) + ( U 2 ) + ( U 3 ) (3 1)100 ( U 1 U 2 U 3 ) 72 ceea ce nseamn c cel puin 72% din studenii care au susinut examenele precizate sunt integraliti. Clasificri complexe. Dup cum s-a observat din cele prezentate, dac sunt luate n considerare dou variabile calitative, fiecare dintre ele genereaz prin simpla dichotomie dou subclase complementare. n realitate, de cele mai multe ori variabila calitativ poate avea un numr mare i diferit de variante (modaliti). De exemplu, populaia se divizeaz dup variabila U1 n k grupe (clase) U11, U12, , U1k, fiecare din cele k clase se subdivid n l grupe dup variabila U2 i avem U21, U22, , U2l, apoi n mod similar dup factorul U3 .a.m.d. se formeaz n final grupe (clase) complexe (cu complexitate diferit). n categoria clasificrilor complexe, un loc aparte l ocup clasificrile (gruprile) multiple. Pentru realizarea acestora lum n considerare variabilele calitative U1 i U2; variabila U1 conduce la frecvene de grup ( U 1i ) i =1,k , iar variabila U2 conduce la frecvene de grup ( U 2 j ) j=1,l . Rezult, deci, c vor exista i grupe (clase) combinate de tipul ( U 1i U 2 j ) , cu i = 1, k, j = 1, l , care sunt n numr de k x l. Datele obinute sunt sistematizate i prezentate n urmtoarea form tabelar (tabelul nr. 2.3):
Tabel 2.3

U21 U2j U2l Total

U11 (U11 U21) (U11 U2j) (U11 U2l) (U11)

U12 (U12 U21) (U12 U2j) (U12 U2l) (U12)

U1i (U1i U21) (U1i U2j) (U1i U2l) (U1i)

U1k (U1k U21) (U1k U2j) (U1k U2l) (U1k)

Total (U21) (U2j) (U2l) N

Analiznd forma tabelar anterioar se observ urmtoarele:

48

Statistic general

1. (U1i U2j) reprezint numrul de uniti din populaie simultan prezint att prezena modalitii U1i ct i prezena modalitii U2j. 2. Tabelul prezentat se numete tabel de contingen de tip k xl i este nzestrat cu urmtoarele proprieti: a. Suma frecvenelor de grup din coloana i reprezint totalul unitilor din clasa U1i la care s-a nregistrat prezena modalitii U1i indiferent de variantele nregistrate ale variabilei U2. Deci, pe coloane rnduri
k

( U1i U 2 j ) = ( U1i ), i = 1, k i analog pe


j=1

( U1i U 2 j ) = ( U 2 j ), j = 1, l (2.2) .
i =1

b. Sumele frecvenelor de grup ( U 1i ), i = 1, k i ( U 2 j ), j = 1, l sunt egale


k i =1

ntre
l j=1

ele

egale (2.3)

cu

volumul

populaiei

( U1i ) = ( U 2 j ) = N

c. Exist un numr de k x l grupe finale, iar numrul lor total (inclusiv N) este (k+1) x (l+1). d. Frecvenele de grup finale de tipul ( U 1i ), ( U 2 j ), ( U 1i U 2 j ) pentru orice i = 1, k, j = 1, l definesc complet datele unui tabel de contingen (de tip k x l). n cazul omisiunilor de nregistrare a datelor este posibil s se stabileasc limitele ntre care se vor ncadra frecvenele de grup necunoscute. e. Datele dintr-un astfel de tabel de contingen sunt concordante dac lipsesc frecvenele negative aceasta fiind o condiie necesar i suficient. f. Problematica analizat ntr-un tabel de contingen de tip k x l nu difer de cea din categoria tabelelor dichotomice de tip 2 x 2. n esen, aceasta poate fi structurat n dou categorii: O problem de ordin general, deseori pus n practic I. (ea va fi tratat pe larg n capitolul consacrat analizei dependenelor statistice), se refer la msura n care variabila U1 este n ansamblul populaiei dependent de variabila U2 i care ar fi intensitatea acestei dependene. Pentru aceasta se vor utiliza coeficienii de contingen total, care sintetizeaz natura general (global) a dependenei. O a doua mare problem care intereseaz (teoretic i II. practic) se refer la asocierile pariale dintre

Capitolul II

49

diferitele variante (modaliti) ale factorilor studiai. Acest caz solicit o analiz de detaliu: prin transformri succesive dimensiunea tabelului iniial (k x l) se reduce, iar apoi cu tabelele de tip 2x2 se urmresc diferite asocieri la nivelul claselor (ptratelor sau celulelor) elementare (compacte) adiacente sau al grupelor de cte patru, cinci, frecvene (cnd proprietile tabelului initial fac posibile asemenea operaii). Se va putea stfel constata (i demonstra matematic) c aceste proprieti sunt satisfcute doar de tabelele de contingen izotropice1 i care vor fi studiate la capitolul dedicat regresiei i corelaiei. n acest context precizm doar faptul c una din proprietile izotropiei n tabelele de contingen amintite se refer la satisfacerea egalitilor (pentru orice i = 1, k i j = 1, l ) de tipul ( U 1i )( U 2 j ) ( U 1i U 2 j ) = (2.4) , ceea ce ar sugera o N independen total ntre U1 i U2. Dup cum s-a artat, gruprile multiple, clasificrile multiple s-au format n tabele de contingen dup ce populaia statistic a fost divizat n k clase U11,U12,,U1k (dup factorul U1), iar fiecare din aceste clase n continuare au fost divizate (dup U2) n l clase: U21,U22,,U2l. Clasificrile (gruprile) multiple complementare se obin n mod evident i prin luarea n considerare a absenei modalitii non-U1 (sau U 1 ) n combinaie cu non-U2 (sau U 2 ). n ambele situaii, principiul clasificrii (gruprii) este identic i anume omogenitatea claselor compacte formate. Numai n virtutea acestui principiu clasificrile multiple conduc la informaii comparabile n timp, spaiu i din punct de vedere organizatoric, la aprofundarea analizelor de asociere i contingen. Aceste precizri sunt utile pentru cteva observaii concluzive referitoare la metodologia statistic a clasificrilor multiple: 1. Centralizarea, clasificarea multipl i, apoi, prelucrarea datelor statistice necesit operaii greoaie dac nu se face apel la mijloace informatice corespunztoare (absena acestora poate
Noiunea de izotropie provine din fizic i se refer la nsuirea unei substane de a avea proprieti identice cu altele, indiferent de timpul i spaiul n care ele sunt msurate. n statistic, izotropia n sensul amintit se refer la nsuirea unor grupri multiple de a avea asocieri de acelai semn n fiecare ptrat elementar.
1

50

Statistic general

2.

3.

4.

5.

afecta direct omogenitatea i compatibilitatea n ansamblul datelor culese). O clasificare multipl poate fi privit ca o succesiune de dichotomii. La fiecare partiionare, o unitate poate fi inclus n una din alternativele U1 sau U 1 , U2 sau U 2 i combinaii ale acestora. Dac datele provin dintr-un sondaj statistic, problematica expus (prin implicaiile ei) capt dimensiuni exprimate n termeni de estimaii i care se va trata n capitolul 3. Cea mai important clasificare de tip omogen a unitilor populaiei statistice este prin care toate aceste uniti se distribuie dup o singur stare a variabilei calitative studiate. Aceasta conduce la un tip de clasificare (clusterizare) ierarhic. Deseori se ntlnesc clasificri multiple prezentate n tabele de contingen aparent neizotropice. n practic, ns, printr-o rearanjare convenabil (scopului) a unor coloane sau rnduri din tabele studiate se pot obine tabele transformate cu proprieti de izotropie; acestea pot, apoi, s fie reduse la tabele de tip 2x2 fr s existe riscul obinerii unor asocieri cu semne diferite. Din motive practice, n metodologia prezentat se pot utiliza simultan nu numai variabile msurabile de pe scala nominal ci i combinaii de tipul una pe scala nominal i alta (celelalte) pe scala fie ordinal, fie de interval, fie de raport. Cert este c una din aceste combinaii trebuie s cuprind o variabil nominal (cu una sau mai multe modaliti de exprimare).

2.2.1.2. Clasificarea ierarhic


Obiectivul clasificrii automatice l reprezint n colectivitatea statistic investigat a unor clase (familii) de uniti omogene un anumit criteriu. Pentru efectuarea unor clasificri automate pe un anumit ansamblu n de uniti este necesar s definim o distan sau mai general o msur a "asemnrii" ntre unitile clasificate. Exist mai multe metode de clasificare automate: partiionarea; partiionarea n clase, n care unitile colectivitii pot s aparin simultan mai multor clase; clasificarea ierarhic etc. Pentru efectuarea unei clasificri ierarhice a celor n uniti dintr-o colectivitate dup o anumit caracteristic x, respectiv a datelor {x1, x2,...,xn} este necesar s definim o "distan" pentru a obine tabelul distanelor dintre

Capitolul II

51

uniti; n acelai mod se determin i distanele dintre subclasele colectivitii investigate. n cadrul clasificrii ierarhice un loc aparte l ocup metodele "aglomerative". Acestea sunt sintetizate n urmtorul algoritm: 1. Identificarea perechilor (xi, xj) ntre care distana care le separ s fie cea mai mic; 2. Agregarea perechilor (xi, xj) ntr-o singur clas i elaborarea unui nou tabel al distanelor. Acest ultim tabel se formeaz suprimnd liniile i colonele xi i xj i nlocuindu-le cu liniile i coloanele relative de la clasa . Deci, noul tabel al distanelor va avea mai puin o linie i o coloan. 3. Se repet cele dou operaii pn la obinerea de clase omogene sau pn la agregarea unitilor colectivitii ntr-o singur clas. n funcie de distanele dintre unitile unei clase formate i celelalte elemente exist mai multe metode de clasificare i anume: metoda simplei nlnuiri i metoda nlnuirii complete. Metoda simplei nlnuiri este o metod de clasificare ierarhic care presupune utilizarea distanelor euclidiene pentru elaborarea tabelului cu distane, sau a distanei ntre dou cele mai apropiate uniti (distana minim). n cazul metodei nlnuirii complete se ia n considerare distana euclidian ntre dou elemente cele mai ndeprtate (distana maxim). ntre cele dou metode exist, deci, diferena c una ia n considerare distana minim, iar alta distana maxim. Fie x1, x2, ..., xn valorile individuale ale caracteristicii x urmrite la cele n uniti din colectivitatea investigat i pentru care se elaboreaz un tabel la distanele dintre valorile individuale respective. Acest tabel poate avea urmtoarea form: Tabelul 2.4. Tabelul distanelor d(x1, x2) d(x1, x3) d(x2, x3) d(x1, xn) d(x2, xn) : d(xn-1, xn)

Unde: d(xi, xj) este distana euclidian ntre xi i xj (pentru i < j cu valori de la 1 la n); Algoritmul metodei simplei nlnuiri presupune parcurgerea urmtorilor pai: - se caut distana minim d(xi, xj) cu i < j; - elementele xi i xj sunt agregate ntr-o nou grup C k = x i 4 x j ;

52

Statistic general

- ansamblul de uniti din colectivitatea statistic investigat este partiionat n: {x1}, ..., {xi-1}, ..., {xj-1}, {xj+1}, ..., {xn}; - se elaboreaz un nou tabel al distanelor prin suprimarea liniilor i coloanelor corespunztoare xi i xj i adugnd o linie i o coloan reprezentnd distanele dintre xm i Ck, m = 1, 2, ..., n, m ! i i m ! j, aflate cu relaia (2.5). d(C k , x m ) = min{d(x i , x m ); d (x j , x m )} (2.5) n cazul cel mai general distana dintre cele dou calse sau grupe este calculat dup relaia (2.6). d(C k , C m ) = min{d(x i , x j ) cu x i c C k {x j c C m } (2.6) Relaia (2.6) se aplic n cazul n care grupele/clasele sunt formate din unul sau dou uniti. regruparea datelor se vizualizeaz prin grafice specifice cum ar fi de exemplu diagramele, pe axa absciselor a acestora se reprezint distanele care separ clasele/grupele de uniti. Din algoritmul prezentat trebuie s precizm faptul c o clasificare automat a unitilor unei colectiviti nu conduce la cea mai bun structur a colectivitii, dar ea este mult mai real dect clarificarea efectuat dup criterii (variabile) considerate de cercettor ca fiind reprezentative.
Aplicaia 2.1. Ilustrm metoda simplei nlnuiri de clasificare pe baza cifrelor de afaceri (mild. lei) nregistrate de cinci societi comerciale A, B, C, D, E cu profil asemntor, n patru judee: Constana, Galai, Ialomia. Datele (convenionale) sunt prezentate n tabelul urmtor: Tabelul 2.5. (mild. lei)
Judeul Constana 5,0 5,5 4,5 4,0 4,0 Judeul Galai 3,5 4,0 4,5 5,5 4,5 Judeul Brila 4,0 5,0 4,0 3,5 3,0 Judeul Ialomia 4,5 4,5 3,5 4,0 3,5

A B C D E

Pe baza datelor din tabelul 2.5 se calculeaz distanele euclidiene dup relaia:
d ij = d ( x i , x j ) =

( x i x j ) 2 , cu i, j = 1, n
i =1

(2.7)

Capitolul II

53

Se obine astfel tabelul distanelor euclidiene ntre societile comerciale (tabelul 2.6).
Tabelul 2.6.
A B C D E A 1,22 0 1,80 2,65 2,74 B 1,50 1,80 0 1,32 1,12 C 1,50 1,80 0 1,32 1,12 D 2,35 2,65 1,32 0 1,22 E 2,00 2,74 1,12 1,22 0

Tabelul (2.6) distanelor euclidiene evideniaz disimilitatea dintre uniti. Din tabelul precedent se ia n considerare jumtatea superioar a tabelului simetric, adic tabelul 2.7.
Tabelul 2.7.
A B C D B 1,22 C 1,50 1,80 D 2,35 2,65 1,32 E 2,00 2,74 1,12 1,22

Se observ c distana minim de 1,12 ntre C i E; Aceasta nseamn c o prim clas/grup se poate forma ntre C i E. Se calculeaz, de exemplu, distana dintre C i E, pe de o parte, i dintre C i A, pe de alt parte, i se ia n considerare distana minim dintre C i A i dintre E i A. Aceasta nseamn: d({C, E,}, E) = min {d(C, A), d(E, A)} = min {1, 5, 2} = 1, 5 Analog d({C, E,}, B) = min {d(C, B), d(E, B)} = min {1, 80, 2,74} = 1, 8 i d({C, E,},D) = min {d(C, D), d(E, D)} = min {1, 32, 1, 22} = 1, 22 Noul tabel al distanelor are forma urmtoare (tabelul 2.8).
Tabelul 2.8.
A B C i E B 1,22 C i E 1,50 1,80 D 2,35 2,65 1,22

54

Statistic general

Distana minim prezentat n datele tabelului 2.6 este 1,22, ntre A i B (aceeai minim distan exist ntre grupul C i E pe de o parte i D pe de alt parte); se regrupeaz, deci, n primul rnd societile comerciale A i B i se reface noul tabel al distanelor, utiliznd datele din tabelul 2.8. Se determin: D({A, B},{C, E}) = min {d(A, {C, E}), d(B, {C, E})}= min {1,5, 1,8} = 1,5 i analog d({A, B},D) = min {d(A,D), d(B, D) = min {2,35, 2,65} = 2,35 Noul tabel al distanelor este urmtorul:
Tabelul 2.9.
A i B C i E C i E 1,5 D 2,35 1,22

Din tabelul precedent se observ c D, trebuie s fie integrat la grupul format de societile C i E. Noua distan va fi: d({(C, E),D},{A, B,}) = min {d({C, E}), A, B}}; d(D, {A, B}) = min {1,5, 2,35} = 1,50. Se obine astfel, urmtorul tabel al distanelor (tabelul (2.10)).
Tabelul 2.8.
C, E i D A i B 1,50

n final se observ dou grupe/clase: A i B i C, E i D care sunt difereniate prin distana de 1,50. Dendograma care se obine prin agregri succesive este prezentat n fig. 2.1.
A B C D

E
0

2 distana

Fig 2.1. Clasificarea simplu nlnuit a celor cinci societi comerciale

Capitolul II

55

Un alt exemplu de clasificare ierarhic dup acelai criteriu prezentat anterior este urmtorul.
1 2 3 4 5 1 2 3 4 5 0 4 9 5 8 4 0 6 3 6 9 6 0 6 3 5 3 6 0 5 8 6 3 5 0 Aglomerarea (agregarea) 2 i 4 la disimilaritatea 3 1 2U4 3 5 1 0 4 9 8 2U4 4 0 6 5 3 9 6 0 3 5 8 5 03 0

Aglomerarea (agregarea) 3 i 5 la disimilaritatea 3

1 2U4 3U5

1 2U4 3U5 0 4 8 4 0 5 8 5 0 Aglomerare 1 i 2U4 la disimilaritatea 4

1U2U4 3U5 1U2U4 0 5 3U5 5 0 Aglomerare final 1U2U4 i 3U5 la disimilaritatea 5

Rezultatul dendogramei
4 3 2 1 0 Ranguri de nivel 5 4 3 3 0

Criteriul valorilor

Figura 2.2. Exemplu de construcie a unei dendograme

2.2.2. Gruparea datelor statistice


Realizarea scopului cercetrii statistice necesit elaborarea nu numai de clasificri dar i de grupri simple i/sau combinate, dup uan sau mai multe caracteristici numerice cuprinse n programul de observare. Caracteristicile numerice de grupare pot fi cu variaie discret i/sau cu variaie continu. n funcie de variaia caracteristicii urmrite gruprile pot fi efectuate pe variante i/sau pe intervale de variaie.

56

Statistic general

n cazul n care caracteristica urmrit prezint un numr redus de variante, n mod evident, se recomand gruparea pe variante (tabelul 2.12). Aceast operaiune de prelucrare const n identificarea prin numrare a unitilor (frecvenelor) la care se nregistreaz aceeai variant a caracteristicii. Exemplul 2.1. La finalul lanului de asamblare a aspiratoarelor se preleveaz un eantion de 20 aparate. n urma controlului tehnic de calitate s-a constatat numrul de piese care prezint o defeciune, la fiecare aparat prelevat. Datele nregistrate sunt urmtoarele:
Tabelul 2.11.
0 0 1 1 Numrul de piese care prezint o defeciune minor 1 0 2 1 2 0 0 1 3 2 1 0 0 0 0 0

n urma gruprii datelor pe variante (tabelul 2.12) se obine urmtoarea distan de frecvene:
Tabelul 2.12. Distribuia aparatelor dup numrul pieselor defecte
Numrul de piese defecte 0 1 2 3 Total Numr de aparate 10 6 3 1 20

Gruparea datelor pe intervale de variaie se utilizeaz atunci cnd caracteristica numeric urmrit prezint un numr mare de valori individuale (exemplul 2.2.). Exemplu 2.2. Din fiierul informatic "fora de munc" al Societii Comerciale "GRUPO" se extrag urmtoarele date referitoare la caracteristica "vechime n munc" (ani).

Capitolul II

57

Tabelul 2.13.
9,4 8,3 11,0 11,2 16,3 13,8 8,4 8,0 12,2 11,0 11,2 10,3 Vechimea n munc a personalului (ani) 12,0 16,3 11,9 16,8 9,8 7,0 9,5 12,1 11,0 14,1 13,1 7,1 14,0 9,4 10,2 13,4 7,3 14,6 11,4 15,4 12,5 10,5 10,0 11,9 11,1 12,8 10,6 10,5 15,0 10,2 9,8 12,4 11,4 10,4 8,2 9,3 11,5 12,6 11,1 13,2 13,1 11,6 12,6 12,1 10,3 15,6 12,0 9,4

Pentru structurarea colectivitii, pentru evidenierea grupelor (straturilor) tipice din colectivitate, se pot forma grupri pe intervale egale de variaie sau pe intervale neegale. Gruparea datelor pe intervale de variaie necesit stabilirea numrului de grupe i a mrimii intervalelor. Nu exist o regul general valabil de determinare a numrului de grupe care trebuie s se formeze. Cu toate acestea, alegerea numrului de grupe nu se face mecanic, ci presupune cunoaterea variaiei caracteristicii numerice, elaborarea mai multor variante de grupe pn se ajunge la soluia cea mai potrivit, conform cu forma concret de manifestare a fenomenului urmrit. Scopul operaiei de grupare necesit formarea unui numr de grupe care s nu fie nici prea mare, dar nici prea mic. Cert este faptul c numrul de grupe (r) trebuie s fie direct proporional cu amplitudinea variaiei (A) (2.8.). (2.8) A = xmax - xmin = 16,8 - 7,0 = 9,8 ani Unde: xmin = min {x1, x2, ..., x60} = 7,0 ani i xmax = max {x1, x2, ..., x60} = 16,8 ani La variaia valorilor individuale prezentate n tabelul 2.11 caracterizat printr-o amplitudine de 9,8 ani se pot forma 7 grupe. Pe baza amplitudinii i a numrului de grupe se determin mrimea intervalelor de variaie (h) dup relaia 2.9. 9,8 ani x max x min 7 = 1, 5 ani h= A r = r (2.9) n literatura de specialitate se recomand, n ipoteza repartiiei aproximativ normale a unitilor colectivitii dup caracteristica urmrit, utilizarea relaiei lui Sturges (2.10) pentru determinarea mrimii intervalelor de variaie. x max x min h = 1 +3,322 log10 n (2.10) Dup determinarea mrimii intervalelor de variaie este necesar s se determine limitele inferioare i superioare ale intervalelor de grupare. Stabilirea limitelor se poate face astfel:

58

Statistic general

- limita superioar a fiecrui interval s se preia ca limit inferioar a intervalului urmtor. n felul acesta se obin intervale cu limit repetabil (2.11). sup x i xiinf +1 , i = 1, r 1 (2.11) - limitele inferioare i superioare ale intervalelor de grupare distincte, difereniate printr-o unitate (2.12). sup + 1; i = 1, r 1 x inf i+1 + x i (2.12) Adoptnd prima variant (2.11) pentru datele din tabelul (2.13) se determin intervalele de grupare care sunt prezentate n coloana 1 a tabelului 2.14.
Tabelul 2.14. Distribuia personalului Societii Comerciale "GRUPO" dup vechime
Grupe de persoane dup vechime (ani) ncadrarea persoanelor pe Numr de persoane intervale de vechime 1 /// ///// /// ///// ///// // ///// ///// ///// //// ///// //// ///// //// 2 3 8 12 19 9 5 4 60

x iin f
0

[ xi <

sup xi

6, 5 [ x < 8, 0 8, 0 [ x < 9, 5 9, 5 [ x < 11, 0 11,0 x <12,0 12, 5 [ x < 14, 0 14, 0 [ x < 15, 5 15, 5 [ x < 17
TOTAL

n coloana 2 a tabelului 2.14 este centrat numrul de persoane care au vechime cuprins ntr-un anumit interval, sau frecvena de apariie a intervalului respectiv. La repartizarea amplitudinii variaiei pe intervale de grupare trebuie s se in seama de urmtoarele recomandri: - limitele de interval s se exprime prin numere ntregi; - s se formeze un astfel de numr de intervale de grupare pentru a se obine informaii, suficient de analitice, n vederea caracterizrii colectivitii;

Capitolul II

59

- intervalele de grupare formate trebuie s permit, la nevoie, regruparea datelor fr s se reia operaia de grupare sau de divizare a intervalelor; - fiecare interval de grupare trebuie s cuprind un numr suficient de mare de valori individuale care s faciliteze analiza statistic a frecvenelor. n cazul n care se urmrete structura colectivitii (populaiei) simultan dup dou sau mai multe caracteristici numerice, sau n cazul n care se urmrete analiza modului de manifestare a interdependenelor dintre dou variabile, se elaboreaz gruparea combinat. Pentru elaborarea gruprii combinate este necesar ca intervalele de variaie fixate pentru o prim caracteristic (x) - de regul, caracteristica factorial, cauzal - s se divid n subgrupe dup o a doua caracteristic rezultativ (efect). Aceasta din urm la rndul lor sunt divizate n subsubgrupe dup o a treia caracteristic .a.m.d. Aceast caracterizare ierarhic adncete analiza structurii colectivitii, ea reprezentndu-se sub forma unui graf arborescent. Modelul general al gruprii combinate a unitilor dintr-o colectivitate se reprezint n tabelul 2.15.
Tabelul 2.15. Modelul gruprii combinate
Intervale dup prima caracteristic de grupare Intervale dup a doua caracteristic de grupare Numr de uniti

x inf i [ xi < xi
0

sup

y inf i [ yi < yi
1

sup

xinf 1 x1

sup

TOTAL GRUPA 1 :

... sup f yj y in j ... sup f y in m ym :


f y in 1

sup y1

n 1i ... n 1j ... n 1m
n1. :

xinf i xi

sup

f y in i yi ... sup in f yj yj ... sup f y in m ym

sup

n 1i ... n 1j ... n 1m
ni.

TOTAL GRUPA i

60
: :

Statistic general
:
sup yr

xinf r xr

sup

... sup inf yj yj ... sup y inf m ym y inf r


-

n ri ... n rj ... n rm
nr. n

TOTAL GRUPA r TOTAL GENERAL

Rezultatele unei grupri combinate se pot prezenta ntr-un tabel (cu o alt form dect cea prezentat) cu dou intrri, numit tabel de contingen. Acest tabel are urmtoarea form general:
Tabelul 2.16
Intervale (grupe) dup variabila x
inf sup x1 x1

Intervale (grupe) dup variabila y


sup inf y1 y1
sup yinf 2 y2

sup yinf j yj

sup yinf m ym

Total
n 1. n 2.

n 11 n 21

n 12 n 22

n 1j

n 1m n 2m

x inf 2

x sup 2

n 2j

sup x inf i xi

n i1 n r1
n .1

n i1 n r2
n .2

n ij n rj
n .j

n im n rm
n .m

n i. n r.
n ..

sup x inf r xr

Total

n cadrul tabelului de mai sus ntlnim urmtoarele tipuri de frecvene: 1. frecvene absolute ale evenimentelor compuse: {n ij }i =1,r , j=1,m definesc numrul de uniti la care simultan variabila X prezint valori n intervalul i i variabila Y prezint valori n intervalul j; 2. frecvene marginale absolute: n raport cu variabilele analizate exist: frecvene marginale ale lui X: n i. = n ij , i = 1, r
j=1 m

(2.13)

exprim numrul de uniti din populaie la care pentru X s-au nregistrat valori ncadrate n intervalul i, indiferent de grupa n care se ncadreaz valorile variabilei Y.

Capitolul II

61

frecvene marginale ale lui Y: n . j = n ij , j = 1, m


i =1

(2.14)

este numrul total de uniti la care pentru Y s-au nregistrat valori ncadrate n grupa j, indiferent n ce grup se ncadreaz valorile nregistrate de variabila X. 3. n .. = n ij = n i. = n . j
i =1 j=1 i =1 j=1 r m r m

(2.15) reprezint numrul total al

unitilor din populaia statistic la care s-au observat variabilele X iY. n urma gruprii combinate ale crei rezultate se prezint ntr-un tabel de contingen (de tip r x m) se obin: - r distribuii de frecvene formate dup Y; - m distribuii de frecvene formate dup X; - o distribuie marginal format dup X; - o distribuie marginal format dup Y; - o distribuie bidimensional de frecvene format simultan dup X i Y. Prin urmare, gruparea statistic ca metod de prelucrare primar are o serie de funcii cognitive care se refer la: - evidenierea structurii colectivitii cercetate pe tipuri calitative; - evidenierea mutaiilor structurale produse n colectivitatea studiat, pe plan teritorial, n dinamica i ca urmare a modalitilor de organizare ale acestora; - reflectarea tendinelor de manifestare ale variaiei caracteristicilor urmrite; - stabilirea i interpretarea direciei i formei sub care se manifest tendina legturii dintre fenomene i factorii de influen.

2.3. Agregarea/centralizarea datelor statistice


Gruparea/clasificarea datelor statistice culese este nsoit sau precedat de operaii de centralizare/agregare n scopul obinerii unor indicatori sintetici absolui. Dup nivelul la care se execut operaiile de centralizare / agregare se disting: - centralizarea/gruparea simpl: se efectueaz la nivelul colectivitii negrupate, nestructurate; - centralizarea/agregarea pe grupe/clase: se efectueaz la nivelul grupelor/claselor n care a fost structurat colectivitatea. ntr-o clasificare/agregare ierarhic agregarea datelor individuale se face succesiv n

62

Statistic general

concordan cu nivele (treptele) acesteia pn se ajunge la nivelul ntregului ansamblu. - centralizarea/agregarea datelor statistice se face prin aditivitate sau prin aplicarea unor tehnici speciale. Prin operaiile de aditivitate se obin la nivelul grupelor/claselor indicatori sintetici sub form de sume/totaluri. Aditivitatea nu trebuie efectuat mecanic, ci respectndu-se anumite restricii (cerine) dintre care amintim: - datele individuale agregate trebuie s aib acelai coninut, s se refere la aceeai trstur calitativ, s exprime aceeai categorie de fapte individuale; - datele care sunt centralizate/agregate s aib caracter primar, de volum; - datele individuale trebuie s fie exprimate n aceleai uniti de msur etc. Alt modalitate de agregare a datelor statistice presupune utilizarea unor tehnici speciale (de exemplu, calculul nivelelor medii), utilizarea ponderilor sau a coeficienilor de echivalen. De exemplu, valoarea agregat a valorilor individuale privind productivitatea muncii, costul unitar etc. se obin ca medie simpl sau ponderat. Agregarea/centralizarea cantitilor de mrfuri desfcute pe pia de ctre o societate comercial presupune utilizarea preurilor respective practicate n diferite perioade. n alte cazuri agregarea/centralizarea datelor statistice se efectueaz prin "numrare pe categorii". Rezultatele operaiilor de grupare/clasificare a datelor statistice sunt prezentate prin tabele, grafice i serii.

2.4. METODE DE PREZENTARE A DATELOR STATISTICE 2.4.1. Tabele statistice


Una dintre cele mai adecvate modaliti de prezentare a datelor statistice o reprezint forma tabelar, deoarece ea permite caracterizarea structurii colectivitii (populaiei) investigate, a legturilor dintre grupele sale tipice etc. Tabelul statistic (TS) este format dintr-o reea adecvat de linii paralele orizontale i verticale n care sunt ncadrate datele, cuprinde i una sau mai multe serii statistice. Tabelul statistic este elaborat cu dublu scop: pentru sistematizarea datelor n vederea prelucrrii i obinerii indicatorilor sintetici; pentru prezentarea rezultatelor prelucrrii primare i secundare. Oricare ar fi destinaia TS el trebuie s fie elaborat dup anumite reguli de coninut i de form, trebuie s aib anumite elemente obligatorii i anume:

Capitolul II

63

- subiectul TS. Acesta este reprezentat de colectivitatea sau eantionul la care se refer datele; - predicatul TS. El se refer la sistemul de caracteristici primare sau derivate ale cror valori individuale sunt sistematizate; - macheta TS. Aceasta este format din reeaua de rnduri i coloane n care se nscriu n mod ordonat datele, titlul general, titlurile interioare (se nscriu n capetele rubricilor), notele explicative i sursa datelor. n funcie de scopul analizei i al prelucrrii, n teoria i practica statistic, se elaboreaz i se utilizeaz o multitudine de tabele statistice. Dintre acestea evideniem urmtoarele: - tabele simple, descriptive. Acestea sunt elaborate pentru prezentarea indicatorilor statistici ai unitilor complexe investigate, ordonai din punct de vedere cronologic, teritorial sau organizatoric; - tabele utilizate n prelucrare. Acestea sunt instrumente intermediare utilizate pentru parcurgerea unor algoritmi de calcul; - tabele de prezentare a datelor statistice structurate pe grupe/clase de variaie; - tabele de contingen. Acestea sunt tabele cu dubl intrare de forma tabelului 2.16. O form particular a tabelului de contingen este tabelul de asociere de tip 2 x 2 (tabelul 2.17). Acesta prezint repartiia unitilor dup dou caracteristici alternative corelate ntre ele.
Tabelul 2.17. Asocierea frecvenelor dup dou caracteristici alternative
Variantele alternative ale caracteristicii y (ex.: profilul societilor comerciale) y2 (de ex. y1(de ex. PRODUCIE) COMER) DA sau NU y1=1 (NU sau y2=0) n11(=80.000) n21=35.000 n.1(=115.000) n12(=60.000) n22(=10.000) n.2(=70.000)

Variantele alternative ale caracteristicii x (ex.: mediul) x1(DA sau x1=1) (de ex. URBAN) x2 (NU sau x2=0) (de ex. RURAL) Total

Total

n1'(140.000) n2'(45.000) n..(185.000)

- tabele statistice de prezentare a valorilor funciilor biometrice sau a repartiiilor statistice teoretice. n aceast categorie ncadrm tabelele de mortalitate, tabelele repartiiei binomiale, tabelele distribuiilor Fisher, Student, Krustal-Wallis, Wilcoxon, Gauss-Laplace etc.;

64

Statistic general

Tabelele statistice, indiferent de tipul lor, de modalitatea lor de elaborare (manual sau automat), conin una sau mai multe serii.

2.4.2. Serii statistice


Seriile statistice reprezint o alt modalitate de prezentare a datelor. Seria statistic, ca rezultat al sistematizrii i/sau gruprii, definete corespondena dintre dou iruri de date statistice n care primul reprezint variaia caracteristicii urmrite, iar al doilea ir cuprinde frecvenele de apariie a variantelor caracterisiticii. n forma cea mai general o serie statistic cu o singur caracteristic se prezint astfel: x 1 x 2 ... x r x n 1 n 2 ... n r (2.16)
Unde: x1, x2, ..., xn sunt variante nregistrate pentru caracteristica x; n1, n2, ..., nr sunt frecvenele de apariie ale variantelor caracteristicii x. Forma general a seriei statistice (2.16) impune unele observaii i anume: - seria trebuie s ofere informaii cu privire la succesiunea, mrimea valorilor nregistrate i a frecvenelor corespunztoare; - ntre cele dou iruri de date exist o legtur univoc, n sensul c unei valori individuale oarecare i corespunde o anumit frecven, respectiv un numr care arat de cte ori se repet valoarea individual respectiv. n funcie de natura caracteristicilor urmrite, seriile statistice sunt clasificate n: serii de repartiie sau serii de distribuie; serii cronologice (sau de timp); serii teritoriale (sau de spaiu) i serii descriptive sau enumerative. Seriile de repartiie (de distribuie) sunt elaborate atunci cnd caracteristica urmrit este numeric (cantitativ). Seriile cronologice (de timp sau dinamice) prezint evoluia n timp a unui fenomen sau descrie un anumit proces. Forma general a unei serii cronologice este prezentat n tabelul 2.18.

Capitolul II

65

Tabelul 2.18.
Variabila timp (t) A 0 1 2 , , , t , , , T Valorile caracteristice 1 y0 y1 y2 , , , yt , , , yr

Tabelul 2.19
Uniti teritoriale A A B , , , I , , , Z Valorile caracteristice (y) 1 yA yB , , , yr , , , y2

Seriile teritoriale (sau de spaiu) prezint variaia teritorial a caracteristicii analizate. n aceste serii valorile caracteristicii se refer la unitile teritoriale din care fac parte. n mod frecvent aceste serii se obin dup criterii administrativ-teritoriale, ceea ce nseamn c n cadrul acestora spaiul este variabil, iar timpul i structura organizatoric sunt considerate fixe. Seriile teritoriale sunt reprezentate grafic cu ajutorul hrilor sau sub form de cartograme sau cardiograme. Seriile descriptive sau enumerative se prezint sub form de liste a unitilor dup o anumit caracteristic. Elaborarea seriilor i tabelelor statistice reprezint nu numai un mijloc eficient de prezentare a datelor statistice dar i o operaie premergtoare pentru reprezentarea grafic.

2.4.3. Grafica datelor statistice. Principii i reguli de reprezentare grafic


Grafica statistic se utilizeaz n scopul vizualizrii mrimii i variaiei independente i/sau interdependente a datelor, n scopul

66

Statistic general

popularizrii acestora sau pentru a facilita desfurarea unor operaii de prelucrare, previziune i planificare. Elementele de grafic statistic se aleg n funcie de specificul fenomenelor analizate, de relaiile dintre datele care pot fi vizualizate. Deci, prin grafica statistic nu se ilustreaz att datele n sine ct proporiile i rapoartele dintre date. Din aceast cauz se apeleaz la lungimi, suprafee, i volume. Reprezentrile grafice ale datelor statistice fac apel la figuri geometrice, sisteme de coordonate, hri, desene figurale etc. Trasarea corect a graficelor statistice se efectueaz pe baza unor reguli care se refer att la coninut ct i la form. O parte din regulile de elaborare a graficelor statistice sunt comune cu cele ale tabelelor, iar altele sunt specifice. Astfel, pentru interpretarea complet i corect a mesajului transmis de grafic este necesar ca acesta s aib: legend; reea i scar de reprezentare; axele de coordonate explicite. Legenda graficului explic n form sintetizat semnificaia simbolurilor utilizate. Reeaua de reprezentare (de mai multe ori nu este vizibil) este format dintr-o mulime de linii paralele orizontale i verticale sau din cercuri concentrice, dup cum graficul este trasat: n coordonate rectangulare sau n coordonate polare. n mod frecvent, n practica statistic graficele sunt trasate n sistemul de coordonare rectangulare. Pe axa OX a acestora se vor fixa variantele sau intervalele de variaie ale caracteristicii independente, momentele sau intervalele de timp, iar pe axa OY se vor fixa frecvenele, valorile caracteristicii a crei evoluie este urmrit, valorile sau intervalele de variaie ale caracteristicii dependente. Pentru a respecta proporiile din date este necesar ca pe cele dou axe punctele s fie fixate la scar. Principalele tipuri de grafice care se traseaz n acest sistem de axe sunt urmtoarele: histograma, poligonul frecvenelor; curba cumulativ de frecvene; diagramele prin benzi i coloane; cronograma (pentru seriile cronologice); corelograma (pentru seriile interdependente) etc. O parte din aceste grafice sunt trasate n cadrul acestui paragraf, iar restul n cuprinsul lucrrii. Exemplul 2.3. Societatea comercial "ANDREX" prezint n trimestrul I 2000 i 2001 urmtoarele date referitoare la timpul de lucru:

Capitolul II

67

Tabelul 2.20 Indicatorii timpului de lucru la S.C. "ANDEX"


Indicatori 1. Fond de timp maxim disponibil din care: 2. Fond de timp efectiv lucrat 3. Fond de timp nelucrat Trimestrul I 2000 3.865.100 3.688.155 176.000 Trimestrul I 2001 3.773.000 3.602.700 170.300

Mrimea fondului de timp lucrat din cele dou trimestre este vizualizat n figura 2.3.

3.865.155 ore-om Trim. I 2000

3.602.700 ore-om Trim. I 2001

Fig. 2.3. Fondul de timp efectiv lucrat (ore-om) la S.C. "ANDREX" Pentru sesizarea mai rapid a modificrilor din structura fondului de timp maxim disponibil se traseaz diagrama de structur, ptratul de structur sau cercul de strucutr. n scop publicitar sau pentru popularizarea unor aspecte eseniale din manifestarea unor fenomene se traseaz diagramele prin benzi i coloane, figuri naturale etc. O structurare a graficelor statistice (frecvent utilizate n practic), dup natura caracteristicilor (variabilelor) analizate, permit identificarea urmtoarelor categorii: 1. Reprezentri grafice ale seriilor de distribuie unidimensionale. Ele se elaboreaz n coresponden cu natura variabilei atributive: - n cazul variabilelor calitative sau cantitativ discrete se pot elabora distribuii empirice de variante elaborate prin: diagrama prin bare (batoane); diagrama frecvenelor cumulate cresctor sau descresctor dup variaia prdinelor de mrime ale variantelor din serie.

68

Statistic general

n cazul variabilelor continue, generndu-se serii de distribuie (repartiie) de frecvene pe intervale, acestea pot fi vizualizate prin: histogram: n cazul intervalelor egale, ambele fiind identice, nlimile dreptunghiurilor adiacente corespunztoare sunt proporionale cu frecvenele absolute sau relative; n cazul repartiiilor cu intervale inegale, nlimile dreptunghiurilor sunt proporionale cu frecvenele reduse calculate ca raport ntre frecvenele absolute i mrimile intervalelor formate. poligonul frecvenelor. Acesta, ca i histograma, vizualizeaz densitile repartiiilor. curba cumulativ (cresctoare sau descresctoare) a frecvenelor. Aceasta vizualizeaz funcia de repartiie analizat. n demografie, prin piramida vrstelor (pe sexe) se vizualizeaz distribuia populaiei dup vrst. 2. Reprezentarea grafic a seriilor de distribuie (repartiie) bidimensionale. Constituite pe baza tabelelor de contingen, acestea vizualizeaz densitatea distribuiei simultan a frecvenelor dup variabilele numerice luate n studiu. 3. Reprezentri grafice ale mrimilor relative de structur (ponderilor sau greutilor specifice). Acestea sunt vizualizate prin diagrama de structur trasat cu ajutorul unor figuri geometrice: cercul, dreptunghiul, ptratul, paralelipipedul etc. 4. Reprezentri grafice ale seriilor cronologice. Acestea se pot realiza: n coordonate rectangulare: cronograma (histograma); diagrama prin coloane; diagrama prin coloane n aflux; diagrama prin benzi. n coordonate polare (pentru vizualizarea oscilaiilor periodice): diagrama sectorial; diagrama radial; diagrama n spiral. 5. Reprezentri grafice ale seriilor teritoriale prin mijloace specifice cum ar fi cartograma i cartodiagramele. n prezent, programele informatice de tip STATGRAF ofer mijloace eficiente de vizualizare a datelor statistice. Grija esenial care trebuie avut n vedere este aceea a vizualizrii reale a proporiilor din date.

Capitolul II

69

ntrebri de control
Ce se nelege prin prelucrare statistic primar i care sunt principalele operaii implicate ? Care sunt funciile operaiilor de structurare a datelor ? Care sunt paii algoritmului de clasificare ierarhic ? Care este obiectivul agregrii datelor statistice i prin ce metode se realizeaz aceasta ? Ce se nelege prin serie statistic teritorial i cum se reprezint ea grafic ? Ce se nelege prin serie cronologic i prin ce metode se reprezint ea grafic ? Firma VIM specializat n cercetri de pia a intervievat 1309 persoane pentru testarea preferinelor acestora fa de cteva posturi de televiziune. Date nregistrate sunt sistematizate astfel: Vrsta Numr persoane Pn la 18 ani, total 494 Din care: - Antena 1 89 - ProTV 211 - 7 abc 107 - Prima TV 87 19-29 ani, total 327 Din care: - Antena 1 57 - ProTV 130 - 7 abc 81 - Prima TV 59 30-39 ani, total 91 Din care: - Antena 1 38 - ProTV 29 - 7 abc 14 - Prima TV 10 40-49 ani, total 140 Din care: - Antena 1 77 - ProTV 42 - 7 abc 11

70

Statistic general

- Prima TV 10 50-59 ani, total 136 Din care: - Antena 1 63 - ProTV 28 - 7 abc 36 - Prima TV 9 60 ani i peste, total 121 Din care: - Antena 1 59 - ProTV 30 - 7 abc 21 - Prima TV 11 Se cere: - S se grupeze datele de mai sus i s se prezinte rezultatul ntrun total de contingen. - S se vizualizeze datele de mai sus prin cele mai adecvate metode. Graficele statistice trasate n coordonate polare se utilizeaz n mod curent pentru vizualizarea: a) oricrei serii de date statistice; b) seriilor de repartiie; c) trendului (tendinei) din evoluia n timp a unui fenomen; d) evoluia n timp a unui fenomen afectat de oscilaii sezoniere; e) tendinei legturii dintre variabile i pentru alegerea modelelor de regresie. n reprezentrile grafice ale datelor statistice se utilizeaz: a) n exclusivitate scara aritmetic; b) n funcie de ordinul de mrime a datelor se utilizeaz dup caz scara aritmetic, logaritmic, semilogaritmic, dublu logaritmic etc.; c) n funcie de ordinul de mrime a datelor scala nominal, ordinal de intervale, de rapoarte, continu sau discret; d) orice scar, numai graficul s fie trasat ntr-un sistem de axe rectangulare; e) orice scar, numai graficul s fie trasat ntr-un sistem de axe polare. Cartograma se folosete pentru a reprezenta grafic: a) uniti statistice cu dou dimensiuni, ntotdeauna dup o caracteristic; b) uniti statistice cu dou dimensiuni, ntotdeauna dup mai multe caracteristici;

Capitolul II

71

c) uniti statistice cu dou dimensiuni, niciodat dup mai multe caracteristici; d) uniti statistice cu dou dimensiuni, dup una sau mai multe caracteristici; e) cartograma nu este un grafic utilizat de statistic. Dac n urma gruprii unui set de date pe intervale de variaie egale, se obin frecvenele nule, atunci se recomand: a) s se regrupeze datele dup o alt caracteristic; b) se utilizeaz n continuare aceeai distribuie neinnd cont de frecvenele nule; c) se utilizeaz n continuare distribuia dac este doar o singur frecven nul; d) se regrupeaz datele, mrind numrul de intervale de variaie; e) se regrupeaz datele mrind dimensiunea intervalului. Formula lui Sturges se poate aplica pentru determinarea: a) amplitudinii variaiei unei caracteristici; b) valorii maxime dintr-un set de date; c) valorii minime dintr-un set de date; d) numrului de grupe; e) numrului de caracteristici. O serie de timp se reprezint grafic printr-o: a) corelogram; b) diagram de structur; c) cronogram (historiogram); d) cartogram; e) cartodiagram. Graficele statistice n coordonate polare se utilizeaz n mod curent pentru vizualizarea: a) oricrei serii de date statistice; b) seriilor de repartiie; c) evoluiei trendului din evoluia unui fenomen; d) evoluiei unui fenomen afectat de oscilaii sezoniere; e) tendinei legturii dintre variabile i alegerea modelului de regresie. Se cunosc urmtoarele date privind numrul de facturi ntocmite de S.C. Anonimus S.R.L. n luna noiembrie 2000:
Data 1 2 3 4 Nr. facturi 6 10 12 10 Data 11 12 13 14 Nr. facturi 10 14 6 18 Data 21 22 23 24 Nr. facturi 14 12 11 10

72
5 6 7 8 9 10 I Grupe de zile dup nr. de facturi 05 6 11 11 15 15 20 IV Intervale ale numrului zilnic de facturi (0 5] (5 10] (10 15] (15 20] 8 9 10 11 12 9 15 16 17 18 19 20 II Grupe de zile dup nr. de facturi 05 6 10 11 15 16 20 V Nr. zile 1 13 13 3 Intervale ale numrului de facturi [0 5) [5 10) [10 15) [16 20) Nr. zile 1 9 17 3 13 9 14 12 17 12

Statistic general
25 26 27 28 29 30 III Grupe de zile dup nr. de facturi 06 7 14 15 22 23 30 8 4 12 9 12 16

Nr. zile 1 13 13 3

Nr. zile 1 16 10 3

Nr. zile 55 90 103 82

Populaia statistic studiat este structurat i prezentat n: a) Tabelul I; b) Tabelul II; c) Tabelul III; d) Tabelul IV; e) Tabelul V. Histograma: a) este un grafic specific seriilor cronologice; b) reflect densitatea repartiiei statistice; c) este un grafic de volum; d) reflect forma repartiiei; e) este similar cu diagrama prin coloane.