Sunteți pe pagina 1din 10

Capitolul 5

Organizarea datelor de mediu

Prin intermediul metodelor de culegere a datelor se înregistreaza de


la unitatile colectivitatii valorile individuale ale caracteristicilor precizate în
programul de cercetare. De regula, valorile individuale culese prezinta mari
variatii de la o unitate la alta, motiv pentru care datele culese în forma bruta
nu pot permite cunoasterea formei de manifestare a fenomenelor studiate
sau a legaturilor existente între unitatile colectivitatii. Datele statistice
înregistrate vor putea fi analizate numai în masura în care ele vor fi
prelucrate.
Prelucrarea datelor este o etapa de trecere de la datele primare
concrete la valori tipice, la sistemul de indicatori sintetici corespunzator
modului de manifestare a fenomenului studiat, cuprinzând operatiile prin
intermediul carora datele se transforma în informatii.
În general se disting doua categorii: indivizii si caracteristicile
indivizilor respectivi. Individul, ca termen, poate desemna un element de
mediu, un utilaj nepoluant, un oras, o vietate etc., întotdea una fiind vorba de
elementul de baza asupra caruia observatorul realizeaza anumite masuratori.
Totalitatea indivizilor observati pot proveni din esantionarea unei
populatii (în cazul unui sondaj) sau poate fi vorba de întreaga populatie.
În statistica clasica se lucreaza cu un esantion de indivizi extrasi
aleator dintr-o populatie. Caracteristicile observate pe esantion permit
stabilirea caracteristicilor întregii populatii.
Pentru analiza datelor de mediu intereseaza structura ansamblului
indivizilor observati fara a cauta stabilirea unor legi valabile pentru
populatia din care provin.
Asupra indivizilor se poate stabili un anumit numar de caracteristici.
O caracteristica este cantitativa atunci când ia valori pe o scara numerica.
Mai exact, atunci când ansamblul valorilor asociate unui individ este inclus
în ansamblul numerelor reale (notate cu R) si asupra carora pot fi efectuate
operatiile algebrice obisnuite: adunarea, înmultirea cu o valoare constanta,
calcularea mediei etc.
O caracteristica este calitativa în cazul în care are modalitati
nenumerice si pot fi ordonate în doua feluri: calitativ ordinal (nivele
ierarhice sau nivele de satisfactie) si calitativ-nominal. Datele calitative
nominale sunt grupate tinând seama de valorile caracteristicilor studiate.
Fiecarei modalitati “i” a caracteristicii studiate i se pot asocia:
• frecventa ni , care reprezinta numarul de indivizi care poseda
modalitatea “i”;
• frecventa relativa fi , care reprezinta raportul dintre frecve nta ni si
marimea esantionului “n”;
• procentul p i , care reprezinta frecventa relativa exprimata procentual;

• repartitia frecventelor, care contine modalitatile, (valorile) seriei de date


si frecventele calculate pentru fiecare modalitate;
• repartitia frecventelor relative, care include modalitatile împreuna cu
frecventele relative asociate.
Pentru datele calitative ordinale se calculeaza frecventele, frecventele
relative, procentele si modul (care este un indicator sintetic al tendintei
centrale a datelor si care pune în evidenta modalitatea seriei care are
frecventa maxima). Daca se ordoneaza crescator sau descrescator valorile
seriei, mai pot fi calculati o serie de indicatori de sinteza, cum sunt:
• mediana m e , adica valoarea de mijloc a repartitiei - separa seria de date

ordonate în doua parti, fiecare având acelasi numar de observatii;


• cuartilele q, care sunt valorile care separa datele seriei în patru parti
egale;
• functia de repartitie a frecvente lor cumulate, care exprima numarul de
indivizi care au o valoare mai mica sau egala cu o valoare fixata.
Datele cantitative discrete sunt cele în care caracteristica numerica
are un numar redus de variante si permit calcularea urmatorilor indicatori de
sinteza:
• media m;
• amplitudinea A, care este un indicator de împrastiere calculat ca
diferenta între valoarea maxima si minima a seriei de date;
• varianta σ 2 , care este suma patratelor abaterilor seriei fata de valoarea
medie;
• abaterea standard σ , care este radacina patrata a variantei.
Datele cantitative continue, sunt cele în analiza carora sunt permise
toate operatiile matematice.
O prima analiza presupune gruparea valorilor seriei de date în clase,
astfel încât informatia continuta în seria de date sa fie conservata. Numarul
de clase variaza între 5 si 15 23 în functie de numarul de observatii si de
tehnicile de analiza a datelor. Valoarea cea mai mare si valoarea cea mai
mica din seria de date trebuie sa fie inclusa în clase distincte iar clasele

23
Spircu L., Calciu M., Spircu T., “Analiza datelor de marketing”, Editura All,
Bucuresti, 1994.
trebuie sa fie disjuncte (fiecare valoare trebuie sa se regaseasca într-o
singura clasa).
Clasele sunt caracterizate de o valoare minima, de o valoare maxima
si de amplitudine si este preferabil sa fie alese clase cu amplitudini egale.
Toti indivizii care au valorile corespunzatoare apartinând aceleiasi clase
sunt considerati echivalenti între ei.
În cele ce urmeaza sunt prezentate si exemplificate tipuri de tabele
de date utilizate în prelucrarea si analizarea datelor obtinute pe baza de
sondaj.

5.1. Tabelul indivizi x caracteristici

Datele pot fi reprezentate într-un tabel care descrie caracteristicile


indivizilor si care poate avea forma urmatoare (spre exemplificare vom
folosi caracteristicile vârsta, venit si numarul membrilor din gospodarie):
Tabelul 5.1. Tabelul indivizi x caracteristici

Caracteristici
Nr.
Vârsta Venit brut Venit net
… … membrii
x1 x2 xj
gospod. x p
1 x11 x12 … x1j … x1p
2 x12 x 22 … x 2j … x p2
Indivizi

… … … … … … …
i x 1i x i2 … x ij … x ip
… … … … … … …
n x1n x 2n … xnj … x pn
În acest caz, caracteristicile cantitative au fost observate asupra “n”
indivizi. Cele “p” caracteristici au fost notate astfel: x1 - vârsta, x2 - venitul
net lunar, xj - venitul brut si xp - numarul de membrii din gospodarie. Pentru
individul “i” aceste caracteristici au luat valorile x1i , x 2i ,..., x ij ,..., x ip . Tot
pentru acestia, pot fi observate si alte caracteristici, cum ar fi sexul, starea
civila, ocupatia etc. Pentru ca aceste date sa poata fi tratate numeric,
caracteristicile cantitative vor fi reprezentate sub forma unui tabel de
variabile care vor lua valoarea 0 sau 1, caz în care datele vor fi reprezentate
sub forma disjunctiva completa.
Tabelul 5.2. Forma disjunctiva completa

Caracteristici
Sex Stare civila Nivelul ierarhic (ocupatie)
B F C N D V a b c d e f g h i j k l
1 0 1 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0
2 1 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0
Indivizi

… … … … … … … … … … … … … … … … … … …
i 0 1 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0
… … … … … … … … … … … … … … … … … … …
n 1 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0

a = patron, proprietar b = functie de conducere c = intelectual


d = functionar public e = muncitor calificat f = muncitor necalificat
g = liber profesionist h = casnic i = student
j = somer k = pensionar l = alta

În acest tabel, cele trei caracteristici calitative au fost observate la cei


“n” indivizi. Caracteristicile au, în total, 18 modalitati. De exemplu,
individul “i” este o femeie necasatorita care are functie de conducere.
Aceasta reprezentare a caracteristicilor calitative permite asimilarea lor în
categoria caracteristicilor cantitative prin luarea valorilor 0 si 1. Este
valabila si reciproca, adica transformarea caracteristicilor cantitative în
caracteristici calitative. Rezultatul va fi: clase de vârsta (18-25 ani, 26-35
ani, 36-45 ani, 46-55 ani, 56-65 ani), clase de venituri (sub 400.000 lei,
400.001-600.000 lei, 2.000.001 si peste).
Ca ultima observatie, se poate afirma ca asupra caracteristicilor
calitative astfel transformate pot fi aplicate operatii algebrice.

5.2. Tabele de contingenta

Un tabel de contingenta contine frecventele asociate între


modalitatile a doua caracteristici calitative. Un astfel de tabel ar pute a
contine, de exemplu, cele opt categorii de ocupatii cu cele sase sectoare ale
Bucurestiului. Variabila x ij a acestui tabel ar contine numarul de indivizi

care locuiesc în sectorul “i” si care au ocupatia “j”. În acest tip de tabel,
indivizii sunt grupati si nu mai pot fi diferentiati. Se poate realiza o alta
reprezentare în care aceleasi date se refera tot la sectorul de domiciliu dar
grupati dupa caracteristica “stare civila”. Fiecarei caracteristici nominale îi
este asociat un tabel de variabile indicatoare (câte o variabila pentru fiecare
modalitate), iar pe linie vor fi reprezentati locuitorii Bucurestiului.
Deci o linie nu contine decât “0” mai putin în coloana în care va
aparea sexul individului din sectorul respectiv unde va apar ea valoarea “1”.
Daca se noteaza cu x1 si x 2 cele doua tabele cu variabile indicatoare,

tabelul de contingenta va fi rezultatul produsului matriceal x1T x 2 .


5.3. Tabele de proximitate

Fiind dat un ansamblu de obiecte, se dispune masurarea asemanarilor


sau deosebirilor între toate obiectele luate doua câte doua. Ar putea fi vorba,
de exemplu, despre tabelul de distante existente între principalele orase ale
României sau despre asemanarile percepute de un obiect între stimuli
diferiti. Un astfel de tabel este în general simetric si contine numere pozitive
corespunzatoare distantelor.
Din punct de vedere matematic, un asemenea termen poate fi dat de
o distanta “d” care trebuie sa verifice trei proprietati:
 d (a, b) = 0 <=> a = b

 d (a, b) = d ( b, a) simetria
 d (a, b) ≤ d (a , c) + d (b , c)
 inegalitat ea triunghiul ara

Daca cea de -a treia proprietate nu se verifica, se va spune atunci ca


“d” este o disimilaritate. Statistica ne-a obisnuit cu reprezentari sintetice a
datelor, care au caracter de unicitate. Atunci când se observa o caracteristica
calitativa la un ansamblu de indivizi, primul pas îl constituie calcularea
numarului de indivizi pentru fiecare modalitate.
Daca caracteristica observata este de tip cantitativ, se obisnuieste
realizarea unei histograme dupa sintetizarea informatiilor obtinute.
Un alt aspect necesar la prelucrarea datelor îl constituie determinarea
existentei tipului de legatura între doua caracteristici.
a) Legatura între doua caracteristici cantitative
O mare parte a analizelor multivariate se bazeaza pe analiza
dependentelor liniare între caracteristicile observate.
Pentru a preciza notiunea de dependenta, se prezinta coeficientul de
corelatie liniar, care masoara intensitatea legaturii între doua caracteristici
cantitative. De exemplu, pentru n = 10 produse având doua caracteristici -
pretul exprimat în mii lei si cantitatea, exista urmatoarele date:
Cantitatea x
39 61 66 71 58 46 97 75 43 63
Pretul y
140 290 279 330 360 370 360 400 265 355

Norul celor 10 punte va fi trasat de-a lungul unei drepte si pare a fi


satisfacator daca se doreste previzionarea pretului în functie de cantitate,
prin introducerea formulei y = ax + b + u, în care “u” este o variabila de
eroare. Coeficientii “a” si “b” sunt obtinuti prin metoda celor mai mici
n
patrate, cu alte cuvinte prin minimizarea sumei ∑ (u ) .
i =1
i
2

450
400
350
300
250
200
150
100
50
0
0 20 40 60 80 100 120

Figura 5.1. Norul celor zece puncte pret-cantitate

Dreapta celor mai mici patrate este definita de ecuatia


ŷ = 2 ,505 x + 159 ,831 si trece prin centrul de greutate al coordonatelor
n

∑ (u ) i
2

x = 51,1 si y = 254 ,8 . Introducând acestea în raportul n


i =1
< 1 , se va
∑ (y
i =1
i − y)
2

spune ca acesta este egal cu “1− r 2 ”, iar “r” este coeficientul de corelatie
liniara, având semnul pantei drepte. Daca “r = 0”, dreapta este orizontala
sau, cu alte cuvinte, valoarea lui “x” nu are nici un rol în previzionarea
valorii lui “y”. Daca “r = ±1 ”, previzionarea este perfecta, caci distantele

“ ni ” sunt nule. Coeficientul de corelatie “r” este cu atât mai mare (în
valoare absoluta) cu cât valoarea unei caracteristici o determina pe a
celeilalte, cu conditia ca relatia între aceste doua caracteristici sa fie liniara.
În exemplul prezentat, r = 0,87, ceea ce implica o strânsa legatura între cele
doua variabile. Caracteristicile y (pretul) si x (cantitatea) nu au roluri
simetrice; se observa usor ca regresia lui x în functie de y conduce la aceeasi
valoare a lui “r”. Aceasta simetrie între x si y în calculul lui “r” apare si mai
evident daca se introduce o noua interpretare a coeficientului de corelatie
liniara. Pentru aceasta, se defineste covariatia între cele doua caracteristici x

(x i − x )(y i − y) sau ponderat s xy = ∑ p i (x i − x )(yi − y) , deci


n
1
si y s xy =
n
∑ i =1

s xy
coeficientul de corelatie “r” se va obtine din relatia r (x , y ) = .
s x sy

b) Legatura între cele doua caracteristici calitative


Pentru a masura dependenta între doua caracteristici calitative,
statistica ne propune calcularea valorii lui χ 2 , acesta fiind larg utilizat în

analiza corespondentelor. Testul χ 2 va fi tratat pe larg în capitolul urmator.


c) Legatura între o caracteristica cantitativa si una calitativa
O caracteristica cantitativa “y” este dependenta de o caracteristica
calitativa “x” daca cei n1 indivizi având prima modalitate a lui “x” au toti
aceeasi valoare y1 a lui “y”, cei n2 indivizi având modalitatea a doua a lui
“x” au toti aceeasi valoare y2 a lui “y” si asa mai departe. Absenta corelatiei
este definita prin egalitatea mediilor y1 , y 2 ,..., y p a fiecarei clase.

Intensitatea legaturii este masurata cu ajutorul raportului de corelatie η


σ yi
definit prin intermediul relatiei η 2 = ∈ [0,1] .
σy

Cu cât acesta tinde catre 1 cu atât mai strânsa este legatura. Datele de
mediu astfel organizate pot fi reprezentate grafic (reprezentari elementare)
prin sectoare circulare (pie -chart), histograme, grafice figurative, acestea
fiind alese în functie de specificul fenomenelor studiate si al relatiilor care
trebuie evidentiate. Acestea contin datele preluate din seriile de date (rândul
sau coloana unui tabel) sau din tabelele de date si sunt însotite de titlul
reprezentarii grafice, legenda graficului, scara de reprezentare, explicitarea
axelor de coordonate atunci când este reteaua graficului (adica trasarea cu
linii subtiri care faciliteaza marcarea precisa a simbolurilor sau figurilor).
Tehnica de calcul moderna permite posibilitati multiple de
reprezentari grafice prin intermediul unor software -uri mixte (Excel® ,
Lotus ® , QuattroPro® ) sau specializate pentru analiza statistica a datelor
(Statistica® , SPSS ®, SYSTAT®), care de altfel vor fi utilizate în continuare
pentru analiza datelor.

S-ar putea să vă placă și