Sunteți pe pagina 1din 6

NATURA

INFORMAŢIEI
ÎN CERCETAREA
REALITĂŢII ECONOMICE

Analiza datelor este un domeniu ştiinţific apărut relativ recent, ca


ramură a statisticii matematice. Principalele metode dezvoltate aparţin mai
ales domeniului descriptiv al statisticii: ele urmăresc să studieze, să
sintetizeze, să rezume şi să structureze informaţiile conţinute în date.
Primele metode specifice analizei datelor au fost elaborate în anii ’30
folosindu-se analiza pe componente principale şi analiza canonică prin
dezvoltarea de către K. Pearson.
Dintre numeroşii cercetători care studiază acest domeniu, în prezent
pot fi amintiţi: Gilbert Saporta, J.M. Burouche, J. Benzecri etc.
În cadrul statisticii clasice se studiază de obicei mulţimi restrânse de
indivizi ce sunt descrişi într-un număr relativ mic de caracteristici. Ipotezele
probabilistice privind estimările de parametrii şi teste statistice sunt foarte
restrictive. În practică, însă, întâlnim numeroase situaţii în care indivizii sunt
descrişi printr-un număr mare de caracteristici, caz în care analiza acestora
cu metodele clasice este relativ dificilă.
Pentru a permite studiul global al indivizilor şi caracteristicilor
acestora indiferent de dimensiunea colectivităţii analizate, au fost introduse
metodele utilizate de analiza datelor. În raport cu tipul problemei şi cu
natura datelor studiate se va alege metoda de analiză potrivită.
Tradiţional, statistica descriptivă a utilizat metode simple pentru
prelucrarea primară şi prezentarea informaţiilor: tabele, histograme, calculul
indicatorilor tendinţei centrale (medii) şi ai împrăştierii. Fiecare variabilă era
descrisă separat.
Analiza datelor foloseşte procedee mai avansate, bazate pe calculul
matricial, algebra liniară şi geometria analitică pentru a surprinde relaţiile
comune dintre toate datele unui tabel compact de date. Ideile preluate din
geometrie se referă la descrierea de direcţii (axe) şi subspaţii; proiecţia
punctelor din norul de puncte pe acestea; calculul de distanţe (de exemplu:
între indivizi); unghiuri între direcţii etc. Algebra liniară furnizează concepte
ca: spaţii şi subspaţii vectoriale, distanţe şi norme, schimbarea bazelor.
Dezvoltarea analizei datelor a urmat răspândirii calculatoarelor electronice
(începând cu anii 1960), datorită volumului foarte mare de calcule necesare.
Aplicaţiile metodelor de analiză a datelor sunt foarte diverse: în
marketing (pentru «poziţionarea produselor pe piaţă» în funcţie de diversele
caracteristici reale sau percepute de către consumator ale produsului
respectiv), în sociologie, politologie şi administraţie publică (pentru
interpretarea sondajelor de opinie) şi în alte domenii ştiinţifice (biologie).
Pentru interpretarea corectă a rezultatelor sunt necesare şi cunoştinţe în
domeniul respectiv.
Metodele specifice se referă la eşantioane cu număr mic de
observaţii şi caracteristici. Ipotezele probabiliste privind estimările de
parametri şi testele statistice sunt foarte restrictive.
Diferenţele esenţiale între metodele utilizate de către statistica şi
analiza datelor pot fi sintetizate în tabelul următor:

Număr de indivizi Număr de caracteristici


Analiza datelor mare mare
Statistica clasică redus redus

1.1 Tipuri de date şi indicatori fundamentali

În cadrul analizei datelor, datele sunt, în general, prezentate în cadrul


unor tabele (tablouri). Într-un tabel de date sunt descrişi indivizii analizaţi
împreună cu caracteristicile aferente1.
În analiza datelor2 un individ reprezintă entitatea de bază asupra
căruia un observator efectuează un număr de observaţii. Pot fi observaţi
indivizi (s.c., ţări; industrii macroeconomice).

1
I. Dobre, E. Ţigănescu – Macroeconomie. Decizii strategice, Bucureşti, Editura ASE,
2000, p. 5
2
Idem, p. 197
O caracteristică3 asociată unui individ reprezintă o proprietate
intrinsecă. De exemplu, pentru angajaţii unei firme, caracteristici pot fi:
vârsta, vechimea etc.
Caracteristicile pot fi cantitative, adică pot fi exprimate cu ajutorul
unor scale numerice sau calitative (nivel studii, sex etc.).
Spunem că o caracteristică este cantitativă dacă aceasta poate
fi apreciată pe o scară numerică. Exemple de caracteristici cantitative
sunt: salariul, vârsta, profitul, cifra de afaceri, volumul vânzărilor, producţia
etc. Iar o caracteristică este calitativă, dacă nu este apreciată numeric.
Exemple de astfel de caracteristici sunt sexul, profesia, locul naşterii, nivelul
ierarhic etc4.

1.1.1 Tabele utilizate în analiza datelor

Tabelul indivizi – caracteristici


Pentru o mulţime dată de indivizi, împreună cu caracteristicile
aferente se construieşte tabelul indivizi – caracteristici sub formă matriceală,
pe rânduri fiind notaţi indivizii, iar pe coloane caracteristicile care îi descriu.
Tabele de contingenţă descriu legăturile existente între două
caracteristici calitative, ce conţin frecvenţele de apariţie ale indivizilor
consideraţi asociaţi cu caracteristicile analizelor.

Exemplu: Tabel de contingenţă

Personal Personal
Caracteristici Muncitori
conducere TESA
Studii superioare 3 3 -
Studii medii 1 5 10
Studii în şcoli
- 2 2
profesionale
X1 X2

Tabelul de contingenţă: X = X1 · X2 (produsul matricial).

3
Idem, p.200
4
apud L. Spircu; T. Spircu – Analiza datelor de marketing, Bucureşti, Editura All, 1994,
pg 85-113
Tabelele de proximitate (apropiere, distanţă)
Dacă pentru o mulţime de indivizi se pot defini proprietăţi de
asociere sau disociere, iar acestea pot fi descrise prin intermediul unei
măsuri, vom construi tabelele de proximitate (Exemplu: distanţa între
capitalele lumii).

1.1.2 Legăturile dintre caracteristici

A1 Legătura dintre două caracteristici cantitative se măsoară cu


ajutorul coeficientului de corelare

τ xy → covarianta dintre caracteristici


γ(n, y ) =
τ x τ y → dispersia caracteristicilor x şi y

∑ (x )( )
n

1 − x y2 − y
τ x ,y = i =1
n

A2 Legătura dintre două variabile (caracteristici) calitative se


măsoară folosind tabelele de contingenţă (şi chi pătrat).

A3 Legătura dintre o variabilă cantitativă şi una calitativă se


defineşte:

τ yi ≈ 0 ⇒ lipsa legăturii între variabile


η2 = ⇒
τ yi ≈ 1 ⇒ legătură puternică între variabile

1.2 Clasificarea în analiza datelor


1.2.1 Analiza factorială a corespondenţelor dintre date

Analiza caracteristicilor5 are ca scop simularea, folosind modelele


matematice, pentru fenomenul economic sau nu, şi obţinerea de soluţii.
Studiul unui eşantion sau al unei populaţii poate fi considerat
complet, dacă au fost evaluate multe variabile pentru fiecare observaţie sau
individ. În modele, sunt folosite variabile exogene, endogene şi aleatoare.

5
I. Dobre, E. Ţigănescu – Macroeconomie. Decizii strategice, Bucureşti, Editura ASE,
2000, p. 220-222
Clasificarea face parte din tehnicile de analiză a datelor şi are ca
scop gruparea indivizilor în clase în funcţie de caracteristicile acestora.
Scopul acestei clasificări este reducerea numărului de indivizi (observaţii)
prin asocierea corespunzătoare a datelor.
Există6 două tipuri de metode de clasificare a datelor:
1. metode neierarhice
2. metode ierarhice

1.2.2 Metodele centrelor mobile

Fie n-indivizi → ce ne propunem să îi grupăm în k clase.


Paşi: (1) stabilirea a k centre;
(2) gruparea indivizilor în cele k centre, care sunt cei mai
apropiaţi din punct de vedere al caracteristicilor;
(3) pentru astfel de formate se calculează centrele de greutate;
(4) se observă obţinerea la pasul 3. Dacă rezultatul este
favorabil ne oprim. Dacă nu, reluăm de la pasul 2.
*)
Observaţii practice au demonstrat că această metodă conduce la
obţinerea de soluţii în mod rapid (după 15-20 it.).
*)
Inconvenientul acestei metode – piaţa unor clase vide; iar soluţia
depinde de punctul de plecare (ales corect sau nu); ce nu conduce
întotdeauna la optimul global, ci doar la o partiţie mai bună.

1.2.3 Metodele nucleelor mobile (dinamice)

Este o generalizare a metodelor centrelor mobile. Diferenţa faţă de


precedenta constă: în cazul metodelor centrelor mobile clasa este definită
printr-un singur punct şi anume centrul său de greutate; pentru metodele
nucleelor mobile se consideră q indivizi în fiecare clasă. Acest grup va
forma nucleul clasei şi dacă este bine ales va reprezenta mai bine clasa decât
centrul de greutate.
Clasificarea ierarhică în raport cu punctul de plecare, se realizează
folosind metodele de grupare a indivizilor ascendente sau descendente.
Analiza factorială, este o tehnică descriptivă ce urmăreşte reducerea
numărului caracteristicilor urmărite (de exemplu: vârstă, sex). Aceasta are
ca scop exprimarea datelor calitative într-o formă sintetică prin frecvenţe şi
reprezentarea grafică a acestora.
6
ibidem
1.2.4 Indicatorul de proximitate

În analize, indivizii ce urmează a fi clasificaţi sunt caracterizaţi prin


valorile luate de ei pe un ansamblu de variabile.
În procesul clasificării, variabilele folosite pot fi:
a) variabile active = folosite la constituirea grupelor;
b) variabile pasive = folosite la explicarea grupelor.

În funcţie de scările de măsură utilizate, variabilele pot fi:


1. cantitative;
2. calitative.

Definiţie
Indicele de proximitate este un număr care exprimă asemănarea
sau deosebirea existentă între doi indivizi, luând în considerare toate
variabilele active ce-i caracterizează.

Tipuri de indici de proximitate:


a) distanţa euclidiană ponderată;
b) distanţa rectangulară;
c) metoda vecinilor cei mai apropiaţi: distanţa dintre două grupuri
este asimilată cu distanţa dintre elementele cele mai apropiate
între ele; utilizate, aceste metode conduc la riscul apariţiei
grupurilor eterogene, neluându-se în calcul elementele extreme;
d) metoda vecinilor cei mai îndepărtaţi;
e) metoda înlănţuirii medii evaluarea distanţei între două grupuri
pornind de la „centrul” lor. Este o metodă logică, dar foarte
laborioasă.

S-ar putea să vă placă și