Documente Academic
Documente Profesional
Documente Cultură
Transformarea şi compararea
caracterelor cantitative
Introducere
Studiul unei mulţimi de indivizi se face în general prin considerarea simultană a mai mulţi indicatori.
Oprindu-ne doar la cazul în care aceste caractere sunt cantitative, vom vedea cum anume este
posibil să evaluezi simultan poziţia unui individ în mai multe distribuţii, cum ar fi de exemplu acelaşi
indicator la momente diferite sau indicatori diferiţi la acelaşi moment.
Problema care apare este aceea că această comparare a valorilor a doi indicatori pentru acelaşi
individ nu este în general posibilă dacă rămânem la nivelul tabelului brut deoarece caracterele de
comparat pot avea :
- unităţi de măsură diferite
- ordine de mărime diferită (v. valorile centrale)
- dispersii diferite (v. parametrii de dispersie).
Prin urmare este necesar ca, pentru a le compara între ele, să transformăm caracterele în cauză.
Pentru a ilustra problema, vom considera un exemplu simplu, respectiv compararea a două
caractere care descriu 25 de oraşe franceze la începutul anilor 1990 în funcţie de variabilele
următoare :
X = populaţia aglomeraţiilor urbane la recensământul din 1990
Y = numărul de greşeli de ortografie comise de cei mai buni patru candidaţi ai fiecărui oraş la
concursurile « Dicţionarele de Aur » organizat de canalul de televiziune France 3 în 1993. Datele
corespunzătoare sunt prezentare în tabelul nr. 1.
Tabelul 1 : Populaţia celor 25 de oraşe franceze în 1990
(în mii de locuitori) şi rezultatele la concursul
de ortografie din 1993
Întrebarea ridicată de tabelul 1 este următoarea : Există vreo
relaţie între mărimea oraşului şi succesul acestuia la respectivul
concurs de ortografie ? sau : Candidaţii care reprezentau
aglomeraţiile mici au comis mai multe greşeli decât aceia care
reprezentau oraşele mari ?
Examinarea liniilor din tabelul 1 nu ne permite să răspundem
rapid la această întrebare deoarece ordinele de mărime şi
dispersia variabilelor X şi Y sunt diferite şi trebuie să ne
raportăm neîncetat la tabelul 2 pentru a determina dacă
valorile lui X sunt considerate ca mari, medii sau mici în raport
cu restul distribuţiei oraşelor. Este necesar prin urmare să fie
găsită o soluţie mai practică pentru a putea efectua aceste
comparaţii şi pentru a examina poziţia fiecărui oraş.
Distribuţia frecvenţelor marginale nu are în mod evident nimic aleatoriu (ceea ce se poate demonstra
în statistică cu ajutorul testului de independenţă χ² (v. Apetrei, Grasland şi Groza, 1996 : relaţia dintre
două caractere calitative).
O metodă la fel de simplă ca şi precedenta însă mult mai robustă constă în a face comparabile
distribuţiile transformându-le în clasamente (în ranguri), ceea ce permite eliminarea unităţilor de
măsură, ordinele de mărime şi diferenţele de dispersie. Aplicarea acestei metode nu ridică probleme
deosebite însă trebuie să se acorde atenţie la două lucruri :
a) – ordinea clasamentului (crescătoare sau
descrescătoare) trebuie să fie specificată şi
să fie pe cât posibil aceeaşi pentru ambele
caractere. În exemplul studiat se optează
pentru o ordine descrescătoare, încât Parisul
va fi pe primul loc pentru caracterul
« populaţie » iar Fort-de –France va ocupa
primul rang pentru caracterul « număr de
greşeli de ortografie ». Prin urmare, este
clar că « un loc fruntaş » în cazul
caracterului Y (greşelile) înseamnă de fapt o
foarte scăzută performanţă gramaticală şi
invers (Toulouse, care a comis cele mai
puţine greşeli este pe locul al 25-lea pentru
caracterul Y).
Rang Ranguri
Rang Rang Ranguri
b) – atunci când există egalitate de Oraşul
Oraşul populație Rang greşeli
greşeli "sportive"
populație întregi
pentrupop.
greșeli
ranguri între indivizi, acestora li se
Besançon
Fort-de-France 20
22 41 201
atribuie ca rang media locurilor pe care
Limoges
Bordeaux 19
5 22,52 52
le-ar fi ocupat dacă ar fi fost unii după
Poitiers
Beauvais 21
24 73 243
alţii. Se reia apoi clasamentul după Besançon 20
Caen 18 64 184
rangurile virtuale ocupate. Problema Clermont-
Montpellier 12 5 5
egalităţii de rang nu se pune pentru Ferrand
Caen 11
18 206 116
caracterul X (toate oraşele au populaţii Dijon
Beauvais 14
24 10,57 147
diferite) însă ea apare de mai multe ori Rouen 9 8,5 8
Fort-de-France
Orléans 22
13 1
8,5 228
pentru caracterul Y. Astfel, 5 oraşe au Lannion 25 15 259
Dijon 14 10,5
comis 9,5 greşeli de ortografie şi ocupă Le Mans 16 12 169
Metz 17 10,5
implicit al 13-lea, al 14-lea, al 15-lea, al
LeLille
Mans 4
16 1512 410
16-lea şi al 17-lea rang. Mai degrabă Limoges
Lyon
19
2
2
15
19
11
decât să li se atribuie tuturor rangul al 13- Lyon
Lille
2
4
15
15
2
11
lea (cum s-ar face într-o competiţie Marseille
Nantes 37 18,5
15 311
sportivă), în statistică li se atribuie media Montpellier
Reims 12
15 515 1211
rangurilor, adică al 15-lea pentru toate 5. Meaux
Lannion 23
25 22,5
15 2311
Metz
Marseille 17
3 10,5
18,5 1712
Acest fel de a proceda este mai riguros
Nantes
Nice 78 15
18,5 712
decât metoda « sportivă ». Atunci când se Nice 8 18,5 8
Clermont-
trece la oraşul consecutiv celor cinci, Orléans
Ferrand 13
11 8,520 1313
acestuia i se va acorda rangul al 18-lea (în Paris
Paris 11 22,5
22,5 114
acest caz al 18,5-lea) şi nu al 16-lea Poitiers
Bordeaux 21
5 3
22,5 2114
deoarece din punct de vedere statistic Reims
Strasbourg 15
10 15
22,5 1514
Rouen 9 8,5 914
este esenţial ca suma rangurilor atribuite Meaux 23 22,5
Strasbourg 10 22,5 1015
a N indivizi să fie egală cu suma
Toulouse
Toulouse 66 25
25 6
rangurilor întregi ale lui N, adică SUMA rangurilor: 325 325
1+2+3+....+N = N*[(N+1)/2]. SUMA RANGURI 325 325 235
Tabelul 5 : Transformarea ordinală
a caracterelor X şi Y
Metoda indicilor pare mai satisfăcătoare decât precedenta deoarece păstrează ordinul de mărime al
caracterelor, dar aducându-le la o bază comună numită indice, a cărui valoare este în general fixată la
100. Foarte utilizată în economie, această metodă constă în definirea unei valori de referinţă şi în
exprimarea tuturor variabilelor într-o unitate de măsură comună (numită baza indicelui), care exprimă
ecartul valorii de referinţă sub forma unui raport. În general se alege media ca valoare de referinţă şi
100 ca bază a indicelui.
Xi
X ' i 100
X ref
Tabelul indicilor permite imediat reperarea poziţiei indivizilor în raport cu valoarea de referinţă aleasă.
Astfel, dacă valoarea de referinţă este media :
- un indice de 110 semnifică faptul că individul este situat cu 10% deasupra mediei
- un indice de 80 semnifică faptul că individul este situat cu 20% sub medie, etc.
Această soluţie este utilizată în special atunci când se studiază evoluţia indivizilor în decursul timpului.
Ex.: intre 1950 şi 1980, Franţa a trecut de la 42 la 54 de milioane de locuitori iar Albania de la 1,2 la 2,7
milioane de locuitori. Dacă se ia ca indice 100 populaţia din 1950, în 1980 Franţa are un indice de 129 în
vreme ce Albania de 225.
Exemplul oferit de jurnaliştii şi de economiştii mai leneşi, care privilegiază media, nu trebuie urmat,
fiindcă de multe ori mediana este mult mai pertinentă ca valoare de referinţă, cum este cazul
exemplului studiat aici. Prin urmare tabelul 1 va fi transformat într-unul al indicilor, cu mediana ca bază
a acestora.
Tabelul 6 : Transformarea caracterelor X şi Y în
Lectura tabelului indicilor este rapidă şi performantă.
indice 100 în raport cu mediana Astfel, se observă imediat că Lyon este de 5 ori mai
populat decât jumătatea oraşelor studiate (indice 505
pentru populaţie) însă nivelul său de ortografie se
situează cuminte la nivelul medianei (indice 100).
Poitiers, care apare ca un oraş mic în eşantionul
studiat (indice 47 pentru populaţie) are multe greşeli
(indice 205) în vreme ce Toulouse are caracteristici
practic inverse.
De fapt transformarea în indici poate fi considerată ca
o variantă mai precisă a discretizării dihotomice,
deoarece şi una şi alta dintre metode urmăresc
poziţionarea valorilor în raport cu o valoare de
referinţă fie discret (+ sau -) fie continuu şi relativ
(indice superior sau inferior lui 100).
Critica metodei transformării în indici
Deşi destul de interesantă, metoda indicilor nu este cu
totul recomandabilă deoarece nu este foarte obiectivă
şi prin aceasta permite tot felul de manipulări.
Alegerea valorii de referinţă este crucială şi poate
modifica rezultatele în mod semnificativ (ca şi în cazul
discretizării dihotomice). Mai mult, această metodă
are marele inconvenient de a nu ţine cont de dispersia
caracterelor, nefăcând decât să corecteze ordinele de
mărime. Următoare metodă, standardizarea, ţine cont
simultan de ambii parametri şi asigură comparaţii de o
calitate net superioară.
4. Standardizarea (normarea)
Standardizarea este metoda cea mai eficientă de comparare a două variabile atunci când acestea
sunt unimodale şi simetrice. Metoda constă în a efectua o dublă transformare, de centrare şi de
reducere, din care cauză variabilele standardizate sunt numite de asemenea variabile centrate-
reduse sau variabile normate.
Centrarea constă în a aduce ordinul de mărime (valoarea centrală) a distribuţiei valorilor la o valoare
de referinţă fixată de utilizator şi care în general este 0 (zero). Interesul unei centrări pe 0 este acela
de a putea repera imediat, cu ajutorul semnelor +/-, indivizii situaţi deasupra sau dedesubtul valorii
de referinţă.
Reducerea constă în a aduce eterogenitatea distribuţiei (parametrul de dispersie) la o a doua
valoare de referinţă, de asemenea fixată de utilizator, şi care este în general 1. Interesul reducerii
este acela de a face imediat comparabile ecarturile pozitive sau negative prin raportarea lor la
valoarea de referinţă fixată şi de a considera astfel că dispersia fiecărei distribuţii joacă acelaşi rol în
analiza efectuată.
Soluţia cea mai frecvent utilizată în standardizare este centrarea în raport cu media şi reducerea în
raport de ecartul-tip (abaterea standard) :
(X i X )
X 'i
X
Ecartul-tip (abaterea standard) este rădăcina pătrată a varianţei iar
varianţa este media aritmetică a pătratelor abaterilor valorilor din şir de la media acestuia
n n
2 2
i( x - x ) ( xi - x )
2 i=1 2 i=1
varianţa: = ecartul-tip: = =
n n
xi
centrarea: x i = x i - x reducerea: x i =
(X i X )
standardizarea : X 'i
X
O variabilă X’ standardizată în raport cu media şi cu ecartul-tip este prin urmare caracterizată
de faptul că media sa este egală cu 0 iar ecartul-tip (abaterea standard) este egală cu 1.
Această dublă proprietate facilitează considerabil interpretarea poziţiei indivizilor deoarece
putem compara cele două distribuţii în funcţie de un nivel de referinţă comun, şi anume de
distribuţia gaussiană, putând cunoaşte imediat:
- dacă un individ este peste sau sub medie (semnul pozitiv sau negativ al variabilei
standardizate)
- dacă un individ este caracterizat de o valoare banală sau de una excepţională a caracterului
(valoarea absolută a variabilei standardizate apropiată sau îndepărtată de 0).
Astfel, tabelul rezultat permite poziţionarea fiecărui individ în funcţie de o grilă comună de
lectură pentru toate variabilele şi astfel, prin raportarea la distribuţia gaussiană, se poate
descrie într-o manieră calitativă dar obiectivă poziţia relativă a indivizilor în funcţie de toate
variabilele.
Tabelul 7 : Valorile standardizate prin Tabelul 8 : Grilă de lectură calitativă a valorilor
medie şi ecart-tip ale distribuţiilor X şi Y standardizate