Sunteți pe pagina 1din 16

CURS 9-10

Transformarea şi compararea
caracterelor cantitative
Introducere

Studiul unei mulţimi de indivizi se face în general prin considerarea simultană a mai mulţi indicatori.
Oprindu-ne doar la cazul în care aceste caractere sunt cantitative, vom vedea cum anume este
posibil să evaluezi simultan poziţia unui individ în mai multe distribuţii, cum ar fi de exemplu acelaşi
indicator la momente diferite sau indicatori diferiţi la acelaşi moment.
Problema care apare este aceea că această comparare a valorilor a doi indicatori pentru acelaşi
individ nu este în general posibilă dacă rămânem la nivelul tabelului brut deoarece caracterele de
comparat pot avea :
- unităţi de măsură diferite
- ordine de mărime diferită (v. valorile centrale)
- dispersii diferite (v. parametrii de dispersie).
Prin urmare este necesar ca, pentru a le compara între ele, să transformăm caracterele în cauză.
 
Pentru a ilustra problema, vom considera un exemplu simplu, respectiv compararea a două
caractere care descriu 25 de oraşe franceze la începutul anilor 1990 în funcţie de variabilele
următoare :
X = populaţia aglomeraţiilor urbane la recensământul din 1990
Y = numărul de greşeli de ortografie comise de cei mai buni patru candidaţi ai fiecărui oraş la
concursurile « Dicţionarele de Aur » organizat de canalul de televiziune France 3 în 1993. Datele
corespunzătoare sunt prezentare în tabelul nr. 1.
Tabelul 1 : Populaţia celor 25 de oraşe franceze în 1990
(în mii de locuitori) şi rezultatele la concursul
de ortografie din 1993
Întrebarea ridicată de tabelul 1 este următoarea : Există vreo
relaţie între mărimea oraşului şi succesul acestuia la respectivul
concurs de ortografie ? sau : Candidaţii care reprezentau
aglomeraţiile mici au comis mai multe greşeli decât aceia care
reprezentau oraşele mari ?
Examinarea liniilor din tabelul 1 nu ne permite să răspundem
rapid la această întrebare deoarece ordinele de mărime şi
dispersia variabilelor X şi Y sunt diferite şi trebuie să ne
raportăm neîncetat la tabelul 2 pentru a determina dacă
valorile lui X sunt considerate ca mari, medii sau mici în raport
cu restul distribuţiei oraşelor. Este necesar prin urmare să fie
găsită o soluţie mai practică pentru a putea efectua aceste
comparaţii şi pentru a examina poziţia fiecărui oraş.

Tabelul 2 : Parametrii principali ai celor două distribuţii


1. Discretizarea
 
Soluţia cea mai simplă dar şi cea mai brutală consistă în a discretiza cele două variabile cantitative X şi Y,
adică a le aduce la nivelul unor modalitaţi calitative care vor putea fi comparate mult mai uşor între ele.
 
Metoda dihotomică (discretizarea în două clase)
 
Discretizarea în două clase (dihotomie) constă în fixarea unei valori de referinţă pentru fiecare
distribuţie şi apoi în atribuirea pentru fiecare individ a unei modalităţi « + » sau « - » după cum acesta se
află peste sau sub valoarea de referinţă :
 
Xi = + dacă Xi>Xref
Xi = - dacă Xi<Xref
 
Valoarea de referinţă corespunde în cea mai mare parte a cazurilor unei valori centrale (mod, medie sau
mediană) şi, pentru ca să se obţină o comparaţie valabilă, trebuie să se folosească aceeaşi valoare
centrală pentru fiecare dintre distribuţiile pe care le comparăm. Această valoare centrală trebuie să fie
cea mai reprezentativă cu putinţă pentru ansamblul distribuţiilor. Astfel, media nu se impune de la sine,
fiindcă se ştie că această valoare centrală nu este cu adevărat reprezentativă decât în cazul distribuţiilor
unimodale simetrice. Modul prezintă inconveniente serioase (pot să fie mai multe moduri). Astfel, în cea
mai mare parte din cazuri mediana se dovedeşte cea mai bună soluţie.
În exemplul studiat (mărimea oraşului şi greşelile de ortografie) alegerea medianei se impune în mod
clar deoarece cele două distribuţii sunt puternic asimetrice iar media (mai ales pentru populaţie) nu este
deloc reprezentativă din cauza valorii excepţionale a Parisului.
Tabelul 1 : Populaţia celor 25 de oraşe franceze în 1990
(în mii de locuitori) şi rezultatele la concursul Tabelul 3 : Discretizarea caracterelor X şi Y
de ortografie din 1993

Cu ajutorul tabelului 3 este mult mai


simplu şi mai uşor să se compare
rezultatele fiecărui oraş şi se observă
conturarea clară a unei relaţii între
mărime oraşului şi succesul său la
concursul de ortografie. Abundenţa
cuplurilor (+,-) sau (_,+) şi raritatea
cuplurilor (-,-) sau (+,+) indică foarte
clar că, cu cât oraşul este mai mare, cu
atât candidaţii săi au comis mai
puţine greşeli de ortografie (+,-) şi cu
cât oraşele sunt mai mici, cu atât
numărul de greşeli este mai mare (-,+)
şi că este rar ca un oraş mic să fi comis
puţine greşeli (-,-) sau ca un mare
oraş să fi înregistrat multe erori de
ortografie (+,+).
Aceste observaţii pot fi sintetizate într-un tabel de contingenţă care încrucişează cele două variabile
dihotomice X' şi Y' (Tabelul 4).

Distribuţia frecvenţelor marginale nu are în mod evident nimic aleatoriu (ceea ce se poate demonstra
în statistică cu ajutorul testului de independenţă χ² (v. Apetrei, Grasland şi Groza, 1996 : relaţia dintre
două caractere calitative).

Critica metodei dihotomice


 Rezultatele metodei dihotomice sunt totuşi mult prea simplificate. Astfel, oraşele care au valori foarte
apropiate pot să apară clasate în mod diferit în tabelul sintezei finale, în vreme ce două unităţi
îndepărtate pot să fi clasate împreună. Mai mult, rezultatele pot să se modifice serios în funcţie de
pragul reţinut ca valoare de referinţă. Dacă s-ar fi folosit media şi nu mediana drept criteriu de
discretizare, relaţia dintre mărimea oraşelor şi numărul lor de greşeli de ortografie ar fi apărut mult mai
puţin clar (se poate verifica plecând de la tabelul nr. 1 şi reconstruind tabelele 3 şi 4 cu ajutorul mediei).
 
Lărgirea metodei dihotomice
În loc de a face doar două clase pentru X şi Y se pot construi mai multe, de exemplu 4, folosind o
discretizare cu 4 modalităţi în funcţie de medie şi de ecartul-tip. Tabelul de contingenţă ar avea astfel
16 celule. S-ar putea utiliza de asemenea quartilele distribuţiei pentru a se ajunge la o discretizare în
patru clase de efective egale. Esenţial este însă să se utilizeze aceeaşi metodă pentru ambele caractere
X şi Y ; în caz contrar compararea rezultatelor nu este valabilă.
2. Transformarea în ranguri

O metodă la fel de simplă ca şi precedenta însă mult mai robustă constă în a face comparabile
distribuţiile transformându-le în clasamente (în ranguri), ceea ce permite eliminarea unităţilor de
măsură, ordinele de mărime şi diferenţele de dispersie. Aplicarea acestei metode nu ridică probleme
deosebite însă trebuie să se acorde atenţie la două lucruri :

 
a) – ordinea clasamentului (crescătoare sau
descrescătoare) trebuie să fie specificată şi
să fie pe cât posibil aceeaşi pentru ambele
caractere. În exemplul studiat se optează
pentru o ordine descrescătoare, încât Parisul
va fi pe primul loc pentru caracterul
« populaţie » iar Fort-de –France va ocupa
primul rang pentru caracterul « număr de
greşeli de ortografie ».  Prin urmare, este
clar că « un loc fruntaş » în cazul
caracterului Y (greşelile) înseamnă de fapt o
foarte scăzută performanţă gramaticală şi
invers (Toulouse, care a comis cele mai
puţine greşeli este pe locul al 25-lea pentru
caracterul Y).
Rang Ranguri
Rang Rang Ranguri
b) – atunci când există egalitate de Oraşul
Oraşul populație Rang greşeli
greşeli "sportive"
populație întregi
pentrupop.
greșeli
ranguri între indivizi, acestora li se
Besançon
Fort-de-France 20
22 41 201
atribuie ca rang media locurilor pe care
Limoges
Bordeaux 19
5 22,52 52
le-ar fi ocupat dacă ar fi fost unii după
Poitiers
Beauvais 21
24 73 243
alţii. Se reia apoi clasamentul după Besançon 20
Caen 18 64 184
rangurile virtuale ocupate. Problema Clermont-
Montpellier 12 5 5
egalităţii de rang nu se pune pentru Ferrand
Caen 11
18 206 116
caracterul X (toate oraşele au populaţii Dijon
Beauvais 14
24 10,57 147
diferite) însă ea apare de mai multe ori Rouen 9 8,5 8
Fort-de-France
Orléans 22
13 1
8,5 228
pentru caracterul Y. Astfel, 5 oraşe au Lannion 25 15 259
Dijon 14 10,5
comis 9,5 greşeli de ortografie şi ocupă Le Mans 16 12 169
Metz 17 10,5
implicit al 13-lea, al 14-lea, al 15-lea, al
LeLille
Mans 4
16 1512 410
16-lea şi al 17-lea rang. Mai degrabă Limoges
Lyon
19
2
2
15
19
11
decât să li se atribuie tuturor rangul al 13- Lyon
Lille
2
4
15
15
2
11
lea (cum s-ar face într-o competiţie Marseille
Nantes 37 18,5
15 311
sportivă), în statistică li se atribuie media Montpellier
Reims 12
15 515 1211
rangurilor, adică al 15-lea pentru toate 5. Meaux
Lannion 23
25 22,5
15 2311
Metz
Marseille 17
3 10,5
18,5 1712
Acest fel de a proceda este mai riguros
Nantes
Nice 78 15
18,5 712
decât metoda « sportivă ». Atunci când se Nice 8 18,5 8
Clermont-
trece la oraşul consecutiv celor cinci, Orléans
Ferrand 13
11 8,520 1313
acestuia i se va acorda rangul al 18-lea (în Paris
Paris 11 22,5
22,5 114
acest caz al 18,5-lea) şi nu al 16-lea Poitiers
Bordeaux 21
5 3
22,5 2114
deoarece din punct de vedere statistic Reims
Strasbourg 15
10 15
22,5 1514
Rouen 9 8,5 914
este esenţial ca suma rangurilor atribuite Meaux 23 22,5
Strasbourg 10 22,5 1015
a N indivizi să fie egală cu suma
Toulouse
Toulouse 66 25
25 6
rangurilor întregi ale lui N, adică SUMA rangurilor: 325 325
1+2+3+....+N = N*[(N+1)/2]. SUMA RANGURI 325 325 235
Tabelul 5 : Transformarea ordinală
a caracterelor X şi Y

Tabelul 5, obţinut prin transformarea tabelului 1 în clasament este


simplu de interpretat şi mult mai precis decât cel care a fost obţinut
prin metoda discretizării dihotomice (tabelul 3). Oricare ar fi oraşul
ales, se poate şti imediat daca rangurile pe fiecare dintre cele două
criterii sunt identice sau diferite. Ca regulă generală, se observă
ecarturi mari între cele două clasamente, cu excepţia indivizilor situaţi
în poziţie mediană. Acest lucru confirmă ipoteza unei relaţii negative
între cele două variabile X şi Y : cu cât oraşul este mai mare, cu atât
candidaţii săi comit mai puţine greşeli şi reciproc, cu cât oraşul este
mai mic, cu atât candidaţii săi fac mai multe greşeli la concursul de pe
France 3.
În cursul viitor se va demonstra că această ipoteză a relaţiei statistice
dintre rangurile indivizilor pentru două caractere cantitative poate fi
testată cu ajutorul coeficientului de corelaţie Spearman, ce permite
detectarea relaţiilor lineare sau nonlineare monotone între două
caractere cantitative.

Critica metodei transformării ordinale


 
Această metodă de comparare este fără îndoială una dintre cele mai
bune, poate cea mai bună atunci când distribuţiile studiate nu sunt
unimodale şi simetrice. Inconvenientul principal al acestei metode
este acela că elimină total ordinul de mărime al caracterelor studiate.
Doi indivizi apropiaţi pe un caracter pot să se găsească foarte
îndepărtaţi ca ranguri dacă se găsesc întro zonă a distribuţiei unde
valorile sunt foarte apropiate. Astfel, Le Mans(10 greşeli) şi Clermont-
Ferrand (8,5 greşeli) au o diferenţă considerabilă de ranguri (al 12-lea şi
al 20-lea) doar pentru că multe oraşe au înregistrat 9 sau 9,5 greşeli.
Invers, Fort-de-France şi Limoges ocupă ranguri succesive (primul şi al
doilea) deşi diferenţa lor absolută de greşeli este considerabilă
(respectiv 33 şi 21,5).
3. Transformarea în indici

Metoda indicilor pare mai satisfăcătoare decât precedenta deoarece păstrează ordinul de mărime al
caracterelor, dar aducându-le la o bază comună numită indice, a cărui valoare este în general fixată la
100. Foarte utilizată în economie, această metodă constă în definirea unei valori de referinţă şi în
exprimarea tuturor variabilelor într-o unitate de măsură comună (numită baza indicelui), care exprimă
ecartul valorii de referinţă sub forma unui raport. În general se alege media ca valoare de referinţă şi
100 ca bază a indicelui.
  Xi
  X ' i  100
X ref
 
Tabelul indicilor permite imediat reperarea poziţiei indivizilor în raport cu valoarea de referinţă aleasă.
Astfel, dacă valoarea de referinţă este media :
- un indice de 110 semnifică faptul că individul este situat cu 10% deasupra mediei
- un indice de 80 semnifică faptul că individul este situat cu 20% sub medie, etc.
 
Această soluţie este utilizată în special atunci când se studiază evoluţia indivizilor în decursul timpului.
Ex.: intre 1950 şi 1980, Franţa a trecut de la 42 la 54 de milioane de locuitori iar Albania de la 1,2 la 2,7
milioane de locuitori. Dacă se ia ca indice 100 populaţia din 1950, în 1980 Franţa are un indice de 129 în
vreme ce Albania de 225.

Exemplul oferit de jurnaliştii şi de economiştii mai leneşi, care privilegiază media, nu trebuie urmat,
fiindcă de multe ori mediana este mult mai pertinentă ca valoare de referinţă, cum este cazul
exemplului studiat aici. Prin urmare tabelul 1 va fi transformat într-unul al indicilor, cu mediana ca bază
a acestora.
Tabelul 6 : Transformarea caracterelor X şi Y în
Lectura tabelului indicilor este rapidă şi performantă.
indice 100 în raport cu mediana Astfel, se observă imediat că Lyon este de 5 ori mai
populat decât jumătatea oraşelor studiate (indice 505
pentru populaţie) însă nivelul său de ortografie se
situează cuminte la nivelul medianei (indice 100).
Poitiers, care apare ca un oraş mic în eşantionul
studiat (indice 47 pentru populaţie) are multe greşeli
(indice 205) în vreme ce Toulouse are caracteristici
practic inverse.
De fapt transformarea în indici poate fi considerată ca
o variantă mai precisă a discretizării dihotomice,
deoarece şi una şi alta dintre metode urmăresc
poziţionarea valorilor în raport cu o valoare de
referinţă fie discret (+ sau -) fie continuu şi relativ
(indice superior sau inferior lui 100).
 
Critica metodei transformării în indici
 
Deşi destul de interesantă, metoda indicilor nu este cu
totul recomandabilă deoarece nu este foarte obiectivă
şi prin aceasta permite tot felul de manipulări.
Alegerea valorii de referinţă este crucială şi poate
modifica rezultatele în mod semnificativ (ca şi în cazul
discretizării dihotomice). Mai mult, această metodă
are marele inconvenient de a nu ţine cont de dispersia
caracterelor, nefăcând decât să corecteze ordinele de
mărime. Următoare metodă, standardizarea, ţine cont
simultan de ambii parametri şi asigură comparaţii de o
calitate net superioară.
4. Standardizarea (normarea)

Standardizarea este metoda cea mai eficientă de comparare a două variabile atunci când acestea
sunt unimodale şi simetrice. Metoda constă în a efectua o dublă transformare, de centrare şi de
reducere, din care cauză variabilele standardizate sunt numite de asemenea variabile centrate-
reduse sau variabile normate.  
Centrarea constă în a aduce ordinul de mărime (valoarea centrală) a distribuţiei valorilor la o valoare
de referinţă fixată de utilizator şi care în general este 0 (zero). Interesul unei centrări pe 0 este acela
de a putea repera imediat, cu ajutorul semnelor +/-, indivizii situaţi deasupra sau dedesubtul valorii
de referinţă.
Reducerea constă în a aduce eterogenitatea distribuţiei (parametrul de dispersie) la o a doua
valoare de referinţă, de asemenea fixată de utilizator, şi care este în general 1. Interesul reducerii
este acela de a face imediat comparabile ecarturile pozitive sau negative prin raportarea lor la
valoarea de referinţă fixată şi de a considera astfel că dispersia fiecărei distribuţii joacă acelaşi rol în
analiza efectuată.

Soluţia cea mai frecvent utilizată în standardizare este centrarea în raport cu media şi reducerea în
raport de ecartul-tip (abaterea standard) :

(X i  X )
X 'i 
X
Ecartul-tip (abaterea standard) este rădăcina pătrată a varianţei iar
varianţa este media aritmetică a pătratelor abaterilor valorilor din şir de la media acestuia

n n
2 2
 i( x - x )  ( xi - x )
2 i=1 2 i=1
varianţa:  = ecartul-tip:  =  =
n n

xi
centrarea: x i = x i - x reducerea: x i =

(X i  X )
standardizarea : X 'i 
X
O variabilă X’ standardizată în raport cu media şi cu ecartul-tip este prin urmare caracterizată
de faptul că media sa este egală cu 0 iar ecartul-tip (abaterea standard) este egală cu 1.
Această dublă proprietate facilitează considerabil interpretarea poziţiei indivizilor deoarece
putem compara cele două distribuţii în funcţie de un nivel de referinţă comun, şi anume de
distribuţia gaussiană, putând cunoaşte imediat:
- dacă un individ este peste sau sub medie (semnul pozitiv sau negativ al variabilei
standardizate)
- dacă un individ este caracterizat de o valoare banală sau de una excepţională a caracterului
(valoarea absolută a variabilei standardizate apropiată sau îndepărtată de 0).
 
Astfel, tabelul rezultat permite poziţionarea fiecărui individ în funcţie de o grilă comună de
lectură pentru toate variabilele şi astfel, prin raportarea la distribuţia gaussiană, se poate
descrie într-o manieră calitativă dar obiectivă poziţia relativă a indivizilor în funcţie de toate
variabilele.
Tabelul 7 : Valorile standardizate prin Tabelul 8 : Grilă de lectură calitativă a valorilor
medie şi ecart-tip ale distribuţiilor X şi Y standardizate

Aplicată tabelului 7, această grilă de lectură permite uşor


comentarea poziţiei fiecărui oraş în funcţie de cele două
criterii. Astfel, se poate afirma că Limoges are o populaţie
destul de redusă în raport cu celelalte oraşe din
eşantionul studiat (-0,3) şi un număr mare de greşeli de
ortografie (+1,6).
Pe ansamblu însă rezultatele obţinute în acest caz prin
standardizare sunt destul de decepţionante fiindcă
majoritatea valorilor standardizate sunt cuprinse între -1
şi +1 pentru ambele variabile. Această situaţie rezultă din
prezenţa a două valori excepţional de mari, una în
distribuţia populaţiei (Paris = +4,8) iar cealaltă în
distribuţia greşelilor de ortografie (Fort-de-France = +3,6).
Aceste două valori fac distribuţia foarte asimetrică şi prin
aceasta reduc pertinenţa alegerii mediei şi ecartului-tip
drept criterii de standardizare.
Oraşul Pop. Greşel (pop-Q2pop)/ (greseli-Q2greseli)/
(X) i (Y) (Q3pop-Q1pop) (Q3greseli-Q1greseli)
Besançon 121 18 -0,3 1,9
Bordeaux 640 8 1,4 -0,3
Beauvais 51 13,5 -0,6 0,9
Critica standardizării Caen 184 14 -0,1 1,0
  Clermont- 256 8,5
0,1 -0,2
Ferrand
În teorie, standardizarea este metoda
Dijon 216 11 cea mai0,0 eficientă de0,3 comparare a distribuţiilor diferite, însă
nu este valabilă în forma sa clasică
Fort-de-France 100 decât
33 atunci
-0,4 când distribuţiile
5,2 sunt unimodale şi simetrice.
Lannion 15 9,5
Dacă aceste condiţii nu sunt îndeplinite,
Le Mans 191 10
fie-0,7
se face apel la0,0
-0,1
o standardizare care utilizează mediana
0,1
ca valoare de referinţă şiLille intervalul
936 interquartil
9,5 2,4 ca parametru 0,0 de dispersie, fie se utilizează
metoda rangurilor, care este mai
Limoges 172 robustă
21,5 în-0,2
cazul prezenţei 2,7valorilor excepţionale.
Lyon 1221 9,5 3,4 0,0
  Marseille 1111 9 3,0 -0,1
CONCLUZIE Montpellier 221 16 0,0 1,4
Meaux 56 8 -0,6 -0,3
  Metz 186 11 -0,1 0,3
Standardizarea şi celelalteNantesmetode
465 studiate
9,5 permit compararea
0,8 0,0 distribuţiei mai multor caractere
cantitative continue, chiar Nicedacă449
acestea9 au unităţi
0,8 de măsură-0,1 diferite, valori centrale diferite şi
Orléans 220 12,5 0,0 0,7
parametri de dispersie diferiţi.
Paris Alegerea
8707 8 celei 29,0mai bune metode
-0,3 depinde de obiectiv, de beneficiar
şi de proprietăţile distribuţiei.
Poitiers 103 19,5 -0,4 2,2
Reims 199 9,5 -0,1 0,0
În cazul în care se studiază
Rouen
două variabile
380 12,5
continue
0,5
X şi Y, standardizarea
0,7
permite detectarea
prezenţei relaţiilor pozitive
Strasbourg sau373negative8 dintre 0,5 variabile. Standardizarea
-0,3 constituie deci o operaţie
Toulouse 541 7 1,1 -0,6
prealabilă indispensabilă testării ipotezelor existenţei relaţiilor statistice semnificative (a
corelaţiilor) sau construirii  modelelor
Pop. Greşel de estimare a valorilor unei variabile în raport de alta (a
Valoarea
Semnificaţia calitativă
regresiilor). i standardizată
Media 685 12,2  -3 < Excepţional de redusă
Ecartul-tip 1668 5,7 de la -3 la -2 Foarte redusă
Q1 172 9 de la -2 la -1 Redusă
Mediana 220 9,5 de la -1 la 0 Destul de redusă
Q3 465 13,5 de la 0 la +1 Destul de mare
Q3-Q1 293 4,5 de la +1 la +2 Mare
de la +2 la +3 Foarte mare
 > +3 Excepţional de mare