Sunteți pe pagina 1din 30

Capitolul 1.

Tehnici de explorare a datelor


Într-o cercetare a lumii înconjurătoare ne bazăm, de regulă, pe
existenţa unui număr de indivizi distincţi ai unei populaţii studiate. În
legătură cu aceşti indivizi (obiecte sau cazuri) urmărim una sau mai multe
mărimi care, credem noi, îi caracterizează; acestea sunt numite caracteristici.
Cercetarea poate fi făcută fie în mod exhaustiv, luând în studiu toată
populaţia – ceea ce este foarte costisitor atunci când populaţia este
numeroasă – fie prin eşantion alegând, după reguli bine precizate, un grup
„reprezentativ” al populaţiei. Cercetătorul în analiza datelor nu este însă
interesat de aceste detalii; lui i se oferă „nişte informaţii” prezentate în
general sub forma unui tabel (matrice) de date. El are ca sarcină să extragă
din acest tabel de date cât mai multă „informaţie semnificativă” – sub formă
numerică şi/sau grafică – şi s-o prezinte într-o formă cât mai restrânsă – cât
mai puţine linii şi coloane. Odată acest deziderat realizat, orice decizie
viitoare privind comportamentul populaţiei studiate poate fi explicată prin
argumente ştiinţifice.

1.1 Matrice de date – exemple practice


În această secţiune ne vom referi la exemplele prezentate în Anexele
1 şi 2 ale materialului. Toate acestea conţin informaţii primare, din diverse
domenii economice, prezentate sub forma unei matrice de date. Vom descrie
natura informaţiei din aceste exemple şi posibile analize efectuate asupra
lor.
Exemplul 1. Problema unui dealer de autoturisme
Informaţiile de care dispune un dealer de autoturisme sunt
prezentate în tabelul 1 din Anexa 1. Acest tabel conţine caracteristicile unor
mărci de autoturisme oferite spre vânzare. Tabelul (matrice) are 26 de linii –
corespunzătoare mărcilor de autoturisme analizate şi 7 coloane,
reprezentând preţul şi alte caracteristici tehnice şi de confort ale
autoturismelor. Dealerul doreşte să afle, folosind tabelul de date, ce
caracteristici ale maşinilor sunt definitorii în decizia unui client de a
cumpăra un autoturism. Există oare în viziunea cumpărătorului clase
(grupuri) de autoturisme? Dacă da, care sunt acestea?

Exemplul 2. Problema unui investitor


Un investitor are informaţii privind principalii indicatori financiar-
contabili calculaţi din bilanţurile contabile ale unui lot de firme
(vezi tabelul 2 din Anexa 1). Aceştia pot fi însă foarte numeroşi. Investitorul
nu ar renunţa în analiza lui, fără argumente bine precizate, la nici unul dintre
indicatori. Singur, nu are capacitatea de a-i selecta pe cei mai importanţi, şi
nici nu poate să ordoneze firmele după potenţialul (bonitatea) lor ţinând
seama de toţi indicatorii. Dacă, s-ar putea calcula nişte scoruri ale firmelor
pe seama unor „indicatori sintetici” deduşi din indicatorii iniţiali, atunci
decizia investitorului nu ar mai fi pur subiectivă, ea ar avea un suport
ştiinţific şi probabil că riscul asociat deciziei de a investi ar fi mai mic.

Exemplul 3. Studiul indicatorilor de calitate a vieţii


În plin proces de globalizare este important să ştim la ce „distanţă”
suntem de alte ţări ale Europei sau chiar faţă de alte ţări ale lumii.
Indicatorul sintetic numit „calitatea vieţii”, bine definit de specialişti, ne
poate ajuta să răspundem la această întrebare. Putem folosi informaţii ca
cele din tabelul 3 al Anexei 1 în care sunt prezentate principalele elemente
ce stau la baza calculului indicatorului de calitate a vieţii pentru un număr
de 23 de ţări ale lumii. În tabel (matrice) sunt prezentate următoarele date (la
nivelul anului 1992): sporul natural al populaţiei, mortalitatea infantilă,
gradul de urbanizare, numărul de medici la mia de locuitori, numărul de
receptoare de televiziune la mia de locuitori, rata inflaţiei, cheltuielile pentru
educaţie, cele pentru apărare, importul şi exportul precum şi consumul de
energie pe locuitor. Oare toţi aceşti indicatori au aceeaşi importanţă în
exprimarea indicatorului sintetic „calitatea vieţii”? Dacă nu, se pot identifica
doi sau trei indicatori sintetici pe baza cărora să putem ordona ţările din
punctul de vedere al calităţii vieţii locuitorilor? Care ar fi poziţionarea
României în această clasificare, ce ţări ne-ar fi apropiate din acest punct de
vedere?

Exemplul 4. Studiul repartiţiei bugetului


Dacă dispunem de informaţii anuale – pe o perioadă mare de timp –
privind repartiţia bugetului unei ţări, putem oare identifica momentele
strategice importante privind politica ţării respective? Ca exemplu tipic vom
folosi datele prezentate în tabelul 4 al Anexei 1, tabel (matrice) ce conţine
repartiţia bugetului Franţei în perioada 1872-1971. Folosind tehnicile
analizei datelor pot fi puse în evidenţă momentele premergătoare celor două
războaie mondiale, care au fost precedate de alocări mai mari din buget spre
cheltuielile militare, dar şi momentele de acalmie între cele două războaie
mondiale şi după al doilea război mondial, când bugetul a fost repartizat cu
predilecţie spre activităţi de învăţământ şi asistenţă socială.
Exemplul 5. Analiza rentabilităţii unui portofoliu
În constituirea unui portofoliu putem să folosim informaţii de tipul
celor conţinute în tabelul 5 al Anexei 1.
Dispunem de un număr de 13 companii din domeniul ITC, companii
listate pe S&P 500. Ele apar ca linii în tabelul de date; fiecare linie conţine
informaţii privind evoluţia tranzacţiilor acţiunilor pe piaţa de capital în doi
ani consecutivi, adică: preţul la deschidere, preţul la închidere, preţul minim
şi preţul maxim, volumul tranzacţiilor, câştigul (în %) etc. (toate ca valori
medii ale anului respectiv). Ne mai interesează să estimăm rentabilităţi ale
activelor şi eventualele riscuri în constituirea unui portofoliu. În acest scop
putem apela tehnici de clasificare care să evidenţieze factorii latenţi care au
guvernat tranzacţia activelor din portofoliu pe perioada analizată, de
asemenea putem clasifica companiile în grupuri cât mai omogene în ceea ce
priveşte evoluţia indicatorilor analizaţi în dinamică, etc.

Exemplul 6. Analiza riscului returnării unui credit


Tabelul 6 din Anexa 1 conţine informaţii sub forma unei matrice de
date. Pe linii sunt clienţii unei bănci (selecţie din totalul clienţilor) ) ce au
solicitat credite. Pe coloane avem o serie de elemente privind informaţii
financiare şi demografice pentru fiecare client. În matricea datelor o
importanţă aparte o are coloana nouă în care se specifică, într-o formă
codificată, dacă clientul a avut înainte probleme de rambursare a vreunui
credit sau nu. Astfel, din start clienţii sunt grupaţi în două clase: una a celor
cu probleme de rambursare, iar cealaltă a celor fără antecedente. Tehnicile
de clasificare şi analiză a discriminării ne permit să precizăm prin ce
combinaţii de atribute financiare şi demografice pot fi caracterizaţi clienţii
din fiecare clasă şi să facem previziuni asupra comportării unor clienţi noi al
băncii privind încadrarea lor într-o clasă sau alta.

Exemplul 7. Informaţii dintr-un chestionar


Analiza datelor constituie un suport foarte important pentru deciziile
privind marketingul ştiinţific. Perceperea unui produs de către un segment
de cumpărători, gradul de saturare al pieţei produsului şi decizia de lansare a
unui produs nou (sau într-o formă nouă) sunt materializate folosind tehnica
chestionarului şi analiza datelor. Prezentăm în Anexa 2 un asemenea
chestionar realizat în scopul identificării stării actuale privind dotarea
populaţiei cu aparate audio-video, mărcile de televizoare mai cunoscute şi
cele preferate la o eventuală achiziţionare de către cumpărători.
1.2 Scări de măsurare ale caracteristicilor
Putem afirma că toate exemplele date anterior conţin informaţii într-
un tabel –matrice de date – (vezi tabelul 1). În general, fiecare linie
reprezintă un individ (obiect) din mulţimea celor studiaţi, pe coloane
regăsindu-se caracteristicile urmărite. Să presupunem că avem n indivizi
asupra cărora studiem p caracteristici notate C1, C2, …, Cp. Matricea de date
o putem scrie X = xij ( )
i =1, 2,..., n; j =1, 2,..., p
. În această matrice un element xij
exprimă valoarea caracteristicii j măsurată pentru individul i. De exemplu,
dacă folosim datele din tabelul 1 al Anexei 1, autoturismul Opel Corsa
Swing este al 10-lea individ (obiect) în tabelul de date, iar elementul
x10,1 = 13050 reprezintă caracteristica preţ (în $) a maşinii respective.
Datele din tabelul 1 al Anexei 1 sunt, prin urmare, un exemplu de
matrice (tabel) de forma indivizi × caracteristici.

Tabelul 1. Forma generală a matricei indivizi × caracteristici


Caracteristicile
C1 C2 … Cj … Cp
1 x11 x12 … x1j … x1p
2 x21 x22 … x2j … x2p
Indivizii

… … … … … … …
i xi1 xi2 … xij … xip
… … … … … … …
n xn1 xn2 … xnj … xnp

Precizarea scărilor de măsurare ale caracteristicilor observate, pe


grupul de indivizi, este esenţială în identificarea tehnicii de modelare şi
analiză. Fiecărei caracteristici i se asociază o scară de măsurare conform cu
natura informaţiei conţinute şi cu modul în care o percepem. După
precizarea scării de măsurare, caracteristica respectivă va fi reprezentată
printr-o aşa numită variabilă. Explorând tabelele de date prezentate în
exemplele anterioare putem afirma că există o mare diversitate în a exprima
ansamblul indivizi × caracteristici. În exemplul 1 avem ca indivizi tipurile
de autoturisme, iar caracteristicile sunt preţul, viteza, consumul de carburant
etc. Remarcăm faptul că aceste caracteristici sunt transformate în variabile
prin exprimarea în unităţi clasice de măsură: monetare, kilometri la oră, litri
la suta de kilometri etc. În exemplul 2 indicatorii de bonitate calculaţi pentru
firme sunt rate, adică rapoarte ale diverselor mărimi din documentele
contabile. Aceste mărimi – indicatorii – devin variabile numerice
cantitative; evident, încadrarea valorilor fiecărui indicator într-un anumit
interval este foarte importantă. Bineînţeles, exemplele pot continua.
În general, variabilele pot fi clasificate în: variabile continue
(cantitative) şi variabile categoriale (calitative).

A) Variabilele continue provin din caracteristici ce exprimă atribute


cantitative ale indivizilor. Scara lor de măsură este continuă, putând acoperi
– în general – un interval de valori. De exemplu, preţul – unui autoturism
sau unui activ financiar – este o variabilă continuă; de obicei ia valori
numerice (exprimate în lei, euro etc.) cuprinse între un minim şi un maxim.
Cu aceste valori se pot efectua cele patru operaţii aritmetice clasice, iar
indicatorii statistici relevanţi, calculaţi pe baza valorilor observate, sunt
media şi abaterea medie pătratică. Şi variabilele ale căror valori sunt
exprimate în procente sau în rate (vezi aplicaţia 2) sunt variabile continue.

B) Variabilele categoriale provin din caracteristici care exprimă


atribute calitative. Aceste variabile au două sau mai multe nivele de valori,
nivele numite modalităţi sau categorii. Există o subclasificare a lor în trei
grupe, astfel:
B1) Variabilele nominale au de obicei mai mult de două nivele. De
exemplu, caracteristica Nivelul educaţiei din Exemplul 6 al Anexei 1, este o
variabilă nominală având modalităţile:
Fără liceu – codificată prin 1
Doar cu liceu – codificată prin 2
Facultate neterminată – codificată prin 3
Licenţiat – codificată prin 4
Postuniversitare – codificată prin 5
B2) Variabilele binare au doar două valori-nivele. În Exemplul 6
din Anexa 1 variabila Probleme anterioare de rambursare are două nivele
(modalităţi):
Nu codificat prin 0
Da codificat prin 1.
B3) Variabilele ordinale sunt variabile ale căror nivele, de obicei
mai mult de două, pot fi comparate între ele. În general, în situaţiile întâlnite
în cercetarea de marketing, la aceste variabile respondentul unui chestionar
alege un răspuns din câteva răspunsuri posibile, ordonate calitativ; el îşi
exprimă astfel, în mod preferenţial, opinia sa despre un anumit atribut.
Putem da ca exemplu de variabilă ordinală răspunsul la o întrebare din
chestionarul din Anexa 2, şi anume la întrebarea:
În alegerea unei anumite mărci de aparat, în ce măsură vă
influenţează reclama? Mă influenţează
foarte mult mult potrivit puţin deloc
1 2 3 4 5
Se observă că acestor răspunsuri de natură calitativă li se asociază câte
un cod numeric (1, 2 ş.a.m.d.).

1.3 Explorarea variabilelor continue


În exemplele prezentate în §1.2 apar o serie de caracteristici ale unor
grupuri de indivizi cărora li se asociază scări de măsurare continue. O
asemenea scară acoperă, de regulă, un interval de valori. Putem vorbi în
acest sens de preţul (în lei sau valută) al unor autoturisme, de preţul în
dinamică al unui activ financiar tranzacţionat pe piaţa de capital dar şi de
ratele financiare asociate în analiza bonităţii unor firme sau de diverse valori
procentuale. În exemplele prezentate informaţiile apar ca matrice de date de
forma indivizi × caracteristici iar prelucrarea lor primară se realizează, de
regulă, în două etape şi anume:
A) prelucrarea independentă a câte unei variabile;
B) prelucrarea comună a două sau mai multe variabile.
Să analizăm, pe rând, cele două etape.
A) Prelucrarea independentă a câte unei variabile presupune
selectarea, din matricea de date X = xij ( )i=1,2,...,n; j =1,2,..., p
, a câte unei
coloane ce reprezintă valori observate asupra unei variabile de tip continuu.
Pentru simplificare, să notăm elementele matricei corespunzătoare acestei
variabile selectate cu ( x1 , x 2 ,..., x n ) T . Secvenţa aleasă reprezintă valori
observate asupra celor n indivizi din analiza noastră. Primele informaţii
statistice legate de valorile x1 , x 2 ,..., x n se referă la evaluări ale tendinţei
centrale; acestea sunt:
n

∑ x , ea fiind un
1
a) Media, notată m x , se calculează cu formula i
n
i =1
indicator important al tendinţei centrale.
b) Mediana este asociată secvenţei x(1) , x( 2) ,..., x( n ) ce reprezintă
valorile x1 , x 2 ,..., x n ordonate crescător. Ea este acea valoare (nu
neapărat dintre valorile x1 , x 2 ,..., x n ) pentru care numărul valorilor
din secvenţa x (1) , x ( 2) ,..., x ( n ) care-i sunt mai mici este acelaşi cu
numărul valorilor care-i sunt mai mari.
c) Modul este acea valoare cu frecvenţa cea mai mare de apariţie. (El
nu este în mod necesar unic.)

modul modul

mediana mediana
media media

a) Repartiţie asimetrică (right skewed) b) Repartiţie asimetrică (left skewed)

modul=mediana=media

c) Repartiţie simetrică
Figura 1. Evaluări ale tendinţei centrale

Pentru a evalua împrăştierea datelor se folosesc următorii indicatori:


a) Varianţa (dispersia), notată s x2 , este calculată cu formula
n

∑ (x − m )
1 2
i x . (1)
n −1
i =1
b) Abaterea standard, notată s x , este calculată cu formula
n

∑ (x − m )
1 2
i x . (2)
n −1
i =1
c) Amplitudinea este calculată ca diferenţă între valoarea maximă şi
valoarea minimă a valorilor x1 , x 2 ,..., x n .
Este important ca, pentru diverse tipuri de distribuţii ale frecvenţelor
valorilor x1 , x 2 ,..., x n , să punem în evidenţă relaţii de ordine între cei trei
indicatori ai tendinţei centrale. Prezentăm în figura 1 cele trei situaţii
posibile. Astfel, în figura 1 c) prezentăm o repartiţie simetrică pentru care
cei trei indicatori ai tendinţei centrale coincid. În figura 1 a) şi 1 b) avem
repartiţii asimetrice, prima fiind „skewed dreapta” iar cea de-a doua fiind
„skewed stânga”. Relaţiile de ordine între cele trei valori pentru mod,
mediană şi medie sunt evidenţiate clar în graficele menţionate.
Exemplu: Fie secvenţa de şase numere 2, 5, 0, 9, 0, 7 reprezentând
observaţii asupra a şase indivizi. Secvenţa ordonată crescător o obţinem
imediat, ea este 0, 0, 2, 5, 7, 9. Valorile ce măsoară tendinţa centrală sunt:
media = 3.83, mediana se află între valorile 2 şi 5, prin interpolare putem
lua valoarea 3.5. Se observă faptul că mediana separă secvenţa de valori
ordonate în jumătate, 50% dintre valori fiind mai mici decât ea şi 50% dintre
valori fiind mai mari decât ea. Modul valorilor 2, 5, 0, 9, 0, 7 – adică
valoarea cu frecvenţa cea mai mare – este 0 (aici frecvenţa maximă este 2).
Media, mediana şi modul sunt trei indicatori ai localizării „centrului”
valorilor dintr-o secvenţă de date. În analiza repartiţiei valorilor observate,
la fel de importante sunt şi alte măsuri ale localizării datelor. Acestea sunt
cunoscute sub numele de percentile şi cuartile, şi sunt asociate secvenţei de
valori x (1) , x ( 2) ,..., x ( n ) .
1) Percentila de ordinul p este acea valoare, notată aici Pp , care are
proprietatea că p% dintre valorile secvenţei sunt mai mici decât ea şi
(100 – p)% dintre valori sunt mai mari decât ea.
2) Cuartila inferioară, notată Q1 , este percentila 25.
3) Cuartila de mijloc, notată Q2 , este percentila 50. Se observă faptul
că cuartila Q2 este tocmai mediana.
4) Cuartila superioară, notată Q3 este percentila 75.
Cuartilele se folosesc pentru a analiza dispersia valorilor secvenţei
x1 , x 2 ,..., x n calculându-se cu ajutorul lor aşa-numitul indicator inter-
quartile (notat IQR). El este calculat ca diferenţa dintre percentila 75 ( Q3 )
şi percentila 25 ( Q1 ). În cazul unei repartiţii normale a datelor acest interval
trebuie să fie aproximativ 1.35 din abaterea standard a datelor.
Tratarea punctelor aberante. Uneori, în secvenţa de valori
x1 , x 2 ,..., x n este semnalată prezenţa unor valori outliers (aberante ca
mărime în raport cu celelalte). În aceste situaţii unii indicatori de localizare
centrală sunt mult denaturaţi (deplasaţi) şi este indicat să calculăm aşa
numitele medii „robuste”. Acestea încearcă să elimine efectul valorilor
aberante (fără a afecta rezultatele). Dintre mediile robuste amintim:
1) Media winsorizată 95%, în calculul căreia primele 2.5% dintre
valorile ordonate sunt înlocuite cu „percentila 2.5” şi ultimele 2.5%
dintre valori sunt înlocuite cu „percentila 97.5”.
2) Media trunchiată 95%, trimmed mean, este calculată excluzând
primele 2.5% şi ultimele 2.5% dintre valorile secvenţei ordonate.
Tehnicile grafice sunt foarte relevante şi în cazul variabilelor
continue. Putem reprezenta datele sub formă de histograme, box plot-uri
(vezi figura 3), high-low plot-uri.
Exemplu. Să considerăm variabila Preţul la deschidere (coloana
corespunzătoare anului 2000 din Exemplul 5, Anexa 1). Aceasta este o
variabilă continuă, valorile ei exprimând preţul la deschiderea bursei pentru
acţiunile celor 13 companii (sunt valori medii anuale). Pentru a face o
apreciere generală asupra evoluţiei unui portofoliu compus din aceste
acţiuni, ne interesează indicatorii de centrare şi de împrăştiere ai variabilei
preţ. Prezentăm în tabelul 2 valorile indicatorilor prezentaţi mai sus,
outputul fiind de tip SPSS.

Tabelul 2. Preţul la deschidere – indicatori statistici


N Valid 13

Mean 60.63
Median 50.16
Mode 14.93
Percentiles 25 38.43
50 50.16
75 92.68

a) Media, mediana, modul şi cuartilele


N Minimum Maximum Mean Std. Dev. Variance
Open 2000 13 14.93 109.14 60.6344 30.4471 927.026
Valid N
13
(listwise)
b) Valoarea minimă, maximă, media, abaterea medie pătratică şi varianţa
Evident, ne-ar interesa şi repartiţia valorilor de preţ, prezentată sub
formă de histogramă, evidenţiind frecvenţa pe subintervale date. Luând
subintervale constante (de mărime de exemplu 20), prezentăm în figura 2 o
histogramă a frecvenţelor valorilor variabilei Preţul la deschidere.
Se observă că cele mai multe dintre valorile preţului au fost între 40
şi 60 iar în subintervalul 60 – 80 nu avem nici o valoare de preţ.

Figura 2. Preţul la deschidere – histograma frecvenţelor

B) Prelucrarea a două variabile continue presupune selectarea,


din matricea de date X = xij ( )
i =1, 2,...,n; j =1, 2,..., p
, a câte două coloane ce
reprezintă valori observate asupra celor două variabile. Să notăm aceste
variabile cu x şi y iar valorile observate asupra lor cu ( x1 , x 2 ,..., x n ) şi
( y1 , y 2 ,..., y n ) respectiv.
1) Pentru a studia corelaţia (legătura liniară) între aceste două
variabile considerăm cele n perechi de valori ( xi , y i ) i =1,2,...,n cu ajutorul
cărora calculăm aşa-numitul coeficient de corelaţie Pearson. Acesta se
calculează cu formula:
s x, y
rx, y = (3)
sx s y
în care s x şi s y sunt abaterile standard iar s x, y este covarianţa dintre
valorile x şi valorile y calculată cu formula:
1 (4)
s x, y = ∑ ( xi − m x )( yi − m y )
n −1
Valorile coeficientului de corelaţie sunt cuprinse în intervalul [–1, 1].
Cele n perechi de valori ( xi , y i ) pot fi reprezentate prin puncte
într-un plan. Atunci când avem impresia că punctele au tendinţa de a se
alinia unei drepte, ne exprimăm spunând că există o corelaţie liniară între
variabilele x şi y. Dacă valorile lui y au acelaşi sens de creştere cu valorile
lui x, se spune că avem o corelaţie pozitivă. Dimpotrivă, dacă valorile lui y
descresc atunci când valorile lui x cresc, se vorbeşte despre o corelaţie
negativă.

120.00

IBM

100.00

80.00

60.00

40.00

20.00

0.00

2000 2001
year

Figura 3. Preţul la deschidere (box-plot)

Coeficientul Pearson este folosit pentru a măsura gradul de corelare


între variabilele x şi y; anume, lipsa corelării este indicată de valori
apropiate de 0, corelarea „pozitivă” este indicată printr-o valoare a
coeficientului apropiată de 1, în timp ce corelarea „negativă” este indicată
printr-o valoare a coeficientului apropiată de –1.
2) Pentru compararea comportamentului comun al celor două
variabile, pe baza percentilelor (calculate pentru fiecare variabilă), se
foloseşte graficul de tip box-plot şi graficul de tip Q-Q plot. Pe graficul
box-plot se marchează, de regulă, valorile minim, maxim şi mediana alături
de cuantilele Q1 şi Q3 pentru secvenţele de valori ( x1 , x 2 ,..., x n ) şi
( y1 , y 2 ,..., y n ) .
Pe graficul Q-Q plot se prezintă în plan perechile de valori conţinând
percentile calculate pentru cele două variabile. O aliniere a acestora
aproximativ pe o dreaptă înseamnă că repartiţiile celor două variabile sunt
asemănătoare.

No rm al Q- Q Plot o f O p en 2000

120

100
Expected Normal Value

80

60

40

20

0
0 20 40 60 80 100 120
Observed V alue

Figura 4. Preţul la deschidere (Q-Q plot)

Observaţie. Graficul Q-Q plot poate fi folosit şi pentru a verifica


faptul că o secvenţă de valori, de exemplu ( x1 , x 2 ,..., x n ) , urmează sau nu o
repartiţie normală. În aceste situaţii se analizează perechile de valori
constând din percentilele variabilei normale şi percentilele secvenţei
( x (1) , x ( 2) ,..., x ( n ) ) .
Exemplu. Putem continua analiza grafică din exemplul anterior
prezentând sub formă de box-plot (pentru cei doi ani 2000 şi 2001) evoluţia
în ansamblu a principalilor indicatori de centrare şi împrăştiere. Prezentăm
în figura 3 un asemenea box-plot în care au fost evidenţiate minimul,
maximul, percentilele de 25, 50 (mediana) şi 75 pentru valorile preţurilor în
cei doi ani consecutivi. O analiză importantă asupra valorilor preţurilor este
şi cea dată de graficul Q-Q plot (vezi figura 4); acesta permite compararea
valorilor observate pentru anul 2000 cu cele care ar rezulta dintr-o repartiţie
(teoretică) normală.
În analiză putem folosi funcţia grafică high-low plot (vezi figura 5 şi
apoi figura 6).

Mean
120.00 Low 2000 -
High 2000
Low 2001 -
High 2001

100.00

80.00

60.00

40.00

20.00

0.00

AAPL CPQ DELL EMC GTW HWP IBM LXK NCR NTAP PALM SUNW UIS
Trading symbol

Figura 5. Evoluţia preţului minim şi maxim (în anii 2000 şi 2001), pe companii

Prelucrarea a mai mult de două variabile continue presupune


analizarea simultană a tuturor coloanelor din matricea de date
( )
X = xij
i =1, 2,...,n; j =1, 2,..., p
. Asociem în acest fel matricei X (de dimensiune
n × p) o altă matrice, notată de obicei cu R, de dimensiune p × p, ce conţine
coeficienţii de corelaţie liniară Pearson, calculaţi între toate perechile de
variabile. Avem, prin urmare, matricea R de forma:
⎛1 r12 ... r1p ⎞
⎜ ⎟
⎜ r21 1 ... r2 p ⎟
R =⎜ (5)
... ... ... ... ⎟
⎜ ⎟
⎜ rp1 rp 2 ... 1 ⎟⎠

cu toate elementele de pe diagonala principală egale cu unu ( rii = 1 pentru
i = 1,2,..., p ) şi rij = r ji pentru i = 1,2,..., p şi j = 1,2,..., p .

Mean
1.00 Fund avg % gain 2000 -
zero
Fund avg % gain 2001 -
zero

0.50

0.00

-0.50

-1.00

-1.50

-2.00

AAPL CPQ DELL EMC GTW HWP IBM LXK NCR NTAP PALM SUNW UIS
Trading symbol

Figura 6. Rentabilităţile companiilor în anii 2000 şi 2001

Se urmăreşte în principal identificarea perechilor de variabile – ce


corespund coloanelor x i , x j din matricea X – pentru care, în matricea R a
corelaţiilor, coeficienţii rij = r ji sunt „mari” (adică peste 0.8 în valoare
absolută).
Să facem observaţia că, în cazul apariţiei unei valori rij mai mari de
0.95 în valoare absolută, corelaţia foarte puternică constatată între
variabilele respective ne permite să eliminăm din studiu una dintre ele (ea
fiind reprezentată foarte bine de cealaltă).
1.4 Explorarea variabilelor categoriale

În prelucrarea variabilelor categoriale aflate într-o matrice de date de


forma indivizi × caracteristici distingem de asemenea două etape, şi
anume:
A) Analiza, pe rând, a câte unei variabile categoriale;
B) Analiza comportamentului comun a două sau mai multe variabile
categoriale.
A) Aşa cum am mai menţionat, o variabilă categorială este descrisă
prin modalităţi (nivele de valori). Să notăm cu k numărul acestor modalităţi
şi să presupunem că dispunem de n observaţii asupra variabilei analizate.
Primele informaţii obţinute despre variabila categorială sunt date de
frecvenţele pe modalităţi şi apoi de frecvenţele relative observate. Sintetic,
ni
dacă notăm cu ni frecvenţa observată şi cu frecvenţa relativă pe
n
modalitatea i (evident, 1 ≤ i ≤ k ), putem construi un tabel ca cel de mai jos.

Total
Modalitatea 1 2 … i … k
(valori observate)
Frecvenţa n1 n2 … ni … nk n
absolută
Frecvenţa n1 n2 … ni … nk 1
relativă
n n n n
(proporţia)

Exemplul 1. O firmă doreşte să estimeze cota de piaţă a produsului


său. Să presupunem că piaţa este concurenţială existând 6 competitori
(firme) care comercializează produsul respectiv. Departamentul de cercetare
în marketing al firmei efectuează un studiu pe baza de chestionar pe un
eşantion reprezentativ de n consumatori (aleşi independent unul de celălalt)
cărora li se cere să-şi exprime preferinţa unică faţă de cele 6 firme.
Identificăm în experimentul nostru o variabilă categorială cu 6
modalităţi – numărul firmelor. Dacă dispunem de observaţii pe un eşantion
de volum n = 120, rezultatul experimentului poate fi cel din tabelul următor:
Firma 1 2 3 4 5 6 Total
Valori observate 16 22 15 23 24 20 120
(preferinţe)
Grafic, informaţia privind răspunsul consumatorilor, adică profilul
dat de linia frecvenţelor, este importantă pentru cercetătorul în marketing
(vezi figura 7).

30

25

20

15

10

0
1 2 3 4 5 6

Figura 7. Histograma preferinţelor cumpărătorilor

Analizând graficul din figura 7 şi cunoscând rezultatele unor


cercetări anterioare privind cotele de piaţă, pe alte eşantioane, cercetătorul
de marketing se poate întreba dacă preferinţele consumatorilor sunt sau nu
egal repartizate spre cele 6 firme. Oare diferenţele între frecvenţele
observate pentru modalităţi sunt semnificative statistic? În general,
considerând întreaga populaţie de consumatori, să notăm cu p i
probabilitatea ca să fie selectată firma i (pentru 1 ≤ i ≤ 6 ). Evident,
6

∑p
1
i = 1 şi putem să considerăm perechea de ipoteze:

1
H0 : p1 = p 2 = ... = p 6 = (adică preferinţele sunt echiprobabile)
6
1
H1 : cel puţin o probabilitate p i are o valoare ce diferă de .
6

Ce argumente avem pentru a accepta sau a respinge ipoteza H0 ?


În cele ce urmează vom încerca să răspundem la această întrebare,
prezentând un test hi-pătrat de verificare a „bonităţii ajustării”.
1.4.1 Test de bonitate a ajustării

Să considerăm o variabilă categorială cu k modalităţi. Teoretic, o


putem considera variabilă aleatoare discretă, dată de tabelul de forma
k
⎛1 2 ... k ⎞
⎜⎜
⎝ p1
⎟ în care
p 2 ... p k ⎟⎠ ∑p1
i = 1.

Practic, putem face orice ipoteze legate de valorile probabilităţilor


p1 ,..., p k . Sunt însă aceste ipoteze susţinute de realitate? Folosind
eşantioane reprezentative, pe baza frecvenţelor relative care estimează
probabilităţile – sau folosind un test de bonitate a ajustării – putem accepta
sau respinge ipotezele făcute. Pentru a avea un suport statistic al deciziei,
trebuie ca experimentul realizat în scopul obţinerii informaţiilor despre
variabilă să fie un experiment multinomial, adică:
1) Cele n observaţii din eşantion să fie independente.
2) Rezultatul fiecărei observaţii să fie clasificat doar într-unul dintre
cele k nivele posibile. (Fiecare nivel este numit celulă.)
Dacă frecvenţele observate în cele k nivele sunt n1 , n 2 ,..., n k , atunci
evident avem n1 + n2 + ... + nk = n .
Atunci când efectuăm un test de bonitate a ajustării, bazat pe un
experiment multinomial, asociem nivelelor (celulelor) aşa-numitele
frecvenţe aşteptate. Dacă ele sunt notate cu e1 , e2 ,.., ek , atunci formula de
calcul este ei = n ⋅ pi unde pi este valoarea precizată a probabilităţii pi .
k
(Avem 1 ≤ i ≤ k şi ∑p
1
i = 1 ). Evident, suma frecvenţelor aşteptate va fi

egală cu n, adică e1 + e2 + ... + ek = n . Tabelul asociat experimentului


multinomial este următorul.

Nivelul (celula) 1 2 … i … k Total


Valori observate n1 n2 … ni … nk n
Valori aşteptate e1 e2 … ei … ek n

Observaţie. Pentru k = 2 experimentul este de tip binomial, avem


doar două nivele, cu probabilităţile asociate p şi respectiv 1 − p .
În general, într-un experiment multinomial valorile observate ni
diferă de cele aşteptate ei şi trebuie să decidem când diferenţele sunt
semnificative şi când nu. Putem folosi următoarea formulă, ce dă o măsură a
abaterii între valorile observate şi cele aşteptate
(ni − ei ) 2
X2 = ∑ i
ei
. (6)

Evident, în caz că X 2 = 0 , rezultă că în fiecare celulă valorile ni şi


ei coincid şi, în consecinţă, există identitate deplină între cele două serii de
valori (adică între cele observate şi cele aşteptate) iar ipoteza făcută asupra
valorilor probabilităţilor p1 ,..., p k este adevărată. Această situaţie este însă
foarte rară, de regulă X 2 > 0 . Pentru a discerne (între abateri mici şi mari),
ne folosim de faptul că, într-un experiment multinomial, valorile X 2
urmează la limită o repartiţie de tip χ 2 cu k − 1 grade de libertate. Această
afirmaţie este susţinută de următoarea
Teoremă. Presupunem că ( X 1 , X 2 ,..., X k ) este un vector aleator
repartizat multinomial cu parametrii n, p1 , p 2 ,..., p k . Atunci când n tinde
spre infinit, repartiţia la limită a statisticii
k
( X i − npi ) 2
V ( n) = ∑
i =1
npi

este o variabilă aleatoare χ 2 cu k − 1 grade de libertate.

Testul statistic clasic este bazat prin urmare pe o distanţă χ 2 , iar


etapele sunt următoarele:
1) Se formulează cele două ipoteze statistice (ipoteza nulă H0 şi
ipoteza alternativă H1).
H0 : p1 = p1 , p 2 = p 2 ,..., p k = p k (adică probabilităţile au valorile
precizate p1 , p 2 ,..., p k )

H1 : cel puţin o probabilitate pi are o valoare ce diferă de valoarea


specificată pi pentru ea în ipoteza nulă.
2) Se fixează un nivel al erorii respingerii ipotezei nule atunci când
ea este de fapt adevărată, fie acesta α = 0.05, şi se identifică în tabelele
statistice α–cuantila χ α2 a repartiţiei χ 2 cu k − 1 grade de libertate.
3) Se calculează valoarea X 2 a abaterilor, adică:
k
(ni − npi ) 2
X 2
= ∑
i =1
npi
. (7)

4) Valoarea X 2 se compară cu χ α2 .
Regula de decizie este următoarea:
Dacă X 2 < χ α2 acceptăm ipoteza nulă; dimpotrivă, dacă X 2 > χ α2
nu avem motive s-o acceptăm (vezi şi figura 8).

Figura 8. Ilustrarea regulii de decizie pentru testul de


bonitate a ajustării

Revenind la studierea cotei de piaţă pe un eşantion de 120 de


respondenţi precum şi la ansamblul de ipoteze
1
H0 : p1 = p 2 = ... = p 6 = (adică preferinţele sunt echiprobabile)
6
1
H1 : cel puţin o probabilitate p i are o valoare ce diferă de ,
6
tabelul obţinut este următorul.
Firma 1 2 3 4 5 6 Total
Valori observate 16 22 15 23 24 20 120
(preferinţe) ni
Valori aşteptate ei 20 20 20 20 20 20 120
Prin aplicarea testului hi-pătrat de bonitate a ajustării obţinem
valoarea statisticii X 2 = 3.5 . Pentru un nivel de eroare acceptat de 5%,
cuantila corespunzătoare repartiţiei χ 2 cu 5 grade de libertate este
χ α2 = 1.145 . Cum X 2 > χ α2 , suntem în zona de neacceptare a ipotezei H0,
prin urmare, pe baza experimentului respingem ipoteza conform căreia toate
firmele au aceeaşi cotă de piaţă.
B) Să considerăm acum matricea de date de forma indivizi ×
caracteristici în care avem informaţii despre variabile categoriale. Când
dorim să analizăm comportamentul comun a câte două asemenea variabile,
construim aşa-numitele tabele de contingenţă (tabele cu dublă, triplă
intrare).
Mai concret, să presupunem că analizăm comportamentul comun a
două variabile categoriale notate X1 şi X2, variabila X1 având r modalităţi iar
variabila X2 având c modalităţi. Asupra acestei perechi de variabile se fac n
observaţii de tip multinomial adică observaţiile sunt independente una de
altă iar răspunsurile se încadrează unic pe celule. Un tabel de contingenţă
asociat va conţine o matrice cu r linii şi respectiv c coloane, fiecare celulă a
matricei conţinând frecvenţa absolută pentru celula respectivă. De exemplu,
celula (i, j) va conţine numărul de observaţii pentru care variabila X1 are
modalitatea i iar variabila X2 are modalitatea j.
Prin urmare, pentru variabilele selectate dispunem de n observaţii ce
se distribuie în celulele tabelului cuantificând în acest mod frecvenţele în
celule; să le notăm cu n ij ( i = 1,2,..., r şi j = 1,2,..., c ).
Tabelul de contingenţă se obţine prin bordarea matricei cu o coloană
ce conţine totalurile pe linii n• j şi cu o linie ce conţine totalurile pe coloane
ni • calculate astfel:
c r
ni • = ∑n
j =1
ij şi n• j = ∑n
i =1
ij

pentru ( i = 1,2,..., r şi j = 1,2,..., c ).


În tabel mai introducem celula totalului general ce conţine
r c
n •• = ∑∑ n
i =1 j =1
ij = n (vezi şi tabelul 3).

Tabelul 3. Tabel de contingenţă


Modalităţi Total pe
1 2 … j … c
X1\X2 linii
1 n 11 n 12 … n1 j … n 1c n1•
2 n 21 n 22 … n2 j … n 2c n2•
… … … … … … … …
i n i1 n i2 … n ij … n ic ni •
… … … … … … … …
r n r1 nr2 … n rj … n rc nr •
Total coloane n •1 n •2 n• j … n •c n ••

Pentru exemplificare, să revenim la Exemplul 1 privind analiza cotei


de piaţă pentru produsul firmei. În chestionarul lansat, respondenţii s-au
identificat şi prin categoria de vârstă şi categoria socio-profesională
(repartiţia în celule fiind cea din tabelul următor).

Categoria de vârstă – Variabila 2


Modalităţi 1 2 3 4 5 Total
Categoria socio-profesională

X1\X2
1 1 5 4 2 3 15
2 1 7 12 3 3 26
Variabila 1

3 2 4 4 2 4 16
4 1 2 2 3 2 10
5 2 1 2 8 1 14
6 4 2 3 3 2 14
7 2 1 9 10 3 25
Total 13 22 36 31 18 120

Exemplul 2. Să revenim la Exemplul 6 din Anexa 1, ce se referă la


analiza riscului returnării unui credit. Printre variabilele financiare şi
demografice ce caracterizează clienţii selectăm două variabile care sunt
categoriale, şi anume Nivelul educaţiei (cu 5 modalităţi) şi Probleme
anterioare cu rambursarea ? (cu 2 modalităţi). Tabelul următor conţine pe
linii modalităţile variabilei Nivelul educaţiei şi pe coloane modalităţile
variabilei Probleme anterioare cu rambursarea?. Celulele tabelului conţin
frecvenţele absolute pe modalităţi.
Probleme anterioare
de rambursare Total linie
Valori observate Nu Da
Fără liceu 293 79 372
Doar cu liceu 139 59 198
Nivelul Facultate
educaţiei neterminată 57 30 87
Facultate 24 14 38
Postuniversitare 4 1 5
Total coloane 517 183 700
În analiza riscului returnării unui credit ar fi interesant să identificăm
toţi factorii de risc împreună cu gradul lor de implicare. În acest context,
dorim să vedem în ce măsură antecedentele privind rambursarea unui credit
depind sau nu de nivelul educaţiei. Vom folosi datele din tabelul de
contingenţă aplicând un test de verificare a independenţei statistice a celor
două variabile Nivelul educaţiei şi Probleme anterioare cu rambursarea?

1.4.2 Test de independenţă


Să considerăm cele două variabile categoriale X1 şi X2 prima având r
modalităţi iar cea de a doua având c modalităţi. Putem considera vectorul
aleatoriu discret (X1, X2) descris prin următorul tabel:

Modalităţi Probabilităţi
X1\X2
1 2 … j … c marginale
1 p11 p12 … p1 j … p1c p1•
2 p 21 p 22 … p2 j … p 2c p2•
… … … … … … … …
i pi1 pi 2 … p ij … pic pi •
… … … … … … … …
r pr1 pr 2 … p rj … p rc pr•
Probabilităţi …
p•1 p •2 p• j p •c
marginale
Am folosit următoarele notaţii relativ la populaţia studiată:
1) p ij este probabilitatea ca un individ ales la întâmplare să aparţină
r c
celulei (i, j). Evident avem ∑ ∑ p ij = 1 ;
i =1 j =1

2) pi• este probabilitatea ca un individ ales la întâmplare să aparţină


c
liniei i; avem p i• = ∑ p ij ;
j=1

3) p • j este probabilitatea ca un individ ales la întâmplare să aparţină


r
coloanei j; avem p • j = ∑ p ij
i =1

Putem formula următoarele ipoteze statistice, şi anume:


ipoteza de independenţă (statistică) a celor două variabile are forma:
H0 : pij = pi• p• j pentru orice i = 1,2,..., r şi j = 1,2,..., c
iar ipoteza alternativă o putem exprima astfel:
H1 : pij ≠ pi• p• j pentru cel puţin o celulă (i, j).
Să presupunem acum că efectuăm un experiment multinomial de
volum n şi dispunem de informaţiile din tabelul de contingenţă. Putem să
calculăm expresia
r c ( n ij − np ij ) 2
V= ∑∑
i =1 j=1 np ij
care, atunci când ipoteza nulă este adevărată, se scrie
r c (n ij − np i• p • j ) 2
V= ∑∑
i =1 j=1 np i• p • j
Vom folosi, pentru probabilităţile pi• şi respectiv p• j estimaţiile
(de verosimilitate maximă)
ni • n• j
p i• = şi p• j =
n n
caz în care putem estima valoarea V prin statistica:
r c (n ij − n i• n • j / n ) 2
X2 = ∑ ∑ (8)
i =1 j=1 n i• n • j / n
Valoarea X 2 , atunci când n tinde la infinit, este repartizată χ 2 cu
( r − 1)(c − 1) grade de libertate.

Observaţie: Pentru fiecare celulă (i, j) putem identifica valoarea


aşteptată atunci când ipoteza nulă este adevărată. Astfel, dacă H0 este
ni • n• j
adevărată, valoarea este valoarea aşteptată pentru celula (i, j).
n

Figura 9. Ilustrarea regulii de decizie pentru testul de independenţă

Testul statistic clasic pentru verificarea independenţei statistice a


două variabile, test bazat pe repartiţia hi-pătrat, presupune:
1) Formularea celor două ipoteze statistice (ipoteza nulă H0 şi
ipoteza alternativă H1), adică.
H0 : pij = pi• p• j pentru orice i = 1,2,..., r şi j = 1,2,..., c
iar ipoteza alternativă o putem exprima astfel:
H1 : pij ≠ pi• p • j pentru cel puţin o celulă (i, j).

2) Fixarea unui nivel al erorii respingerii ipotezei nule atunci când ea


este de fapt adevărată, fie acesta α = 0.05; identificarea în tabelele statistice
a α–cuantilei χ12−α repartiţiei χ 2 cu k − 1 grade de libertate.
3) Calcularea valorii X 2 a abaterilor, adică:
r c
(nij − ni• n• j / n) 2
X2 = ∑∑
i =1 j =1
ni• n• j / n
.

4) Valoarea X 2 se compară cu χ12−α .

Regula de decizie este următoarea:


Dacă X 2 > χ12−α atunci respingem ipoteza nulă, dimpotrivă dacă
X 2 < χ12−α atunci acceptăm ipoteza nulă (vezi şi figura 9).

Să revenim la Exemplul 2 din acest paragraf pentru care avem în


figura 10 un bar-chart al frecvenţelor pentru cele două variabile. Să aplicăm
testul pentru verificarea independenţei statistice a variabilelor Nivelul
educaţiei şi Probleme anterioare la rambursare? Valoarea X 2 = 11.49 iar
pentru α = 0.05 obţinem χ 02.95 = 9.49 (aici χ 2 are 4 grade de libertate).

80

70

60

50

40

30

20

10

0
Yes
Did not complete
High s chool No
high s chool Some college
degr ee
College degr ee
P os t-
under gr aduate
degr ee

Figura 10. Frecvenţele relative din Exemplul 2,


reprezentate grafic (bar-chart)
Suntem în situaţia X 2 > χ12−α (11.49 > 9.49) adică respingem
ipoteza nulă şi acceptăm alternativa, concluzionând că:
a) variabila Probleme anterioare la rambursare? depinde statistic
de variabila Nivelul educaţiei şi
b) valorile variabilei Nivelul educaţiei influenţează valorile
variabilei Probleme anterioare la rambursare?

1.5 Explorarea variabilelor ordinale


Variabilele categoriale de tip ordinal pot fi analizate numeric şi
grafic ca şi cele de tipul categorii nominal sau binar. Totuşi, asupra lor se
pot aplica şi alte analize. Parte din ele le vom prezenta în cele ce urmează.

Relaţii de preordine şi de ordine


Să presupunem că în dorinţa de a ordona indicatorii financiar-
contabili I1 - I7 următori (vezi şi datele din Anexa 1)
I1: Total datorii/capital social;
I2: Cifră de afaceri/total activ;
I3: Profit brut/total activ;
I4: Capital social/cifră de afaceri;
I5: Datorii/total activ;
I6: log(Activ);
I7: Rata de creştere a activului.
se foloseşte un grup de experţi în domeniu. Un expert l oarecare din acest
grup, prin preferinţele sale (evident subiective dar bazate pe experienţa sa)
va determina o relaţie de preordine POl în clasificarea indicatorilor, de
exemplu următoarea:
POl : I1 > I2 = I3 > I4 = I5 > I6 > I7
(ceea ce înseamnă că expertul l preferă indicatorul I1 indicatorului I2 care
este la fel apreciat ca şi I3, care este preferat lui I4 etc.).
Relaţia stabilită pentru indicatorii financiar-contabili, prin
preferinţele expertului l, este o relaţie de preordine deoarece oricare doi
indicatori i şi j se pot afla, în preferinţa expertului, doar în următoarele
situaţii: sau i este preferat lui j, sau j este preferat lui i, sau i este preferat la
fel ca şi j.
Aceste preferinţe pot fi exprimate completând o matrice U ale cărei
elemente sunt: Uij = 1 şi Uji = 0 dacă indicatorul i este preferat lui j şi
Uij = Uji = ½ dacă i şi j sunt apreciaţi la fel (vezi tabelul 4).

Tabelul 4. Scoruri medii şi ranguri


Scor mediu Rang mediu
I1 I2 I3 I4 I5 I6 I7 u(i) r(i)
I1 – 1 1 1 1 1 1 6 1
I2 0 – ½ 1 1 1 1 4,5 2,5
I3 0 ½ – 1 1 1 1 4,5 2,5
I4 0 0 0 – ½ 1 1 2,5 4,5
I5 0 0 0 ½ – 1 1 2,5 4,5
I6 0 0 0 0 0 – 1 1 6
I7 0 0 0 0 0 0 – 0 7

Aşadar, pentru fiecare expert putem să construim o matrice a


preferinţelor. Pe baza preferinţelor expertului se poate calcula un scor mediu
şi apoi un rang mediu pentru indicatorul respectiv, astfel:

scorul mediu al indicatorului i este u (i ) = ∑U


j
ij iar rangul mediu asociat

este r (i ) = k − u (i ) . (Aici k este numărul de indicatori analizaţi, în exemplul


nostru k = 7. Se observă că un rang mic indică o bună apreciere!)
O relaţie de ordine totală între indicatorii analizaţi se obţine atunci
când expertul alege doar una dintre situaţiile: indicatorul i este preferat
indicatorului j sau indicatorul j este preferat indicatorului j. Similar situaţiei
anterioare, putem asocia o matrice U ale cărei elemente sunt Uij = 1 şi
Uji = 0 dacă indicatorul i este preferat lui j. Analog, se calculează un scor
mediu şi apoi un rang mediu pentru fiecare indicator.
Dacă dorim să măsurăm corelarea a două variabile ordinale pentru
care observaţiile sunt ranguri, vom calcula aşa-numitul coeficient de
corelaţie Spearman:
1 2
ro = 1 − 2
∑ di (9)
n(n − 1)
unde d i este diferenţa rangurilor obţinute de către individul i. Coeficientul
de corelaţie Spearman, la fel ca şi coeficientul de corelaţie Pearson, are
valori între –1 şi 1, valori apropiate de 1 indicând concordanţa celor două
aprecieri, iar valori apropiate de –1 indicând o discordanţă.
1.6 Transformări în matricele de date
Să revenim la exprimarea informaţiilor în forma unei matrice
X ( n × p ) ce reprezintă n indivizi asupra cărora s-au evaluat p caracteristici,
de fapt p variabile. Matricea X o putem privi fie pe linii, obţinând informaţii
despre cei n indivizi, fie pe coloane obţinând informaţii despre cele p
variabile. Prin urmare :
(1) fiecărui individ i îi corespunde în matricea X o linie, adică un
vector cu p elemente; acesta va fi scris: Li = ( xi1 , xi 2 ,..., xip ) ∈ R p
(2) fiecărei variabile j îi corespunde în matricea X o coloană cu n
elemente, care va fi notată: C j = ( x1 j , x 2 j ,..., x nj ) T ∈ R n .

1.6.1 Transformări pe coloane: standardizarea

Este normal să calculăm, pentru fiecare variabilă din tabelul de date,


valoarea medie şi respectiv abaterea medie pătratică (abaterea standard).
Să notăm cu m j media şi cu s j abaterea medie pătratică pentru
variabila j, pentru care putem scrie formulele clasice:
n n

∑ ∑ (x
1 1
mj = xij şi sj = ij − m j )2
n n −1
i =1 1

Din orice matrice X se poate obţine o nouă matrice, fie ea X ' = ( xij' ) ,
xij − m j
ale cărei elemente sunt calculate astfel: xij' = pentru orice linie i şi
sj
coloană j
Această transformare asupra variabilelor este recomandată pentru a
evita discrepanţele între valori ce ar putea fi datorate unităţilor de măsură
diferite. Se obişnuieşte a se spune că, prin această transformare, exprimăm
informaţiile în formă standardizată, în unităţi de abatere medie pătratică
(unităţi standard). Se observă că, prin această transformare, centrăm mai
întâi valoarea (adică scădem din ea media) iar apoi o împărţim la abaterea
medie pătratică.
Observaţie: Un calcul matematic simplu ne conduce la faptul că
media valorilor standardizate este zero, iar dispersia este unu.
Exemplu: Fie datele din tabelul 1 al Anexei 1. Să considerăm doar
primele 4 caracteristici ale autoturismelor exprimate prin variabilele: preţul,
capacitatea cilindrică, viteza şi consumul. Printr-un calcul elementar
obţinem mediile şi respectiv abaterile medii pătratice ale acestor variabile
(folosind datele tuturor celor 26 mărci de autoturisme):
Capacitatea
Preţul Viteza Consumul
cilindrică
Media 16118 1172 155 7.18
Abaterea medie
4148 205 22.17 1.13
pătratică
Folosim acum formula de standardizare pe care o aplicăm fiecărui
element al matricei. Obţinem ca rezultat informaţiile standardizate
prezentate în tabelul 5. Se observă că, deşi cele 4 variabile selectate se
exprimă în unităţi de măsură diferite, în forma standard valorile sunt perfect
comparabile între ele.
Tabelul 5. Valori standardizate

Preţul Cap. cil. Viteza Consumul


standardizat standardizată standardizată standardizat
1.A -0.99 -0.85 -0.67 -0.86
2.C -0.681 -1.06 -0.44 -1.39
3.D -0.364 -0.87 -0.44 -0.42
4.Fl -0.64 -0.84 -0.44 -0.86
5.F2 2.14 0.63 2.04 1.52
6.F3 0.42 0.63 0.46 0.46
7.F4 -0.74 -0.27 -0.80 -0.15
8.FS 1.36 2.07 1.13 1.87
9.N -0.89 -0.89 -0.66 -0.68
10.O -0.74 -0.87 -0.53 0.02
11.P1 -0.69 -1.06 -0.94 -0.33
12.P2 -0.08 -0.23 -0.58 -1.21
13.P3 0.67 0.91 0.68 1.78
14.P4 2.18 1.99 1.59 1.34
15.Ri -0.76 -1.05 -1.79 -0.77
16.R2 -0.56 -0.31 -1.57 -0.77
17.R3 -0.47 -0.31 -0.53 -1.21
18.R4 0.27 1.09 0.55 0.64
19.RS 2.22 1.09 2.04 1.34
20.SI 0.76 1.41 0.91 1.43
21.S2 -1.24 -1.31 -1.07 0.11
Preţul Cap. cil. Viteza Consumul
standardizat standardizată standardizată standardizat
22.S3 -0.96 -0.87 -0.44 -0.681
23.S4 -0.35 0.74 0.37 -0.59
24.Ti -0.51 -0.84 -0.22 -0.95
25.T2 0.18 0.59 0.68 -0.33
26.V 0.46 0.49 0.68 0.72

1.6.2 Matricea corelaţiilor


Aşa cum am mai spus, corelaţia (liniară) între două variabile este
măsurată prin coeficientul de corelaţie Pearson. Pentru două variabile i şi j
extragem din matricea de date X = xij ( )i=1,2,...,n; j =1,2,..., p
coloanele i şi j apoi
calculăm coeficientul de corelaţie Pearson ri , j . Calculând pe rând, pentru
toate cele p variabile, coeficienţii de corelaţie liniară, putem înlocui matricea
iniţială cu o matrice de dimensiune p × p (reamintim că am notat-o R) având
ca elemente coeficienţii de corelaţie respectivi. (Matricea este simetrică şi
are toate elementele de pe diagonala principală egale cu unu).
Analiza elementelor matricei corelaţiilor este foarte importantă în
prelucrarea informaţiilor din matricea X de date. Astfel, analizând
elementele extra-diagonale ale matricei, identificăm perechi de variabile
între care există dependenţe liniare puternice (în general, extragem acele
variabile pentru care coeficientul de corelaţie depăşeşte 0,8), dar identificăm
şi perechi de variabile cu coeficienţi de corelaţie foarte mici (aproape de
zero). Aceste informaţii ne sunt utile în prelucrările ulterioare!
Matricea corelaţiilor poate fi tratată însă algebric prin proprietăţile
sale (de simetrie şi pozitivitate), ea fiind o sursă de alte informaţii utile în
prelucrarea ulterioară a datelor. Reamintim următoarele două teoreme:
Teorema 1 (descompunerea Jordan). Fie o matrice pătratică A
(p × p). Ea poate fi scrisă sub forma: A = ΛΓΛ−1 unde matricea Λ conţine
vectori proprii ai matricei A iar matricea Γ este o matrice diagonală ce
conţine valorile proprii ale matricei A.
Teorema 2. Fie o matrice simetrică A (p × p). Ea poate fi scrisă sub
forma A = ΛΓΛT unde matricea Λ conţine vectori proprii ai matricei A,
matricea Γ este o matrice diagonală ce conţine valorile proprii ale matricei
A iar ΛT este transpusa matricei Λ .

S-ar putea să vă placă și