Sunteți pe pagina 1din 30

Capitolul 1.

Tehnici de explorare a datelor


ntr-o cercetare a lumii nconjurtoare ne bazm, de regul, pe
existena unui numr de indivizi distinci ai unei populaii studiate. n
legtur cu aceti indivizi (obiecte sau cazuri) urmrim una sau mai multe
mrimi care, credem noi, i caracterizeaz; acestea sunt numite caracteristici.
Cercetarea poate fi fcut fie n mod exhaustiv, lund n studiu toat
populaia ceea ce este foarte costisitor atunci cnd populaia este
numeroas fie prin eantion alegnd, dup reguli bine precizate, un grup
reprezentativ al populaiei. Cercettorul n analiza datelor nu este ns
interesat de aceste detalii; lui i se ofer nite informaii prezentate n
general sub forma unui tabel (matrice) de date. El are ca sarcin s extrag
din acest tabel de date ct mai mult informaie semnificativ sub form
numeric i/sau grafic i s-o prezinte ntr-o form ct mai restrns ct
mai puine linii i coloane. Odat acest deziderat realizat, orice decizie
viitoare privind comportamentul populaiei studiate poate fi explicat prin
argumente tiinifice.
1.1 Matrice de date exemple practice
n aceast seciune ne vom referi la exemplele prezentate n Anexele
1 i 2 ale materialului. Toate acestea conin informaii primare, din diverse
domenii economice, prezentate sub forma unei matrice de date. Vom descrie
natura informaiei din aceste exemple i posibile analize efectuate asupra
lor.
Exemplul 1. Problema unui dealer de autoturisme
Informaiile de care dispune un dealer de autoturisme sunt
prezentate n tabelul 1 din Anexa 1. Acest tabel conine caracteristicile unor
mrci de autoturisme oferite spre vnzare. Tabelul (matrice) are 26 de linii
corespunztoare mrcilor de autoturisme analizate i 7 coloane,
reprezentnd preul i alte caracteristici tehnice i de confort ale
autoturismelor. Dealerul dorete s afle, folosind tabelul de date, ce
caracteristici ale mainilor sunt definitorii n decizia unui client de a
cumpra un autoturism. Exist oare n viziunea cumprtorului clase
(grupuri) de autoturisme? Dac da, care sunt acestea?
Exemplul 2. Problema unui investitor
Un investitor are informaii privind principalii indicatori financiarcontabili calculai din bilanurile contabile ale unui lot de firme

(vezi tabelul 2 din Anexa 1). Acetia pot fi ns foarte numeroi. Investitorul
nu ar renuna n analiza lui, fr argumente bine precizate, la nici unul dintre
indicatori. Singur, nu are capacitatea de a-i selecta pe cei mai importani, i
nici nu poate s ordoneze firmele dup potenialul (bonitatea) lor innd
seama de toi indicatorii. Dac, s-ar putea calcula nite scoruri ale firmelor
pe seama unor indicatori sintetici dedui din indicatorii iniiali, atunci
decizia investitorului nu ar mai fi pur subiectiv, ea ar avea un suport
tiinific i probabil c riscul asociat deciziei de a investi ar fi mai mic.
Exemplul 3. Studiul indicatorilor de calitate a vieii
n plin proces de globalizare este important s tim la ce distan
suntem de alte ri ale Europei sau chiar fa de alte ri ale lumii.
Indicatorul sintetic numit calitatea vieii, bine definit de specialiti, ne
poate ajuta s rspundem la aceast ntrebare. Putem folosi informaii ca
cele din tabelul 3 al Anexei 1 n care sunt prezentate principalele elemente
ce stau la baza calculului indicatorului de calitate a vieii pentru un numr
de 23 de ri ale lumii. n tabel (matrice) sunt prezentate urmtoarele date (la
nivelul anului 1992): sporul natural al populaiei, mortalitatea infantil,
gradul de urbanizare, numrul de medici la mia de locuitori, numrul de
receptoare de televiziune la mia de locuitori, rata inflaiei, cheltuielile pentru
educaie, cele pentru aprare, importul i exportul precum i consumul de
energie pe locuitor. Oare toi aceti indicatori au aceeai importan n
exprimarea indicatorului sintetic calitatea vieii? Dac nu, se pot identifica
doi sau trei indicatori sintetici pe baza crora s putem ordona rile din
punctul de vedere al calitii vieii locuitorilor? Care ar fi poziionarea
Romniei n aceast clasificare, ce ri ne-ar fi apropiate din acest punct de
vedere?
Exemplul 4. Studiul repartiiei bugetului
Dac dispunem de informaii anuale pe o perioad mare de timp
privind repartiia bugetului unei ri, putem oare identifica momentele
strategice importante privind politica rii respective? Ca exemplu tipic vom
folosi datele prezentate n tabelul 4 al Anexei 1, tabel (matrice) ce conine
repartiia bugetului Franei n perioada 1872-1971. Folosind tehnicile
analizei datelor pot fi puse n eviden momentele premergtoare celor dou
rzboaie mondiale, care au fost precedate de alocri mai mari din buget spre
cheltuielile militare, dar i momentele de acalmie ntre cele dou rzboaie
mondiale i dup al doilea rzboi mondial, cnd bugetul a fost repartizat cu
predilecie spre activiti de nvmnt i asisten social.

Exemplul 5. Analiza rentabilitii unui portofoliu


n constituirea unui portofoliu putem s folosim informaii de tipul
celor coninute n tabelul 5 al Anexei 1.
Dispunem de un numr de 13 companii din domeniul ITC, companii
listate pe S&P 500. Ele apar ca linii n tabelul de date; fiecare linie conine
informaii privind evoluia tranzaciilor aciunilor pe piaa de capital n doi
ani consecutivi, adic: preul la deschidere, preul la nchidere, preul minim
i preul maxim, volumul tranzaciilor, ctigul (n %) etc. (toate ca valori
medii ale anului respectiv). Ne mai intereseaz s estimm rentabiliti ale
activelor i eventualele riscuri n constituirea unui portofoliu. n acest scop
putem apela tehnici de clasificare care s evidenieze factorii lateni care au
guvernat tranzacia activelor din portofoliu pe perioada analizat, de
asemenea putem clasifica companiile n grupuri ct mai omogene n ceea ce
privete evoluia indicatorilor analizai n dinamic, etc.
Exemplul 6. Analiza riscului returnrii unui credit
Tabelul 6 din Anexa 1 conine informaii sub forma unei matrice de
date. Pe linii sunt clienii unei bnci (selecie din totalul clienilor) ) ce au
solicitat credite. Pe coloane avem o serie de elemente privind informaii
financiare i demografice pentru fiecare client. n matricea datelor o
importan aparte o are coloana nou n care se specific, ntr-o form
codificat, dac clientul a avut nainte probleme de rambursare a vreunui
credit sau nu. Astfel, din start clienii sunt grupai n dou clase: una a celor
cu probleme de rambursare, iar cealalt a celor fr antecedente. Tehnicile
de clasificare i analiz a discriminrii ne permit s precizm prin ce
combinaii de atribute financiare i demografice pot fi caracterizai clienii
din fiecare clas i s facem previziuni asupra comportrii unor clieni noi al
bncii privind ncadrarea lor ntr-o clas sau alta.
Exemplul 7. Informaii dintr-un chestionar
Analiza datelor constituie un suport foarte important pentru deciziile
privind marketingul tiinific. Perceperea unui produs de ctre un segment
de cumprtori, gradul de saturare al pieei produsului i decizia de lansare a
unui produs nou (sau ntr-o form nou) sunt materializate folosind tehnica
chestionarului i analiza datelor. Prezentm n Anexa 2 un asemenea
chestionar realizat n scopul identificrii strii actuale privind dotarea
populaiei cu aparate audio-video, mrcile de televizoare mai cunoscute i
cele preferate la o eventual achiziionare de ctre cumprtori.

1.2 Scri de msurare ale caracteristicilor


Putem afirma c toate exemplele date anterior conin informaii ntrun tabel matrice de date (vezi tabelul 1). n general, fiecare linie
reprezint un individ (obiect) din mulimea celor studiai, pe coloane
regsindu-se caracteristicile urmrite. S presupunem c avem n indivizi
asupra crora studiem p caracteristici notate C1, C2, , Cp. Matricea de date
o putem scrie X = xij
. n aceast matrice un element xij
i =1, 2,..., n; j =1, 2,..., p

( )

exprim valoarea caracteristicii j msurat pentru individul i. De exemplu,


dac folosim datele din tabelul 1 al Anexei 1, autoturismul Opel Corsa
Swing este al 10-lea individ (obiect) n tabelul de date, iar elementul
x10,1 = 13050 reprezint caracteristica pre (n $) a mainii respective.
Datele din tabelul 1 al Anexei 1 sunt, prin urmare, un exemplu de
matrice (tabel) de forma indivizi caracteristici.

Indivizii

Tabelul 1. Forma general a matricei indivizi caracteristici

1
2

C1
x11
x21

xi1

xn1

C2
x12
x22

xi2

xn2

Caracteristicile

Cj

x1j

x2j

xij

xnj

Cp
x1p
x2p

xip

xnp

Precizarea scrilor de msurare ale caracteristicilor observate, pe


grupul de indivizi, este esenial n identificarea tehnicii de modelare i
analiz. Fiecrei caracteristici i se asociaz o scar de msurare conform cu
natura informaiei coninute i cu modul n care o percepem. Dup
precizarea scrii de msurare, caracteristica respectiv va fi reprezentat
printr-o aa numit variabil. Explornd tabelele de date prezentate n
exemplele anterioare putem afirma c exist o mare diversitate n a exprima
ansamblul indivizi caracteristici. n exemplul 1 avem ca indivizi tipurile
de autoturisme, iar caracteristicile sunt preul, viteza, consumul de carburant
etc. Remarcm faptul c aceste caracteristici sunt transformate n variabile
prin exprimarea n uniti clasice de msur: monetare, kilometri la or, litri
la suta de kilometri etc. n exemplul 2 indicatorii de bonitate calculai pentru
firme sunt rate, adic rapoarte ale diverselor mrimi din documentele
contabile. Aceste mrimi indicatorii devin variabile numerice

cantitative; evident, ncadrarea valorilor fiecrui indicator ntr-un anumit


interval este foarte important. Bineneles, exemplele pot continua.
n general, variabilele pot fi clasificate n: variabile continue
(cantitative) i variabile categoriale (calitative).
A) Variabilele continue provin din caracteristici ce exprim atribute
cantitative ale indivizilor. Scara lor de msur este continu, putnd acoperi
n general un interval de valori. De exemplu, preul unui autoturism
sau unui activ financiar este o variabil continu; de obicei ia valori
numerice (exprimate n lei, euro etc.) cuprinse ntre un minim i un maxim.
Cu aceste valori se pot efectua cele patru operaii aritmetice clasice, iar
indicatorii statistici relevani, calculai pe baza valorilor observate, sunt
media i abaterea medie ptratic. i variabilele ale cror valori sunt
exprimate n procente sau n rate (vezi aplicaia 2) sunt variabile continue.
B) Variabilele categoriale provin din caracteristici care exprim
atribute calitative. Aceste variabile au dou sau mai multe nivele de valori,
nivele numite modaliti sau categorii. Exist o subclasificare a lor n trei
grupe, astfel:
B1) Variabilele nominale au de obicei mai mult de dou nivele. De
exemplu, caracteristica Nivelul educaiei din Exemplul 6 al Anexei 1, este o
variabil nominal avnd modalitile:
Fr liceu codificat prin 1
Doar cu liceu codificat prin 2
Facultate neterminat codificat prin 3
Liceniat codificat prin 4
Postuniversitare codificat prin 5
B2) Variabilele binare au doar dou valori-nivele. n Exemplul 6
din Anexa 1 variabila Probleme anterioare de rambursare are dou nivele
(modaliti):
Nu codificat prin 0
Da codificat prin 1.
B3) Variabilele ordinale sunt variabile ale cror nivele, de obicei
mai mult de dou, pot fi comparate ntre ele. n general, n situaiile ntlnite
n cercetarea de marketing, la aceste variabile respondentul unui chestionar
alege un rspuns din cteva rspunsuri posibile, ordonate calitativ; el i
exprim astfel, n mod preferenial, opinia sa despre un anumit atribut.

Putem da ca exemplu de variabil ordinal rspunsul la o ntrebare din


chestionarul din Anexa 2, i anume la ntrebarea:
n alegerea unei anumite mrci de aparat, n ce msur v
influeneaz reclama? M influeneaz
foarte mult
1

mult
2

potrivit
3

puin
4

deloc
5

Se observ c acestor rspunsuri de natur calitativ li se asociaz cte


un cod numeric (1, 2 .a.m.d.).
1.3 Explorarea variabilelor continue
n exemplele prezentate n 1.2 apar o serie de caracteristici ale unor
grupuri de indivizi crora li se asociaz scri de msurare continue. O
asemenea scar acoper, de regul, un interval de valori. Putem vorbi n
acest sens de preul (n lei sau valut) al unor autoturisme, de preul n
dinamic al unui activ financiar tranzacionat pe piaa de capital dar i de
ratele financiare asociate n analiza bonitii unor firme sau de diverse valori
procentuale. n exemplele prezentate informaiile apar ca matrice de date de
forma indivizi caracteristici iar prelucrarea lor primar se realizeaz, de
regul, n dou etape i anume:
A) prelucrarea independent a cte unei variabile;
B) prelucrarea comun a dou sau mai multe variabile.
S analizm, pe rnd, cele dou etape.
A) Prelucrarea independent a cte unei variabile presupune
selectarea, din matricea de date X = xij
, a cte unei

( )i=1,2,...,n; j =1,2,..., p

coloane ce reprezint valori observate asupra unei variabile de tip continuu.


Pentru simplificare, s notm elementele matricei corespunztoare acestei
variabile selectate cu ( x1 , x 2 ,..., x n ) T . Secvena aleas reprezint valori
observate asupra celor n indivizi din analiza noastr. Primele informaii
statistice legate de valorile x1 , x 2 ,..., x n se refer la evaluri ale tendinei
centrale; acestea sunt:
a)

1
Media, notat m x , se calculeaz cu formula
n
indicator important al tendinei centrale.

x , ea fiind un
i

i =1

b)

Mediana este asociat secvenei x(1) , x( 2) ,..., x( n ) ce reprezint


valorile x1 , x 2 ,..., x n ordonate cresctor. Ea este acea valoare (nu
neaprat dintre valorile x1 , x 2 ,..., x n ) pentru care numrul valorilor
din secvena x (1) , x ( 2) ,..., x ( n ) care-i sunt mai mici este acelai cu
numrul valorilor care-i sunt mai mari.

c)

Modul este acea valoare cu frecvena cea mai mare de apariie. (El
nu este n mod necesar unic.)

modul

modul
mediana
media

mediana
media

a) Repartiie asimetric (right skewed) b) Repartiie asimetric (left skewed)

modul=mediana=media

c) Repartiie simetric
Figura 1. Evaluri ale tendinei centrale

Pentru a evalua mprtierea datelor se folosesc urmtorii indicatori:


a) Variana (dispersia), notat

1
n 1

(x m )
i

s x2 , este calculat cu formula


(1)

i =1

b) Abaterea standard, notat

1
n 1

(x m )
i

i =1

s x , este calculat cu formula

(2)

c) Amplitudinea este calculat ca diferen ntre valoarea maxim i


valoarea minim a valorilor x1 , x 2 ,..., x n .
Este important ca, pentru diverse tipuri de distribuii ale frecvenelor
valorilor x1 , x 2 ,..., x n , s punem n eviden relaii de ordine ntre cei trei
indicatori ai tendinei centrale. Prezentm n figura 1 cele trei situaii
posibile. Astfel, n figura 1 c) prezentm o repartiie simetric pentru care
cei trei indicatori ai tendinei centrale coincid. n figura 1 a) i 1 b) avem
repartiii asimetrice, prima fiind skewed dreapta iar cea de-a doua fiind
skewed stnga. Relaiile de ordine ntre cele trei valori pentru mod,
median i medie sunt evideniate clar n graficele menionate.
Exemplu: Fie secvena de ase numere 2, 5, 0, 9, 0, 7 reprezentnd
observaii asupra a ase indivizi. Secvena ordonat cresctor o obinem
imediat, ea este 0, 0, 2, 5, 7, 9. Valorile ce msoar tendina central sunt:
media = 3.83, mediana se afl ntre valorile 2 i 5, prin interpolare putem
lua valoarea 3.5. Se observ faptul c mediana separ secvena de valori
ordonate n jumtate, 50% dintre valori fiind mai mici dect ea i 50% dintre
valori fiind mai mari dect ea. Modul valorilor 2, 5, 0, 9, 0, 7 adic
valoarea cu frecvena cea mai mare este 0 (aici frecvena maxim este 2).

Media, mediana i modul sunt trei indicatori ai localizrii centrului


valorilor dintr-o secven de date. n analiza repartiiei valorilor observate,
la fel de importante sunt i alte msuri ale localizrii datelor. Acestea sunt
cunoscute sub numele de percentile i cuartile, i sunt asociate secvenei de
valori x (1) , x ( 2) ,..., x ( n ) .
1) Percentila de ordinul p este acea valoare, notat aici Pp , care are
proprietatea c p% dintre valorile secvenei sunt mai mici dect ea i
(100 p)% dintre valori sunt mai mari dect ea.
2) Cuartila inferioar, notat Q1 , este percentila 25.
3) Cuartila de mijloc, notat Q2 , este percentila 50. Se observ faptul
c cuartila Q2 este tocmai mediana.
4) Cuartila superioar, notat Q3 este percentila 75.
Cuartilele se folosesc pentru a analiza dispersia valorilor secvenei
x1 , x 2 ,..., x n calculndu-se cu ajutorul lor aa-numitul indicator interquartile (notat IQR). El este calculat ca diferena dintre percentila 75 ( Q3 )
i percentila 25 ( Q1 ). n cazul unei repartiii normale a datelor acest interval
trebuie s fie aproximativ 1.35 din abaterea standard a datelor.

Tratarea punctelor aberante. Uneori, n secvena de valori


x1 , x 2 ,..., x n este semnalat prezena unor valori outliers (aberante ca
mrime n raport cu celelalte). n aceste situaii unii indicatori de localizare
central sunt mult denaturai (deplasai) i este indicat s calculm aa
numitele medii robuste. Acestea ncearc s elimine efectul valorilor
aberante (fr a afecta rezultatele). Dintre mediile robuste amintim:
1) Media winsorizat 95%, n calculul creia primele 2.5% dintre
valorile ordonate sunt nlocuite cu percentila 2.5 i ultimele 2.5%
dintre valori sunt nlocuite cu percentila 97.5.
2) Media trunchiat 95%, trimmed mean, este calculat excluznd
primele 2.5% i ultimele 2.5% dintre valorile secvenei ordonate.
Tehnicile grafice sunt foarte relevante i n cazul variabilelor
continue. Putem reprezenta datele sub form de histograme, box plot-uri
(vezi figura 3), high-low plot-uri.
Exemplu. S considerm variabila Preul la deschidere (coloana
corespunztoare anului 2000 din Exemplul 5, Anexa 1). Aceasta este o
variabil continu, valorile ei exprimnd preul la deschiderea bursei pentru
aciunile celor 13 companii (sunt valori medii anuale). Pentru a face o
apreciere general asupra evoluiei unui portofoliu compus din aceste
aciuni, ne intereseaz indicatorii de centrare i de mprtiere ai variabilei
pre. Prezentm n tabelul 2 valorile indicatorilor prezentai mai sus,
outputul fiind de tip SPSS.
Tabelul 2. Preul la deschidere indicatori statistici
N

Valid

Mean
Median
Mode
Percentiles

13
60.63
50.16
14.93
38.43
50.16
92.68

25
50
75

a) Media, mediana, modul i cuartilele


Open 2000
Valid N
(listwise)

N
13

Minimum
14.93

Maximum
109.14

Mean
60.6344

Std. Dev.
30.4471

Variance
927.026

13

b) Valoarea minim, maxim, media, abaterea medie ptratic i variana

Evident, ne-ar interesa i repartiia valorilor de pre, prezentat sub


form de histogram, evideniind frecvena pe subintervale date. Lund
subintervale constante (de mrime de exemplu 20), prezentm n figura 2 o
histogram a frecvenelor valorilor variabilei Preul la deschidere.
Se observ c cele mai multe dintre valorile preului au fost ntre 40
i 60 iar n subintervalul 60 80 nu avem nici o valoare de pre.

Figura 2. Preul la deschidere histograma frecvenelor

B) Prelucrarea a dou variabile continue presupune selectarea,


din matricea de date X = xij
, a cte dou coloane ce
i =1, 2,...,n; j =1, 2,..., p

( )

reprezint valori observate asupra celor dou variabile. S notm aceste


variabile cu x i y iar valorile observate asupra lor cu ( x1 , x 2 ,..., x n ) i
( y1 , y 2 ,..., y n ) respectiv.
1) Pentru a studia corelaia (legtura liniar) ntre aceste dou
variabile considerm cele n perechi de valori ( xi , y i ) i =1,2,...,n cu ajutorul
crora calculm aa-numitul coeficient de corelaie Pearson. Acesta se
calculeaz cu formula:
s x, y
(3)
rx, y =
sx s y
n care s x i s y sunt abaterile standard iar s x, y este covariana dintre
valorile x i valorile y calculat cu formula:
s x, y =

1
( xi m x )( yi m y )
n 1

(4)

Valorile coeficientului de corelaie sunt cuprinse n intervalul [1, 1].


Cele n perechi de valori ( xi , y i ) pot fi reprezentate prin puncte
ntr-un plan. Atunci cnd avem impresia c punctele au tendina de a se
alinia unei drepte, ne exprimm spunnd c exist o corelaie liniar ntre
variabilele x i y. Dac valorile lui y au acelai sens de cretere cu valorile
lui x, se spune c avem o corelaie pozitiv. Dimpotriv, dac valorile lui y
descresc atunci cnd valorile lui x cresc, se vorbete despre o corelaie
negativ.

120.00

IBM
100.00

80.00

60.00

40.00

20.00

0.00

2000

2001

year

Figura 3. Preul la deschidere (box-plot)

Coeficientul Pearson este folosit pentru a msura gradul de corelare


ntre variabilele x i y; anume, lipsa corelrii este indicat de valori
apropiate de 0, corelarea pozitiv este indicat printr-o valoare a
coeficientului apropiat de 1, n timp ce corelarea negativ este indicat
printr-o valoare a coeficientului apropiat de 1.
2) Pentru compararea comportamentului comun al celor dou
variabile, pe baza percentilelor (calculate pentru fiecare variabil), se
folosete graficul de tip box-plot i graficul de tip Q-Q plot. Pe graficul
box-plot se marcheaz, de regul, valorile minim, maxim i mediana alturi

de cuantilele Q1 i Q3 pentru secvenele de valori ( x1 , x 2 ,..., x n ) i


( y1 , y 2 ,..., y n ) .
Pe graficul Q-Q plot se prezint n plan perechile de valori coninnd
percentile calculate pentru cele dou variabile. O aliniere a acestora
aproximativ pe o dreapt nseamn c repartiiile celor dou variabile sunt
asemntoare.

No rm al Q- Q Plot o f O p en 2000
120

Expected Normal Value

100

80

60

40

20

0
0

20

40

60

80

100

120

Observed V alue

Figura 4. Preul la deschidere (Q-Q plot)

Observaie. Graficul Q-Q plot poate fi folosit i pentru a verifica


faptul c o secven de valori, de exemplu ( x1 , x 2 ,..., x n ) , urmeaz sau nu o
repartiie normal. n aceste situaii se analizeaz perechile de valori
constnd din percentilele variabilei normale i percentilele secvenei
( x (1) , x ( 2) ,..., x ( n ) ) .
Exemplu. Putem continua analiza grafic din exemplul anterior
prezentnd sub form de box-plot (pentru cei doi ani 2000 i 2001) evoluia
n ansamblu a principalilor indicatori de centrare i mprtiere. Prezentm
n figura 3 un asemenea box-plot n care au fost evideniate minimul,
maximul, percentilele de 25, 50 (mediana) i 75 pentru valorile preurilor n

cei doi ani consecutivi. O analiz important asupra valorilor preurilor este
i cea dat de graficul Q-Q plot (vezi figura 4); acesta permite compararea
valorilor observate pentru anul 2000 cu cele care ar rezulta dintr-o repartiie
(teoretic) normal.
n analiz putem folosi funcia grafic high-low plot (vezi figura 5 i
apoi figura 6).
Mean
Low 2000 High 2000

120.00

Low 2001 High 2001

100.00

80.00

60.00

40.00

20.00

0.00

AAPL

CPQ

DELL

EMC

GTW

HWP

IBM

LXK

NCR

NTAP

PALM

SUNW

UIS

Trading symbol

Figura 5. Evoluia preului minim i maxim (n anii 2000 i 2001), pe companii

Prelucrarea a mai mult de dou variabile continue presupune


analizarea simultan a tuturor coloanelor din matricea de date
. Asociem n acest fel matricei X (de dimensiune
X = xij
i =1, 2,...,n; j =1, 2,..., p

( )

n p) o alt matrice, notat de obicei cu R, de dimensiune p p, ce conine


coeficienii de corelaie liniar Pearson, calculai ntre toate perechile de
variabile. Avem, prin urmare, matricea R de forma:
1

r21
R =
...

rp1

r12
1
...
rp 2

... r1p

... r2 p
... ...

... 1

(5)

cu toate elementele de pe diagonala principal egale cu unu ( rii = 1 pentru


i = 1,2,..., p ) i rij = r ji pentru i = 1,2,..., p i j = 1,2,..., p .

Mean
1.00

Fund avg % gain 2000 zero


Fund avg % gain 2001 zero

0.50

0.00

-0.50

-1.00

-1.50

-2.00

AAPL

CPQ

DELL

EMC

GTW

HWP

IBM

LXK

NCR

NTAP

PALM

SUNW

UIS

Trading symbol

Figura 6. Rentabilitile companiilor n anii 2000 i 2001

Se urmrete n principal identificarea perechilor de variabile ce


corespund coloanelor x i , x j din matricea X pentru care, n matricea R a
corelaiilor, coeficienii rij = r ji sunt mari (adic peste 0.8 n valoare
absolut).
S facem observaia c, n cazul apariiei unei valori rij mai mari de
0.95 n valoare absolut, corelaia foarte puternic constatat ntre
variabilele respective ne permite s eliminm din studiu una dintre ele (ea
fiind reprezentat foarte bine de cealalt).

1.4 Explorarea variabilelor categoriale


n prelucrarea variabilelor categoriale aflate ntr-o matrice de date de
forma indivizi caracteristici distingem de asemenea dou etape, i
anume:
A) Analiza, pe rnd, a cte unei variabile categoriale;
B) Analiza comportamentului comun a dou sau mai multe variabile
categoriale.
A) Aa cum am mai menionat, o variabil categorial este descris
prin modaliti (nivele de valori). S notm cu k numrul acestor modaliti
i s presupunem c dispunem de n observaii asupra variabilei analizate.
Primele informaii obinute despre variabila categorial sunt date de
frecvenele pe modaliti i apoi de frecvenele relative observate. Sintetic,
dac notm cu ni frecvena observat i cu

ni
n

frecvena relativ pe

modalitatea i (evident, 1 i k ), putem construi un tabel ca cel de mai jos.


1

Total
(valori observate)

n1

n2

ni

nk

n1
n

n2
n

ni
n

nk
n

Modalitatea
Frecvena
absolut
Frecvena
relativ
(proporia)

Exemplul 1. O firm dorete s estimeze cota de pia a produsului


su. S presupunem c piaa este concurenial existnd 6 competitori
(firme) care comercializeaz produsul respectiv. Departamentul de cercetare
n marketing al firmei efectueaz un studiu pe baza de chestionar pe un
eantion reprezentativ de n consumatori (alei independent unul de cellalt)
crora li se cere s-i exprime preferina unic fa de cele 6 firme.
Identificm n experimentul nostru o variabil categorial cu 6
modaliti numrul firmelor. Dac dispunem de observaii pe un eantion
de volum n = 120, rezultatul experimentului poate fi cel din tabelul urmtor:
Firma
Valori observate
(preferine)

Total

16

22

15

23

24

20

120

Grafic, informaia privind rspunsul consumatorilor, adic profilul


dat de linia frecvenelor, este important pentru cercettorul n marketing
(vezi figura 7).

30

25

20

15

10

Figura 7. Histograma preferinelor cumprtorilor

Analiznd graficul din figura 7 i cunoscnd rezultatele unor


cercetri anterioare privind cotele de pia, pe alte eantioane, cercettorul
de marketing se poate ntreba dac preferinele consumatorilor sunt sau nu
egal repartizate spre cele 6 firme. Oare diferenele ntre frecvenele
observate pentru modaliti sunt semnificative statistic? n general,
considernd ntreaga populaie de consumatori, s notm cu p i
probabilitatea ca s fie selectat firma i (pentru 1 i 6 ). Evident,
6

= 1 i putem s considerm perechea de ipoteze:

H0 : p1 = p 2 = ... = p 6 =

1
6

(adic preferinele sunt echiprobabile)

H1 : cel puin o probabilitate p i are o valoare ce difer de

1
6

Ce argumente avem pentru a accepta sau a respinge ipoteza H0 ?


n cele ce urmeaz vom ncerca s rspundem la aceast ntrebare,
prezentnd un test hi-ptrat de verificare a bonitii ajustrii.

1.4.1 Test de bonitate a ajustrii


S considerm o variabil categorial cu k modaliti. Teoretic, o
putem considera variabil aleatoare discret, dat de tabelul de forma

p1

2 ... k
n care
p 2 ... p k

= 1.

Practic, putem face orice ipoteze legate de valorile probabilitilor


p1 ,..., p k . Sunt ns aceste ipoteze susinute de realitate? Folosind
eantioane reprezentative, pe baza frecvenelor relative care estimeaz
probabilitile sau folosind un test de bonitate a ajustrii putem accepta
sau respinge ipotezele fcute. Pentru a avea un suport statistic al deciziei,
trebuie ca experimentul realizat n scopul obinerii informaiilor despre
variabil s fie un experiment multinomial, adic:
1) Cele n observaii din eantion s fie independente.
2) Rezultatul fiecrei observaii s fie clasificat doar ntr-unul dintre
cele k nivele posibile. (Fiecare nivel este numit celul.)
Dac frecvenele observate n cele k nivele sunt n1 , n 2 ,..., n k , atunci
evident avem n1 + n2 + ... + nk = n .
Atunci cnd efectum un test de bonitate a ajustrii, bazat pe un
experiment multinomial, asociem nivelelor (celulelor) aa-numitele
frecvene ateptate. Dac ele sunt notate cu e1 , e2 ,.., ek , atunci formula de
calcul este ei = n pi unde pi este valoarea precizat a probabilitii pi .
k

(Avem 1 i k i

= 1 ). Evident, suma frecvenelor ateptate va fi

egal cu n, adic e1 + e2 + ... + ek = n . Tabelul asociat experimentului


multinomial este urmtorul.
Nivelul (celula)
Valori observate
Valori ateptate

n1

n2

e1

e2

i
ni
ei

k
nk
ek

Total
n
n

Observaie. Pentru k = 2 experimentul este de tip binomial, avem


doar dou nivele, cu probabilitile asociate p i respectiv 1 p .

n general, ntr-un experiment multinomial valorile observate ni


difer de cele ateptate ei i trebuie s decidem cnd diferenele sunt
semnificative i cnd nu. Putem folosi urmtoarea formul, ce d o msur a
abaterii ntre valorile observate i cele ateptate
X2 =

(ni ei ) 2
.
ei

(6)

Evident, n caz c X 2 = 0 , rezult c n fiecare celul valorile ni i


ei coincid i, n consecin, exist identitate deplin ntre cele dou serii de
valori (adic ntre cele observate i cele ateptate) iar ipoteza fcut asupra
valorilor probabilitilor p1 ,..., p k este adevrat. Aceast situaie este ns
foarte rar, de regul X 2 > 0 . Pentru a discerne (ntre abateri mici i mari),
ne folosim de faptul c, ntr-un experiment multinomial, valorile X 2
urmeaz la limit o repartiie de tip 2 cu k 1 grade de libertate. Aceast
afirmaie este susinut de urmtoarea
Teorem. Presupunem c ( X 1 , X 2 ,..., X k ) este un vector aleator
repartizat multinomial cu parametrii n, p1 , p 2 ,..., p k . Atunci cnd n tinde
spre infinit, repartiia la limit a statisticii
k

V ( n) =

i =1

( X i npi ) 2
npi

este o variabil aleatoare 2 cu k 1 grade de libertate.


Testul statistic clasic este bazat prin urmare pe o distan 2 , iar
etapele sunt urmtoarele:
1) Se formuleaz cele dou ipoteze statistice (ipoteza nul H0 i
ipoteza alternativ H1).
H0 : p1 = p1 , p 2 = p 2 ,..., p k = p k (adic probabilitile au valorile
precizate p1 , p 2 ,..., p k )
H1 : cel puin o probabilitate pi are o valoare ce difer de valoarea
specificat pi pentru ea n ipoteza nul.

2) Se fixeaz un nivel al erorii respingerii ipotezei nule atunci cnd


ea este de fapt adevrat, fie acesta = 0.05, i se identific n tabelele
statistice cuantila 2 a repartiiei 2 cu k 1 grade de libertate.
3) Se calculeaz valoarea X 2 a abaterilor, adic:

i =1

(ni npi ) 2
.
npi

(7)

4) Valoarea X 2 se compar cu 2 .
Regula de decizie este urmtoarea:
Dac X 2 < 2 acceptm ipoteza nul; dimpotriv, dac X 2 > 2
nu avem motive s-o acceptm (vezi i figura 8).

Figura 8. Ilustrarea regulii de decizie pentru testul de


bonitate a ajustrii

Revenind la studierea cotei de pia pe un eantion de 120 de


respondeni precum i la ansamblul de ipoteze
H0 : p1 = p 2 = ... = p 6 =

1
6

(adic preferinele sunt echiprobabile)

H1 : cel puin o probabilitate p i are o valoare ce difer de


tabelul obinut este urmtorul.

1
6

Firma
Valori observate
(preferine) ni

1
16

2
22

3
15

4
23

5
24

6
20

Total
120

Valori ateptate ei

20

20

20

20

20

20

120

Prin aplicarea testului hi-ptrat de bonitate a ajustrii obinem


valoarea statisticii X 2 = 3.5 . Pentru un nivel de eroare acceptat de 5%,
cuantila corespunztoare repartiiei 2 cu 5 grade de libertate este
2 = 1.145 . Cum X 2 > 2 , suntem n zona de neacceptare a ipotezei H0,
prin urmare, pe baza experimentului respingem ipoteza conform creia toate
firmele au aceeai cot de pia.
B) S considerm acum matricea de date de forma indivizi
caracteristici n care avem informaii despre variabile categoriale. Cnd
dorim s analizm comportamentul comun a cte dou asemenea variabile,
construim aa-numitele tabele de contingen (tabele cu dubl, tripl
intrare).
Mai concret, s presupunem c analizm comportamentul comun a
dou variabile categoriale notate X1 i X2, variabila X1 avnd r modaliti iar
variabila X2 avnd c modaliti. Asupra acestei perechi de variabile se fac n
observaii de tip multinomial adic observaiile sunt independente una de
alt iar rspunsurile se ncadreaz unic pe celule. Un tabel de contingen
asociat va conine o matrice cu r linii i respectiv c coloane, fiecare celul a
matricei coninnd frecvena absolut pentru celula respectiv. De exemplu,
celula (i, j) va conine numrul de observaii pentru care variabila X1 are
modalitatea i iar variabila X2 are modalitatea j.
Prin urmare, pentru variabilele selectate dispunem de n observaii ce
se distribuie n celulele tabelului cuantificnd n acest mod frecvenele n
celule; s le notm cu n ij ( i = 1,2,..., r i j = 1,2,..., c ).
Tabelul de contingen se obine prin bordarea matricei cu o coloan
ce conine totalurile pe linii n j i cu o linie ce conine totalurile pe coloane
ni calculate astfel:
r

ni =

n
j =1

ij

i n j =

ij

i =1

pentru ( i = 1,2,..., r i j = 1,2,..., c ).

n tabel mai introducem celula totalului general ce conine


r

n =

ij

= n (vezi i tabelul 3).

i =1 j =1

Tabelul 3. Tabel de contingen

Modaliti
X1\X2
1

Total pe
linii

n 11

n 12

n1 j

n 1c

n1

n 21

n 22

n2 j

n 2c

n2

n i2

n i1

n ic

ni

nr2

n rj

n r1

n rc

nr

Total coloane

n 1

n 2

n j

n c

n ij

Pentru exemplificare, s revenim la Exemplul 1 privind analiza cotei


de pia pentru produsul firmei. n chestionarul lansat, respondenii s-au
identificat i prin categoria de vrst i categoria socio-profesional
(repartiia n celule fiind cea din tabelul urmtor).

Categoria socio-profesional
Variabila 1

Categoria de vrst Variabila 2


Modaliti
X1\X2

Total

1
2
3
4
5
6
7
Total

1
1
2
1
2
4
2
13

5
7
4
2
1
2
1
22

4
12
4
2
2
3
9
36

2
3
2
3
8
3
10
31

3
3
4
2
1
2
3
18

15
26
16
10
14
14
25
120

Exemplul 2. S revenim la Exemplul 6 din Anexa 1, ce se refer la


analiza riscului returnrii unui credit. Printre variabilele financiare i
demografice ce caracterizeaz clienii selectm dou variabile care sunt
categoriale, i anume Nivelul educaiei (cu 5 modaliti) i Probleme

anterioare cu rambursarea ? (cu 2 modaliti). Tabelul urmtor conine pe


linii modalitile variabilei Nivelul educaiei i pe coloane modalitile
variabilei Probleme anterioare cu rambursarea?. Celulele tabelului conin
frecvenele absolute pe modaliti.
Probleme anterioare
de rambursare
Nu
Da
293
79
139
59

Valori observate
Fr liceu
Doar cu liceu
Nivelul
Facultate
educaiei neterminat
Facultate
Postuniversitare
Total coloane

Total linie
372
198

57

30

87

24
4
517

14
1
183

38
5
700

n analiza riscului returnrii unui credit ar fi interesant s identificm


toi factorii de risc mpreun cu gradul lor de implicare. n acest context,
dorim s vedem n ce msur antecedentele privind rambursarea unui credit
depind sau nu de nivelul educaiei. Vom folosi datele din tabelul de
contingen aplicnd un test de verificare a independenei statistice a celor
dou variabile Nivelul educaiei i Probleme anterioare cu rambursarea?
1.4.2 Test de independen
S considerm cele dou variabile categoriale X1 i X2 prima avnd r
modaliti iar cea de a doua avnd c modaliti. Putem considera vectorul
aleatoriu discret (X1, X2) descris prin urmtorul tabel:
Modaliti
X1\X2

Probabiliti
marginale

p11

p12

p1 j

p1c

p1

p 21

p 22

p2 j

p 2c

p2

pi1

pi 2

p ij

pic

pi

pr1

pr 2

p rj

p rc

pr

Probabiliti
marginale

p1

p 2

p j

p c

Am folosit urmtoarele notaii relativ la populaia studiat:


1) p ij este probabilitatea ca un individ ales la ntmplare s aparin
r

celulei (i, j). Evident avem p ij = 1 ;


i =1 j =1

2) pi este probabilitatea ca un individ ales la ntmplare s aparin


c

liniei i; avem p i = p ij ;
j=1

3) p j este probabilitatea ca un individ ales la ntmplare s aparin


r

coloanei j; avem p j = p ij
i =1

Putem formula urmtoarele ipoteze statistice, i anume:


ipoteza de independen (statistic) a celor dou variabile are forma:
H0 : pij = pi p j pentru orice i = 1,2,..., r i j = 1,2,..., c
iar ipoteza alternativ o putem exprima astfel:
H1 : pij pi p j pentru cel puin o celul (i, j).
S presupunem acum c efectum un experiment multinomial de
volum n i dispunem de informaiile din tabelul de contingen. Putem s
calculm expresia
r c

( n ij np ij ) 2

i =1 j=1

np ij

V=

care, atunci cnd ipoteza nul este adevrat, se scrie


r c

(n ij np i p j ) 2

i =1 j=1

np i p j

V=

Vom folosi, pentru probabilitile pi i respectiv p j estimaiile


(de verosimilitate maxim)
n j
ni
i p j =
n
n
caz n care putem estima valoarea V prin statistica:

p i =

r c

(n ij n i n j / n ) 2

i =1 j=1

n i n j / n

X2 =

(8)

Valoarea X 2 , atunci cnd n tinde la infinit, este repartizat 2 cu


( r 1)(c 1) grade de libertate.

Observaie: Pentru fiecare celul (i, j) putem identifica valoarea


ateptat atunci cnd ipoteza nul este adevrat. Astfel, dac H0 este
adevrat, valoarea

ni n j
n

este valoarea ateptat pentru celula (i, j).

Figura 9. Ilustrarea regulii de decizie pentru testul de independen

Testul statistic clasic pentru verificarea independenei statistice a


dou variabile, test bazat pe repartiia hi-ptrat, presupune:
1) Formularea celor dou ipoteze statistice (ipoteza nul H0 i
ipoteza alternativ H1), adic.
H0 : pij = pi p j pentru orice i = 1,2,..., r i j = 1,2,..., c
iar ipoteza alternativ o putem exprima astfel:
H1 : pij pi p j pentru cel puin o celul (i, j).
2) Fixarea unui nivel al erorii respingerii ipotezei nule atunci cnd ea
este de fapt adevrat, fie acesta = 0.05; identificarea n tabelele statistice
a cuantilei 12 repartiiei 2 cu k 1 grade de libertate.

3) Calcularea valorii X 2 a abaterilor, adic:


X2 =

(nij ni n j / n) 2

i =1 j =1

ni n j / n

4) Valoarea X 2 se compar cu 12 .
Regula de decizie este urmtoarea:
Dac X 2 > 12 atunci respingem ipoteza nul, dimpotriv dac
X 2 < 12 atunci acceptm ipoteza nul (vezi i figura 9).
S revenim la Exemplul 2 din acest paragraf pentru care avem n
figura 10 un bar-chart al frecvenelor pentru cele dou variabile. S aplicm
testul pentru verificarea independenei statistice a variabilelor Nivelul
educaiei i Probleme anterioare la rambursare? Valoarea X 2 = 11.49 iar
pentru = 0.05 obinem 02.95 = 9.49 (aici 2 are 4 grade de libertate).

80
70
60
50
40
30
20
10
0

Yes
Did not complete
high s chool

High s chool
degr ee

Some college

No
College degr ee

P os tunder gr aduate
degr ee

Figura 10. Frecvenele relative din Exemplul 2,


reprezentate grafic (bar-chart)

Suntem n situaia X 2 > 12 (11.49 > 9.49) adic respingem


ipoteza nul i acceptm alternativa, concluzionnd c:
a)

variabila Probleme anterioare la rambursare? depinde statistic


de variabila Nivelul educaiei i

b)

valorile variabilei Nivelul educaiei influeneaz valorile


variabilei Probleme anterioare la rambursare?

1.5 Explorarea variabilelor ordinale


Variabilele categoriale de tip ordinal pot fi analizate numeric i
grafic ca i cele de tipul categorii nominal sau binar. Totui, asupra lor se
pot aplica i alte analize. Parte din ele le vom prezenta n cele ce urmeaz.
Relaii de preordine i de ordine
S presupunem c n dorina de a ordona indicatorii financiarcontabili I1 - I7 urmtori (vezi i datele din Anexa 1)
I1:
I2:
I3:
I4:
I5:
I6:
I7:

Total datorii/capital social;


Cifr de afaceri/total activ;
Profit brut/total activ;
Capital social/cifr de afaceri;
Datorii/total activ;
log(Activ);
Rata de cretere a activului.

se folosete un grup de experi n domeniu. Un expert l oarecare din acest


grup, prin preferinele sale (evident subiective dar bazate pe experiena sa)
va determina o relaie de preordine POl n clasificarea indicatorilor, de
exemplu urmtoarea:
POl : I1 > I2 = I3 > I4 = I5 > I6 > I7
(ceea ce nseamn c expertul l prefer indicatorul I1 indicatorului I2 care
este la fel apreciat ca i I3, care este preferat lui I4 etc.).
Relaia stabilit pentru indicatorii financiar-contabili, prin
preferinele expertului l, este o relaie de preordine deoarece oricare doi
indicatori i i j se pot afla, n preferina expertului, doar n urmtoarele
situaii: sau i este preferat lui j, sau j este preferat lui i, sau i este preferat la
fel ca i j.

Aceste preferine pot fi exprimate completnd o matrice U ale crei


elemente sunt: Uij = 1 i Uji = 0 dac indicatorul i este preferat lui j i
Uij = Uji = dac i i j sunt apreciai la fel (vezi tabelul 4).
Tabelul 4. Scoruri medii i ranguri

I1
I2
I3
I4
I5
I6
I7

I1

I2

I3

I4

I5

I6

I7

0
0
0
0
0
0

0
0
0
0

0
0
0
0

1
1
1

0
0

1
1
1

0
0

1
1
1
1
1

1
1
1
1
1
1

Scor mediu

Rang mediu

u(i)
6
4,5
4,5
2,5
2,5
1
0

r(i)
1
2,5
2,5
4,5
4,5
6
7

Aadar, pentru fiecare expert putem s construim o matrice a


preferinelor. Pe baza preferinelor expertului se poate calcula un scor mediu
i apoi un rang mediu pentru indicatorul respectiv, astfel:
scorul mediu al indicatorului i este u (i ) =

ij

iar rangul mediu asociat

este r (i ) = k u (i ) . (Aici k este numrul de indicatori analizai, n exemplul


nostru k = 7. Se observ c un rang mic indic o bun apreciere!)
O relaie de ordine total ntre indicatorii analizai se obine atunci
cnd expertul alege doar una dintre situaiile: indicatorul i este preferat
indicatorului j sau indicatorul j este preferat indicatorului j. Similar situaiei
anterioare, putem asocia o matrice U ale crei elemente sunt Uij = 1 i
Uji = 0 dac indicatorul i este preferat lui j. Analog, se calculeaz un scor
mediu i apoi un rang mediu pentru fiecare indicator.
Dac dorim s msurm corelarea a dou variabile ordinale pentru
care observaiile sunt ranguri, vom calcula aa-numitul coeficient de
corelaie Spearman:

ro = 1

1
2

n(n 1)

di

(9)

unde d i este diferena rangurilor obinute de ctre individul i. Coeficientul


de corelaie Spearman, la fel ca i coeficientul de corelaie Pearson, are
valori ntre 1 i 1, valori apropiate de 1 indicnd concordana celor dou
aprecieri, iar valori apropiate de 1 indicnd o discordan.

1.6 Transformri n matricele de date


S revenim la exprimarea informaiilor n forma unei matrice
X ( n p ) ce reprezint n indivizi asupra crora s-au evaluat p caracteristici,
de fapt p variabile. Matricea X o putem privi fie pe linii, obinnd informaii
despre cei n indivizi, fie pe coloane obinnd informaii despre cele p
variabile. Prin urmare :
(1) fiecrui individ i i corespunde n matricea X o linie, adic un
vector cu p elemente; acesta va fi scris: Li = ( xi1 , xi 2 ,..., xip ) R p
(2) fiecrei variabile j i corespunde n matricea X o coloan cu n
elemente, care va fi notat: C j = ( x1 j , x 2 j ,..., x nj ) T R n .
1.6.1 Transformri pe coloane: standardizarea
Este normal s calculm, pentru fiecare variabil din tabelul de date,
valoarea medie i respectiv abaterea medie ptratic (abaterea standard).
S notm cu m j media i cu s j abaterea medie ptratic pentru
variabila j, pentru care putem scrie formulele clasice:

mj =

1
n

i =1

xij

sj =

1
n 1

(x

ij

m j )2

Din orice matrice X se poate obine o nou matrice, fie ea X ' = ( xij' ) ,
ale crei elemente sunt calculate astfel: xij' =

xij m j
sj

pentru orice linie i i

coloan j
Aceast transformare asupra variabilelor este recomandat pentru a
evita discrepanele ntre valori ce ar putea fi datorate unitilor de msur
diferite. Se obinuiete a se spune c, prin aceast transformare, exprimm
informaiile n form standardizat, n uniti de abatere medie ptratic
(uniti standard). Se observ c, prin aceast transformare, centrm mai
nti valoarea (adic scdem din ea media) iar apoi o mprim la abaterea
medie ptratic.
Observaie: Un calcul matematic simplu ne conduce la faptul c
media valorilor standardizate este zero, iar dispersia este unu.
Exemplu: Fie datele din tabelul 1 al Anexei 1. S considerm doar
primele 4 caracteristici ale autoturismelor exprimate prin variabilele: preul,

capacitatea cilindric, viteza i consumul. Printr-un calcul elementar


obinem mediile i respectiv abaterile medii ptratice ale acestor variabile
(folosind datele tuturor celor 26 mrci de autoturisme):

Media
Abaterea medie
ptratic

Preul

Capacitatea
cilindric

Viteza

Consumul

16118

1172

155

7.18

4148

205

22.17

1.13

Folosim acum formula de standardizare pe care o aplicm fiecrui


element al matricei. Obinem ca rezultat informaiile standardizate
prezentate n tabelul 5. Se observ c, dei cele 4 variabile selectate se
exprim n uniti de msur diferite, n forma standard valorile sunt perfect
comparabile ntre ele.
Tabelul 5. Valori standardizate

1.A
2.C
3.D
4.Fl
5.F2
6.F3
7.F4
8.FS
9.N
10.O
11.P1
12.P2
13.P3
14.P4
15.Ri
16.R2
17.R3
18.R4
19.RS
20.SI
21.S2

Preul
standardizat

Cap. cil.
standardizat

Viteza
standardizat

Consumul
standardizat

-0.99
-0.681
-0.364
-0.64
2.14
0.42
-0.74
1.36
-0.89
-0.74
-0.69
-0.08
0.67
2.18
-0.76
-0.56
-0.47
0.27
2.22
0.76
-1.24

-0.85
-1.06
-0.87
-0.84
0.63
0.63
-0.27
2.07
-0.89
-0.87
-1.06
-0.23
0.91
1.99
-1.05
-0.31
-0.31
1.09
1.09
1.41
-1.31

-0.67
-0.44
-0.44
-0.44
2.04
0.46
-0.80
1.13
-0.66
-0.53
-0.94
-0.58
0.68
1.59
-1.79
-1.57
-0.53
0.55
2.04
0.91
-1.07

-0.86
-1.39
-0.42
-0.86
1.52
0.46
-0.15
1.87
-0.68
0.02
-0.33
-1.21
1.78
1.34
-0.77
-0.77
-1.21
0.64
1.34
1.43
0.11

22.S3
23.S4
24.Ti
25.T2
26.V

Preul
standardizat

Cap. cil.
standardizat

Viteza
standardizat

Consumul
standardizat

-0.96
-0.35
-0.51
0.18
0.46

-0.87
0.74
-0.84
0.59
0.49

-0.44
0.37
-0.22
0.68
0.68

-0.681
-0.59
-0.95
-0.33
0.72

1.6.2 Matricea corelaiilor


Aa cum am mai spus, corelaia (liniar) ntre dou variabile este
msurat prin coeficientul de corelaie Pearson. Pentru dou variabile i i j
coloanele i i j apoi
extragem din matricea de date X = xij

( )i=1,2,...,n; j =1,2,..., p

calculm coeficientul de corelaie Pearson ri , j . Calculnd pe rnd, pentru


toate cele p variabile, coeficienii de corelaie liniar, putem nlocui matricea
iniial cu o matrice de dimensiune p p (reamintim c am notat-o R) avnd
ca elemente coeficienii de corelaie respectivi. (Matricea este simetric i
are toate elementele de pe diagonala principal egale cu unu).
Analiza elementelor matricei corelaiilor este foarte important n
prelucrarea informaiilor din matricea X de date. Astfel, analiznd
elementele extra-diagonale ale matricei, identificm perechi de variabile
ntre care exist dependene liniare puternice (n general, extragem acele
variabile pentru care coeficientul de corelaie depete 0,8), dar identificm
i perechi de variabile cu coeficieni de corelaie foarte mici (aproape de
zero). Aceste informaii ne sunt utile n prelucrrile ulterioare!
Matricea corelaiilor poate fi tratat ns algebric prin proprietile
sale (de simetrie i pozitivitate), ea fiind o surs de alte informaii utile n
prelucrarea ulterioar a datelor. Reamintim urmtoarele dou teoreme:
Teorema 1 (descompunerea Jordan). Fie o matrice ptratic A
(p p). Ea poate fi scris sub forma: A = 1 unde matricea conine
vectori proprii ai matricei A iar matricea este o matrice diagonal ce
conine valorile proprii ale matricei A.
Teorema 2. Fie o matrice simetric A (p p). Ea poate fi scris sub
forma A = T unde matricea conine vectori proprii ai matricei A,
matricea este o matrice diagonal ce conine valorile proprii ale matricei
A iar T este transpusa matricei .

S-ar putea să vă placă și