Sunteți pe pagina 1din 15

7

VIZUALIZAREA DATELOR

7.1 Introducere

Suntem copleii de date - date tiinifice, date medicale, date demografice, date
finanaciare, date de marketing. Oamenii nu mai au timp s se uite la aceste date.
Atenia uman a devenit o resurs important, asfel nct trebuie gsite ci de a analiza
datele automat, de a le clasifica automat, de a le sintetiza automat, de a descoperi
automat tendine n date i de a caracteriza automat aceste tendine. Acest minerit n
date", n vederea gsirii automate de cunotine i informaii interesante/noi, este astzi
unul dintre cele mai active i interesante domenii de cercetare.
Statistica descriptiv permite reprezentarea vie i asimilabil a informaiilor
statistice prin simplificare i schematizare. Statistica descriptiv multidimensional este
generalizarea natural a cazului n care informaiile sunt descrise de mai multe variabile
i/sau dimensiuni.
Trecerea la multidimensional implic ns o schimbare calitativ important. ntr-
adevr, se spune despre microscop sau despre aparatul radiografic c nu sunt numai
instrumente de descriere ci i instrumente de observaie, de explorare i de cercetare.
Prin metodele de statistic exploratorie multidimensional, realitatea nu este doar
simplificat - pentru c este complex, ci i explorat - pentru c este ascuns. Munca
de pregtire i de codificare a datelor, regulile de interpretare i validare furnizate de
tehnicile aplicate n cazul multidimensional nu au simplitatea ntlnit n statistica
descriptiv elementar. Nu este vorba doar de a prezenta, ci i de a analiza, a descoperi,
uneori de a verifica i dovedi, eventual de a testa anumite ipoteze.
Ochiul omenesc este organul de sintez i analiz cu performane nc neegalate de
nici un aparat; este natural ca o categorie important de tehnici de explorare, am numit
aici tehnicile de vizualizare a datelor, s i se adreseze. n acest capitol vom prezenta
cele mai utilizate reprezentri grafice, de la uni- la multi-dimensional i cum pot fi

1
utilizate aceste reprezentri n explorarea i analiza datelor.
n cele ce urmeaz graficele prezentate sunt realizate n Matlab cu Computational
Statistics Toolbox
(http://www.ebook3000.com/Computational-Statistics-Handbook-With-
MATLAB---files-_4056.html).

7.2 Vizualizarea datelor 1D

7.2.1 Histograma
Histograma este o reprezentare grafic a distribuiei frecvenelor ntr-o mulime de
date. Cele mai populare reprezentri sunt:
Histograma frecvenelor;
Histograma frecvenelor relative;
Histograma densitii de probabilitate.
Dndu-se setul de observaii xi i 1,.,n , histograma frecvenelor reprezint, pe axa
Oy, numrul de observaii n j care se afl n intervalul I j , figurat pe axa Ox prin
capetele sale, i obinut prin mprirea n k grupe a mulimii ordonate a observaiilor.
Histograma este determinat de doi parametrii, lungimea intervalului i punctul de start
al primului interval. Valoarea k a numrului de intervale poate fi calculat dup
formula lui Sturge
k 1 log 2 n
Histograma frecvenelor relative este o histogram a frecvenelor n care pe axa Oy
este reprezentat numrul relativ de observaii care se afl n intervalul I j .
Histograma densitii de probabilitate este o histogram normalizat n sensul c
suma ariilor barelor de lime h egal cu lungimea intervalului I j i nlime frecvena
normalizat corespunztoare este egal cu unu. Ecuaia curbei este:
n
f x j cu x I j
nh
Exemplul 7-1 Datele (Martinez & Martinez, 2002) reprezint 140 de lungimi, n inch,
de antebrae de brbai aduli. n figurile (Figura 7-1), (Figura 7-2) sunt prezentate
cele trei tipuri de histograme ale acestui set de date. Forma acestor grafice este
aceeai doar scara difer.
n figura (Figura 7-2) histograma densitii de probabilitate i estimaia densitii
de probabilitate a unei variabile aleatoare normale coincid destul de bine ceeace ne
permite s afirmm c ipoteza privind repartiia normal a datelor este destul de
probabil.
Utilizarea histogramelor este recomandat n:
Sinteza unei mulimi de observaii pentru a vizualiza caracteristicile generale ale
legii de probabilitate presupus a le fi generat, cum ar fi forma distribuiei,
locaia, mprtierea;
Sugerarea unui posibil model de probabilitate;
Vizualizarea unei structuri neateptate.

2
Figura 7-1. Histograma frecvenelor i histograma frecvenelor relative a datelor din Exemplul 7-1
(sursa [1])

Figura 7-2. Histograma densitii de probabilitate a datelor din Exemplul 7-1 (sursa [1])

3
7.2.2 Graficul de tip Steam-and-Leaf (Tulpin-i-frunz)

Graficul de tip Steam-and-Leaf, S&L, a fost introdus de Tukey ca o modalitare de


vizualizare a datelor dintr-o list structurat (Tukey, 1977).
Dac observaiile se prezint sub forma unor numere de cel puin dou cifre
atunci acestea pot fi reprezentate sub forma unei diagrame S&L. n acest sens mprim
numrul n dou: frunza format din cifra unitilor i tulpina format din restul
cifrelor.
Tulpinele sunt listate cresctor la stnga unei linii verticale cu toate frunzele
corespunztoare la dreapta liniei, pe acelai rnd cu tulpina. Dac datele conin numere
zecimale atunci acestea pot fi rotunjite (pentru o mai uoar reprezentare).
O variant a graficului S&L const n reprezentarea irului de frunze
corespunztor unei tulpini pe dou rnduri succesive: cifrele cuprinse ntre 0 i 4 pe
prima linie, cele cuprinse ntre 5 i 9 pe linia a doua.
Graficul de tip S&L este util n aproximarea formei densitii legii de
probabilitate care a generat datele i vizualizarea acestora. Spre deosebire de
histogram, graficul S&L permite reconstituirea datelor (dac acestea nu au fost
rotunjite). Graficul S&L nu este recomandabil pentru reprezentarea unui numr mare de
date spre deosebire de histograme care sunt foarte eficiente n sinteza i reprezentarea
mulimilor de date masive.

Exemplul 7-2 Datele (Martinez & Martinez, 2002) reprezint nlimea, n milimetri,
a 32 de calote craniene descoperite Tibet. n figura (Figura 7-3), este prezentat
diagrama S&L a acestor date.

Figura 7-3. Diagrama S&L, varianta Tulpin cu dou frunze a datelor din Exemplul 7-2 (sursa [1])

4
7.2.3 Graficul bazat pe cuantile

Cele mai populare grafice bazate pe cuantile sunt: graficele q-q, cuantile-cuantile i
graficele de tip cuantile (cunoscute i sub numele de probability plot).
Graficele bazate pe cuantile sunt utilizate pentru compararea vizual a dou
distribuii empirice sau a unei distribuii empirice cu o distribuie teoretic. Rezultatul
acestor comparaii este util atunci cnd se verific ipotezele unui model (de exemplu de
normalitate) sau se urmrete determinarea unei distribuii n vederea unor viitoare
simulri Monte-Carlo.
Graficele q-q au fost propuse de Wilk i Gnanadesikan (Wilk & Gnanadesikan,
1968). Fie
x1 , x 2 ,, x n

statistica de ordine a datelor din prima selecie i fie


y1 , y 2 ,, y m

statistica de ordine a datelor din a doua selecie, cu m n .

S considerm mai nti cazul m n : se reprezint grafic urmtoarea mulime


n
xi , yi .
i 1

Dac seleciile au fost generate de aceeai distribuie, este de ateptat ca punctele


mulimii de mai sus s fie aezate aproximativ de a lungul unei linii.
Un avantaj important al acestui tip de grafic este acela c cele doua selecii pot s
fie generate de distribuii cu parametri de locaie i / sau de scal diferii; chiar i n
acest caz graficul q-q aproximeaz o dreapt.
S considerm acum cazul n care m n . Pentru a obine graficul q-q n acest caz
se asociaz lui yi cuantila i 0.5 m estimat pe baza primei selecii. Aceast
estimaie se obine prin interpolare liniar ntre valorile lui xi 1 i xi .
Interpretarea unui grafic de tip q-q trebuie fcut cu precauie mai ales cnd
volumul de selecie este mic; n acest caz sunt de ateptat multe variaii. Pentru a ajuta
la compararea vizual a seleciilor o variant a graficului de tip q-q prezint a linie de
referin. Aceast linie unete punctele date de estimaia primei i celei de a treia
cuartile (vezi Figura 7-3).
Exemplul 7-3 Datele sunt generate urmnd o distribuie normal de medie 0 i dispersie
1. Primul set de date este de 50 de puncte, al doilea de 75 de puncte.

5
Figura 7-4 Graficul q-q al datelor din Exemplul 7-3 (sursa [1])

Examinnd graficul de mai sus, ipoteza c seleciile au fost generate de aceeai


distribuie pare rezonabil.

7.2.4 Graficul de tip box & whisker

Graficele de tip box (numite i diagrame box & whisker, -cutie cu musti) sunt utilizate
pentru a vizualiza distribuii empirice (Tukey, 1977). n acest sens sunt estimate,
pornind de la selecia studiat, cinci valori pentru a construi graficul box: cele trei
quartile, q0.25 , q0.50 , q0.75 , valorile minim i maxim ale seleciei.
Graficele de tip box sunt implementate, n softurile comerciale, sub diferite
forme; diferena principal rezid n modul de definire a cuartilelor i a valorilor
aberante outliers.
n varianta pe care o prezentm aici, graficul box este construit pe baza
estimaiilor celor trei cuartile, a valorilor adiacente i a valorilor posibil aberante.
Fie
IQR q0.75 q0.25
intervalul inter-cuartile care estimeaz intervalul n care se afl 50% din datele seleciei
i fie

6
LL q0.25 1.5 IQR
UL q0.75 1.5 IQR
LL limita inferioar, respectiv UL limita superioar a valorilor seleciei. Cu acestea:
- Valorile adiacente sunt valorile extreme ale seleciei aflate n intervalul definit
de (LL, UL). n cazul n care nu exist valori posibil aberante valorile adiacente
sunt chiar valorile maxim, respectiv minim ale seleciei;
- Valorile posibil aberante sunt valori ale seleciei aflate n afara intervalului
(LL,UL). Aceste valori pot s reprezinte date msurate greit, sau date generate
de o alt distribuie dect majoritatea seleciei sau date extreme ce pot aprea cu
o probabilitate extrem de mic n distribuia ce a generat selecia; n oricare din
aceste situaii este recomandabil investigarea ulterioar a acestor puncte.
Construcia unui grafic box se realizeaz astfel:
- Pentru o poziie aleas pe axa Ox, se duc linii orizontale a cror nlimi pe
axa Oy sunt date de cele trei cuartile estimate. Capetele acestor linii se unesc
prin linii verticale pentru a forma un dreptunghi (cutie box) ;
- Se marcheaz, pentru aceeai poziie pe axa Ox, prin linii orizontale, valorile
adiacente. Se unete, printr-o linie vertical, mijlocul liniei ce marcheaz prima
cuartil cu mijlocul liniei ce marcheaz valoarea adiacent minim; analog se
procedeaz pentru perechea a treia cuartil-valoarea adiacent maxim. Cele
dou linii verticale se mai numesc i musti whiskers;
- Se marcheaz, pentru aceeai poziie pe axa Ox, prin simbolul + sau un altul
valorile posibil aberante.
Se poate vedea n Figura 7-5 c un grafic de tip box ilustraz sugestiv forma unei
distribuii. Astfel, o distibuie simetric va avea mustile i cele dou pri ale
cutiei aproximativ egale (cazul, de exemplu, a distribuiilor uniform i normal)
n timp ce o distribuie asimetric va avea o musta i o parte a cutiei mai lungi
(cazul, de exemplu, a distribuiei exponeniale). Dac intervalul intercuartilic este
mic, atunci datele din mijlocul seleciei sunt compactate n jurul medianei; invers,
dac intervalul este mare, atunci 50% din datele din mijlocul seleciei sunt puternic
dispersate.

7.3 Vizualizarea datelor 2D i 3D

Reprezentarea cartezian permite vizualizarea punctelor bi- i tri-dimensionale. De


asemenea, este posibil vizualizarea unei funcii de dou variabile z f x, y ca o
suprafa.

7.3.1 Graficul de tip scatterplot

Graficul de tip scatterplot este modul cel mai popular de vizualizare a datelor
bidimensionale; se obine prin simpla reprezentare a punctelor utiliznd simboluri
grafice ntr-o epur cartezian. Acest tip de diagram furnizeaz informaii utile
referitoare la mprtierea n plan a datelor i la legtura, liniar sau neliniar, dintre
cele dou variabile ale coordonatelor datelor de selecie. Se recomand, naintea

7
oricrei modelri vizualizarea datelor 2D printr-un grafic de tip scatterplot pentru a
verifica dac relaia propus de model este rezonabil.

Figura 7-5 Exemple de grafice box pentru selecii distribuite uniform (1), normal (2) i exponenial (3)
(sursa [1]). Liniile orizontale din capetele mustilor reprezint valorile adiacente iar punctele +
valorile posibil aberante.

Figura 7-6 Conturul 3-D al funciei peaks (sursa [1])

8
7.3.2 Graficul de tip contur

Datele de forma z f x, y , generate de o funcie bivariat, pot fi vizualizate ca o


suprafa. Un mod de vizualizare a acestei suprafee l reprezint graficele de tip contur.
Graficul de tip contur este asemntor hrilor topografice i reprezint izoliniile
suprafeei studiate. n Matlab funciile contour i contour3 permit generarea graficelor
de tip contur n plan, respectiv n spaiu; opional se pot eticheta i indica nlimile
izoliniilor.
Funcia contour3 este exemplificat n Figura 7-6 pe date generate de funcia
peaks. Funcia peaks este o funcie Matlab de dou variabile obinut prin translatarea
i scalarea distribuiilor gaussiene; formula ei este:
f x, y 3 (1 x ) 2 exp( x 2 ( y 1) 2 )
10 ( x / 5 x 3 y 5 ) exp( x 2 y 2 )
1/ 3 exp( ( x 1) 2 y 2 )
n Figura 7-6 funcia peaks a fost calculat n cele 49 de noduri ale unei reele cu
ochiuri ptratice obinut prin discretizarea ptratului 3,3 3, 3

7.4 Vizualizarea datelor multi-dimensionale

7.4.1 Matricea scatterplot

Ideea vizualizrii datelor sub forma graficelor de tip scatterplot poate fi generalizat la
date multi-dimensionale printr-o reprezentare de tip scatterplot 2-D a tuturor perechilor
de dou variabile. Aceasta permite vizualizarea relaiilor pe perechi i a structurilor
interesante n dou dimensiuni. n Matlab acest tip de grafic se realizeaz cu comanda
plotmatrix. Prin aceast comand se genereaz o diagram de grafice dispuse n
celulele unei matrici ptratice avnd dimensiunea egal cu dimensiunea datelor. Pe
fiecare linie sunt reprezentate n celulele i, j cu i j si i, j 1,., n 3 graficele de tip
scatterplot 2-D ale variabilelor i, j iar n celula (i, i) histograma variabilei i.

9
Figura 7-7 Matricea scatterplot al datelor Iris setosa (sursa [1])

n Figura 7-7 este ilustrat rezultatul comenzii plotmatrix avnd ca date de intrare
msurtorile corespunztoare lui Iris setosa din exemplul Fishers iris data (Martinez
& Martinez, 2002). Datele reprezint 150 de msurtori efectuate asupra a trei varieti
de flori iris (cte 50 din fiecare varietate): iris setosa, iris virginica i iris versicolor.
Fiecrei astfel de flori i-au fost msurate patru caracteristici, anume: lungimea i
limea medie a sepalelor i lungimea i limea medie a petalelor.

7.4.2 Graficul de tip stea star

Graficele de tip stea au fost introduse de Fienberg (Fienberg, 1979) ca o modalitate de


vizualizare a datelor multidimensionale. Fiecare observaie din selecie este
reprezentat sub forma unui punct din care pornesc, corespunztor fiecrei variabile,
linii radiale egal deprtate ntre ele i proporionale cu variabila pe care o reprezint.
Prima raz, corespunztoare primei variabile, este tras la un unghi de zero grade
celelalte variabile sunt asignate razelor prin parcurgere n sens trigonometric a stelei.
Capetele acestor raze sunt unite ntre ele; imaginea obinut este o stea cu raze mai
mult sau mai puin egale.
Diagrama de tip stea este o reprezentare sugestiv a unui set de date multi-
dimensionale dar nu este recomandabil pentru seturi de date numeroase (n > 10) sau
de dimensiuni mari (d > 15).
n exemplul din Figura 7-8 datele reprezint opt mrci comerciale de fulgi de cereale
caracterizate prin 11 variabile (Venables & Ripley, 1994).

10
Figura 7-8 Graficul star al datelor cereale (sursa [1])

7.4.3 Curba Andrews

Curbele Andrews (Andrews, 1972) reprezint fiecare observaie printr-o funcie.


Aceast funcie este definit prin
f x t x1 2 x2 sin t x3 cos t x4 sin 2t x5 cos 2t

cu t variind n intervalul , iar observaia x este un vector de componente


x1 , x2 , x3 , x4 , x5 , .
Se cunosc, referitor la aceste curbe, urmtoarele proprieti (vezi, de exemplu,
[5]):
- Pstreaz media, dispersia i distanele (modulo o constant). n consecin, curbe
Andrews apropiate sugereaz puncte apropiate i deci le recomand ca un
instrument exploratoriu n probleme de cluster-analysis;
- Forma curbelor este dependent de ordinea componentelor vectorului x. Primele
componente ale vectorului au o influen mai mare n forma curbei Andrews. O
retrasare a curbelor pornind de la o alt ordonare a componentelor vectorilor
permite o explorare profund a structurii datelor. Pentru a ocoli acest
inconvenient se recomand studentizarea (adic translatarea variabilelor n
origine prin scderea mediei empirice i scalarea lor prin mprirea cu abaterea
standard empiric pentru a avea matricea de varian-covarin egal cu
matricea unitate) prealabil a datelor.

11
Figura 7-9 reprezint diagrama Andrews pentru varietile setosa i virginica din
datele Fishers iris. Se observ c datele prezint similariti n cadrul fiecrei clase
i diferene ntre clase ceeace ne permite s concluzionm c cele patru msurtori
separ bine cele dou clase.

Figura 7-9 Curbele Andrews pentru Iris setosa i Iris virginica (sursa [1])

7.4.4 Coordonate paralele

ntr-un sistem cartezian de coordonate axele sunt ortogonale astfel nct nu pot fi
vizualizate mai mult de trei dimensiuni. Dac axele sunt paralele atunci pot fi
vizualizate mai mult de trei axe ntr-un grafic bidimensional. Tehnica coordonatelor
paralele a fost extins i dezvoltat i n context statistic de Wegman (Wegman, 1990).
n aceeai lucrare sunt studiate proprietile coordonatelor paralele ca transformri
proiective i este ilustrat dualitatea dintre reprezentarea n coordonate paralele i cea n
coordonate carteziene ortogonale.
Un punct x x1 , x2 , , xd d-dimensional n coordonate paralele se prezint ca o
linie poligonal cu vrfurile xi , i 1 , i 1,., d n coordonate carteziene. Numele de
coordonate paralele vine de la faptul c, pentru a facilita reprezentarea n acest sistem,
sunt trasate, perpendicular pe axa cartezian Oy, d-1 drepte de ecuaie
y i, i 1, ., d 1 .
Ca i n cazul curbelor Andrews, coordonate paralele apropiate sugereaz puncte
apropiate i deci recomand acest tip de reprezentare ca un instrument exploratoriu n
probleme de cluster-analysis;
Forma liniilor poligonale este dependent de ordinea componentelor vectorului x.
O retrasare a curbelor pornind de la o alt ordonare a componentelor vectorilor permite
o explorare profund a structurii datelor. Wegman furnizeaz o modalitate sistematic

12
de a genera toate permutrile astfel nct s fie vizualizate toate relaiile dintre dou
variabile consecutive.
Figura 7-10 reprezint diagrama n coordonate paralele pentru varietile setosa
i virginica din datele Fishers iris. Se observ c datele prezint similariti n cadrul
fiecrei clase i diferene ntre clase pentru variabilele x2 si x3 ceeace ne permite s
concluzionm c variabilele 2 i 3 separ bine cele dou clase.

Figura 7-10 Coordonatele paralele pentru Iris setosa (linie punctat) i Iris virginica (linie continu)
(sursa [1])

7.4.5 Grand Tour

Diagramele grand tour (Asimov, 1985) reprezint o tehnic de vizualizare interactiv


ce permite cercettorului s descopere structuri interesante ascunse ntr-un nor de
puncte multidimensionale. n acest context structuri interesante semnific grupri,
relaii liniare sau neliniare, etc. Ideea grand tour-ului este aceea de a proiecta punctele
d-dimensionale ntr-un plan, de a le reprezenta n acel plan sub forma unui scatterplot,
apoi de a roti acel plan parcurgnd toate unghiurile posibile pentru a vizualiza structuri
interesante. Dac variaia unghiurilor este mic atunci rezultatul este un film ce prezint
punctele ntr-o micare continu.
n practic o procedur care implementeaz ideea de mai sus trebuie s:
- viziteze un set de orientri suficient de bogat pentru a aproxima bine condiia de a
parcurge toate unghiurile posibile;
- fie reversibil, n sensul reconstruciei norului iniial de puncte pornind de la
proiecia sa 2-D;
- nu necesite un efort de calcul mare.
O procedur care satisface condiiile de mai sus se numete pseudo-grand tour.

13
Fie vectorii ortonormai care genereaz planul de proiecie:
t 2 d sin 1t ,cos 2t , ,sin d 2t ,cos d 2t
t 2 d cos 1t ,sin 2t ,,cos d 2t , sin d 2t

i fie T t x i , T t x i , i 1,., n proiecia celor n puncte d-dimensionale n planul


generat de vectorii si .
Pentru a asigura o vizitare ct mai complet a tuturor punctelor, i si j sunt
astfel alei nct raportul i j s fie iraional pentru orice i i j i s nu fie un
multiplu raional al nici unui alt raport; n acest sens asignarea i Pi cu Pi al i-lea
numr prim asigur aceast cerin. Pasul cu care este mrit variabila t trebuie s fie i
el un numr iraional, intervalul de timp, adic numrul de plane de proiecie, trebuie s
fie foarte mare iar d trebuie s fie un numr par (n caz contrar dimensiunea tuturor
celor n puncte este crescut cu o unitate prin adugarea pe ultima poziie a unei
componente egale cu zero).
Asimov remarca faptul c sunt vizualizate mai mult dect cele dou dimensiuni.
ntr-adevr, cu ct un punct din nor este mai deprtat de ecranul monitorului cu att se
rotete mai repede. Aceast extra-dimensiune exprimat prin viteza de rotaie este ns
dificil de interpretat n lipsa unei experiene importante n vizualizarea filmelor grand-
tour.

14
7.5 Bibliografie selectiv
[ 1.] Martinez, W.L. and Martinez, A.R. (2002). Computational Statistics Handbook
with MATLAB, Chapman & Hall/CRC,

[ 2.] Tukey, John W. (1977). Exploratory Data Analysis, New York: Addison-Wesley

[ 3.] Wilk, M. and R. Gnanadesikan. (1968). Probability plotting methods for the
analysis of data, Biometrika, 55: pp. 1-17.

[ 4.] Fienberg, S. (1979). Graphical methods in statistics, The American Statistician, 33:
pp. 165-178

[ 5.] Andrews, D. F. (1972). Plots of high-dimensional data, Biometrics, 28: pp. 125-
136.

[ 6.] Wegman, E. (1990). Hyperdimensional data analysis using parallel coordinates,


Journal of the American Statistical Association, 85: pp. 664-675.

[ 7.] Asimov, D. (1985). The grand tour: a tool for viewing multidimensional data,
SIAM Journal of Scientific and Statistical Computing, 6: pp. 128-143.

15

S-ar putea să vă placă și