Documente Academic
Documente Profesional
Documente Cultură
VIZUALIZAREA DATELOR
7.1 Introducere
Suntem copleii de date - date tiinifice, date medicale, date demografice, date
finanaciare, date de marketing. Oamenii nu mai au timp s se uite la aceste date.
Atenia uman a devenit o resurs important, asfel nct trebuie gsite ci de a analiza
datele automat, de a le clasifica automat, de a le sintetiza automat, de a descoperi
automat tendine n date i de a caracteriza automat aceste tendine. Acest minerit n
date", n vederea gsirii automate de cunotine i informaii interesante/noi, este astzi
unul dintre cele mai active i interesante domenii de cercetare.
Statistica descriptiv permite reprezentarea vie i asimilabil a informaiilor
statistice prin simplificare i schematizare. Statistica descriptiv multidimensional este
generalizarea natural a cazului n care informaiile sunt descrise de mai multe variabile
i/sau dimensiuni.
Trecerea la multidimensional implic ns o schimbare calitativ important. ntr-
adevr, se spune despre microscop sau despre aparatul radiografic c nu sunt numai
instrumente de descriere ci i instrumente de observaie, de explorare i de cercetare.
Prin metodele de statistic exploratorie multidimensional, realitatea nu este doar
simplificat - pentru c este complex, ci i explorat - pentru c este ascuns. Munca
de pregtire i de codificare a datelor, regulile de interpretare i validare furnizate de
tehnicile aplicate n cazul multidimensional nu au simplitatea ntlnit n statistica
descriptiv elementar. Nu este vorba doar de a prezenta, ci i de a analiza, a descoperi,
uneori de a verifica i dovedi, eventual de a testa anumite ipoteze.
Ochiul omenesc este organul de sintez i analiz cu performane nc neegalate de
nici un aparat; este natural ca o categorie important de tehnici de explorare, am numit
aici tehnicile de vizualizare a datelor, s i se adreseze. n acest capitol vom prezenta
cele mai utilizate reprezentri grafice, de la uni- la multi-dimensional i cum pot fi
1
utilizate aceste reprezentri n explorarea i analiza datelor.
n cele ce urmeaz graficele prezentate sunt realizate n Matlab cu Computational
Statistics Toolbox
(http://www.ebook3000.com/Computational-Statistics-Handbook-With-
MATLAB---files-_4056.html).
7.2.1 Histograma
Histograma este o reprezentare grafic a distribuiei frecvenelor ntr-o mulime de
date. Cele mai populare reprezentri sunt:
Histograma frecvenelor;
Histograma frecvenelor relative;
Histograma densitii de probabilitate.
Dndu-se setul de observaii xi i 1,.,n , histograma frecvenelor reprezint, pe axa
Oy, numrul de observaii n j care se afl n intervalul I j , figurat pe axa Ox prin
capetele sale, i obinut prin mprirea n k grupe a mulimii ordonate a observaiilor.
Histograma este determinat de doi parametrii, lungimea intervalului i punctul de start
al primului interval. Valoarea k a numrului de intervale poate fi calculat dup
formula lui Sturge
k 1 log 2 n
Histograma frecvenelor relative este o histogram a frecvenelor n care pe axa Oy
este reprezentat numrul relativ de observaii care se afl n intervalul I j .
Histograma densitii de probabilitate este o histogram normalizat n sensul c
suma ariilor barelor de lime h egal cu lungimea intervalului I j i nlime frecvena
normalizat corespunztoare este egal cu unu. Ecuaia curbei este:
n
f x j cu x I j
nh
Exemplul 7-1 Datele (Martinez & Martinez, 2002) reprezint 140 de lungimi, n inch,
de antebrae de brbai aduli. n figurile (Figura 7-1), (Figura 7-2) sunt prezentate
cele trei tipuri de histograme ale acestui set de date. Forma acestor grafice este
aceeai doar scara difer.
n figura (Figura 7-2) histograma densitii de probabilitate i estimaia densitii
de probabilitate a unei variabile aleatoare normale coincid destul de bine ceeace ne
permite s afirmm c ipoteza privind repartiia normal a datelor este destul de
probabil.
Utilizarea histogramelor este recomandat n:
Sinteza unei mulimi de observaii pentru a vizualiza caracteristicile generale ale
legii de probabilitate presupus a le fi generat, cum ar fi forma distribuiei,
locaia, mprtierea;
Sugerarea unui posibil model de probabilitate;
Vizualizarea unei structuri neateptate.
2
Figura 7-1. Histograma frecvenelor i histograma frecvenelor relative a datelor din Exemplul 7-1
(sursa [1])
Figura 7-2. Histograma densitii de probabilitate a datelor din Exemplul 7-1 (sursa [1])
3
7.2.2 Graficul de tip Steam-and-Leaf (Tulpin-i-frunz)
Exemplul 7-2 Datele (Martinez & Martinez, 2002) reprezint nlimea, n milimetri,
a 32 de calote craniene descoperite Tibet. n figura (Figura 7-3), este prezentat
diagrama S&L a acestor date.
Figura 7-3. Diagrama S&L, varianta Tulpin cu dou frunze a datelor din Exemplul 7-2 (sursa [1])
4
7.2.3 Graficul bazat pe cuantile
Cele mai populare grafice bazate pe cuantile sunt: graficele q-q, cuantile-cuantile i
graficele de tip cuantile (cunoscute i sub numele de probability plot).
Graficele bazate pe cuantile sunt utilizate pentru compararea vizual a dou
distribuii empirice sau a unei distribuii empirice cu o distribuie teoretic. Rezultatul
acestor comparaii este util atunci cnd se verific ipotezele unui model (de exemplu de
normalitate) sau se urmrete determinarea unei distribuii n vederea unor viitoare
simulri Monte-Carlo.
Graficele q-q au fost propuse de Wilk i Gnanadesikan (Wilk & Gnanadesikan,
1968). Fie
x1 , x 2 ,, x n
n
xi , yi .
i 1
5
Figura 7-4 Graficul q-q al datelor din Exemplul 7-3 (sursa [1])
Graficele de tip box (numite i diagrame box & whisker, -cutie cu musti) sunt utilizate
pentru a vizualiza distribuii empirice (Tukey, 1977). n acest sens sunt estimate,
pornind de la selecia studiat, cinci valori pentru a construi graficul box: cele trei
quartile, q0.25 , q0.50 , q0.75 , valorile minim i maxim ale seleciei.
Graficele de tip box sunt implementate, n softurile comerciale, sub diferite
forme; diferena principal rezid n modul de definire a cuartilelor i a valorilor
aberante outliers.
n varianta pe care o prezentm aici, graficul box este construit pe baza
estimaiilor celor trei cuartile, a valorilor adiacente i a valorilor posibil aberante.
Fie
IQR q0.75 q0.25
intervalul inter-cuartile care estimeaz intervalul n care se afl 50% din datele seleciei
i fie
6
LL q0.25 1.5 IQR
UL q0.75 1.5 IQR
LL limita inferioar, respectiv UL limita superioar a valorilor seleciei. Cu acestea:
- Valorile adiacente sunt valorile extreme ale seleciei aflate n intervalul definit
de (LL, UL). n cazul n care nu exist valori posibil aberante valorile adiacente
sunt chiar valorile maxim, respectiv minim ale seleciei;
- Valorile posibil aberante sunt valori ale seleciei aflate n afara intervalului
(LL,UL). Aceste valori pot s reprezinte date msurate greit, sau date generate
de o alt distribuie dect majoritatea seleciei sau date extreme ce pot aprea cu
o probabilitate extrem de mic n distribuia ce a generat selecia; n oricare din
aceste situaii este recomandabil investigarea ulterioar a acestor puncte.
Construcia unui grafic box se realizeaz astfel:
- Pentru o poziie aleas pe axa Ox, se duc linii orizontale a cror nlimi pe
axa Oy sunt date de cele trei cuartile estimate. Capetele acestor linii se unesc
prin linii verticale pentru a forma un dreptunghi (cutie box) ;
- Se marcheaz, pentru aceeai poziie pe axa Ox, prin linii orizontale, valorile
adiacente. Se unete, printr-o linie vertical, mijlocul liniei ce marcheaz prima
cuartil cu mijlocul liniei ce marcheaz valoarea adiacent minim; analog se
procedeaz pentru perechea a treia cuartil-valoarea adiacent maxim. Cele
dou linii verticale se mai numesc i musti whiskers;
- Se marcheaz, pentru aceeai poziie pe axa Ox, prin simbolul + sau un altul
valorile posibil aberante.
Se poate vedea n Figura 7-5 c un grafic de tip box ilustraz sugestiv forma unei
distribuii. Astfel, o distibuie simetric va avea mustile i cele dou pri ale
cutiei aproximativ egale (cazul, de exemplu, a distribuiilor uniform i normal)
n timp ce o distribuie asimetric va avea o musta i o parte a cutiei mai lungi
(cazul, de exemplu, a distribuiei exponeniale). Dac intervalul intercuartilic este
mic, atunci datele din mijlocul seleciei sunt compactate n jurul medianei; invers,
dac intervalul este mare, atunci 50% din datele din mijlocul seleciei sunt puternic
dispersate.
Graficul de tip scatterplot este modul cel mai popular de vizualizare a datelor
bidimensionale; se obine prin simpla reprezentare a punctelor utiliznd simboluri
grafice ntr-o epur cartezian. Acest tip de diagram furnizeaz informaii utile
referitoare la mprtierea n plan a datelor i la legtura, liniar sau neliniar, dintre
cele dou variabile ale coordonatelor datelor de selecie. Se recomand, naintea
7
oricrei modelri vizualizarea datelor 2D printr-un grafic de tip scatterplot pentru a
verifica dac relaia propus de model este rezonabil.
Figura 7-5 Exemple de grafice box pentru selecii distribuite uniform (1), normal (2) i exponenial (3)
(sursa [1]). Liniile orizontale din capetele mustilor reprezint valorile adiacente iar punctele +
valorile posibil aberante.
8
7.3.2 Graficul de tip contur
Ideea vizualizrii datelor sub forma graficelor de tip scatterplot poate fi generalizat la
date multi-dimensionale printr-o reprezentare de tip scatterplot 2-D a tuturor perechilor
de dou variabile. Aceasta permite vizualizarea relaiilor pe perechi i a structurilor
interesante n dou dimensiuni. n Matlab acest tip de grafic se realizeaz cu comanda
plotmatrix. Prin aceast comand se genereaz o diagram de grafice dispuse n
celulele unei matrici ptratice avnd dimensiunea egal cu dimensiunea datelor. Pe
fiecare linie sunt reprezentate n celulele i, j cu i j si i, j 1,., n 3 graficele de tip
scatterplot 2-D ale variabilelor i, j iar n celula (i, i) histograma variabilei i.
9
Figura 7-7 Matricea scatterplot al datelor Iris setosa (sursa [1])
n Figura 7-7 este ilustrat rezultatul comenzii plotmatrix avnd ca date de intrare
msurtorile corespunztoare lui Iris setosa din exemplul Fishers iris data (Martinez
& Martinez, 2002). Datele reprezint 150 de msurtori efectuate asupra a trei varieti
de flori iris (cte 50 din fiecare varietate): iris setosa, iris virginica i iris versicolor.
Fiecrei astfel de flori i-au fost msurate patru caracteristici, anume: lungimea i
limea medie a sepalelor i lungimea i limea medie a petalelor.
10
Figura 7-8 Graficul star al datelor cereale (sursa [1])
11
Figura 7-9 reprezint diagrama Andrews pentru varietile setosa i virginica din
datele Fishers iris. Se observ c datele prezint similariti n cadrul fiecrei clase
i diferene ntre clase ceeace ne permite s concluzionm c cele patru msurtori
separ bine cele dou clase.
Figura 7-9 Curbele Andrews pentru Iris setosa i Iris virginica (sursa [1])
ntr-un sistem cartezian de coordonate axele sunt ortogonale astfel nct nu pot fi
vizualizate mai mult de trei dimensiuni. Dac axele sunt paralele atunci pot fi
vizualizate mai mult de trei axe ntr-un grafic bidimensional. Tehnica coordonatelor
paralele a fost extins i dezvoltat i n context statistic de Wegman (Wegman, 1990).
n aceeai lucrare sunt studiate proprietile coordonatelor paralele ca transformri
proiective i este ilustrat dualitatea dintre reprezentarea n coordonate paralele i cea n
coordonate carteziene ortogonale.
Un punct x x1 , x2 , , xd d-dimensional n coordonate paralele se prezint ca o
linie poligonal cu vrfurile xi , i 1 , i 1,., d n coordonate carteziene. Numele de
coordonate paralele vine de la faptul c, pentru a facilita reprezentarea n acest sistem,
sunt trasate, perpendicular pe axa cartezian Oy, d-1 drepte de ecuaie
y i, i 1, ., d 1 .
Ca i n cazul curbelor Andrews, coordonate paralele apropiate sugereaz puncte
apropiate i deci recomand acest tip de reprezentare ca un instrument exploratoriu n
probleme de cluster-analysis;
Forma liniilor poligonale este dependent de ordinea componentelor vectorului x.
O retrasare a curbelor pornind de la o alt ordonare a componentelor vectorilor permite
o explorare profund a structurii datelor. Wegman furnizeaz o modalitate sistematic
12
de a genera toate permutrile astfel nct s fie vizualizate toate relaiile dintre dou
variabile consecutive.
Figura 7-10 reprezint diagrama n coordonate paralele pentru varietile setosa
i virginica din datele Fishers iris. Se observ c datele prezint similariti n cadrul
fiecrei clase i diferene ntre clase pentru variabilele x2 si x3 ceeace ne permite s
concluzionm c variabilele 2 i 3 separ bine cele dou clase.
Figura 7-10 Coordonatele paralele pentru Iris setosa (linie punctat) i Iris virginica (linie continu)
(sursa [1])
13
Fie vectorii ortonormai care genereaz planul de proiecie:
t 2 d sin 1t ,cos 2t , ,sin d 2t ,cos d 2t
t 2 d cos 1t ,sin 2t ,,cos d 2t , sin d 2t
14
7.5 Bibliografie selectiv
[ 1.] Martinez, W.L. and Martinez, A.R. (2002). Computational Statistics Handbook
with MATLAB, Chapman & Hall/CRC,
[ 2.] Tukey, John W. (1977). Exploratory Data Analysis, New York: Addison-Wesley
[ 3.] Wilk, M. and R. Gnanadesikan. (1968). Probability plotting methods for the
analysis of data, Biometrika, 55: pp. 1-17.
[ 4.] Fienberg, S. (1979). Graphical methods in statistics, The American Statistician, 33:
pp. 165-178
[ 5.] Andrews, D. F. (1972). Plots of high-dimensional data, Biometrics, 28: pp. 125-
136.
[ 7.] Asimov, D. (1985). The grand tour: a tool for viewing multidimensional data,
SIAM Journal of Scientific and Statistical Computing, 6: pp. 128-143.
15