Sunteți pe pagina 1din 33

Analiza exploratorie a datelor

Analiza Exploratorie a Datelor (Exploratory Data


Analysis – EDA) reprezintă o nouă metodă de abordare
a prelucrării datelor ce constă în diferite tehnici
(preponderent grafice) ce permit evidențierea unor
structuri în date.
• Această metodă a fost creată de statisticianul
american John Tukey în 1977.
• Scopul constă în evidențierea caracteristicilor datelor
astfel încât analistul să înțeleagă cât mai bine
procesul, să-l poată analiza și modela.
Analiza exploratorie a datelor
• EDA reprezintă un pas premergător, necesar pentru o
analiză aprofundată a datelor.
• Conform acestei metode, datele trebuie explorate
fără a presupune apriori anumite relații între diferite
mărimi sau variabile.
• Analiză statistică clasică
Problemă Date Model Analiză Concluzii

• Analiză exploratorie
Problemă Date Analiză Model Concluzii
Analiza exploratorie a datelor

• În analiza exploratorie, modelarea se face doar după


depistarea principalelor caracteristici ale setului de
date, ceea ce face ca modelul să aibă șanse mult mai
mari să fie unul corect.

• Tehnicile EDA evidențiază caracteristicile setului de


date, pe baza acestora se stabilește modelul
corespunzător al datelor, iar validarea modelului se
face cu metode cantitative.
Analiza exploratorie a datelor

• Exemplu de date experimentale

X1 10.00 8.00 13.00 9.00 11.00 14.00 6.00 4.00 12.00 7.00 5.00
Y1 8.04 6.95 7.58 8.81 8.033 9.96 7.24 4.26 10.84 4.82 5.68
X2 10.00 8.00 13.00 9.00 11.00 14.00 6.00 4.00 12.00 7.00 5.00
Y2 9.14 8.14 8.74 8.77 9.26 8.10 6.13 3.10 9.13 7.26 4.74
X3 10.00 8.00 13.00 9.00 11.00 14.00 6.00 4.00 12.00 7.00 5.00
Y3 7.46 6.77 12.74 7.11 7.81 8.84 6.08 5.39 8.15 6.42 5.73
X4 8.00 8.00 8.00 8.00 8.00 8.00 8.00 19.0 8.00 8.00 8.00
Y4 6.58 5.76 7.71 8.84 8.47 7.04 5.25 12.5 5.56 7.91 6.89
Analiza exploratorie a datelor

Set 1 Set 2 Set 3 Set 4

N 11 11 11 11


𝒙 9.00 9.00 9.00 9.00


𝒚 7.50 7.50 7.50 7.50

y=bx+a Y=0.5x+3 Y=0.5x+3 Y=0.5x+3 Y=0.5x+3


Coeficient
0.816 0.816 0.816 0.817
corelatie r
Dev.st.erori 1.237 1.237 1.236 1.236
Analiza exploratorie a datelor
12 12

10
10
8
8
6
6
4

4 2
0 5 10 15 0 5 10 15

14 14

12 12

10 10

8 8

6 6

4 4
0 5 10 15 5 10 15 20
Analiza exploratorie a datelor
• Primul set de date are un comportament liniar, fără
valori aberante, la care modelul dreptei de regresie
este corespunzător;
• Al doilea set de date are un comportament pătratic,
fără valori aberante, modelul ar trebui să fie un
polinom de gradul doi;
• Al treilea set de date prezintă o valoare aberantă,
care ar trebui eliminată;
• Ultimul set de date este rezultatul unui experiment
prost organizat (conţine o singură valoare mult
distanţată de restul valorilor).
Analiza exploratorie a datelor

Ipotezele de bază care se verifică în cazul analizei


exploratorii sunt:
– caracterul aleator;
– apartenenţa la o anumită repartiţie;
– menţinerea localizării constante;
– menţinerea variabiliăţii constante.

Ipotezele sunt Procesul este “în


valabile control statistic”
Analiza exploratorie a datelor
• Previziunea este un ţel important în inginerie.
• Dacă ipotezele sunt valabile, se pot face previziuni
asupra unui proces.
• Dacă cele patru ipoteze nu sunt valabile, procesul
este în derivă imprevizibil și necontrolabil.
• Orice caracterizare a unui astfel de proces va
conduce la concluzii eronate.
• În cazul unei serii de date, cel mai frecvent prin
analiza statistică se urmărește înlocuirea seriei de
date cu o valoare, la care se asociază un interval de
incertitudine. 𝑦𝑖 = 𝑐 + 𝑒𝑖
Analiza exploratorie a datelor

• Pentru ca modelul matematic asociat să fie corect este


necesar să fie îndeplinite toate cele patru ipoteze
fundamentale.
Testarea ipotezelor asigură valabilitatea concluziilor
Tehnicile utilizate :
• graficul secvențial al punctelor Yi(i)- Run Sequence Plot
• graficul punctelor succesive Yi(Yi-1) – Lag Plot
• histograma
• graficul probabilității normale – Normal Probability Plot –
Yexp (Y estimat normal)
Graficul secvenţial al punctelor
(Run Sequence Plot)
Scop: verifică deplasări ale
localizării, variabilităţii şi
prezenţa valorilor aberante.
Se reprezintă Yi(i)

Graficul trebuie să poată fi aproximat cu o dreaptă paralelă cu


axa absciselor, să aibă amplitudinea în direcţia axei 0y
aproximativ constantă, să nu apară valori situate la distanţă
mare de restul valorilor.
Graficul secvenţial al punctelor
-11 8

7
-11.2
6

-11.4 5

4
-11.6
3

Y
Y

-11.8 2

1
-12
0

-12.2 -1

-2
-12.4 0 50 100 150 200 250 300 350 400 450 500
0 20 40 60 80 100 120 140 160 180 200 Index
Index

• În primul grafic se observă că localizarea setului de date


este constantă și variabilitatea șirului este de asemenea
constantă.
• În cel de-al doilea grafic apar modificări ale localizării (în
prima jumătate tendință crescătoare iar în a doua jumătate
una descrescătoare) dar nu apar modificări de variabilitate
sau valori aberante.
Graficul secvenţial al punctelor
• În al treilea exemplu de grafic se remarcă modificarea de
variabilitate care apare în a doua jumătate a setului de
date, există câteva valori aberante (datorită creșteri
variabilitații) dar localizarea este constantă.
• În ultimul grafic secvențial localizarea și variabilitatea sunt
constante dar există suspiciunea unei valori aberante
6 3.6

5.8 3.5

5.6 3.4

5.4 3.3

5.2 3.2
Y

5 3.1

4.8 3

4.6 2.9

4.4 2.8

4.2 2.7
0 20 40 60 80 100 120 140 160 180 200 20 40 60 80 100 120 140 160 180 200
Index Index
Graficul punctelor succesive (Lag Plot)
Scop: verifică caracterul aleator al datelor.
În cazul datelor aleatoare nu trebuie să apară nici o structură în
reprezentare.
Se reprezintă Yi(Yi-1).

Model liniar, ceea ce indică un Caracter aleator, nu se


caracter puternic nealeator observă nici o structură.
Graficul punctelor succesive

• caracter puternic nealeator;


• model liniar;
• nu apar valori aberante;
• se remarcă cum punctele se grupează de-a lungul bisectoarei.
Graficul punctelor succesive

• model de autoregresie cu autocorelaţie puternică;


• nu apar valori aberante;
• se remarcă gruparea clară a datelor de-a lungul bisectoarei.
Graficul secvenţial al punctelor

• model periodic de tip armonic


• apar valori aberante.
• se remarcă gruparea eliptică a datelor (caracteristică a
modelelor sinusoidale).
300

200

100

-100
y(i)

-200

-300

-400

-500

-600
-600 -500 -400 -300 -200 -100 0 100 200 300
y(i-1)
Histograma
• Scop: reprezentarea rezumativă a şirului de dateîn intervale
de lungime constantă.
• Histograma indică: localizarea datelor, variabilitatea
acestora, asimetria, prezenţa valorilor aberante, caracterul
uni sau multimodal al repartiţiei. Aceste caracteristici
furnizează indicaţii clare referitoare la modelul potrivit
repartiţiei datelor.
Se observă: simetrie, extremităţi de
anvergură moderată, clasica formă de
clopot. Această repartiţie apare cel mai
frecvent în natură. Dacă histograma este
simetrică, cu anvergură moderată la
extremităţi se poate considera repartiţia
normală.
Histograma

• histograma indică o repartiţie diferită de cea normal;


• are extremităţile fără coadă (short tail) - caracter trunchiat;
• Probabilitatea de apariție este constantă pe un domeniu și
zero în rest;
• se poate considera că setul de date provine dintr-o
repartiție uniform;
Histograma

• Indică o anvergură mare la extremități (cozi mari);


• probabilitatea de apariție scade lent, există probabilitate de
apariție la distanță mare de corpul repartiției;
• modelul clasic pentru un astfel de set de date este
repartiția Cauchy;
Histograma

• indică o repartiție cu asimetrie dreapta;


• asimetria poate apare datorită limitării inferioare sau
superioare a datelor;
• repartiţiile asimetrice ridică probleme de estimare, media
nu mai are consistenţă, modulul nu prezintă semnificație
deosebită;
Histograma
45

40

35

30

n 25

20

15

10

0
-600 -500 -400 -300 -200 -100 0 100 200 300
y

• histogramă cu caracter bimodal;


• pentru a găsi explicații trebuie continuată analiza datelor
– se construieşte graficul secvenţial al punctelor pentru a
verifica eventualele tendinţe ce apar;
– se construieşte graficul punctelor succesive pentru a
verifica caracterul armonic.
Histograma
70

60

50

40
n

30

20

10

0
9.15 9.2 9.25 9.3 9.35 9.4
y

• histogramă ce indică prezența valorilor aberante;


• se recomandă verificarea prezenței valorilor aberante cu
graficul box-plot sau teste cantitative;
• se analizează pentru a se identifica cauza apariției valorilor
aberante.
Histograma

• Media este un estimator bun al localizării în cazul repartiţiei


normale (anvergură medie), este o alegere nepotrivită pentru
pentru repartiţii fără anvergură şi eronată în cazul repartiţiei
cu anvergură mare.
• Pentru repartiţia uniformă cel mai bun indicator al localizării
este mijlocul amplitudinii.
• Pentru repartiţii tip Cauchy, mediana este cel mai bun
estimator al valorii centrale.
• Repartiţiile asimetrice se caracterizează prin doi indicatori,
preferabil toţi trei (medie, mediană şi modul).
Histograma

Pentru ca reprezentarea histogramei să poată fi comparată cu


funcția densitate de probabilitate este necesar să se facă
normalizarea histogramei, adică suma ariilor dreptunghiurilor
trebuie să fie egală cu 1.

0.4
0.4

0.35
0.35

0.3 0.3
frecvente relative

0.25
frecvente relative
0.25

0.2 0.2

0.15 0.15

0.1 0.1

0.05 0.05

0 0
-4 -3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4
y y
Graficul probabilităţii normale

0.999
Normal Probability Plot
Scop: verificarea normalităţii
0.997
0.99
repartiţiei datelor.
0.98
0.95
0.90
Reprezentare: pe axa verticală
0.75 setul de date ordonat, iar pe axa
Probability

0.50 orizontală cvantila corespunză-


0.25
toare din repartiţia normală.
0.10

În Matlab: normplot(y), y fiind


0.05
0.02
0.01
0.003
0.001
setul de date.
Interpretare: Îndepărtarea de
-2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2
Data

dreaptă indică abateri de la


repartiţia normală.
Graficul probabilităţii normale
• Metoda furnizează răspunsuri la următoarele
întrebări:
– sunt datele repartizate normal;
– care este natura îndepărtării de la normalitate
(asimetria, extremități de anvergură mică sau
prea mare).
• Această metodă grafică oferă răspuns la ipoteza
apartenenței la o anumită repartiție.
• Majoritatea modelelor statistice sunt de forma:
𝑦𝑖 = 𝑐 + 𝑒𝑖
Graficul probabilităţii normale

• În cazul când anvergura extremităţilor este mică,


graficul probabilităţii normale are o formă de „S”
mai atenuată.
100 Normal Probability Plot
0.999
0.997
0.99
80 0.98
0.95
0.90
60 0.75

Probability 0.50

40 0.25

0.10
0.05
20 0.02
0.01
0.003
0.001
0 -2 - 1.5 -1 - 0.5 0 0.5 1 1.5 2
-2 - 1.5 -1 - 0.5 0 0.5 1 1.5 2 Data

anvergură mică
Graficul probabilităţii normale

• la anvergură mică: punctele de început sunt situate


sub dreapta corespunzătoare repartiției normale,
iar punctele de sfârșit sunt situate deasupra
dreptei;
Normal Probability Plot
0.25
0.999
0.997
0.99
0.2 0.98
0.95
0.90

0.15 0.75
Probability
0.50

0.1 0.25

0.10
0.05
0.05 0.02
0.01
0.003
0.001
0
-3 -2 -1 0 1 2 3 4 - 2.5 -2 - 1.5 -1 - 0.5 0 0.5 1 1.5 2
Data

anvergură medie
Graficul probabilităţii normale
• la anvergură mare forma de „S” este mai
accentuate;
• punctele de început sunt situate deasupra, iar cele
de sfârşit sunt sub dreaptă.
• se întâlnesc de obicei la date ce provin dintr-o
repartiție Cauchy.
1400
Normal Probability Plot

0.999
1200 0.997
0.99
0.98
1000 0.95
0.90

800 0.75
Probability

0.50
n

600 0.25

0.10
400 0.05
0.02
0.01
200 0.003
0.001

0
-50 0 50 -40 -30 -20 -10 0 10 20 30 40 50
y
anvergură mare Data
Graficul probabilităţii normale

• În cazul unei repartiții uniforme forma de „S” este


mai accentuate;
Normal Probability Plot
70
0.999
0.997
60 0.99
0.98
0.95
50
0.90

0.75
40

Probability
0.50
n

30
0.25

20 0.10
0.05
0.02
10 0.01
0.003
0.001
0
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
y Data

Graficul probabilităţii normale pentru repartiţia uniformă


Graficul probabilităţii normale
• în cazul unei repartiții cu asimetrie dreapta,
anvergura repartiţiei este amplă în partea dreaptă
a axei;
• curba probabilităţii normale are punctele de
început şi sfârşit situate în partea inferioară dreptei
corespunzătoare repartiției normale. Normal Probability Plot
450
0.999
400 0.997
0.99
350 0.98
0.95
300 0.90

0.75
Probability

250
n

0.50
200
0.25
150
0.10
0.05
100
0.02
0.01
50 0.003
0.001
0
0 2 4 6 8 10 12 14 0 2 4 6 8 10 12
y
asimetrie dreapta Data
Graficul probabilităţii normale
• în cazul unei repartiții cu asimetrie stânga, curba
probabilităţii normale are punctele de început şi
sfârşit situate în partea superioară a dreptei
corespunzătoare repartiției normale.
• modelul corespunzător unui astfel de set de date
este cel al unei repartiții exponențiale.
Normal Probability Plot
450
0.999
400 0.997
0.99
350 0.98
0.95
300 0.90

0.75
Probability

250
n

0.50
200
0.25
150
0.10
0.05
100 0.02
0.01
50 0.003
0.001
0
-10 -8 -6 -4 -2 0 2 4 -8 -6 -4 -2 0 2

asimetrie stânga
y Data

S-ar putea să vă placă și