Documente Academic
Documente Profesional
Documente Cultură
• Analiză exploratorie
Problemă Date Analiză Model Concluzii
Analiza exploratorie a datelor
X1 10.00 8.00 13.00 9.00 11.00 14.00 6.00 4.00 12.00 7.00 5.00
Y1 8.04 6.95 7.58 8.81 8.033 9.96 7.24 4.26 10.84 4.82 5.68
X2 10.00 8.00 13.00 9.00 11.00 14.00 6.00 4.00 12.00 7.00 5.00
Y2 9.14 8.14 8.74 8.77 9.26 8.10 6.13 3.10 9.13 7.26 4.74
X3 10.00 8.00 13.00 9.00 11.00 14.00 6.00 4.00 12.00 7.00 5.00
Y3 7.46 6.77 12.74 7.11 7.81 8.84 6.08 5.39 8.15 6.42 5.73
X4 8.00 8.00 8.00 8.00 8.00 8.00 8.00 19.0 8.00 8.00 8.00
Y4 6.58 5.76 7.71 8.84 8.47 7.04 5.25 12.5 5.56 7.91 6.89
Analiza exploratorie a datelor
N 11 11 11 11
ഥ
𝒙 9.00 9.00 9.00 9.00
ഥ
𝒚 7.50 7.50 7.50 7.50
10
10
8
8
6
6
4
4 2
0 5 10 15 0 5 10 15
14 14
12 12
10 10
8 8
6 6
4 4
0 5 10 15 5 10 15 20
Analiza exploratorie a datelor
• Primul set de date are un comportament liniar, fără
valori aberante, la care modelul dreptei de regresie
este corespunzător;
• Al doilea set de date are un comportament pătratic,
fără valori aberante, modelul ar trebui să fie un
polinom de gradul doi;
• Al treilea set de date prezintă o valoare aberantă,
care ar trebui eliminată;
• Ultimul set de date este rezultatul unui experiment
prost organizat (conţine o singură valoare mult
distanţată de restul valorilor).
Analiza exploratorie a datelor
7
-11.2
6
-11.4 5
4
-11.6
3
Y
Y
-11.8 2
1
-12
0
-12.2 -1
-2
-12.4 0 50 100 150 200 250 300 350 400 450 500
0 20 40 60 80 100 120 140 160 180 200 Index
Index
5.8 3.5
5.6 3.4
5.4 3.3
5.2 3.2
Y
5 3.1
4.8 3
4.6 2.9
4.4 2.8
4.2 2.7
0 20 40 60 80 100 120 140 160 180 200 20 40 60 80 100 120 140 160 180 200
Index Index
Graficul punctelor succesive (Lag Plot)
Scop: verifică caracterul aleator al datelor.
În cazul datelor aleatoare nu trebuie să apară nici o structură în
reprezentare.
Se reprezintă Yi(Yi-1).
200
100
-100
y(i)
-200
-300
-400
-500
-600
-600 -500 -400 -300 -200 -100 0 100 200 300
y(i-1)
Histograma
• Scop: reprezentarea rezumativă a şirului de dateîn intervale
de lungime constantă.
• Histograma indică: localizarea datelor, variabilitatea
acestora, asimetria, prezenţa valorilor aberante, caracterul
uni sau multimodal al repartiţiei. Aceste caracteristici
furnizează indicaţii clare referitoare la modelul potrivit
repartiţiei datelor.
Se observă: simetrie, extremităţi de
anvergură moderată, clasica formă de
clopot. Această repartiţie apare cel mai
frecvent în natură. Dacă histograma este
simetrică, cu anvergură moderată la
extremităţi se poate considera repartiţia
normală.
Histograma
40
35
30
n 25
20
15
10
0
-600 -500 -400 -300 -200 -100 0 100 200 300
y
60
50
40
n
30
20
10
0
9.15 9.2 9.25 9.3 9.35 9.4
y
0.4
0.4
0.35
0.35
0.3 0.3
frecvente relative
0.25
frecvente relative
0.25
0.2 0.2
0.15 0.15
0.1 0.1
0.05 0.05
0 0
-4 -3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4
y y
Graficul probabilităţii normale
0.999
Normal Probability Plot
Scop: verificarea normalităţii
0.997
0.99
repartiţiei datelor.
0.98
0.95
0.90
Reprezentare: pe axa verticală
0.75 setul de date ordonat, iar pe axa
Probability
Probability 0.50
40 0.25
0.10
0.05
20 0.02
0.01
0.003
0.001
0 -2 - 1.5 -1 - 0.5 0 0.5 1 1.5 2
-2 - 1.5 -1 - 0.5 0 0.5 1 1.5 2 Data
anvergură mică
Graficul probabilităţii normale
0.15 0.75
Probability
0.50
0.1 0.25
0.10
0.05
0.05 0.02
0.01
0.003
0.001
0
-3 -2 -1 0 1 2 3 4 - 2.5 -2 - 1.5 -1 - 0.5 0 0.5 1 1.5 2
Data
anvergură medie
Graficul probabilităţii normale
• la anvergură mare forma de „S” este mai
accentuate;
• punctele de început sunt situate deasupra, iar cele
de sfârşit sunt sub dreaptă.
• se întâlnesc de obicei la date ce provin dintr-o
repartiție Cauchy.
1400
Normal Probability Plot
0.999
1200 0.997
0.99
0.98
1000 0.95
0.90
800 0.75
Probability
0.50
n
600 0.25
0.10
400 0.05
0.02
0.01
200 0.003
0.001
0
-50 0 50 -40 -30 -20 -10 0 10 20 30 40 50
y
anvergură mare Data
Graficul probabilităţii normale
0.75
40
Probability
0.50
n
30
0.25
20 0.10
0.05
0.02
10 0.01
0.003
0.001
0
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
y Data
0.75
Probability
250
n
0.50
200
0.25
150
0.10
0.05
100
0.02
0.01
50 0.003
0.001
0
0 2 4 6 8 10 12 14 0 2 4 6 8 10 12
y
asimetrie dreapta Data
Graficul probabilităţii normale
• în cazul unei repartiții cu asimetrie stânga, curba
probabilităţii normale are punctele de început şi
sfârşit situate în partea superioară a dreptei
corespunzătoare repartiției normale.
• modelul corespunzător unui astfel de set de date
este cel al unei repartiții exponențiale.
Normal Probability Plot
450
0.999
400 0.997
0.99
350 0.98
0.95
300 0.90
0.75
Probability
250
n
0.50
200
0.25
150
0.10
0.05
100 0.02
0.01
50 0.003
0.001
0
-10 -8 -6 -4 -2 0 2 4 -8 -6 -4 -2 0 2
asimetrie stânga
y Data