Documente Academic
Documente Profesional
Documente Cultură
PROIECT
DATA MINING
Profesor
coordonator
Studente:
Monica
MAER-Buic Andra Ioana
Zbranca
MATEIIuliana Rocsana
Definirea problemei.........................................................................................................................2
B.
Descrierea datelor............................................................................................................................2
C.
Interpretare R...................................................................................................................................2
II.
Tehnici de clusterizare.........................................................................................................................3
A.
Definirea problemei.........................................................................................................................3
B.
Descrierea datelor............................................................................................................................3
C.
Interpretare R...................................................................................................................................3
III.
Analiza corespondenelor................................................................................................................3
A.
Definirea problemei.........................................................................................................................3
B.
Descrierea datelor............................................................................................................................3
C.
Interpretare R...................................................................................................................................3
IV.
A.
Definirea problemei.........................................................................................................................3
B.
Descrierea datelor............................................................................................................................3
C.
Interpretare R...................................................................................................................................3
V.
Arbori de clasificare............................................................................................................................3
A.
Definirea problemei.........................................................................................................................3
B.
Descrierea datelor............................................................................................................................3
C.
Interpretare R...................................................................................................................................3
VI.
A.
Definirea problemei.........................................................................................................................4
B.
Descrierea datelor............................................................................................................................4
C.
Interpretare R...................................................................................................................................4
Anex..........................................................................................................................................................4
Anexa I - ACP.........................................................................................................................................4
Anexa II - Tehnici de Clusterizare...........................................................................................................4
Anexa III Analiza corespondenelor.....................................................................................................4
Anexa IV - Analiza conjoint...................................................................................................................4
Anexa V Arbori de clasificare...............................................................................................................4
Anexa VI Propensity Score Matching...................................................................................................4
1
I.
A.
Baza de date Clieni conine caracteristici privind venitul, vrsta, vechimea nregistrat n
luni i valoarea creditului a 100 de clieni.
Prin Analiza Componentelor Principale ne propunem s reducem dimensionalitatea
datelor de la numrul de patru indicatori, la un numr mai mic de dimensiuni care sunt o
combinaie liniar a acestor indicatori i care vor descrie baza de date n procent de 80-90%.
Evident, exist o anumit pierdere de informaie, ns structura prezent n date poate fi
identificat mult mai clar, reuind astfel o analiz a datelor mult mai eficient.
Interpretare R
Observm astfel c cea de-a doua component preia doar 11,7% din informa ie, a adar
presupunem c se va putea renuna i la aceast component, prima component fiind suficient
pentru a reda o informaie corect i suficient a datelor.
3
Pentru a selecta doar rndurile 5-8 din primele 4 coloane a matricii de corela ie, vom
folosi
cor(tot)[5:8,1:4]
Venit Vechime
Vrsta
Credit
Comp.1 0.98412714 0.98471534 0.967709936 7.844130e-01
Comp.2 -0.15142050 -0.15200347 -0.194031414 6.201622e-01
Comp.3 -0.08719935 -0.07873900 0.160897776 9.750437e-03
Comp.4 0.03101416 -0.03210637 0.001093548 4.528306e-05
Comparm coeficientul primelor dou componente:
6
Calcularea ineriei
[1] 0.9522486
Aadar se va pastra 95,22% din informaie, astfel metoda ACP bazat pe matrici ncruciate
este mult mai bun n acest caz dect cea bazat pe matrici de corelaie.
II.
A.
Tehnici de clusterizare
Definirea problemei i descrierea datelor
Aceast tehnic se va folosi tot pe baza de date Clieni folosit n analiza ACP. n
algoritmul de clusterizare de tip ierarhic nu se cunoate aprior numrul de clase n care vor fi
mprii clienii din baza de date. Scopul acestei tehnici este s fie mpr i i clien ii n clase ct
mai omogene.
B.
Interpretare R
n cazul acesta, observm la metoda Ward o distribuire a obiectele mult mai omogen
dect n cazul metodei centroidului.
Pe baza dendogramelor prezentate mai sus, am ales s mprim clienii n 3 clase:
groups3
1 2 3
50 30 20
n prima clas s-au dus 50 de clieni, n cea de-a doua clas 30, iar n ultima clas 20 de
clieni.
Concatennd valorile i apartenena la grup pentru cele 3 clase, vom observa media pe
fiecare din ele:
Clasa1:[1] 3.737
Clasa2:[1] 8.555
Clasa3:[1] 15.2385
Graficul Silhouette n acest caz va arta astfel:
10
11
Observm la metoda k-means c un singur obiect este negativ, astfel putem deduce c
este o soluie foarte bun.
De asemenea, Average Silhouette Width = 0.49 este mai mare fa de 0.48 de la metoda
ierarhic.
12
A.
Analiza corespondenelor
Pentru analiza corespondenelor s-a realizat un chestionar privind preferinele turistice ale
respondenilor dorind s stabilim un tipar prin care respondenii i aleg cltoriile.
Chestionarul cuprinde 8 ntrebri legate de regiunea de provenien a respondentului,
regiunea n care prefer s cltoreasc, cu cine, care este valoarea venitului lunar n prezent, ct
de des respondentul a cltorit n ar n ultimii doi ani, care a fost gradul acestora de satisfac ie,
care este durata cltoriilor i care sunt primele 3 cele mai importante criterii ce influen eaz
alegerea cltoriei.
B.
Interpretare R
Pentru fiecare categorie n parte, vom stabili ct de des se merge n vacan:
Frecvena
CategV Foarte frecvent Foarte rar Frecvent Rar
1
3
1
4
2
2
0
1
11
2
Stabilim pe ficare categorie, durata vacanelor
> table(CategV,Durata)
Durata
CategV Mai mult de un weekend Un weekend
1
7
3
2
6
8
Analiza de coresponden dintre Venit i frecvena cltoriilor
Principal inertias (eigenvalues):
1
2
3
Value
0.851796 0.395252 0.225174
Percentage 57.86% 26.85% 15.29%
Rows:
1100
1200
1500
1600 2000
2100
Mass 0.041667 0.041667 0.083333 0.041667 0.083333 0.041667
ChiDist 0.774597 2.645751 1.549193 2.645751 1.581139 0.774597
Inertia 0.025000 0.291667 0.200000 0.291667 0.208333 0.025000
Dim. 1 -0.535372 2.740005 -0.618577 2.740005 1.521769 -0.535372
13
14
value
% cum%
0.356305 46.6 46.6
0.269137 35.2 81.7
0.133031 17.4 99.1
0.006805 0.9 100.0
-------- ----Total: 0.765278 100.0
scree plot
************
*********
****
Rows:
name mass qlt inr k=1 cor ctr k=2 cor ctr
1 | BcrI | 208 781 120 | -538 658 169 | -233 123 42 |
2 | NrdE | 125 1000 369 | 1242 682 541 | -847 318 333 |
3 | Sud | 333 686 172 | 162 66 25 | 495 620 304 |
4 | SdEs | 250 268 85 | -34 4 1 | 261 264 63 |
5 | SdVs | 83 841 254 | -1064 485 265 | -912 356 257 |
Columns:
name mass qlt inr k=1 cor ctr k=2 cor ctr
1 | Cntr | 750 949 31 | 72 163 11 | 157 785 69 |
2 | NrdV | 83 192 131 | -479 191 54 | 27 1 0 |
3 | Sud | 42 492 109 | 271 37 9 | 955 456 141 |
4 | SdEs | 42 999 381 | 2080 618 506 | -1633 381 413 |
5 | Sdvs | 83 943 348 | -1342 563 421 | -1103 380 377 |
Albastru- de unde vin si rosu unde ma duc
15
Print AC
Principal inertias (eigenvalues):
1
2
3
4
Value
0.356305 0.269137 0.133031 0.006805
Percentage 46.56% 35.17% 17.38% 0.89%
Rows:
Bucuresti - Ilfov Nord - Est
Sud Sud - Est Sud - Vest
Mass
0.208333 0.125000 0.333333 0.250000 0.083333
ChiDist
0.663325 1.503083 0.629153 0.509175 1.527525
Inertia
0.091667 0.282407 0.131944 0.064815 0.194444
Dim. 1
-0.901220 2.079945 0.271116 -0.056333 -1.782332
Dim. 2
-0.449042 -1.632953 0.954566 0.503845 -1.757764
Columns:
Centru Nord - Vest
Sud Sud - Est Sud - vest
Mass 0.750000 0.083333 0.041667 0.041667 0.083333
16
1.788854
0.266667
-2.247860
-2.126902
#Variabila cor pt centru 0.785(ne uitam la columns) - reprezentarea acestui punct este explicat
mai degraba prin a 2 a dimensiune
#ctr = contributie= cu cat contribuie acea celula din tabel la inertie
#din summary - grafic, pe randuri si coloane - interpretare practica
IV.
A.
B.
Interpretare R
Criteriile dup care fiecare tnr i va alege vacana n Romnia genereaz 8 profile
posibile:
locatie obiective cazare
1
1
1
1
2
2
1
1
3
1
2
1
4
2
2
1
5
1
1
2
6
2
1
2
7
1
2
2
8
2
2
2
Metoda de generare a matricii cunoscut ca metoda rotirii se bazeaz pe urmtorul
raionament: vom avea o urncu profile care va fi folosit pentru a extrage aleator prima
alternativ din fiecare ntrebare/sarcin. Acestea provin dintr-un vector de profile ortogonal.
Cu ajutorul metodei de rotation am obinut urmtoarele profile:
Choice sets:
alternative 1 in each choice set
BLOCK QES ALT locatie obiective cazare
5 1 1 1 munte turistice pensiune
7 1 2 1 munte altele pensiune
1 1 3 1 munte turistice hotel
17
1
1
1
1
1
4
5
6
7
8
1
1
1
1
1
1
1
1
1
1
1
3
4
4
5
5
6
6
7
7
8
8
2
1
2
1
2
1
2
1
2
1
2
0
1
0
1
0
1
0
1
0
1
0
1
0
1
1
0
1
0
1
0
1
0
1
1
0
0
1
0
1
1
0
1
0
1
0
1
1
0
0
1
0
1
1
0
Generarea chestionarului:
Block 1
Question 1
alt.1
alt.2
locatie "munte" "mare"
obiective "turistice" "altele"
cazare "pensiune" "hotel"
Question 2
alt.1
alt.2
locatie "munte" "mare"
obiective "altele" "turistice"
cazare "pensiune" "hotel"
Question 3
alt.1
alt.2
locatie "munte" "mare"
obiective "turistice" "altele"
cazare "hotel" "pensiune"
Question 4
alt.1 alt.2
locatie "munte" "mare"
obiective "altele" "turistice"
cazare "hotel" "pensiune"
Question 5
alt.1
alt.2
locatie "mare"
"munte"
obiective "turistice" "altele"
cazare "pensiune" "hotel"
Question 6
19
Candidate design:
locatie obiective cazare
1
1
1
1
2
2
1
1
3
1
2
1
4
2
2
1
5
1
1
2
6
2
1
2
7
1
2
2
8
2
2
2
Design information:
number of blocks = 1
number of questions per block = 8
number of alternatives per choice set = 2
number of attributes per alternative = 3
Matricea pe baza careia vom face intrebarile
BLOCK QES ALT ASC mare altele pensiune
1
1 1 1 1 0
0
1
2
1 1 2 0 1
1
0
3
1 2 1 1 1
0
1
4
1 2 2 0 1
0
0
5
1 3 1 1 0
1
1
6
1 3 2 0 0
1
0
7
1 4 1 1 1
1
1
8
1 4 2 0 1
0
1
9
1 5 1 1 1
0
0
10 1 5 2 0 1
1
1
11 1 6 1 1 0
1
0
12 1 6 2 0 0
0
0
13 1 7 1 1 1
1
0
14 1 7 2 0 0
1
1
15 1 8 1 1 0
0
0
16 1 8 2 0 0
0
1
Crearea chestionarului
Block 1
Question 1
alt.1
alt.2
locatie "munte" "mare"
obiective "turistice" "altele"
21
"pensiune" "hotel"
Question 2
alt.1
alt.2
locatie "mare"
"mare"
obiective "turistice" "turistice"
cazare "pensiune" "hotel"
Question 3
alt.1
alt.2
locatie "munte" "munte"
obiective "altele" "altele"
cazare "pensiune" "hotel"
Question 4
alt.1
alt.2
locatie "mare" "mare"
obiective "altele" "turistice"
cazare "pensiune" "pensiune"
Question 5
alt.1
alt.2
locatie "mare"
"mare"
obiective "turistice" "altele"
cazare "hotel" "pensiune"
Question 6
alt.1 alt.2
locatie "munte" "munte"
obiective "altele" "turistice"
cazare "hotel" "hotel"
Question 7
alt.1 alt.2
locatie "mare" "munte"
obiective "altele" "altele"
cazare "hotel" "pensiune"
Question 8
alt.1
alt.2
locatie "munte" "munte"
obiective "turistice" "turistice"
cazare "hotel" "pensiune"
Matricea raspunsurilor
22
V.
A.
Arbori de clasificare
Definirea problemei i descrierea datelor
Datele folosite pentru acest exerciiu sunt din baza de date Arbore care conine date
despre datorii dac sunt sau nu, care este suma, numrul i lunile.
Aceast clasificare este una supervizat, adic se cunoate apropri apartanena la clase.
Scopul final al acestei tehnici este s mpart corect ct mai multe dintre obiecte n clase ct mai
pure.
24
Interpretare R
Pentru aceast clasificare vom avea n vedere la stabilirea frunzelor dou componente
pricipale: parametrul de complexitate (CP), adic ct de impur poate s fie un nod i criteriul de
oprire, adic s stabilete un minim de obiecte care s se gseasc ntr-o clas.
# puritatea nodului
# putem sa mergem cu arborele ft mult dar trebuie sa avem in vedere, uitandu-ne la CP si MIN,
unde ne oprim. Ne vom opri in momentul in care impuritatea nodului scade cu mai putin decat
valoarea CP
#ultimul nod (terminal) se numesc frunze
27
#primul test identificat a fost daca numarul de luni >= cu 8.5 sau <
#pentru cei <8.5 : 8 nu au datorii/11 au
#urmatorul test se refera tot la luni: >= 14.5
#variabila surogat = care da aceeasi solutie
Fit cu control
Stabilim un cp=0.096
detalierea rezultatelor
Call:
rpart(formula = y ~ suma + numar + luni, data = arbore, method = "class",
control = rpart.control(minsplit = 10, cp = 0.096))
n= 81
28
30
31
32
VI.
A.
Se folosete pentru a afla efectul pe care l are un anumit tratament n media asupra
oricrui obiect care nu a suferit tratamentul. Procedura prin care acest lucru se realizeaz este
33
B.
Interpretare R
34
0.94054
1
7
After Matching
25.305
25.319
-0.19712
0.57241
0
9
0.015984
0.013793
0.038621
1.0286
0.97375
0.43
0.65192
0.038621
0.40541
0
2
After Matching
10.344
10.112
13.423
0.21241
0
2
0.015172
0.0082759
0.051034
1.0385
0.0065878
0.072
0.30164
0.051034
After Matching
0.81161
0.84419
-8.3237
0.028966
0
1
0.014483
0.014483
0.028966
1.1625
0.091173
After Matching
0.086142
0.083521
0.93336
0.0082759
0
1
0.0041379
0.0041379
0.0082759
1.0284
0.79173
After Matching
0.14644
0.16648
-5.6612
0.0027586
0
1
0.0013793
0.0013793
0.0027586
0.90079
0.36512
After Matching
1991
2142.9
-3.0989
487.98
0
8413
601.82
0
10305
0.036436
0.030345
0.095172
0.74939
0.65215
< 2.22e-16
0.0028123
0.095172
0.12432
0
1
1.4998
After Matching
0.76105
0.80674
-10.703
0.041379
0
1
0.02069
0.02069
0.041379
1.1664
0.00031834
After Matching
1189.4
1646.5
-17.397
367.61
0
2110.2
482.66
0
6315.6
0.040717
0.03931
0.08
0.51455
0.02133
0.004
0.019315
0.08
39
#Pentru var rez74 , matchingul nu e ok. Trebuia sa avem o asezare \ norului de pct dupa linia
rosie
Inainte de matching
40
#Am facut o analiza in care am pastrat din primul model variabilele mai semnificative
Cova<-cbind(lalonde$age, lalonde$educ, lalonde$hisp)
Sumarry:
Estimate... 1652.4
AI SE...... 717.17
T-stat..... 2.3041
p.val...... 0.021216
Original number of observations.............. 445
Original number of treated obs............... 185
Matched number of observations............... 445
Matched number of observations (unweighted). 1096
Balance
***** (V1) age *****
Before Matching
mean treatment........ 25.816
mean control.......... 25.054
std mean diff......... 10.655
mean raw eQQ diff.....
med raw eQQ diff.....
max raw eQQ diff.....
0.94054
1
7
After Matching
25.173
25.326
-2.254
0.20803
0
8
0.005716
0.004562
0.020985
0.92856
0.045087
0.822
0.96926
0.020985
0.40541
0
2
After Matching
10.193
10.191
0.12914
0.036496
0
2
0.0026069
0.002281
0.0082117
1.0163
0.91418
0.99
1
0.0082117
After Matching
0.08764
0.08764
0
0
0
0
0
0
0
1
1
42
inainte de matching
43
44