Data Mining AACPI

Academia de Studii Economice, Bucureti
Facultatea de Cibernetic, Statistic i Informatic

Economic
Master Analiza Afacerilor i Controlul Performanei
ntreprinderii
PROIECT
DATA MINING
Profesor
coordonator
Studente:
Monica
MAER-Buic Andra Ioana
Zbranca
MATEIIuliana Rocsana
Proiect Data Mining

Cuprins
I.
Tehnici de reducere a dimensionalitii - Analiza Componentelor Principale .....................................2

A.
Definirea problemei.........................................................................................................................2
B.
Descrierea datelor............................................................................................................................2
C.
Interpretare R...................................................................................................................................2
II.
Tehnici de clusterizare.........................................................................................................................3
A.
B.
C.
Interpretare R...................................................................................................................................3
III.
Analiza corespondenelor................................................................................................................3
A.
B.
C.
Interpretare R...................................................................................................................................3
IV.
Analiza de tip conjoint.....................................................................................................................3
A.
B.
C.
Interpretare R...................................................................................................................................3
V.
Arbori de clasificare............................................................................................................................3
A.
B.
C.
Interpretare R...................................................................................................................................3
VI.
Popensity Score Matching...............................................................................................................4
A.
B.
C.
Interpretare R...................................................................................................................................4
Anex..........................................................................................................................................................4
Anexa I - ACP.........................................................................................................................................4
Anexa II - Tehnici de Clusterizare...........................................................................................................4
Anexa III Analiza corespondenelor.....................................................................................................4
Anexa IV - Analiza conjoint...................................................................................................................4
Anexa V Arbori de clasificare...............................................................................................................4
Anexa VI Propensity Score Matching...................................................................................................4
1
Proiect Data Mining
I.
A.
Tehnici de reducere a dimensionalitii - Analiza Componentelor

Principale
Definirea problemei i descrierea datelor
Baza de date Clieni conine caracteristici privind venitul, vrsta, vechimea nregistrat n
luni i valoarea creditului a 100 de clieni.
Prin Analiza Componentelor Principale ne propunem s reducem dimensionalitatea
datelor de la numrul de patru indicatori, la un numr mai mic de dimensiuni care sunt o
combinaie liniar a acestor indicatori i care vor descrie baza de date n procent de 80-90%.
Evident, exist o anumit pierdere de informaie, ns structura prezent n date poate fi
identificat mult mai clar, reuind astfel o analiz a datelor mult mai eficient.
Proiect Data Mining

B.
Interpretare R
Metoda 1 ACP bazat pe matricea de corelaie

Primul pas n Analiza Componentelor Principale este de a determina valorile proprii ale
matricii de corelaie.
Valorile proprii pentru fiecare indicator sunt urmtoarele:
[1] 3.489936814 0.468282570 0.039786722 0.001993895
Al doilea pas este de a genera vectorii proprii asociai care ne ajut n crearea
componentelor principale:
[,1]
[,2]
[,3]
[,4]
[1,] -0.5267959 -0.2212742 -0.43716375 0.694558587
[2,] -0.5271108 -0.2221261 -0.39474882 -0.719018488
[3,] -0.5180079 -0.2835424 0.80664224 0.024489877
[4,] -0.4198905 0.9062568 0.04888268 0.001014109
> acp$loadings
Loadings:
Comp.1 Comp.2 Comp.3 Comp.4
Venit 0.527 -0.221 -0.437 0.695
Vechime 0.527 -0.222 -0.395 -0.719
Vrsta 0.518 -0.284 0.807
Credit 0.420 0.906
Comp.1 Comp.2 Comp.3 Comp.4
SS loadings
1.00 1.00 1.00 1.00
Proportion Var 0.25 0.25 0.25 0.25
Cumulative Var 0.25 0.50 0.75 1.00
Procentul de informaie preluat de vectorii proprii este de 0.8724842, nsemnnd c 87,24% din
informaia din baza de dat poate fi redat prin ACP, fiind un procent favorabil acestei tehnici.
Pe baza vectorilor proprii generai anterior se va genera combina ia liniar a indicatorilor:
C1=0.527*Venit + 0.527*Vechime + 0.518*Varsta + 0.420*Credit
C2=0.221*Venit + 0.222*Vechime + 0.283*Varsta + 0,906*Credit
Ultimele dou componente nu vor fi luate n considerare doarece unele valori sunt foarte mici,
aproape egale cu 0 (spre ex 0,04 pentru componenta 3, respectiv 0,001 pentru cea de-a 4-a component).
Vom analiza n continuare ct informaie preia componenta a doua:

> e$values[2]/sum(e$values)
[1] 0.1170706
Observm astfel c cea de-a doua component preia doar 11,7% din informa ie, a adar
presupunem c se va putea renuna i la aceast component, prima component fiind suficient
pentru a reda o informaie corect i suficient a datelor.
3
Proiect Data Mining

Abaterea standard folosit la standardizare este:
> acp$scale
Venit Vechime Vrsta Credit
4.830462 58.700276 4.386342 14.063477
Media folosit la standardizare
acp$center
Venit Vechime Vrsta Credit
7.4827 96.2400 27.0000 27.7566
Matricea componentelor principale exemplific mai jos ct contribuie fiecare caracteristic
la fiecare component pricipal:
Norul de puncte reprezentnd primele 2 componente principale este urmtorul:
Proiect Data Mining
Proiect Data Mining
Vom calcula n continuare matricea de corelaie a indicatorilor i componentelor

princeipale:
Analiznd matricea de corelaie, putem observa c prima component preia informa ie

din toate variabilele, astfel se ntrete ideea c ar trebui s pstrm doar prima component n
analiza ACP.
Pentru a selecta doar rndurile 5-8 din primele 4 coloane a matricii de corela ie, vom
folosi
cor(tot)[5:8,1:4]
Venit Vechime
Vrsta
Credit
Comp.1 0.98412714 0.98471534 0.967709936 7.844130e-01
Comp.2 -0.15142050 -0.15200347 -0.194031414 6.201622e-01
Comp.3 -0.08719935 -0.07873900 0.160897776 9.750437e-03
Comp.4 0.03101416 -0.03210637 0.001093548 4.528306e-05
Comparm coeficientul primelor dou componente:
6
Proiect Data Mining

> cor(tot)[5:8,1:4][1,4] > cor(tot)[5:8,1:4][2,4]
[1] TRUE
Avnd n vedere ca coeficientul componentei 1 este mai mare dect cel al componentei
2, tindem n continuare s nu mai lum n considerare i componenta 2, dup cum s-a putut
presupune mai devreme.
Cu ajutorul screeplot(acp, type="lines") putem observa o scdere brusc a valorii proprii

dup pasul 1, astfel toate criteriile duc ctre faptul c n analiza ACP va rmne doar prima
component.
Metoda 2 ACP bazat pe matrici de ncruciate

Aceast metod este metoda de reducere a dimensionalitii propus de Mouchard-Simar
care are la baz analiza pe matrici ncruciate.
Primul pas n aceast metod este mprirea variabilelor la medie, adic standardizarea
acestora.
Avem n acest caz:
Valori proprii
[1] 482.96776495 15.92151083 8.21902054 0.07833785
Vectori proprii
> vp$vectors
[,1]
[,2]
[,3]
[,4]
[1,] 0.5337963 0.5001730 0.068220440 0.6784058014
[2,] 0.5271507 0.4303710 0.006149907 -0.7327039627
7
Proiect Data Mining

[3,] 0.4425014 -0.4390180 -0.780093263 0.0539465109
[4,] 0.4912902 -0.6098123 0.621902445 0.0004956223
Calcularea ineriei
[1] 0.9522486
Aadar se va pastra 95,22% din informaie, astfel metoda ACP bazat pe matrici ncruciate
este mult mai bun n acest caz dect cea bazat pe matrici de corelaie.
II.
A.
Tehnici de clusterizare
Aceast tehnic se va folosi tot pe baza de date Clieni folosit n analiza ACP. n
algoritmul de clusterizare de tip ierarhic nu se cunoate aprior numrul de clase n care vor fi
mprii clienii din baza de date. Scopul acestei tehnici este s fie mpr i i clien ii n clase ct
mai omogene.
B.
Interpretare R
Clasificarea obiectelor n clase se face astfel nct s se asigure o variabilitate minim n

interiorul claselor i o variabilitate maxim ntre clase. Astfel, vom calcula iniial matricea
distanelor euclidiene transformat:
Aplicarea metodei centroidului pe datele noastre, folosind dendograma arat astfel:

8
Proiect Data Mining
Aplicnd metoda Ward vom obine urmtoarea dendogram a clasificrii obiectelor:
Proiect Data Mining
n cazul acesta, observm la metoda Ward o distribuire a obiectele mult mai omogen
dect n cazul metodei centroidului.
Pe baza dendogramelor prezentate mai sus, am ales s mprim clienii n 3 clase:
groups3
1 2 3
50 30 20
n prima clas s-au dus 50 de clieni, n cea de-a doua clas 30, iar n ultima clas 20 de
clieni.
Concatennd valorile i apartenena la grup pentru cele 3 clase, vom observa media pe
fiecare din ele:
Clasa1:[1] 3.737
Clasa2:[1] 8.555
Clasa3:[1] 15.2385
Graficul Silhouette n acest caz va arta astfel:
10
Proiect Data Mining
Trebuie sa avem cat mai putine obiecte pe partea stanga

Observm obiecte clasate sub 0.
Pentru Metoda k-means, cunoscut i sub denumirea de Algoritm de partiionare, graficul

Silhouette este urmtorul:
11
Proiect Data Mining
Observm la metoda k-means c un singur obiect este negativ, astfel putem deduce c
este o soluie foarte bun.
De asemenea, Average Silhouette Width = 0.49 este mai mare fa de 0.48 de la metoda
ierarhic.
12
Proiect Data Mining

III.
A.
Analiza corespondenelor
Pentru analiza corespondenelor s-a realizat un chestionar privind preferinele turistice ale
respondenilor dorind s stabilim un tipar prin care respondenii i aleg cltoriile.
Chestionarul cuprinde 8 ntrebri legate de regiunea de provenien a respondentului,
regiunea n care prefer s cltoreasc, cu cine, care este valoarea venitului lunar n prezent, ct
de des respondentul a cltorit n ar n ultimii doi ani, care a fost gradul acestora de satisfac ie,
care este durata cltoriilor i care sunt primele 3 cele mai importante criterii ce influen eaz
alegerea cltoriei.
B.
Interpretare R
Pentru fiecare categorie n parte, vom stabili ct de des se merge n vacan:
Frecvena
CategV Foarte frecvent Foarte rar Frecvent Rar
1
3
1
4
2
2
0
1
11
2
Stabilim pe ficare categorie, durata vacanelor
> table(CategV,Durata)
Durata
CategV Mai mult de un weekend Un weekend
1
7
3
2
6
8
Analiza de coresponden dintre Venit i frecvena cltoriilor
Principal inertias (eigenvalues):
1
2
3
Value
0.851796 0.395252 0.225174
Percentage 57.86% 26.85% 15.29%
Rows:
1100
1200
1500
1600 2000
2100
Mass 0.041667 0.041667 0.083333 0.041667 0.083333 0.041667
ChiDist 0.774597 2.645751 1.549193 2.645751 1.581139 0.774597
Inertia 0.025000 0.291667 0.200000 0.291667 0.208333 0.025000
Dim. 1 -0.535372 2.740005 -0.618577 2.740005 1.521769 -0.535372
13
Proiect Data Mining

Dim. 2 -0.108969 -1.112627 -1.735906 -1.112627 0.905949 -0.108969
2200
2500
2600
2800
3000
3500
Mass 0.083333 0.083333 0.125000 0.041667 0.166667 0.083333
ChiDist 0.948683 0.774597 0.614636 0.774597 0.806226 0.774597
Inertia 0.075000 0.050000 0.047222 0.025000 0.108333 0.050000
Dim. 1 -0.115920 -0.535372 -0.255737 -0.535372 -0.576975 -0.535372
Dim. 2 1.407778 -0.108969 0.902195 -0.108969 -0.922437 -0.108969
4000
Mass 0.083333
ChiDist 0.948683
Inertia 0.075000
Dim. 1 -0.115920
Dim. 2 1.407778
Columns:
Foarte frecvent Foarte rar Frecvent
Rar
Mass
0.125000 0.083333 0.625000 0.166667
ChiDist
2.380476 1.870829 0.537484 1.322876
Inertia
0.708333 0.291667 0.180556 0.291667
Dim. 1
2.528827 -0.647695 -0.494110 0.280139
Dim. 2
-0.699498 -2.114189 -0.068508 1.838622
Analiza de coresponden dintre locaia de porvenien i unde dorim s cltorim:

1
2
3
4
Value
0.356305 0.269137 0.133031 0.006805
Percentage 46.56% 35.17% 17.38% 0.89%
Rows:
Bucuresti - Ilfov Nord - Est
Sud Sud - Est Sud - Vest
Mass
0.208333 0.125000 0.333333 0.250000 0.083333
ChiDist
0.663325 1.503083 0.629153 0.509175 1.527525
Inertia
0.091667 0.282407 0.131944 0.064815 0.194444
Dim. 1
-0.901220 2.079945 0.271116 -0.056333 -1.782332
Dim. 2
-0.449042 -1.632953 0.954566 0.503845 -1.757764
Columns:
Centru Nord - Vest
Sud Sud - Est Sud - vest
Mass 0.750000 0.083333 0.041667 0.041667 0.083333
ChiDist 0.177430 1.095445 1.414214 2.645751 1.788854
Inertia 0.023611 0.100000 0.083333 0.291667 0.266667
Dim. 1 0.120066 -0.802089 0.454198 3.484505 -2.247860
Dim. 2 0.303101 0.052819 1.840005 -3.147653 -2.126902
14
Proiect Data Mining

Summary:
dim
1
2
3
4
value
% cum%
0.356305 46.6 46.6
0.269137 35.2 81.7
0.133031 17.4 99.1
0.006805 0.9 100.0
-------- ----Total: 0.765278 100.0
scree plot
************
*********
****
Rows:
name mass qlt inr k=1 cor ctr k=2 cor ctr
1 | BcrI | 208 781 120 | -538 658 169 | -233 123 42 |
2 | NrdE | 125 1000 369 | 1242 682 541 | -847 318 333 |
3 | Sud | 333 686 172 | 162 66 25 | 495 620 304 |
4 | SdEs | 250 268 85 | -34 4 1 | 261 264 63 |
5 | SdVs | 83 841 254 | -1064 485 265 | -912 356 257 |
Columns:
name mass qlt inr k=1 cor ctr k=2 cor ctr
1 | Cntr | 750 949 31 | 72 163 11 | 157 785 69 |
2 | NrdV | 83 192 131 | -479 191 54 | 27 1 0 |
3 | Sud | 42 492 109 | 271 37 9 | 955 456 141 |
4 | SdEs | 42 999 381 | 2080 618 506 | -1633 381 413 |
5 | Sdvs | 83 943 348 | -1342 563 421 | -1103 380 377 |
Albastru- de unde vin si rosu unde ma duc
15
Proiect Data Mining
Print AC
1
2
3
4
Value
0.356305 0.269137 0.133031 0.006805
Percentage 46.56% 35.17% 17.38% 0.89%
Rows:
Bucuresti - Ilfov Nord - Est
Sud Sud - Est Sud - Vest
Mass
0.208333 0.125000 0.333333 0.250000 0.083333
ChiDist
0.663325 1.503083 0.629153 0.509175 1.527525
Inertia
0.091667 0.282407 0.131944 0.064815 0.194444
Dim. 1
-0.901220 2.079945 0.271116 -0.056333 -1.782332
Dim. 2
-0.449042 -1.632953 0.954566 0.503845 -1.757764
Columns:
Centru Nord - Vest
Sud Sud - Est Sud - vest
Mass 0.750000 0.083333 0.041667 0.041667 0.083333
16
Proiect Data Mining

ChiDist 0.177430 1.095445 1.414214 2.645751
Inertia 0.023611 0.100000 0.083333 0.291667
Dim. 1 0.120066 -0.802089 0.454198 3.484505
Dim. 2 0.303101 0.052819 1.840005 -3.147653
1.788854
0.266667
-2.247860
-2.126902
#Variabila cor pt centru 0.785(ne uitam la columns) - reprezentarea acestui punct este explicat
mai degraba prin a 2 a dimensiune
#ctr = contributie= cu cat contribuie acea celula din tabel la inertie
#din summary - grafic, pe randuri si coloane - interpretare practica
IV.
A.
Analiza de tip conjoint
n continuarea rspunsurilor din chestionarul despre care menionm la analiza

anterioar, s-au ales cele mai importante variabile categoriale pe care le-am pstrat n continuare,
acestea fiind definitorii pentru profilul nostru. Cu variabilele rmase, am generat toate situa iile
posibile, astfel am obinut sarcinile care ne vor ajuta s facem analiza.
B.
Interpretare R
Criteriile dup care fiecare tnr i va alege vacana n Romnia genereaz 8 profile
posibile:
locatie obiective cazare
1
1
1
1
2
2
1
1
3
1
2
1
4
2
2
1
5
1
1
2
6
2
1
2
7
1
2
2
8
2
2
2
Metoda de generare a matricii cunoscut ca metoda rotirii se bazeaz pe urmtorul
raionament: vom avea o urncu profile care va fi folosit pentru a extrage aleator prima
alternativ din fiecare ntrebare/sarcin. Acestea provin dintr-un vector de profile ortogonal.
Cu ajutorul metodei de rotation am obinut urmtoarele profile:
Choice sets:
alternative 1 in each choice set
BLOCK QES ALT locatie obiective cazare
5 1 1 1 munte turistice pensiune
7 1 2 1 munte altele pensiune
1 1 3 1 munte turistice hotel
17
Proiect Data Mining

3
6
2
4
8
1
1
1
1
1
4
5
6
7
8
1 munte altele hotel

1 mare turistice pensiune
1 mare turistice hotel
1 mare altele hotel
1 mare altele pensiune

5 1 1 2 mare altele hotel
7 1 2 2 mare turistice hotel
1 1 3 2 mare altele pensiune
3 1 4 2 mare turistice pensiune
6 1 5 2 munte altele hotel
Candidate design:
1
1
1
1
2
2
1
1
3
1
2
1
4
2
2
1
5
1
1
2
6
2
1
2
7
1
2
2
8
2
2
2
Design information:
number of blocks = 1
number of questions per block = 8
number of alternatives per choice set = 2
number of attributes per alternative = 3
Astfel, am mprit ntrebrile ntr-un singur bloc. Fiecare respondent va alege astfel
variabile categoriale, ntre 2 profile, ajungndu-se n total la 8 ntrebri.
Matricea pe baz creia vom face ntrebrile este urmtoarea:
desmat
BLOCK QES ALT ASC mare altele pensiune
1
1 1 1 1 0
0
1
2
1 1 2 0 1
1
0
3
1 2 1 1 0
1
1
4
1 2 2 0 1
0
0
5
1 3 1 1 0
0
0
18
Proiect Data Mining

6
7
8
9
10
11
12
13
14
15
16
1
1
1
1
1
1
1
1
1
1
1
3
4
4
5
5
6
6
7
7
8
8
2
1
2
1
2
1
2
1
2
1
2
0
1
0
1
0
1
0
1
0
1
0
1
0
1
1
0
1
0
1
0
1
0
1
1
0
0
1
0
1
1
0
1
0
1
0
1
1
0
0
1
0
1
1
0
Generarea chestionarului:
Block 1
Question 1
alt.1
alt.2
locatie "munte" "mare"
obiective "turistice" "altele"
cazare "pensiune" "hotel"
Question 2
alt.1
alt.2
obiective "altele" "turistice"
Question 3
alt.1
alt.2
cazare "hotel" "pensiune"
Question 4
alt.1 alt.2
Question 5
alt.1
alt.2
locatie "mare"
"munte"
Question 6
19
Proiect Data Mining

alt.1
alt.2
locatie "mare"
"munte"
Question 7
alt.1 alt.2
locatie "mare" "munte"
Question 8
alt.1
alt.2
Cea de-a doua alternativ a fiecrei sarcini, denumit Metoda Mix and Match, se obine
adugnd o constant la fiecare nivel al atributelor din prima alternativ. n cadrul acestei
abordri se populeaz i a dou urn prin aceeai metod de adugare a unei constante. n acest
caz, o pereche de profile ce va constitui o sarcin din cadrul unui bloc, se va ob ine extrgnd
aleator un profil din prima urn i unul din cea ce-a doua.
n cazul acesta vom avea:
Generarea profilelor
Choice sets:
20
Proiect Data Mining

7
8
1 7 2 munte altele pensiune

1 8 2 munte turistice pensiune
Candidate design:
1
1
1
1
2
2
1
1
3
1
2
1
4
2
2
1
5
1
1
2
6
2
1
2
7
1
2
2
8
2
2
2
Design information:
number of blocks = 1
number of questions per block = 8
number of alternatives per choice set = 2
number of attributes per alternative = 3
Matricea pe baza careia vom face intrebarile
BLOCK QES ALT ASC mare altele pensiune
1
1 1 1 1 0
0
1
2
1 1 2 0 1
1
0
3
1 2 1 1 1
0
1
4
1 2 2 0 1
0
0
5
1 3 1 1 0
1
1
6
1 3 2 0 0
1
0
7
1 4 1 1 1
1
1
8
1 4 2 0 1
0
1
9
1 5 1 1 1
0
0
10 1 5 2 0 1
1
1
11 1 6 1 1 0
1
0
12 1 6 2 0 0
0
0
13 1 7 1 1 1
1
0
14 1 7 2 0 0
1
1
15 1 8 1 1 0
0
0
16 1 8 2 0 0
0
1
Crearea chestionarului
Block 1
Question 1
alt.1
alt.2
21
Proiect Data Mining

cazare
"pensiune" "hotel"
Question 2
alt.1
alt.2
locatie "mare"
"mare"
obiective "turistice" "turistice"
Question 3
alt.1
alt.2
locatie "munte" "munte"
obiective "altele" "altele"
Question 4
alt.1
alt.2
locatie "mare" "mare"
cazare "pensiune" "pensiune"
Question 5
alt.1
alt.2
locatie "mare"
"mare"
Question 6
alt.1 alt.2
cazare "hotel" "hotel"
Question 7
alt.1 alt.2
obiective "altele" "altele"
Question 8
alt.1
alt.2
obiective "turistice" "turistice"
Matricea raspunsurilor
22
Proiect Data Mining

ID Bloc
Venit Regiune Companie Sex Q1 Q2 Q3 Q4 Q5 Q6 Q7 Q8
1 1 1 Peste 2500 RON
BI In cuplu M 1 1 1 1 2 1 1 2
NE In cuplu F 1 2 1 2 1 2 1 2
BI Cu prietenii F 2 2 1 1 2 2 1 2
4 4 1 Sub 2500 RON
SE Cu prietenii F 2 1 1 1 2 2 2 2
NE Cu prietenii F 1 2 2 1 1 1 2 1
6 6 1 Sub 2500 RON Sud Cu prietenii F 2 2 2 2 1 2 1 1
NV In cuplu F 1 2 2 2 1 2 2 1
8 8 1 Peste 2500 RON Sud In cuplu F 2 2 1 2 1 2 1 1
SE Cu prietenii F 1 2 2 1 1 2 2 1
10 10 1 Sub 2500 RON
SV Cu prietenii F 1 2 2 1 1 2 1 2
11 11 1 Peste 2500 RON Sud Cu prietenii F 2 2 1 1 1 1 1 1
12 12 1 Peste 2500 RON Sud In cuplu M 1 1 1 2 1 2 2 2
13 13 1 Peste 2500 RON Sud In cuplu M 2 2 2 1 2 1 1 1
14 14 1 Peste 2500 RON
SE Cu prietenii M 1 2 1 1 1 2 2 1
15 15 1 Peste 2500 RON
BI Cu prietenii F 1 2 2 2 1 2 2 1
16 16 1 Peste 2500 RON Centru Cu prietenii F 1 2 2 2 1 2 1 1
17 17 1 Sub 2500 RON Sud Cu prietenii F 1 1 2 2 1 2 2 2
18 18 1 Peste 2500 RON Sud In cuplu F 1 2 1 2 1 2 1 1
bla bla ceva
Call:
coxph(formula = Surv(rep(1, 288L), RES) ~ ASC + mare + altele +
pensiune + strata(STR), data = dataset1, method = "exact")
n= 288, number of events= 144
coef exp(coef) se(coef)
z Pr(>|z|)
ASC
0.04226 1.04316 0.17579 0.240 0.8100
mare -0.44751 0.63922 0.46483 -0.963 0.3357
altele -0.65919 0.51727 0.27918 -2.361 0.0182 *
pensiune -0.54619 0.57915 0.25864 -2.112 0.0347 *
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
exp(coef) exp(-coef) lower .95 upper .95
ASC
1.0432 0.9586 0.7391 1.4723
mare
0.6392 1.5644 0.2570 1.5897
altele
0.5173 1.9332 0.2993 0.8940
pensiune 0.5792 1.7267 0.3488 0.9615
Rsquare= 0.049 (max possible= 0.5 )
Likelihood ratio test= 14.47 on 4 df, p=0.005926
Wald test
= 13.14 on 4 df, p=0.01063
Score (logrank) test = 14.01 on 4 df, p=0.007261
23
Proiect Data Mining

# semnificative sunt ultimile 2: altele si pensiune.
Dup cum se poate observa, semnificative sunt ultimele 2 variante alele i pensiune.
# interpretam prin faptul ca nu conteaza munte sau munte ci obiectivul turistic si modalitatea de
cazare.
De asemenea, putem concluziona faptul c pentru tinerii respondeni nu conteaz att de
mult varianta de munte sau mare n alegerea locaiei pentru concediu, ci mai degrab, obiectivele
turistice i modalitatea de cazare.
#ne uitam la exp(coef)
# probabilitatea de a selecta o vacanta cu alte obiective scade fata de cele care am obiective
turistice
# la fel si cu pensiunea vs hotel - este mai redusa
#Sa punem linii din matricea Data set1 si sa descriem datele
#Luam primele 8 randuri
#Atentie la var STR
# Aflam utilitatile estimate
#RES este variabila dependenta
# Ne uitam la p value sa vedem daca coef este semnificativ
#EXp(coef() - Altele= prob de a selecvta o vacanta cu alte ob decat cele turistice scade cu 52%
fata de cele care au obiective
# = O alternativ de petrecere a vacanei ntr-o locaie cu pensiune este mai mic dect la hotel
scade cu 44%
#tre sa avem matricile generate + output interpretat
#Anexa cod creat
V.
A.
Arbori de clasificare
Datele folosite pentru acest exerciiu sunt din baza de date Arbore care conine date
despre datorii dac sunt sau nu, care este suma, numrul i lunile.
Aceast clasificare este una supervizat, adic se cunoate apropri apartanena la clase.
Scopul final al acestei tehnici este s mpart corect ct mai multe dintre obiecte n clase ct mai
pure.
24
Proiect Data Mining

B.
Interpretare R
Pentru aceast clasificare vom avea n vedere la stabilirea frunzelor dou componente
pricipale: parametrul de complexitate (CP), adic ct de impur poate s fie un nod i criteriul de
oprire, adic s stabilete un minim de obiecte care s se gseasc ntr-o clas.
# puritatea nodului
# putem sa mergem cu arborele ft mult dar trebuie sa avem in vedere, uitandu-ne la CP si MIN,
unde ne oprim. Ne vom opri in momentul in care impuritatea nodului scade cu mai putin decat
valoarea CP
#ultimul nod (terminal) se numesc frunze
Prima ramificare se face dup datorii, dac clienii au sau nu:

y
absent present
64
17
Afiarea rezultatelor arborelui de clasificare se realizeaz astfel:
Classification tree:
rpart(formula = y ~ suma + numar + luni, data = arbore, method = "class")
Variables actually used in tree construction:
[1] luni suma
Root node error: 17/81 = 0.20988
n= 81
CP nsplit rel error xerror xstd
1 0.176471
0 1.00000 1.0000 0.21559
2 0.019608
1 0.82353 1.1765 0.22829
3 0.010000
4 0.76471 1.1765 0.22829
Validare incrucisata
Call:
rpart(formula = y ~ suma + numar + luni, data = arbore, method = "class")
n= 81
CP nsplit rel error xerror
xstd
1 0.17647059
0 1.0000000 1.000000 0.2155872
2 0.01960784
1 0.8235294 1.176471 0.2282908
3 0.01000000
4 0.7647059 1.176471 0.2282908
25
Proiect Data Mining

Variable importance
luni suma numar
64 24 12
Node number 1: 81 observations, complexity param=0.1764706
predicted class=absent expected loss=0.2098765 P(node) =1
class counts: 64 17
probabilities: 0.790 0.210
left son=2 (62 obs) right son=3 (19 obs)
Primary splits:
luni < 8.5 to the right, improve=6.762330, (0 missing)
numar < 5.5 to the left, improve=2.866795, (0 missing)
suma < 39.5 to the left, improve=2.250212, (0 missing)
Surrogate splits:
numar < 6.5 to the left, agree=0.802, adj=0.158, (0 split)
predicted class=absent expected loss=0.09677419 P(node) =0.7654321
class counts: 56 6
Primary splits:
suma < 55 to the left, improve=0.6848635, (0 missing)
Surrogate splits:
suma < 16 to the left, agree=0.597, adj=0.138, (0 split)
Node number 3: 19 observations
predicted class=present expected loss=0.4210526 P(node) =0.2345679
class counts: 8 11
predicted class=absent expected loss=0 P(node) =0.3580247
class counts: 29 0
class counts: 27 6
Primary splits:
numar < 3.5 to the right, improve=0.1753247, (0 missing)
Surrogate splits:
26
Proiect Data Mining

luni < 9.5 to the left, agree=0.758, adj=0.333, (0 split)
numar < 5.5 to the right, agree=0.697, adj=0.167, (0 split)
class counts: 12 0
class counts: 15 6
Primary splits:
suma < 111 to the right, improve=1.71428600, (0 missing)
class counts: 12 2
class counts: 3 4
Reprezentare grafica
27
Proiect Data Mining
#primul test identificat a fost daca numarul de luni >= cu 8.5 sau <
#pentru cei <8.5 : 8 nu au datorii/11 au
#urmatorul test se refera tot la luni: >= 14.5
#variabila surogat = care da aceeasi solutie
Fit cu control
Stabilim un cp=0.096
detalierea rezultatelor
Call:
rpart(formula = y ~ suma + numar + luni, data = arbore, method = "class",
control = rpart.control(minsplit = 10, cp = 0.096))
n= 81
28
Proiect Data Mining

CP nsplit rel error xerror
xstd
1 0.1764706
0 1.0000000 1.000000 0.2155872
2 0.1176471
1 0.8235294 1.352941 0.2387187
3 0.0960000
3 0.5882353 1.352941 0.2387187
Variable importance
luni numar suma
55 26 18
predicted class=absent expected loss=0.2098765 P(node) =1
class counts: 64 17
Primary splits:
suma < 39.5 to the left, improve=2.250212, (0 missing)
Surrogate splits:
class counts: 56 6
class counts: 8 11
Primary splits:
luni < 4 to the left, improve=1.352047, (0 missing)
Surrogate splits:
luni < 2.5 to the left, agree=0.737, adj=0.444, (0 split)
class counts: 6 4
Primary splits:
luni < 5.5 to the left, improve=0.6095238, (0 missing)
Surrogate splits:
suma < 56.5 to the right, agree=0.8, adj=0.5, (0 split)
29
Proiect Data Mining

class counts: 2 7
class counts: 4 0
class counts: 2 4
Arborele de clasificare in acest caz
Classification tree:
rpart(formula = y ~ suma + numar + luni, data = arbore, method = "class",
control = rpart.control(minsplit = 10, cp = 0.096))
Variables actually used in tree construction:
[1] luni numar suma
Root node error: 17/81 = 0.20988
n= 81
CP nsplit rel error xerror xstd
1 0.17647
0 1.00000 1.0000 0.21559
2 0.11765
1 0.82353 1.3529 0.23872
3 0.09600
3 0.58824 1.3529 0.23872
Reprezentare grafica
30
Proiect Data Mining
#graficul arata valoarea parametrului de complexitate

# vedem in grafic ca incepand cu valoarea 0.096 nu este o pierdere mare in eroare deci putem
Prune - stabilim din prima puritatea
#functia prune - taie arborele.
# pe baza datelor obtinute anterior , introducem in functia prune p=0.096
# fie folosim prune, fie refacem fit-ul de mai sus cu aceste valori
Reprezentare grafica:
31
Proiect Data Mining
Vedem daca au fost repartizati corect:

#vedem cati au fost clasificati corect si gresit!
y
absent present
absent
60
4
present
6
11
Reprezentare grafica:
32
Proiect Data Mining
VI.
A.
Popensity Score Matching
Se folosete pentru a afla efectul pe care l are un anumit tratament n media asupra
oricrui obiect care nu a suferit tratamentul. Procedura prin care acest lucru se realizeaz este
33
Proiect Data Mining

urmtoarea: fiecare unitate tratat este comparat cu un numr de uniti netratate similare celor
din primul grup din punct de vedere al celorlalte variabile, astfel se estimeaz un efect mediu pe
baza mediei diferenelor nregistrat de variabila dependent ntre unitile tratate i cele
netratate.
Scopul nostru este s estimm efectul mediu pe care un tratament (variabil binar) l are
asupra unei variabile rezultat.
B.
Interpretare R
#Tratament => 0 - Control; 1 - Tratament

#y {categorial, numerical}
Histograma
Transformarea variabilelor noastre in variabile categoriale

Tr
0 1
260 185
260 de persoane vor fi in grupul de control si nu vor participa in programul de formare si 185 in
grupul de tratament care au fost incluse in programul de formare.
34
Proiect Data Mining

Variabila head?!?!?
> head(Tr)
[1] 1 1 1 1 1 1
> mean(y[Tr==0]) #media veniturilor celor care nu au participat
[1] 4554.802
> mean(y[Tr==1]) #media veniturilor celor care au participat
[1] 6349.145
#Matching - caut pt variabila din grumul; de control un individ care se aseamana cu cel pentru
care vreau sa aplic tratamentul
# se pune lista de variabile x pe baza carora facem matchuire
# caut din fiecare individ din grupa de control si unul din grupa de tratament similar
Performanta modelului logistic
Call:
glm(formula = Tr ~ age + educ + black + hisp + married + re74 +
nodegr + re75, family = binomial, data = lalonde)
Deviance Residuals:
Min
1Q Median
3Q
Max
-1.4358 -0.9904 -0.9071 1.2825 1.6946
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.178e+00 1.056e+00 1.115 0.26474
age
4.698e-03 1.433e-02 0.328 0.74297
educ
-7.124e-02 7.173e-02 -0.993 0.32061
black
-2.247e-01 3.655e-01 -0.615 0.53874
hisp
-8.528e-01 5.066e-01 -1.683 0.09228 .
married
1.636e-01 2.769e-01 0.591 0.55463
re74
-3.161e-05 2.584e-05 -1.223 0.22122
nodegr
-9.035e-01 3.135e-01 -2.882 0.00395 **
re75
6.161e-05 4.358e-05 1.414 0.15744
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 604.20 on 444 degrees of freedom
Residual deviance: 587.22 on 436 degrees of freedom
AIC: 605.22
Number of Fisher Scoring iterations: 4
#Aplicarea fc de match- folosim tr=lalonde, fara factor in fc match
35
Proiect Data Mining

rr1<-Match(Y=y,Tr=Tr,X=glm1$fitted.values, estimand ="ATE") #ATE= efectul medie
Estimate... 2088.1
AI SE...... 726.19
T-stat..... 2.8755
p.val...... 0.0040341
Original number of observations.............. 445
Original number of treated obs............... 185
Matched number of observations............... 445
Matched number of observations (unweighted). 725
Estimate=Diferentadintre cei care au fc tratament cu carw nu 2088.1
Balance
***** (V1) age *****
Before Matching
mean treatment........ 25.816
mean control.......... 25.054
std mean diff......... 10.655
mean raw eQQ diff.....
med raw eQQ diff.....
max raw eQQ diff.....
0.94054
1
7
After Matching
25.305
25.319
-0.19712
0.57241
0
9
mean eCDF diff........ 0.025364

med eCDF diff........ 0.022193
max eCDF diff........ 0.065177
0.015984
0.013793
0.038621
var ratio (Tr/Co)..... 1.0278

T-test p-value........ 0.26594
KS Bootstrap p-value..
0.568
KS Naive p-value...... 0.7481
KS Statistic.......... 0.065177
1.0286
0.97375
0.43
0.65192
0.038621
***** (V2) educ *****

Before Matching
mean control.......... 10.088
std mean diff......... 12.806
0.40541
0
2
mean eCDF diff........ 0.028698

med eCDF diff........ 0.012682
max eCDF diff........ 0.12651
36
After Matching
10.344
10.112
13.423
0.21241
0
2
0.015172
0.0082759
0.051034
Proiect Data Mining

T-test p-value........ 0.15017
0.006
KS Statistic.......... 0.12651
1.0385
0.0065878
0.072
0.30164
0.051034
***** (V3) black *****

Before Matching
mean control.......... 0.82692
std mean diff......... 4.4767
After Matching
0.81161
0.84419
-8.3237
mean raw eQQ diff..... 0.016216

0
1
0.028966
0
1
mean eCDF diff........ 0.0081601

med eCDF diff........ 0.0081601
max eCDF diff........ 0.01632
0.014483
0.014483
0.028966

T-test p-value........ 0.64736
1.1625
0.091173
***** (V4) hisp *****

Before Matching
mean control.......... 0.10769
std mean diff......... -20.341
0
1
mean eCDF diff........ 0.024116
med eCDF diff........ 0.024116
max eCDF diff........ 0.048233
T-test p-value........ 0.064043
***** (V5) married *****
Before Matching
mean control.......... 0.15385
std mean diff......... 8.9995
37
After Matching
0.086142
0.083521
0.93336
0.0082759
0
1
0.0041379
0.0041379
0.0082759
1.0284
0.79173
After Matching
0.14644
0.16648
-5.6612
Proiect Data Mining

0
1
0.0027586
0
1
mean eCDF diff........ 0.017672

med eCDF diff........ 0.017672
max eCDF diff........ 0.035343
0.0013793
0.0013793
0.0027586

T-test p-value........ 0.33425
***** (V6) re74 *****
Before Matching
mean control..........
2107
std mean diff......... -0.23437
0.90079
0.36512
After Matching
1991
2142.9
-3.0989
487.98
0
8413
601.82
0
10305
mean eCDF diff........ 0.019223

med eCDF diff........ 0.0158
max eCDF diff........ 0.047089
0.036436
0.030345
0.095172

T-test p-value........ 0.98186
0.542
KS Statistic.......... 0.047089
0.74939
0.65215
< 2.22e-16
0.0028123
0.095172
***** (V7) nodegr *****

Before Matching
mean control.......... 0.83462
std mean diff......... -27.751
0.12432
0
1
mean eCDF diff........ 0.063254

med eCDF diff........ 0.063254
max eCDF diff........ 0.12651
var ratio (Tr/Co).....
38
1.4998
After Matching
0.76105
0.80674
-10.703
0.041379
0
1
0.02069
0.02069
0.041379
1.1664
Proiect Data Mining

T-test p-value........ 0.0020368
***** (V8) re75 *****
Before Matching
mean control.......... 1266.9
std mean diff......... 8.2363
0.00031834
After Matching
1189.4
1646.5
-17.397
367.61
0
2110.2
482.66
0
6315.6
mean eCDF diff........ 0.050834

med eCDF diff........ 0.061954
max eCDF diff........ 0.10748
0.040717
0.03931
0.08

T-test p-value........ 0.38527
0.042
KS Statistic.......... 0.10748
0.51455
0.02133
0.004
0.019315
0.08
Before Matching Minimum p.value: 0.0020368

Variable Name(s): nodegr Number(s): 7
After Matching Minimum p.value: < 2.22e-16
Variable Name(s): re74 Number(s): 6
#In gr de tratament - Mean-Inainte de match medie de 25.81, iar dupa 25.305
#In gr de control - LA fel
#Diferenta dintre media grupului de tr si control dupa matching sa se diminueze-> Matchingul
este ok
#EQQ#ECDF- distributia de probabilitate
#KS- indicator ce compara distributia var numerice
#Educ- nr de ani de educatie, la Pvalue - inainte aveam 0.01-diferenta senificativa intre cei care
cei du fiferite nivele de ecucatie
qqplot
39
Proiect Data Mining
#Pentru var rez74 , matchingul nu e ok. Trebuia sa avem o asezare \ norului de pct dupa linia
rosie
Inainte de matching
40
Proiect Data Mining
#Am facut o analiza in care am pastrat din primul model variabilele mai semnificative
Cova<-cbind(lalonde$age, lalonde$educ, lalonde$hisp)
Sumarry:
Estimate... 1652.4
AI SE...... 717.17
T-stat..... 2.3041
p.val...... 0.021216
Original number of observations.............. 445
Original number of treated obs............... 185
Matched number of observations............... 445
Matched number of observations (unweighted). 1096
Balance
***** (V1) age *****
Before Matching
mean control.......... 25.054
std mean diff......... 10.655
0.94054
1
7
After Matching
25.173
25.326
-2.254
0.20803
0
8
mean eCDF diff........ 0.025364

med eCDF diff........ 0.022193
max eCDF diff........ 0.065177
0.005716
0.004562
0.020985

T-test p-value........ 0.26594
0.552
KS Statistic.......... 0.065177
0.92856
0.045087
0.822
0.96926
0.020985
***** (V2) educ *****

Before Matching
mean control.......... 10.088
std mean diff......... 12.806
41
0.40541
0
2
After Matching
10.193
10.191
0.12914
0.036496
0
2
Proiect Data Mining

mean eCDF diff........ 0.028698
med eCDF diff........ 0.012682
max eCDF diff........ 0.12651
T-test p-value........ 0.15017
0.018
KS Statistic.......... 0.12651
0.0026069
0.002281
0.0082117
1.0163
0.91418
0.99
1
0.0082117
***** (V3) hisp *****

Before Matching
mean control.......... 0.10769
std mean diff......... -20.341
0
1
After Matching
0.08764
0.08764
0
0
0
0
mean eCDF diff........ 0.024116

med eCDF diff........ 0.024116
max eCDF diff........ 0.048233
0
0
0

T-test p-value........ 0.064043
1
1
Before Matching Minimum p.value: 0.018

Variable Name(s): educ Number(s): 2
After Matching Minimum p.value: 0.045087
Variable Name(s): age Number(s): 1
#Analiza pentru Age - doar pentru variabile numerice
42
Proiect Data Mining
inainte de matching
43
Proiect Data Mining

Anex
Anexa I - ACP
Anexa II - Tehnici de Clusterizare
Anexa III Analiza corespondenelor
Anexa IV - Analiza conjoint
Anexa V Arbori de clasificare
Anexa VI Propensity Score Matching
44

Data Mining AACPI

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Data Mining AACPI

Încărcat de

Drepturi de autor:

Formate disponibile

Academia de Studii Economice, Bucureti

Facultatea de Cibernetic, Statistic i Informatic

Proiect Data Mining

Tehnici de reducere a dimensionalitii - Analiza Componentelor Principale .....................................2

Analiza de tip conjoint.....................................................................................................................3

Popensity Score Matching...............................................................................................................4

Proiect Data Mining

Tehnici de reducere a dimensionalitii - Analiza Componentelor

Proiect Data Mining

Metoda 1 ACP bazat pe matricea de corelaie

Vom analiza n continuare ct informaie preia componenta a doua:

Proiect Data Mining

la fiecare component pricipal:

Norul de puncte reprezentnd primele 2 componente principale este urmtorul:

Proiect Data Mining

Proiect Data Mining

Vom calcula n continuare matricea de corelaie a indicatorilor i componentelor

Analiznd matricea de corelaie, putem observa c prima component preia informa ie

Proiect Data Mining

Cu ajutorul screeplot(acp, type="lines") putem observa o scdere brusc a valorii proprii

Metoda 2 ACP bazat pe matrici de ncruciate

Proiect Data Mining

Clasificarea obiectelor n clase se face astfel nct s se asigure o variabilitate minim n

Aplicarea metodei centroidului pe datele noastre, folosind dendograma arat astfel:

Proiect Data Mining

Aplicnd metoda Ward vom obine urmtoarea dendogram a clasificrii obiectelor:

Proiect Data Mining

Proiect Data Mining

Trebuie sa avem cat mai putine obiecte pe partea stanga

Pentru Metoda k-means, cunoscut i sub denumirea de Algoritm de partiionare, graficul

Proiect Data Mining

Proiect Data Mining

Definirea problemei i descrierea datelor

Proiect Data Mining

Analiza de coresponden dintre locaia de porvenien i unde dorim s cltorim:

Proiect Data Mining

Proiect Data Mining

Proiect Data Mining

Analiza de tip conjoint

Definirea problemei i descrierea datelor

n continuarea rspunsurilor din chestionarul despre care menionm la analiza

Proiect Data Mining

1 munte altele hotel

alternative 2 in each choice set

Proiect Data Mining

Proiect Data Mining

Proiect Data Mining

1 7 2 munte altele pensiune

Proiect Data Mining

Proiect Data Mining

Proiect Data Mining

Proiect Data Mining

Prima ramificare se face dup datorii, dac clienii au sau nu:

Proiect Data Mining

Proiect Data Mining

Proiect Data Mining

Proiect Data Mining

Proiect Data Mining

Proiect Data Mining

#graficul arata valoarea parametrului de complexitate

Proiect Data Mining

Vedem daca au fost repartizati corect:

Proiect Data Mining

Popensity Score Matching

* (V2) educ *

* (V3) black *

* (V4) hisp *

* (V7) nodegr *

* (V2) educ *

* (V3) hisp *