Sunteți pe pagina 1din 45

Academia de Studii Economice, Bucureti

Facultatea de Cibernetic, Statistic i Informatic


Economic
Master Analiza Afacerilor i Controlul Performanei
ntreprinderii

PROIECT
DATA MINING

Profesor
coordonator
Studente:
Monica
MAER-Buic Andra Ioana
Zbranca
MATEIIuliana Rocsana

Proiect Data Mining


Cuprins
I.

Tehnici de reducere a dimensionalitii - Analiza Componentelor Principale .....................................2


A.

Definirea problemei.........................................................................................................................2

B.

Descrierea datelor............................................................................................................................2

C.

Interpretare R...................................................................................................................................2

II.

Tehnici de clusterizare.........................................................................................................................3
A.

Definirea problemei.........................................................................................................................3

B.

Descrierea datelor............................................................................................................................3

C.

Interpretare R...................................................................................................................................3

III.

Analiza corespondenelor................................................................................................................3

A.

Definirea problemei.........................................................................................................................3

B.

Descrierea datelor............................................................................................................................3

C.

Interpretare R...................................................................................................................................3

IV.

Analiza de tip conjoint.....................................................................................................................3

A.

Definirea problemei.........................................................................................................................3

B.

Descrierea datelor............................................................................................................................3

C.

Interpretare R...................................................................................................................................3

V.

Arbori de clasificare............................................................................................................................3
A.

Definirea problemei.........................................................................................................................3

B.

Descrierea datelor............................................................................................................................3

C.

Interpretare R...................................................................................................................................3

VI.

Popensity Score Matching...............................................................................................................4

A.

Definirea problemei.........................................................................................................................4

B.

Descrierea datelor............................................................................................................................4

C.

Interpretare R...................................................................................................................................4

Anex..........................................................................................................................................................4
Anexa I - ACP.........................................................................................................................................4
Anexa II - Tehnici de Clusterizare...........................................................................................................4
Anexa III Analiza corespondenelor.....................................................................................................4
Anexa IV - Analiza conjoint...................................................................................................................4
Anexa V Arbori de clasificare...............................................................................................................4
Anexa VI Propensity Score Matching...................................................................................................4
1

Proiect Data Mining

I.
A.

Tehnici de reducere a dimensionalitii - Analiza Componentelor


Principale
Definirea problemei i descrierea datelor

Baza de date Clieni conine caracteristici privind venitul, vrsta, vechimea nregistrat n
luni i valoarea creditului a 100 de clieni.
Prin Analiza Componentelor Principale ne propunem s reducem dimensionalitatea
datelor de la numrul de patru indicatori, la un numr mai mic de dimensiuni care sunt o
combinaie liniar a acestor indicatori i care vor descrie baza de date n procent de 80-90%.
Evident, exist o anumit pierdere de informaie, ns structura prezent n date poate fi
identificat mult mai clar, reuind astfel o analiz a datelor mult mai eficient.

Proiect Data Mining


B.

Interpretare R

Metoda 1 ACP bazat pe matricea de corelaie


Primul pas n Analiza Componentelor Principale este de a determina valorile proprii ale
matricii de corelaie.
Valorile proprii pentru fiecare indicator sunt urmtoarele:
[1] 3.489936814 0.468282570 0.039786722 0.001993895
Al doilea pas este de a genera vectorii proprii asociai care ne ajut n crearea
componentelor principale:
[,1]
[,2]
[,3]
[,4]
[1,] -0.5267959 -0.2212742 -0.43716375 0.694558587
[2,] -0.5271108 -0.2221261 -0.39474882 -0.719018488
[3,] -0.5180079 -0.2835424 0.80664224 0.024489877
[4,] -0.4198905 0.9062568 0.04888268 0.001014109
> acp$loadings
Loadings:
Comp.1 Comp.2 Comp.3 Comp.4
Venit 0.527 -0.221 -0.437 0.695
Vechime 0.527 -0.222 -0.395 -0.719
Vrsta 0.518 -0.284 0.807
Credit 0.420 0.906
Comp.1 Comp.2 Comp.3 Comp.4
SS loadings
1.00 1.00 1.00 1.00
Proportion Var 0.25 0.25 0.25 0.25
Cumulative Var 0.25 0.50 0.75 1.00
Procentul de informaie preluat de vectorii proprii este de 0.8724842, nsemnnd c 87,24% din
informaia din baza de dat poate fi redat prin ACP, fiind un procent favorabil acestei tehnici.
Pe baza vectorilor proprii generai anterior se va genera combina ia liniar a indicatorilor:
C1=0.527*Venit + 0.527*Vechime + 0.518*Varsta + 0.420*Credit
C2=0.221*Venit + 0.222*Vechime + 0.283*Varsta + 0,906*Credit
Ultimele dou componente nu vor fi luate n considerare doarece unele valori sunt foarte mici,
aproape egale cu 0 (spre ex 0,04 pentru componenta 3, respectiv 0,001 pentru cea de-a 4-a component).

Vom analiza n continuare ct informaie preia componenta a doua:


> e$values[2]/sum(e$values)
[1] 0.1170706

Observm astfel c cea de-a doua component preia doar 11,7% din informa ie, a adar
presupunem c se va putea renuna i la aceast component, prima component fiind suficient
pentru a reda o informaie corect i suficient a datelor.
3

Proiect Data Mining


Abaterea standard folosit la standardizare este:
> acp$scale
Venit Vechime Vrsta Credit
4.830462 58.700276 4.386342 14.063477
Media folosit la standardizare
acp$center
Venit Vechime Vrsta Credit
7.4827 96.2400 27.0000 27.7566
Matricea componentelor principale exemplific mai jos ct contribuie fiecare caracteristic

la fiecare component pricipal:

Norul de puncte reprezentnd primele 2 componente principale este urmtorul:

Proiect Data Mining

Proiect Data Mining

Vom calcula n continuare matricea de corelaie a indicatorilor i componentelor


princeipale:

Analiznd matricea de corelaie, putem observa c prima component preia informa ie


din toate variabilele, astfel se ntrete ideea c ar trebui s pstrm doar prima component n
analiza ACP.

Pentru a selecta doar rndurile 5-8 din primele 4 coloane a matricii de corela ie, vom
folosi

cor(tot)[5:8,1:4]

Venit Vechime
Vrsta
Credit
Comp.1 0.98412714 0.98471534 0.967709936 7.844130e-01
Comp.2 -0.15142050 -0.15200347 -0.194031414 6.201622e-01
Comp.3 -0.08719935 -0.07873900 0.160897776 9.750437e-03
Comp.4 0.03101416 -0.03210637 0.001093548 4.528306e-05
Comparm coeficientul primelor dou componente:
6

Proiect Data Mining


> cor(tot)[5:8,1:4][1,4] > cor(tot)[5:8,1:4][2,4]
[1] TRUE
Avnd n vedere ca coeficientul componentei 1 este mai mare dect cel al componentei
2, tindem n continuare s nu mai lum n considerare i componenta 2, dup cum s-a putut
presupune mai devreme.

Cu ajutorul screeplot(acp, type="lines") putem observa o scdere brusc a valorii proprii


dup pasul 1, astfel toate criteriile duc ctre faptul c n analiza ACP va rmne doar prima
component.

Metoda 2 ACP bazat pe matrici de ncruciate


Aceast metod este metoda de reducere a dimensionalitii propus de Mouchard-Simar
care are la baz analiza pe matrici ncruciate.
Primul pas n aceast metod este mprirea variabilelor la medie, adic standardizarea
acestora.
Avem n acest caz:
Valori proprii
[1] 482.96776495 15.92151083 8.21902054 0.07833785
Vectori proprii
> vp$vectors
[,1]
[,2]
[,3]
[,4]
[1,] 0.5337963 0.5001730 0.068220440 0.6784058014
[2,] 0.5271507 0.4303710 0.006149907 -0.7327039627
7

Proiect Data Mining


[3,] 0.4425014 -0.4390180 -0.780093263 0.0539465109
[4,] 0.4912902 -0.6098123 0.621902445 0.0004956223

Calcularea ineriei
[1] 0.9522486
Aadar se va pastra 95,22% din informaie, astfel metoda ACP bazat pe matrici ncruciate
este mult mai bun n acest caz dect cea bazat pe matrici de corelaie.

II.
A.

Tehnici de clusterizare
Definirea problemei i descrierea datelor

Aceast tehnic se va folosi tot pe baza de date Clieni folosit n analiza ACP. n
algoritmul de clusterizare de tip ierarhic nu se cunoate aprior numrul de clase n care vor fi
mprii clienii din baza de date. Scopul acestei tehnici este s fie mpr i i clien ii n clase ct
mai omogene.

B.

Interpretare R

Clasificarea obiectelor n clase se face astfel nct s se asigure o variabilitate minim n


interiorul claselor i o variabilitate maxim ntre clase. Astfel, vom calcula iniial matricea
distanelor euclidiene transformat:

Aplicarea metodei centroidului pe datele noastre, folosind dendograma arat astfel:


8

Proiect Data Mining

Aplicnd metoda Ward vom obine urmtoarea dendogram a clasificrii obiectelor:

Proiect Data Mining

n cazul acesta, observm la metoda Ward o distribuire a obiectele mult mai omogen
dect n cazul metodei centroidului.
Pe baza dendogramelor prezentate mai sus, am ales s mprim clienii n 3 clase:
groups3
1 2 3
50 30 20

n prima clas s-au dus 50 de clieni, n cea de-a doua clas 30, iar n ultima clas 20 de
clieni.
Concatennd valorile i apartenena la grup pentru cele 3 clase, vom observa media pe
fiecare din ele:
Clasa1:[1] 3.737
Clasa2:[1] 8.555
Clasa3:[1] 15.2385
Graficul Silhouette n acest caz va arta astfel:

10

Proiect Data Mining

Trebuie sa avem cat mai putine obiecte pe partea stanga


Observm obiecte clasate sub 0.

Pentru Metoda k-means, cunoscut i sub denumirea de Algoritm de partiionare, graficul


Silhouette este urmtorul:

11

Proiect Data Mining

Observm la metoda k-means c un singur obiect este negativ, astfel putem deduce c
este o soluie foarte bun.
De asemenea, Average Silhouette Width = 0.49 este mai mare fa de 0.48 de la metoda
ierarhic.

12

Proiect Data Mining


III.

A.

Analiza corespondenelor

Definirea problemei i descrierea datelor

Pentru analiza corespondenelor s-a realizat un chestionar privind preferinele turistice ale
respondenilor dorind s stabilim un tipar prin care respondenii i aleg cltoriile.
Chestionarul cuprinde 8 ntrebri legate de regiunea de provenien a respondentului,
regiunea n care prefer s cltoreasc, cu cine, care este valoarea venitului lunar n prezent, ct
de des respondentul a cltorit n ar n ultimii doi ani, care a fost gradul acestora de satisfac ie,
care este durata cltoriilor i care sunt primele 3 cele mai importante criterii ce influen eaz
alegerea cltoriei.

B.

Interpretare R
Pentru fiecare categorie n parte, vom stabili ct de des se merge n vacan:

Frecvena
CategV Foarte frecvent Foarte rar Frecvent Rar
1
3
1
4
2
2
0
1
11
2
Stabilim pe ficare categorie, durata vacanelor
> table(CategV,Durata)
Durata
CategV Mai mult de un weekend Un weekend
1
7
3
2
6
8
Analiza de coresponden dintre Venit i frecvena cltoriilor
Principal inertias (eigenvalues):
1
2
3
Value
0.851796 0.395252 0.225174
Percentage 57.86% 26.85% 15.29%
Rows:
1100
1200
1500
1600 2000
2100
Mass 0.041667 0.041667 0.083333 0.041667 0.083333 0.041667
ChiDist 0.774597 2.645751 1.549193 2.645751 1.581139 0.774597
Inertia 0.025000 0.291667 0.200000 0.291667 0.208333 0.025000
Dim. 1 -0.535372 2.740005 -0.618577 2.740005 1.521769 -0.535372
13

Proiect Data Mining


Dim. 2 -0.108969 -1.112627 -1.735906 -1.112627 0.905949 -0.108969
2200
2500
2600
2800
3000
3500
Mass 0.083333 0.083333 0.125000 0.041667 0.166667 0.083333
ChiDist 0.948683 0.774597 0.614636 0.774597 0.806226 0.774597
Inertia 0.075000 0.050000 0.047222 0.025000 0.108333 0.050000
Dim. 1 -0.115920 -0.535372 -0.255737 -0.535372 -0.576975 -0.535372
Dim. 2 1.407778 -0.108969 0.902195 -0.108969 -0.922437 -0.108969
4000
Mass 0.083333
ChiDist 0.948683
Inertia 0.075000
Dim. 1 -0.115920
Dim. 2 1.407778
Columns:
Foarte frecvent Foarte rar Frecvent
Rar
Mass
0.125000 0.083333 0.625000 0.166667
ChiDist
2.380476 1.870829 0.537484 1.322876
Inertia
0.708333 0.291667 0.180556 0.291667
Dim. 1
2.528827 -0.647695 -0.494110 0.280139
Dim. 2
-0.699498 -2.114189 -0.068508 1.838622

Analiza de coresponden dintre locaia de porvenien i unde dorim s cltorim:


Principal inertias (eigenvalues):
1
2
3
4
Value
0.356305 0.269137 0.133031 0.006805
Percentage 46.56% 35.17% 17.38% 0.89%
Rows:
Bucuresti - Ilfov Nord - Est
Sud Sud - Est Sud - Vest
Mass
0.208333 0.125000 0.333333 0.250000 0.083333
ChiDist
0.663325 1.503083 0.629153 0.509175 1.527525
Inertia
0.091667 0.282407 0.131944 0.064815 0.194444
Dim. 1
-0.901220 2.079945 0.271116 -0.056333 -1.782332
Dim. 2
-0.449042 -1.632953 0.954566 0.503845 -1.757764
Columns:
Centru Nord - Vest
Sud Sud - Est Sud - vest
Mass 0.750000 0.083333 0.041667 0.041667 0.083333
ChiDist 0.177430 1.095445 1.414214 2.645751 1.788854
Inertia 0.023611 0.100000 0.083333 0.291667 0.266667
Dim. 1 0.120066 -0.802089 0.454198 3.484505 -2.247860
Dim. 2 0.303101 0.052819 1.840005 -3.147653 -2.126902

14

Proiect Data Mining


Summary:
Principal inertias (eigenvalues):
dim
1
2
3
4

value
% cum%
0.356305 46.6 46.6
0.269137 35.2 81.7
0.133031 17.4 99.1
0.006805 0.9 100.0
-------- ----Total: 0.765278 100.0

scree plot
************
*********
****

Rows:
name mass qlt inr k=1 cor ctr k=2 cor ctr
1 | BcrI | 208 781 120 | -538 658 169 | -233 123 42 |
2 | NrdE | 125 1000 369 | 1242 682 541 | -847 318 333 |
3 | Sud | 333 686 172 | 162 66 25 | 495 620 304 |
4 | SdEs | 250 268 85 | -34 4 1 | 261 264 63 |
5 | SdVs | 83 841 254 | -1064 485 265 | -912 356 257 |
Columns:
name mass qlt inr k=1 cor ctr k=2 cor ctr
1 | Cntr | 750 949 31 | 72 163 11 | 157 785 69 |
2 | NrdV | 83 192 131 | -479 191 54 | 27 1 0 |
3 | Sud | 42 492 109 | 271 37 9 | 955 456 141 |
4 | SdEs | 42 999 381 | 2080 618 506 | -1633 381 413 |
5 | Sdvs | 83 943 348 | -1342 563 421 | -1103 380 377 |
Albastru- de unde vin si rosu unde ma duc

15

Proiect Data Mining

Print AC
Principal inertias (eigenvalues):
1
2
3
4
Value
0.356305 0.269137 0.133031 0.006805
Percentage 46.56% 35.17% 17.38% 0.89%
Rows:
Bucuresti - Ilfov Nord - Est
Sud Sud - Est Sud - Vest
Mass
0.208333 0.125000 0.333333 0.250000 0.083333
ChiDist
0.663325 1.503083 0.629153 0.509175 1.527525
Inertia
0.091667 0.282407 0.131944 0.064815 0.194444
Dim. 1
-0.901220 2.079945 0.271116 -0.056333 -1.782332
Dim. 2
-0.449042 -1.632953 0.954566 0.503845 -1.757764
Columns:
Centru Nord - Vest
Sud Sud - Est Sud - vest
Mass 0.750000 0.083333 0.041667 0.041667 0.083333
16

Proiect Data Mining


ChiDist 0.177430 1.095445 1.414214 2.645751
Inertia 0.023611 0.100000 0.083333 0.291667
Dim. 1 0.120066 -0.802089 0.454198 3.484505
Dim. 2 0.303101 0.052819 1.840005 -3.147653

1.788854
0.266667
-2.247860
-2.126902

#Variabila cor pt centru 0.785(ne uitam la columns) - reprezentarea acestui punct este explicat
mai degraba prin a 2 a dimensiune
#ctr = contributie= cu cat contribuie acea celula din tabel la inertie
#din summary - grafic, pe randuri si coloane - interpretare practica

IV.
A.

Analiza de tip conjoint

Definirea problemei i descrierea datelor

n continuarea rspunsurilor din chestionarul despre care menionm la analiza


anterioar, s-au ales cele mai importante variabile categoriale pe care le-am pstrat n continuare,
acestea fiind definitorii pentru profilul nostru. Cu variabilele rmase, am generat toate situa iile
posibile, astfel am obinut sarcinile care ne vor ajuta s facem analiza.

B.

Interpretare R

Criteriile dup care fiecare tnr i va alege vacana n Romnia genereaz 8 profile
posibile:
locatie obiective cazare
1
1
1
1
2
2
1
1
3
1
2
1
4
2
2
1
5
1
1
2
6
2
1
2
7
1
2
2
8
2
2
2
Metoda de generare a matricii cunoscut ca metoda rotirii se bazeaz pe urmtorul
raionament: vom avea o urncu profile care va fi folosit pentru a extrage aleator prima
alternativ din fiecare ntrebare/sarcin. Acestea provin dintr-un vector de profile ortogonal.
Cu ajutorul metodei de rotation am obinut urmtoarele profile:
Choice sets:
alternative 1 in each choice set
BLOCK QES ALT locatie obiective cazare
5 1 1 1 munte turistice pensiune
7 1 2 1 munte altele pensiune
1 1 3 1 munte turistice hotel
17

Proiect Data Mining


3
6
2
4
8

1
1
1
1
1

4
5
6
7
8

1 munte altele hotel


1 mare turistice pensiune
1 mare turistice hotel
1 mare altele hotel
1 mare altele pensiune

alternative 2 in each choice set


BLOCK QES ALT locatie obiective cazare
5 1 1 2 mare altele hotel
7 1 2 2 mare turistice hotel
1 1 3 2 mare altele pensiune
3 1 4 2 mare turistice pensiune
6 1 5 2 munte altele hotel
2 1 6 2 munte altele pensiune
4 1 7 2 munte turistice pensiune
8 1 8 2 munte turistice hotel
Candidate design:
locatie obiective cazare
1
1
1
1
2
2
1
1
3
1
2
1
4
2
2
1
5
1
1
2
6
2
1
2
7
1
2
2
8
2
2
2
Design information:
number of blocks = 1
number of questions per block = 8
number of alternatives per choice set = 2
number of attributes per alternative = 3
Astfel, am mprit ntrebrile ntr-un singur bloc. Fiecare respondent va alege astfel
variabile categoriale, ntre 2 profile, ajungndu-se n total la 8 ntrebri.
Matricea pe baz creia vom face ntrebrile este urmtoarea:
desmat
BLOCK QES ALT ASC mare altele pensiune
1
1 1 1 1 0
0
1
2
1 1 2 0 1
1
0
3
1 2 1 1 0
1
1
4
1 2 2 0 1
0
0
5
1 3 1 1 0
0
0
18

Proiect Data Mining


6
7
8
9
10
11
12
13
14
15
16

1
1
1
1
1
1
1
1
1
1
1

3
4
4
5
5
6
6
7
7
8
8

2
1
2
1
2
1
2
1
2
1
2

0
1
0
1
0
1
0
1
0
1
0

1
0
1
1
0
1
0
1
0
1
0

1
1
0
0
1
0
1
1
0
1
0

1
0
1
1
0
0
1
0
1
1
0

Generarea chestionarului:
Block 1
Question 1
alt.1
alt.2
locatie "munte" "mare"
obiective "turistice" "altele"
cazare "pensiune" "hotel"
Question 2
alt.1
alt.2
locatie "munte" "mare"
obiective "altele" "turistice"
cazare "pensiune" "hotel"
Question 3
alt.1
alt.2
locatie "munte" "mare"
obiective "turistice" "altele"
cazare "hotel" "pensiune"
Question 4
alt.1 alt.2
locatie "munte" "mare"
obiective "altele" "turistice"
cazare "hotel" "pensiune"
Question 5
alt.1
alt.2
locatie "mare"
"munte"
obiective "turistice" "altele"
cazare "pensiune" "hotel"
Question 6
19

Proiect Data Mining


alt.1
alt.2
locatie "mare"
"munte"
obiective "turistice" "altele"
cazare "hotel" "pensiune"
Question 7
alt.1 alt.2
locatie "mare" "munte"
obiective "altele" "turistice"
cazare "hotel" "pensiune"
Question 8
alt.1
alt.2
locatie "mare" "munte"
obiective "altele" "turistice"
cazare "pensiune" "hotel"
Cea de-a doua alternativ a fiecrei sarcini, denumit Metoda Mix and Match, se obine
adugnd o constant la fiecare nivel al atributelor din prima alternativ. n cadrul acestei
abordri se populeaz i a dou urn prin aceeai metod de adugare a unei constante. n acest
caz, o pereche de profile ce va constitui o sarcin din cadrul unui bloc, se va ob ine extrgnd
aleator un profil din prima urn i unul din cea ce-a doua.
n cazul acesta vom avea:
Generarea profilelor
Choice sets:
alternative 1 in each choice set
BLOCK QES ALT locatie obiective cazare
1 1 1 1 munte turistice pensiune
2 1 2 1 mare turistice pensiune
3 1 3 1 munte altele pensiune
4 1 4 1 mare altele pensiune
5 1 5 1 mare turistice hotel
6 1 6 1 munte altele hotel
7 1 7 1 mare altele hotel
8 1 8 1 munte turistice hotel
alternative 2 in each choice set
BLOCK QES ALT locatie obiective cazare
1 1 1 2 mare altele hotel
2 1 2 2 mare turistice hotel
3 1 3 2 munte altele hotel
4 1 4 2 mare turistice pensiune
5 1 5 2 mare altele pensiune
6 1 6 2 munte turistice hotel
20

Proiect Data Mining


7
8

1 7 2 munte altele pensiune


1 8 2 munte turistice pensiune

Candidate design:
locatie obiective cazare
1
1
1
1
2
2
1
1
3
1
2
1
4
2
2
1
5
1
1
2
6
2
1
2
7
1
2
2
8
2
2
2
Design information:
number of blocks = 1
number of questions per block = 8
number of alternatives per choice set = 2
number of attributes per alternative = 3
Matricea pe baza careia vom face intrebarile
BLOCK QES ALT ASC mare altele pensiune
1
1 1 1 1 0
0
1
2
1 1 2 0 1
1
0
3
1 2 1 1 1
0
1
4
1 2 2 0 1
0
0
5
1 3 1 1 0
1
1
6
1 3 2 0 0
1
0
7
1 4 1 1 1
1
1
8
1 4 2 0 1
0
1
9
1 5 1 1 1
0
0
10 1 5 2 0 1
1
1
11 1 6 1 1 0
1
0
12 1 6 2 0 0
0
0
13 1 7 1 1 1
1
0
14 1 7 2 0 0
1
1
15 1 8 1 1 0
0
0
16 1 8 2 0 0
0
1
Crearea chestionarului
Block 1
Question 1
alt.1
alt.2
locatie "munte" "mare"
obiective "turistice" "altele"
21

Proiect Data Mining


cazare

"pensiune" "hotel"

Question 2
alt.1
alt.2
locatie "mare"
"mare"
obiective "turistice" "turistice"
cazare "pensiune" "hotel"
Question 3
alt.1
alt.2
locatie "munte" "munte"
obiective "altele" "altele"
cazare "pensiune" "hotel"
Question 4
alt.1
alt.2
locatie "mare" "mare"
obiective "altele" "turistice"
cazare "pensiune" "pensiune"
Question 5
alt.1
alt.2
locatie "mare"
"mare"
obiective "turistice" "altele"
cazare "hotel" "pensiune"
Question 6
alt.1 alt.2
locatie "munte" "munte"
obiective "altele" "turistice"
cazare "hotel" "hotel"
Question 7
alt.1 alt.2
locatie "mare" "munte"
obiective "altele" "altele"
cazare "hotel" "pensiune"
Question 8
alt.1
alt.2
locatie "munte" "munte"
obiective "turistice" "turistice"
cazare "hotel" "pensiune"
Matricea raspunsurilor

22

Proiect Data Mining


ID Bloc
Venit Regiune Companie Sex Q1 Q2 Q3 Q4 Q5 Q6 Q7 Q8
1 1 1 Peste 2500 RON
BI In cuplu M 1 1 1 1 2 1 1 2
2 2 1 Peste 2500 RON
NE In cuplu F 1 2 1 2 1 2 1 2
3 3 1 Peste 2500 RON
BI Cu prietenii F 2 2 1 1 2 2 1 2
4 4 1 Sub 2500 RON
SE Cu prietenii F 2 1 1 1 2 2 2 2
5 5 1 Peste 2500 RON
NE Cu prietenii F 1 2 2 1 1 1 2 1
6 6 1 Sub 2500 RON Sud Cu prietenii F 2 2 2 2 1 2 1 1
7 7 1 Peste 2500 RON
NV In cuplu F 1 2 2 2 1 2 2 1
8 8 1 Peste 2500 RON Sud In cuplu F 2 2 1 2 1 2 1 1
9 9 1 Peste 2500 RON
SE Cu prietenii F 1 2 2 1 1 2 2 1
10 10 1 Sub 2500 RON
SV Cu prietenii F 1 2 2 1 1 2 1 2
11 11 1 Peste 2500 RON Sud Cu prietenii F 2 2 1 1 1 1 1 1
12 12 1 Peste 2500 RON Sud In cuplu M 1 1 1 2 1 2 2 2
13 13 1 Peste 2500 RON Sud In cuplu M 2 2 2 1 2 1 1 1
14 14 1 Peste 2500 RON
SE Cu prietenii M 1 2 1 1 1 2 2 1
15 15 1 Peste 2500 RON
BI Cu prietenii F 1 2 2 2 1 2 2 1
16 16 1 Peste 2500 RON Centru Cu prietenii F 1 2 2 2 1 2 1 1
17 17 1 Sub 2500 RON Sud Cu prietenii F 1 1 2 2 1 2 2 2
18 18 1 Peste 2500 RON Sud In cuplu F 1 2 1 2 1 2 1 1
bla bla ceva
Call:
coxph(formula = Surv(rep(1, 288L), RES) ~ ASC + mare + altele +
pensiune + strata(STR), data = dataset1, method = "exact")
n= 288, number of events= 144
coef exp(coef) se(coef)
z Pr(>|z|)
ASC
0.04226 1.04316 0.17579 0.240 0.8100
mare -0.44751 0.63922 0.46483 -0.963 0.3357
altele -0.65919 0.51727 0.27918 -2.361 0.0182 *
pensiune -0.54619 0.57915 0.25864 -2.112 0.0347 *
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
exp(coef) exp(-coef) lower .95 upper .95
ASC
1.0432 0.9586 0.7391 1.4723
mare
0.6392 1.5644 0.2570 1.5897
altele
0.5173 1.9332 0.2993 0.8940
pensiune 0.5792 1.7267 0.3488 0.9615
Rsquare= 0.049 (max possible= 0.5 )
Likelihood ratio test= 14.47 on 4 df, p=0.005926
Wald test
= 13.14 on 4 df, p=0.01063
Score (logrank) test = 14.01 on 4 df, p=0.007261
23

Proiect Data Mining


# semnificative sunt ultimile 2: altele si pensiune.
Dup cum se poate observa, semnificative sunt ultimele 2 variante alele i pensiune.
# interpretam prin faptul ca nu conteaza munte sau munte ci obiectivul turistic si modalitatea de
cazare.
De asemenea, putem concluziona faptul c pentru tinerii respondeni nu conteaz att de
mult varianta de munte sau mare n alegerea locaiei pentru concediu, ci mai degrab, obiectivele
turistice i modalitatea de cazare.
#ne uitam la exp(coef)
# probabilitatea de a selecta o vacanta cu alte obiective scade fata de cele care am obiective
turistice
# la fel si cu pensiunea vs hotel - este mai redusa
#Sa punem linii din matricea Data set1 si sa descriem datele
#Luam primele 8 randuri
#Atentie la var STR
# Aflam utilitatile estimate
#RES este variabila dependenta
# Ne uitam la p value sa vedem daca coef este semnificativ
#EXp(coef() - Altele= prob de a selecvta o vacanta cu alte ob decat cele turistice scade cu 52%
fata de cele care au obiective
# = O alternativ de petrecere a vacanei ntr-o locaie cu pensiune este mai mic dect la hotel
scade cu 44%
#tre sa avem matricile generate + output interpretat
#Anexa cod creat

V.
A.

Arbori de clasificare
Definirea problemei i descrierea datelor

Datele folosite pentru acest exerciiu sunt din baza de date Arbore care conine date
despre datorii dac sunt sau nu, care este suma, numrul i lunile.
Aceast clasificare este una supervizat, adic se cunoate apropri apartanena la clase.
Scopul final al acestei tehnici este s mpart corect ct mai multe dintre obiecte n clase ct mai
pure.

24

Proiect Data Mining


B.

Interpretare R

Pentru aceast clasificare vom avea n vedere la stabilirea frunzelor dou componente
pricipale: parametrul de complexitate (CP), adic ct de impur poate s fie un nod i criteriul de
oprire, adic s stabilete un minim de obiecte care s se gseasc ntr-o clas.
# puritatea nodului
# putem sa mergem cu arborele ft mult dar trebuie sa avem in vedere, uitandu-ne la CP si MIN,
unde ne oprim. Ne vom opri in momentul in care impuritatea nodului scade cu mai putin decat
valoarea CP
#ultimul nod (terminal) se numesc frunze

Prima ramificare se face dup datorii, dac clienii au sau nu:


y
absent present
64
17
Afiarea rezultatelor arborelui de clasificare se realizeaz astfel:
Classification tree:
rpart(formula = y ~ suma + numar + luni, data = arbore, method = "class")
Variables actually used in tree construction:
[1] luni suma
Root node error: 17/81 = 0.20988
n= 81
CP nsplit rel error xerror xstd
1 0.176471
0 1.00000 1.0000 0.21559
2 0.019608
1 0.82353 1.1765 0.22829
3 0.010000
4 0.76471 1.1765 0.22829
Validare incrucisata
Call:
rpart(formula = y ~ suma + numar + luni, data = arbore, method = "class")
n= 81
CP nsplit rel error xerror
xstd
1 0.17647059
0 1.0000000 1.000000 0.2155872
2 0.01960784
1 0.8235294 1.176471 0.2282908
3 0.01000000
4 0.7647059 1.176471 0.2282908
25

Proiect Data Mining


Variable importance
luni suma numar
64 24 12
Node number 1: 81 observations, complexity param=0.1764706
predicted class=absent expected loss=0.2098765 P(node) =1
class counts: 64 17
probabilities: 0.790 0.210
left son=2 (62 obs) right son=3 (19 obs)
Primary splits:
luni < 8.5 to the right, improve=6.762330, (0 missing)
numar < 5.5 to the left, improve=2.866795, (0 missing)
suma < 39.5 to the left, improve=2.250212, (0 missing)
Surrogate splits:
numar < 6.5 to the left, agree=0.802, adj=0.158, (0 split)
Node number 2: 62 observations, complexity param=0.01960784
predicted class=absent expected loss=0.09677419 P(node) =0.7654321
class counts: 56 6
probabilities: 0.903 0.097
left son=4 (29 obs) right son=5 (33 obs)
Primary splits:
luni < 14.5 to the right, improve=1.0205280, (0 missing)
suma < 55 to the left, improve=0.6848635, (0 missing)
numar < 4.5 to the left, improve=0.2975332, (0 missing)
Surrogate splits:
numar < 3.5 to the left, agree=0.645, adj=0.241, (0 split)
suma < 16 to the left, agree=0.597, adj=0.138, (0 split)
Node number 3: 19 observations
predicted class=present expected loss=0.4210526 P(node) =0.2345679
class counts: 8 11
probabilities: 0.421 0.579
Node number 4: 29 observations
predicted class=absent expected loss=0 P(node) =0.3580247
class counts: 29 0
probabilities: 1.000 0.000
Node number 5: 33 observations, complexity param=0.01960784
predicted class=absent expected loss=0.1818182 P(node) =0.4074074
class counts: 27 6
probabilities: 0.818 0.182
left son=10 (12 obs) right son=11 (21 obs)
Primary splits:
suma < 55 to the left, improve=1.2467530, (0 missing)
luni < 12.5 to the right, improve=0.2887701, (0 missing)
numar < 3.5 to the right, improve=0.1753247, (0 missing)
Surrogate splits:
26

Proiect Data Mining


luni < 9.5 to the left, agree=0.758, adj=0.333, (0 split)
numar < 5.5 to the right, agree=0.697, adj=0.167, (0 split)
Node number 10: 12 observations
predicted class=absent expected loss=0 P(node) =0.1481481
class counts: 12 0
probabilities: 1.000 0.000
Node number 11: 21 observations, complexity param=0.01960784
predicted class=absent expected loss=0.2857143 P(node) =0.2592593
class counts: 15 6
probabilities: 0.714 0.286
left son=22 (14 obs) right son=23 (7 obs)
Primary splits:
suma < 111 to the right, improve=1.71428600, (0 missing)
luni < 12.5 to the right, improve=0.79365080, (0 missing)
numar < 4.5 to the left, improve=0.07142857, (0 missing)
Node number 22: 14 observations
predicted class=absent expected loss=0.1428571 P(node) =0.1728395
class counts: 12 2
probabilities: 0.857 0.143
Node number 23: 7 observations
predicted class=present expected loss=0.4285714 P(node) =0.08641975
class counts: 3 4
probabilities: 0.429 0.571
Reprezentare grafica

27

Proiect Data Mining

#primul test identificat a fost daca numarul de luni >= cu 8.5 sau <
#pentru cei <8.5 : 8 nu au datorii/11 au
#urmatorul test se refera tot la luni: >= 14.5
#variabila surogat = care da aceeasi solutie

Fit cu control
Stabilim un cp=0.096
detalierea rezultatelor
Call:
rpart(formula = y ~ suma + numar + luni, data = arbore, method = "class",
control = rpart.control(minsplit = 10, cp = 0.096))
n= 81
28

Proiect Data Mining


CP nsplit rel error xerror
xstd
1 0.1764706
0 1.0000000 1.000000 0.2155872
2 0.1176471
1 0.8235294 1.352941 0.2387187
3 0.0960000
3 0.5882353 1.352941 0.2387187
Variable importance
luni numar suma
55 26 18
Node number 1: 81 observations, complexity param=0.1764706
predicted class=absent expected loss=0.2098765 P(node) =1
class counts: 64 17
probabilities: 0.790 0.210
left son=2 (62 obs) right son=3 (19 obs)
Primary splits:
luni < 8.5 to the right, improve=6.762330, (0 missing)
numar < 5.5 to the left, improve=2.866795, (0 missing)
suma < 39.5 to the left, improve=2.250212, (0 missing)
Surrogate splits:
numar < 6.5 to the left, agree=0.802, adj=0.158, (0 split)
Node number 2: 62 observations
predicted class=absent expected loss=0.09677419 P(node) =0.7654321
class counts: 56 6
probabilities: 0.903 0.097
Node number 3: 19 observations, complexity param=0.1176471
predicted class=present expected loss=0.4210526 P(node) =0.2345679
class counts: 8 11
probabilities: 0.421 0.579
left son=6 (10 obs) right son=7 (9 obs)
Primary splits:
suma < 93 to the left, improve=1.352047, (0 missing)
luni < 4 to the left, improve=1.352047, (0 missing)
numar < 4.5 to the left, improve=1.149522, (0 missing)
Surrogate splits:
luni < 2.5 to the left, agree=0.737, adj=0.444, (0 split)
numar < 5.5 to the left, agree=0.632, adj=0.222, (0 split)
Node number 6: 10 observations, complexity param=0.1176471
predicted class=absent expected loss=0.4 P(node) =0.1234568
class counts: 6 4
probabilities: 0.600 0.400
left son=12 (4 obs) right son=13 (6 obs)
Primary splits:
numar < 4.5 to the left, improve=2.1333330, (0 missing)
luni < 5.5 to the left, improve=0.6095238, (0 missing)
suma < 30 to the left, improve=0.3000000, (0 missing)
Surrogate splits:
suma < 56.5 to the right, agree=0.8, adj=0.5, (0 split)
29

Proiect Data Mining


Node number 7: 9 observations
predicted class=present expected loss=0.2222222 P(node) =0.1111111
class counts: 2 7
probabilities: 0.222 0.778
Node number 12: 4 observations
predicted class=absent expected loss=0 P(node) =0.04938272
class counts: 4 0
probabilities: 1.000 0.000
Node number 13: 6 observations
predicted class=present expected loss=0.3333333 P(node) =0.07407407
class counts: 2 4
probabilities: 0.333 0.667
Arborele de clasificare in acest caz
Classification tree:
rpart(formula = y ~ suma + numar + luni, data = arbore, method = "class",
control = rpart.control(minsplit = 10, cp = 0.096))
Variables actually used in tree construction:
[1] luni numar suma
Root node error: 17/81 = 0.20988
n= 81
CP nsplit rel error xerror xstd
1 0.17647
0 1.00000 1.0000 0.21559
2 0.11765
1 0.82353 1.3529 0.23872
3 0.09600
3 0.58824 1.3529 0.23872
Reprezentare grafica

30

Proiect Data Mining

#graficul arata valoarea parametrului de complexitate


# vedem in grafic ca incepand cu valoarea 0.096 nu este o pierdere mare in eroare deci putem
Prune - stabilim din prima puritatea
#functia prune - taie arborele.
# pe baza datelor obtinute anterior , introducem in functia prune p=0.096
# fie folosim prune, fie refacem fit-ul de mai sus cu aceste valori
Reprezentare grafica:

31

Proiect Data Mining

Vedem daca au fost repartizati corect:


#vedem cati au fost clasificati corect si gresit!
y
absent present
absent
60
4
present
6
11
Reprezentare grafica:

32

Proiect Data Mining

VI.
A.

Popensity Score Matching

Definirea problemei i descrierea datelor

Se folosete pentru a afla efectul pe care l are un anumit tratament n media asupra
oricrui obiect care nu a suferit tratamentul. Procedura prin care acest lucru se realizeaz este
33

Proiect Data Mining


urmtoarea: fiecare unitate tratat este comparat cu un numr de uniti netratate similare celor
din primul grup din punct de vedere al celorlalte variabile, astfel se estimeaz un efect mediu pe
baza mediei diferenelor nregistrat de variabila dependent ntre unitile tratate i cele
netratate.
Scopul nostru este s estimm efectul mediu pe care un tratament (variabil binar) l are
asupra unei variabile rezultat.

B.

Interpretare R

#Tratament => 0 - Control; 1 - Tratament


#y {categorial, numerical}
Histograma

Transformarea variabilelor noastre in variabile categoriale


Tr
0 1
260 185
260 de persoane vor fi in grupul de control si nu vor participa in programul de formare si 185 in
grupul de tratament care au fost incluse in programul de formare.

34

Proiect Data Mining


Variabila head?!?!?
> head(Tr)
[1] 1 1 1 1 1 1
> mean(y[Tr==0]) #media veniturilor celor care nu au participat
[1] 4554.802
> mean(y[Tr==1]) #media veniturilor celor care au participat
[1] 6349.145
#Matching - caut pt variabila din grumul; de control un individ care se aseamana cu cel pentru
care vreau sa aplic tratamentul
# se pune lista de variabile x pe baza carora facem matchuire
# caut din fiecare individ din grupa de control si unul din grupa de tratament similar
Performanta modelului logistic
Call:
glm(formula = Tr ~ age + educ + black + hisp + married + re74 +
nodegr + re75, family = binomial, data = lalonde)
Deviance Residuals:
Min
1Q Median
3Q
Max
-1.4358 -0.9904 -0.9071 1.2825 1.6946
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.178e+00 1.056e+00 1.115 0.26474
age
4.698e-03 1.433e-02 0.328 0.74297
educ
-7.124e-02 7.173e-02 -0.993 0.32061
black
-2.247e-01 3.655e-01 -0.615 0.53874
hisp
-8.528e-01 5.066e-01 -1.683 0.09228 .
married
1.636e-01 2.769e-01 0.591 0.55463
re74
-3.161e-05 2.584e-05 -1.223 0.22122
nodegr
-9.035e-01 3.135e-01 -2.882 0.00395 **
re75
6.161e-05 4.358e-05 1.414 0.15744
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 604.20 on 444 degrees of freedom
Residual deviance: 587.22 on 436 degrees of freedom
AIC: 605.22
Number of Fisher Scoring iterations: 4
#Aplicarea fc de match- folosim tr=lalonde, fara factor in fc match
35

Proiect Data Mining


rr1<-Match(Y=y,Tr=Tr,X=glm1$fitted.values, estimand ="ATE") #ATE= efectul medie
Estimate... 2088.1
AI SE...... 726.19
T-stat..... 2.8755
p.val...... 0.0040341
Original number of observations.............. 445
Original number of treated obs............... 185
Matched number of observations............... 445
Matched number of observations (unweighted). 725
Estimate=Diferentadintre cei care au fc tratament cu carw nu 2088.1
Balance
***** (V1) age *****
Before Matching
mean treatment........ 25.816
mean control.......... 25.054
std mean diff......... 10.655
mean raw eQQ diff.....
med raw eQQ diff.....
max raw eQQ diff.....

0.94054
1
7

After Matching
25.305
25.319
-0.19712
0.57241
0
9

mean eCDF diff........ 0.025364


med eCDF diff........ 0.022193
max eCDF diff........ 0.065177

0.015984
0.013793
0.038621

var ratio (Tr/Co)..... 1.0278


T-test p-value........ 0.26594
KS Bootstrap p-value..
0.568
KS Naive p-value...... 0.7481
KS Statistic.......... 0.065177

1.0286
0.97375
0.43
0.65192
0.038621

***** (V2) educ *****


Before Matching
mean treatment........ 10.346
mean control.......... 10.088
std mean diff......... 12.806
mean raw eQQ diff.....
med raw eQQ diff.....
max raw eQQ diff.....

0.40541
0
2

mean eCDF diff........ 0.028698


med eCDF diff........ 0.012682
max eCDF diff........ 0.12651
36

After Matching
10.344
10.112
13.423
0.21241
0
2
0.015172
0.0082759
0.051034

Proiect Data Mining


var ratio (Tr/Co)..... 1.5513
T-test p-value........ 0.15017
KS Bootstrap p-value..
0.006
KS Naive p-value...... 0.062873
KS Statistic.......... 0.12651

1.0385
0.0065878
0.072
0.30164
0.051034

***** (V3) black *****


Before Matching
mean treatment........ 0.84324
mean control.......... 0.82692
std mean diff......... 4.4767

After Matching
0.81161
0.84419
-8.3237

mean raw eQQ diff..... 0.016216


med raw eQQ diff.....
0
max raw eQQ diff.....
1

0.028966
0
1

mean eCDF diff........ 0.0081601


med eCDF diff........ 0.0081601
max eCDF diff........ 0.01632

0.014483
0.014483
0.028966

var ratio (Tr/Co)..... 0.92503


T-test p-value........ 0.64736

1.1625
0.091173

***** (V4) hisp *****


Before Matching
mean treatment........ 0.059459
mean control.......... 0.10769
std mean diff......... -20.341
mean raw eQQ diff..... 0.048649
med raw eQQ diff.....
0
max raw eQQ diff.....
1
mean eCDF diff........ 0.024116
med eCDF diff........ 0.024116
max eCDF diff........ 0.048233
var ratio (Tr/Co)..... 0.58288
T-test p-value........ 0.064043
***** (V5) married *****
Before Matching
mean treatment........ 0.18919
mean control.......... 0.15385
std mean diff......... 8.9995
37

After Matching
0.086142
0.083521
0.93336
0.0082759
0
1
0.0041379
0.0041379
0.0082759
1.0284
0.79173

After Matching
0.14644
0.16648
-5.6612

Proiect Data Mining


mean raw eQQ diff..... 0.037838
med raw eQQ diff.....
0
max raw eQQ diff.....
1

0.0027586
0
1

mean eCDF diff........ 0.017672


med eCDF diff........ 0.017672
max eCDF diff........ 0.035343

0.0013793
0.0013793
0.0027586

var ratio (Tr/Co)..... 1.1802


T-test p-value........ 0.33425
***** (V6) re74 *****
Before Matching
mean treatment........ 2095.6
mean control..........
2107
std mean diff......... -0.23437
mean raw eQQ diff.....
med raw eQQ diff.....
max raw eQQ diff.....

0.90079
0.36512

After Matching
1991
2142.9
-3.0989

487.98
0
8413

601.82
0
10305

mean eCDF diff........ 0.019223


med eCDF diff........ 0.0158
max eCDF diff........ 0.047089

0.036436
0.030345
0.095172

var ratio (Tr/Co)..... 0.7381


T-test p-value........ 0.98186
KS Bootstrap p-value..
0.542
KS Naive p-value...... 0.97023
KS Statistic.......... 0.047089

0.74939
0.65215
< 2.22e-16
0.0028123
0.095172

***** (V7) nodegr *****


Before Matching
mean treatment........ 0.70811
mean control.......... 0.83462
std mean diff......... -27.751
mean raw eQQ diff.....
med raw eQQ diff.....
max raw eQQ diff.....

0.12432
0
1

mean eCDF diff........ 0.063254


med eCDF diff........ 0.063254
max eCDF diff........ 0.12651
var ratio (Tr/Co).....
38

1.4998

After Matching
0.76105
0.80674
-10.703
0.041379
0
1
0.02069
0.02069
0.041379
1.1664

Proiect Data Mining


T-test p-value........ 0.0020368
***** (V8) re75 *****
Before Matching
mean treatment........ 1532.1
mean control.......... 1266.9
std mean diff......... 8.2363
mean raw eQQ diff.....
med raw eQQ diff.....
max raw eQQ diff.....

0.00031834

After Matching
1189.4
1646.5
-17.397

367.61
0
2110.2

482.66
0
6315.6

mean eCDF diff........ 0.050834


med eCDF diff........ 0.061954
max eCDF diff........ 0.10748

0.040717
0.03931
0.08

var ratio (Tr/Co)..... 1.0763


T-test p-value........ 0.38527
KS Bootstrap p-value..
0.042
KS Naive p-value...... 0.16449
KS Statistic.......... 0.10748

0.51455
0.02133
0.004
0.019315
0.08

Before Matching Minimum p.value: 0.0020368


Variable Name(s): nodegr Number(s): 7
After Matching Minimum p.value: < 2.22e-16
Variable Name(s): re74 Number(s): 6
#In gr de tratament - Mean-Inainte de match medie de 25.81, iar dupa 25.305
#In gr de control - LA fel
#Diferenta dintre media grupului de tr si control dupa matching sa se diminueze-> Matchingul
este ok
#EQQ#ECDF- distributia de probabilitate
#KS- indicator ce compara distributia var numerice
#Educ- nr de ani de educatie, la Pvalue - inainte aveam 0.01-diferenta senificativa intre cei care
cei du fiferite nivele de ecucatie
qqplot

39

Proiect Data Mining

#Pentru var rez74 , matchingul nu e ok. Trebuia sa avem o asezare \ norului de pct dupa linia
rosie

Inainte de matching

40

Proiect Data Mining

#Am facut o analiza in care am pastrat din primul model variabilele mai semnificative
Cova<-cbind(lalonde$age, lalonde$educ, lalonde$hisp)
Sumarry:
Estimate... 1652.4
AI SE...... 717.17
T-stat..... 2.3041
p.val...... 0.021216
Original number of observations.............. 445
Original number of treated obs............... 185
Matched number of observations............... 445
Matched number of observations (unweighted). 1096
Balance
***** (V1) age *****
Before Matching
mean treatment........ 25.816
mean control.......... 25.054
std mean diff......... 10.655
mean raw eQQ diff.....
med raw eQQ diff.....
max raw eQQ diff.....

0.94054
1
7

After Matching
25.173
25.326
-2.254
0.20803
0
8

mean eCDF diff........ 0.025364


med eCDF diff........ 0.022193
max eCDF diff........ 0.065177

0.005716
0.004562
0.020985

var ratio (Tr/Co)..... 1.0278


T-test p-value........ 0.26594
KS Bootstrap p-value..
0.552
KS Naive p-value...... 0.7481
KS Statistic.......... 0.065177

0.92856
0.045087
0.822
0.96926
0.020985

***** (V2) educ *****


Before Matching
mean treatment........ 10.346
mean control.......... 10.088
std mean diff......... 12.806
mean raw eQQ diff.....
med raw eQQ diff.....
max raw eQQ diff.....
41

0.40541
0
2

After Matching
10.193
10.191
0.12914
0.036496
0
2

Proiect Data Mining


mean eCDF diff........ 0.028698
med eCDF diff........ 0.012682
max eCDF diff........ 0.12651
var ratio (Tr/Co)..... 1.5513
T-test p-value........ 0.15017
KS Bootstrap p-value..
0.018
KS Naive p-value...... 0.062873
KS Statistic.......... 0.12651

0.0026069
0.002281
0.0082117
1.0163
0.91418
0.99
1
0.0082117

***** (V3) hisp *****


Before Matching
mean treatment........ 0.059459
mean control.......... 0.10769
std mean diff......... -20.341
mean raw eQQ diff..... 0.048649
med raw eQQ diff.....
0
max raw eQQ diff.....
1

After Matching
0.08764
0.08764
0
0
0
0

mean eCDF diff........ 0.024116


med eCDF diff........ 0.024116
max eCDF diff........ 0.048233

0
0
0

var ratio (Tr/Co)..... 0.58288


T-test p-value........ 0.064043

1
1

Before Matching Minimum p.value: 0.018


Variable Name(s): educ Number(s): 2
After Matching Minimum p.value: 0.045087
Variable Name(s): age Number(s): 1
#Analiza pentru Age - doar pentru variabile numerice

42

Proiect Data Mining

inainte de matching

43

Proiect Data Mining


Anex
Anexa I - ACP
Anexa II - Tehnici de Clusterizare
Anexa III Analiza corespondenelor
Anexa IV - Analiza conjoint
Anexa V Arbori de clasificare
Anexa VI Propensity Score Matching

44