Sunteți pe pagina 1din 15

UNIVERSITATEA „LUCIAN BLAGA” DIN SIBIU

FACULTATEA DE ŞTIINŢE ECONOMICE


ECONOMIA COMERȚULUI, TURISMULUI ȘI SERVICIILOR

PROIECT DATA MINING -


INTERPRETREA REZULTATELOR

CSIE, ANUL I, MASTER, SPECIALIZAREA STATISTICĂ


Cuprins

Introducere............................................................................................................................................. 3

Analiza Credit Card Promotion – Life Insurance Promotion........................................................... 3

1. ”Confusion Matrix” .................................................................................................................. 4

2. Interpretarea rezultatelor sumare ........................................................................................... 5

3. Interpretarea rezultatelor individuale ale claselor ................................................................. 7

4. Vizualizarea regulilor individuale ale claselor ...................................................................... 11

Concluzii ............................................................................................................................................... 14

Bibliografie ........................................................................................................................................... 15
Introducere

Clasificarea reprezintă o sarcină de Data Mining ce are la bază învățarea unei funcții
care mapează o anumită observație într-una din mai multe clase predefinite. Scopul clasificării
este de a prezice cu exactitate clasa țintă pentru fiecare caz din date. O sarcină de clasificare
pornește cu un set de date în care sunt cunoscute asignările clasei. În procesul de construcție
de model (de formare), un algoritm de clasificare găsește relațiile dintre valorile previzionate
și valorile țintă. Diferiți algoritmi de clasificare folosesc diferite tehnici pentru găsirea
relațiilor. Aceste relații sunt cuprinse într-un model, care poate fi apoi aplicat unui set de date
diferit în care atribuirile de clasă sunt necunoscute. Sarcinile de clasificare sunt ” supervised
learning”, variabila dependentă categorială și definirea corectă a datelor.

Analiza Credit Card Promotion – Life Insurance Promotion

O companie dorește să inițieze o campanie de promovare a asigurărilor de viață.


Materialul de promovare este transmis cu factura de card de credit către toți clienții cu balanța
negativă a cardului. În ceea ce privește clienții cu balanța zero a cardului, tehnicile de Data
Mining cu învățare supervizată utilizează promovarea asigurărilor de viață ca variabilă de
output pentru a diferenția clasa clienților care ar lua în considerare oferta de clasa celor care
nu ar lua în considerare oferta.
Fișierul output folosit pentru analiza datelor conține informații despre Credit Card
Promotion, cu șapte atribute de tip input care vor fi analizate în cadrul metodei de clasificare.
Au fost create mai multe foi de lucru de ieșire pe baza datelor de intrare. Acestea vor fi
folosite pentru interpretarea și analiza variabilei de ieșire reprezentată de clasele generate și
anume ”Class Yes” și ”Class No”.
După generarea rezultatelor de iDa Excel s-au obținut șase foi de calcul Excel care
stau la baza interpretărilor din acest proiect.
1. ”Confusion Matrix”
Această matrice este folosită pentru a rezuma rezultatele unei clasificări supervizate.
Valorile de pe diagonala principală sunt clasificări corecte, valorile altele decât cele de pe
diagonala principală reprezintă erori de clasificare.

Tab.1 a) Confusion Matrix

Din ”Confusion Matrix” (Tab.1 a) se poate observa că trei din cele cinci instanțe au
fost clasificate în mod corect (60%). În același timp două persoane au fost clasificate ca
nefiind interesate de promoția ”Life Insurance” deși în realitate acestea au prezentat interes.
Acest lucru se poate observa și în tabelul de mai jos (Tab. 1 b), unde liniile marcate cu
”*” reprezintă instanțele care au fost clasificate în mod corect. În acest tabel este reprezentată
performanța modelului setului de date unde fiecare instanță este testată alături de clasa din
care face parte.

Tab.1 b)
2. Interpretarea rezultatelor sumare

Tab.2 Class Resemblance Statistics

Conform output-ului rezultat (Tab.2), cele 10 instanțe au fost împărțite în două clase și
anume „Class No” și „Class Yes”. Prima reprezintă instanțele neinteresate de promoția „Life
Insurance” iar cea de-a doua reprezintă instanțele interesate de aceasta.
Gradul de asemănare între instanțele clasei „Class No” este de 0.525 în timp ce în
cazul clasei „Class Yes” este de 0.575, ambele fiind mai mari decât gradul de asemănare
dintre instanțele întregului domeniu (0.48). Așadar putem trage concluzia că există diferențe
în ceea ce privește caracteristicile instanțelor celor două clase iar modelul clasifică în mod
eficient instanțele.
În ceea ce privește gradul de semnificație al claselor acesta este de 9% pentru „Class
No” și de 19% pentru „Class Yes” ceea ce înseamnă că asemănarea instanțelor întregului
domeniu este mai mică cu 9% față de asemănarea instanțelor clasei „Class No”, respectiv cu
19% mai mică decât asemănarea instanțelor clasei „Class Yes”. Cu toate acestea, diferențele
dintre instanțele fiecărei clase și instanțele întregului domeniu rămân foarte mici ( ”Class
Significance” pentru ambele clase este mai mic de 25%).

Tab.3 Domain Statistics for Categorical Attributes


Atunci când gradul predictibilității se apropie de 100% înseamnă că atributul nu poate
fi folosit eficient ca și criteriu de clasificare, așadar „Life Insurance” reușește să clasifice
datele în mod optim – probabilitatea este de 50% pentru opțiunea ”No” și ”50%” pentru
”Yes”, lucru prezentat în tabelul de mai sus (”Tab.3 Domain Statistics for Categorical
Attributes”).

Tab.4 Domain Statistics for Numerical Attributes

Tabelul 4 (”Domain Statistics for Numerical Attributes”) ne prezintă vârsta medie


pentru fiecare clasă. În cazul clasei „Class No” media vârstei este de 42 de ani iar în cazul
clasei „Class Yes” aceasta este de 39. De asemenea, putem observa că valoarea indicatorul
”Attribute Significance” este de 0.42 (mai mare decât 0.25) ceea ce înseamnă că atributul
”Age” reprezintă un criteriu de clasificare eficient.

Tab.5 Most Commonly Occuring Categorical Attribute Values

În outputul de mai sus (Tab.5) sunt prezentate cele mai frecvente valori apărute ale
atributelor categoriale.
Pentru clasa „Class No”, de cele mai multe ori, venitul este cuprins între "40-50,000",
nu se optează pentru nicio promoție iar majoritatea persoanele sunt de sex masculin.
În ceea ce privește clasa „Class Yes” se poate observa că venitul este mai mic decât
cel din prima clasă, acesta este cuprins între ”30-40,000”, majoritatea persoanelor optează
pentru promoții, însă nu și pentru asigurarea cardului de credit iar majoritatea persoanelor
sunt de sex feminin.
3. Interpretarea rezultatelor individuale ale claselor

Tab.6

Tipicalitatea reprezintă similaritatea medie a unei instanțe față de toți ceilalți membrii
ai clasei din care face parte. În cazul de față, pentru clasa ”Class No” (persoane ce nu au optat
pentru ”Life Insurance”), cele mai întâlnite tipuri de instanțe sunt persoanele de sex masculin
cu un venit între 40-50,000 și cu o vârstă de 42 respectiv 45 de ani, gradul de tipicalitate al
acestora fiind de 0,63. Pe de altă parte, tipurile de instanțe cele mai puțin reprezentative
pentru această clasă sunt persoanele cu un venit între 20-30,000, fie de sex masculin în vârstă
de 27 de ani, fie de sex feminin în vârstă de 55 de ani.

Tab.7
Tab.8

Bazându-ne atât pe tabelul 7 cât și pe tabelul 8 putem afirma că atributul ”Life


Insurance Promo” are scorurile ”Predictability” și ”Predictiveness” egale cu 1 ceea ce
înseamnă că toate instanțele clasei au optat pentru a nu alege asigurarea de viață și în același
timp toate instanțele domeniului ce nu au ales asigurare de viață se află incluse în această
clasă. Așadar ”Life Insurance Promo” reprezintă un atribut necesar și suficient.
Toate instanțele domeniului ce au venituri de 20-30,000 respectiv 40-50,000 sunt
incluse în clasa „Class No”, însă din totalul instanțelor acestei clase 40% au venituri de 40-
50k, 40% au venituri de 20-30k și 20% au venituri de 30-40k. Acestea însemnând că atributul
”Income Range” cu valorile 40-50k și respectiv 20-30k este suficient pentru această clasă.
În același timp, se poate afirma că toate instanțele domeniului ce nu au optat pentru
”Magazine Promo” sunt incluse în această clasă însă acestea reprezintă doar 60% din totalul
instanțelor clasei, restul instanțelor fiind reprezentate de persoane ce au optat pentru
”Magazine Promo”.
Putem spune astfel că atributele ”Magazine Promo” cu opțiunea ”No” și ”Income
Range” cu valorile 40-50k respectiv 20-30k au o suficiență ridicată pentru această clasă.
De asemenea toate instanțele acestei clase au optat pentru ”Credit Card Insurance”
însă nu toate instanțele domeniului ce au avut această opțiune sunt cuprinse în această clasă.
Mai mult, 80% din instanțele acestei clase nu au optat pentru ”Watch Promo” și tot 80%
dintre acestea sunt persoane de sex masculin. Așadar sexul masculin și opțiunea ”No” pentru
”Credit Card Insurance” și ”Watch Promo” sunt caracteristicile atributelor important necesare
pentru această clasă.
Tab.9

În ceea ce privește clasa ”Class Yes” (persoane ce au optat pentru ”Life Insurance”),
cele mai întâlnite tipuri de instanțe sunt persoanele de sex feminin cu un venit între 30-40,000
și cu o vârstă de 40 respectiv 41 de ani, gradul de tipicalitate al acestora fiind de 0,69. În cazul
tipurilor de instanțe cele mai puțin reprezentative pentru această clasă, acestea cuprind
persoanele cu un venit între 30-40,000, de sex masculin cu vârsta de 35, respectiv 43 de ani
(Tab. 9).

Tab.10
Tab.11

Conform tabelelor 10 și 11, din totalul instanțelor clasei ”Class Yes”, 80% dintre
persoane au un venit cuprins între 30-40k, 100% au optat pozitiv pentru ”Magazine Promo”,
60% au optat pozitiv pentru ”Watch Promo”, 100% au ales asigurarea de viață, 60% au
refuzat ”Credit Card Insurance” și 60% dintre acestea sunt persoane de sex feminin.
De asemenea, procentul ce se află în interiorul clasei ”Class Yes” din totalul
instanțelor domeniului este de 80% pentru persoanele cu un venit între 30-40k, 100% pentru
persoanele cu un venit între 50-60k, 71% pentru cei ce au ales ”Magazine Promo”, 75%
pentru cei ce au ales ”Watch Promo”, 100% din cei ce au optat pentru asigurare de viață, și
75% pentru persoanele de sex feminin.
Așadar, atributul ”Life Insurance Promo” cu opțiunea ”Yes” reprezintă un atribut
necesar și suficient.
În același timp atributul ”Income Range” cu opțiunile 30-40k și 50-60k împreună cu
atributul ”Credit Card Insurance” cu opțiunea ”Yes” reprezintă atribute suficiente clasificării
în timp ce valoare de 30-40k pentru ”Income range” și opțiunea ”Yes” pentru ”Magazine
Promo” pot reprezenta valori necesare ale atributelor respective în ceea ce privește analiza.
4. Vizualizarea regulilor individuale ale claselor

Tab.12

Fig.1 a)

Fig.1 b)
Dintre cei ce nu au ales asigurare de viață:
 80% au vârste cuprinse între 42-55 ani iar 80% din totalul celor ce au vârste
cuprinse între de 42-55 ani nu au ales asigurare de viață;
 75% au vârste cuprinse între 42-55 ani și sunt de sex masculin iar 60% din totalul
celor de sex masculin cu vârste cuprinse între 42-55 ani nu au ales asigurare de
viață;
 100% au vârste cuprinse între 42-55 ani și nu au ales asigurarea cardului de credit
iar 80% din totalul celor ce nu au ales asigurarea cardului de credit și au vârste
cuprinse între 42-55 ani nu au ales asigurare de viață;
 100% sunt de sex masculin și nu au ales asigurarea cardului de credit iar 80% din
totalul celor ce nu au ales asigurarea cardului de credit și sunt de sex masculin nu
au ales asigurare de viață;
 100% sunt de sex masculin, nu au ales asigurarea cardului de credit și au vârste
între 42-55 ani iar 60% din totalul celor ce nu au ales asigurarea cardului de credit,
sunt de sex masculin și au vârste între 42-55 ani nu au ales asigurare de viață.

Fig.2 a)
Fig.2 b)

Dintre cei ce au ales asigurare de viață:


 80% au un venit de 30-40k iar 80% din totalul celor ce au un venit de 30-40k nu
au ales asigurare de viață;
 75% sunt persoane sex feminin iar 60% din totalul persoanelor de sex feminin nu
au ales asigurare de viață;
 100% au vârste cuprinse între 35-41 ani iar 80% din totalul celor ce au vârste
cuprinse între 35-41 ani nu au ales asigurare de viață;
 100% au vârste cuprinse între 35-41 ani și au un venit de 30-40k iar 60% din
totalul celor ce au vârste cuprinse între 35-41 ani și au un venit de 30-40k nu au
ales asigurare de viață;
 100% au vârste cuprinse între 35-41 ani și sunt persoane de sex feminin iar 60%
din totalul celor ce au vârste cuprinse între 35-41 ani și sunt persoane de sex
feminin nu au ales asigurare de viață.
Concluzii

1. Din ”Confusion Matrix” se poate observa că trei din cele cinci instanțe au fost
clasificate în mod corect (60%).
2. Există diferențe în ceea ce privește caracteristicile instanțelor celor două clase iar
modelul clasifică în mod eficient instanțele.
3. Diferențele dintre instanțele fiecărei clase și instanțele întregului domeniu sunt foarte
mici ( Sig. < 25%).
4. „Life Insurance” reușește să clasifice datele în mod optim.
5. Atributul ”Age” reprezintă un criteriu de clasificare eficient.
6. Pentru clasa „Class No”, de cele mai multe ori, venitul este cuprins între "40-50,000",
nu se optează pentru nicio promoție iar majoritatea persoanele sunt de sex masculin. În
ceea ce privește clasa „Class Yes” se poate observa că venitul este mai mic decât cel
din prima clasă, acesta este cuprins între ”30-40,000”, majoritatea persoanelor optează
pentru promoții, însă nu și pentru asigurarea cardului de credit iar majoritatea
persoanelor sunt de sex feminin.
7. Pentru ambele clase ”Life Insurance Promo” reprezintă un atribut necesar și suficient.
8. În ceea ce privește regulile individuale pentru prima clasa (”Class No”) am obținut
faptul că 100% sunt de sex masculin, nu au ales asigurarea cardului de credit și au
vârste între 42-55 ani iar 60% din totalul celor ce nu au ales asigurarea cardului de
credit, sunt de sex masculin și au vârste între 42-55 ani nu au ales asigurare de viață.
9. Pentru ”Class Yes” 100% au vârste cuprinse între 35-41 ani și sunt persoane de sex
feminin iar 60% din totalul celor ce au vârste cuprinse între 35-41 ani și sunt persoane
de sex feminin nu au ales asigurare de viață
Bibliografie

1. Data Mining – Lecture, Adrian Costea;


2. Seminarii, Adrian Costea.

S-ar putea să vă placă și