Documente Academic
Documente Profesional
Documente Cultură
Introducere............................................................................................................................................. 3
Concluzii ............................................................................................................................................... 14
Bibliografie ........................................................................................................................................... 15
Introducere
Clasificarea reprezintă o sarcină de Data Mining ce are la bază învățarea unei funcții
care mapează o anumită observație într-una din mai multe clase predefinite. Scopul clasificării
este de a prezice cu exactitate clasa țintă pentru fiecare caz din date. O sarcină de clasificare
pornește cu un set de date în care sunt cunoscute asignările clasei. În procesul de construcție
de model (de formare), un algoritm de clasificare găsește relațiile dintre valorile previzionate
și valorile țintă. Diferiți algoritmi de clasificare folosesc diferite tehnici pentru găsirea
relațiilor. Aceste relații sunt cuprinse într-un model, care poate fi apoi aplicat unui set de date
diferit în care atribuirile de clasă sunt necunoscute. Sarcinile de clasificare sunt ” supervised
learning”, variabila dependentă categorială și definirea corectă a datelor.
Din ”Confusion Matrix” (Tab.1 a) se poate observa că trei din cele cinci instanțe au
fost clasificate în mod corect (60%). În același timp două persoane au fost clasificate ca
nefiind interesate de promoția ”Life Insurance” deși în realitate acestea au prezentat interes.
Acest lucru se poate observa și în tabelul de mai jos (Tab. 1 b), unde liniile marcate cu
”*” reprezintă instanțele care au fost clasificate în mod corect. În acest tabel este reprezentată
performanța modelului setului de date unde fiecare instanță este testată alături de clasa din
care face parte.
Tab.1 b)
2. Interpretarea rezultatelor sumare
Conform output-ului rezultat (Tab.2), cele 10 instanțe au fost împărțite în două clase și
anume „Class No” și „Class Yes”. Prima reprezintă instanțele neinteresate de promoția „Life
Insurance” iar cea de-a doua reprezintă instanțele interesate de aceasta.
Gradul de asemănare între instanțele clasei „Class No” este de 0.525 în timp ce în
cazul clasei „Class Yes” este de 0.575, ambele fiind mai mari decât gradul de asemănare
dintre instanțele întregului domeniu (0.48). Așadar putem trage concluzia că există diferențe
în ceea ce privește caracteristicile instanțelor celor două clase iar modelul clasifică în mod
eficient instanțele.
În ceea ce privește gradul de semnificație al claselor acesta este de 9% pentru „Class
No” și de 19% pentru „Class Yes” ceea ce înseamnă că asemănarea instanțelor întregului
domeniu este mai mică cu 9% față de asemănarea instanțelor clasei „Class No”, respectiv cu
19% mai mică decât asemănarea instanțelor clasei „Class Yes”. Cu toate acestea, diferențele
dintre instanțele fiecărei clase și instanțele întregului domeniu rămân foarte mici ( ”Class
Significance” pentru ambele clase este mai mic de 25%).
În outputul de mai sus (Tab.5) sunt prezentate cele mai frecvente valori apărute ale
atributelor categoriale.
Pentru clasa „Class No”, de cele mai multe ori, venitul este cuprins între "40-50,000",
nu se optează pentru nicio promoție iar majoritatea persoanele sunt de sex masculin.
În ceea ce privește clasa „Class Yes” se poate observa că venitul este mai mic decât
cel din prima clasă, acesta este cuprins între ”30-40,000”, majoritatea persoanelor optează
pentru promoții, însă nu și pentru asigurarea cardului de credit iar majoritatea persoanelor
sunt de sex feminin.
3. Interpretarea rezultatelor individuale ale claselor
Tab.6
Tipicalitatea reprezintă similaritatea medie a unei instanțe față de toți ceilalți membrii
ai clasei din care face parte. În cazul de față, pentru clasa ”Class No” (persoane ce nu au optat
pentru ”Life Insurance”), cele mai întâlnite tipuri de instanțe sunt persoanele de sex masculin
cu un venit între 40-50,000 și cu o vârstă de 42 respectiv 45 de ani, gradul de tipicalitate al
acestora fiind de 0,63. Pe de altă parte, tipurile de instanțe cele mai puțin reprezentative
pentru această clasă sunt persoanele cu un venit între 20-30,000, fie de sex masculin în vârstă
de 27 de ani, fie de sex feminin în vârstă de 55 de ani.
Tab.7
Tab.8
În ceea ce privește clasa ”Class Yes” (persoane ce au optat pentru ”Life Insurance”),
cele mai întâlnite tipuri de instanțe sunt persoanele de sex feminin cu un venit între 30-40,000
și cu o vârstă de 40 respectiv 41 de ani, gradul de tipicalitate al acestora fiind de 0,69. În cazul
tipurilor de instanțe cele mai puțin reprezentative pentru această clasă, acestea cuprind
persoanele cu un venit între 30-40,000, de sex masculin cu vârsta de 35, respectiv 43 de ani
(Tab. 9).
Tab.10
Tab.11
Conform tabelelor 10 și 11, din totalul instanțelor clasei ”Class Yes”, 80% dintre
persoane au un venit cuprins între 30-40k, 100% au optat pozitiv pentru ”Magazine Promo”,
60% au optat pozitiv pentru ”Watch Promo”, 100% au ales asigurarea de viață, 60% au
refuzat ”Credit Card Insurance” și 60% dintre acestea sunt persoane de sex feminin.
De asemenea, procentul ce se află în interiorul clasei ”Class Yes” din totalul
instanțelor domeniului este de 80% pentru persoanele cu un venit între 30-40k, 100% pentru
persoanele cu un venit între 50-60k, 71% pentru cei ce au ales ”Magazine Promo”, 75%
pentru cei ce au ales ”Watch Promo”, 100% din cei ce au optat pentru asigurare de viață, și
75% pentru persoanele de sex feminin.
Așadar, atributul ”Life Insurance Promo” cu opțiunea ”Yes” reprezintă un atribut
necesar și suficient.
În același timp atributul ”Income Range” cu opțiunile 30-40k și 50-60k împreună cu
atributul ”Credit Card Insurance” cu opțiunea ”Yes” reprezintă atribute suficiente clasificării
în timp ce valoare de 30-40k pentru ”Income range” și opțiunea ”Yes” pentru ”Magazine
Promo” pot reprezenta valori necesare ale atributelor respective în ceea ce privește analiza.
4. Vizualizarea regulilor individuale ale claselor
Tab.12
Fig.1 a)
Fig.1 b)
Dintre cei ce nu au ales asigurare de viață:
80% au vârste cuprinse între 42-55 ani iar 80% din totalul celor ce au vârste
cuprinse între de 42-55 ani nu au ales asigurare de viață;
75% au vârste cuprinse între 42-55 ani și sunt de sex masculin iar 60% din totalul
celor de sex masculin cu vârste cuprinse între 42-55 ani nu au ales asigurare de
viață;
100% au vârste cuprinse între 42-55 ani și nu au ales asigurarea cardului de credit
iar 80% din totalul celor ce nu au ales asigurarea cardului de credit și au vârste
cuprinse între 42-55 ani nu au ales asigurare de viață;
100% sunt de sex masculin și nu au ales asigurarea cardului de credit iar 80% din
totalul celor ce nu au ales asigurarea cardului de credit și sunt de sex masculin nu
au ales asigurare de viață;
100% sunt de sex masculin, nu au ales asigurarea cardului de credit și au vârste
între 42-55 ani iar 60% din totalul celor ce nu au ales asigurarea cardului de credit,
sunt de sex masculin și au vârste între 42-55 ani nu au ales asigurare de viață.
Fig.2 a)
Fig.2 b)
1. Din ”Confusion Matrix” se poate observa că trei din cele cinci instanțe au fost
clasificate în mod corect (60%).
2. Există diferențe în ceea ce privește caracteristicile instanțelor celor două clase iar
modelul clasifică în mod eficient instanțele.
3. Diferențele dintre instanțele fiecărei clase și instanțele întregului domeniu sunt foarte
mici ( Sig. < 25%).
4. „Life Insurance” reușește să clasifice datele în mod optim.
5. Atributul ”Age” reprezintă un criteriu de clasificare eficient.
6. Pentru clasa „Class No”, de cele mai multe ori, venitul este cuprins între "40-50,000",
nu se optează pentru nicio promoție iar majoritatea persoanele sunt de sex masculin. În
ceea ce privește clasa „Class Yes” se poate observa că venitul este mai mic decât cel
din prima clasă, acesta este cuprins între ”30-40,000”, majoritatea persoanelor optează
pentru promoții, însă nu și pentru asigurarea cardului de credit iar majoritatea
persoanelor sunt de sex feminin.
7. Pentru ambele clase ”Life Insurance Promo” reprezintă un atribut necesar și suficient.
8. În ceea ce privește regulile individuale pentru prima clasa (”Class No”) am obținut
faptul că 100% sunt de sex masculin, nu au ales asigurarea cardului de credit și au
vârste între 42-55 ani iar 60% din totalul celor ce nu au ales asigurarea cardului de
credit, sunt de sex masculin și au vârste între 42-55 ani nu au ales asigurare de viață.
9. Pentru ”Class Yes” 100% au vârste cuprinse între 35-41 ani și sunt persoane de sex
feminin iar 60% din totalul celor ce au vârste cuprinse între 35-41 ani și sunt persoane
de sex feminin nu au ales asigurare de viață
Bibliografie