Sunteți pe pagina 1din 17

Herramientas de Minería de Datos para la ayuda

en la Toma de Decisiones

“Succes of bank telemarketing”


(Minería de datos de Marketing de un Banco)

Presentan:
Miguel Angel Reyes Roque
Ricardo Herrera Martínez
CONTENIDO

Índice
Descripción del tema _____________________________________________________________1
Descripción de Datos _____________________________________________________________4
Análisis exploratorio. _____________________________________________________________5
Modelos iniciales ________________________________________________________________9
Resultados ____________________________________________________________________11
Información de contacto ________________________________ Error! Bookmark not defined.
Información de la compañía ______________________________ Error! Bookmark not defined.
WEKA

Descripción del tema


ORGANIZACIÓN
Los la información contenida en este trabajo, fue obtenida del repositorio de la universidad UCI, proveniente de
un banco de Portugal [Moro et al., 2014].

SITUACIÓN ACTUAL
Las campañas de Marketing son de vital importancia para cada una de las organizaciones que pretenden crecer,
mantener o concretizar sus ventas. Así, en la industria de la banca se presentan campañas que buscan que los
usuarios de servicios financieros, como créditos o adquisición de tarjetas, sean clientes potenciales que no
busquen nuevos servicios de la competencia.

Para poder medir la penetración de nuevos servicios bancarios se generan multiples estudios y se generan
estadísticas que determinen la aprobación o desaprobación del servicio dentro de la cartera de sus clientes.

El principal problema que se deberá resolver es si el servicio que se pretende brindar será o no contratado por los
clientes ya que en caso de que no sea factible venderlo se podrían perder millones de dólares de inversión. Los
datos fueron obtenidos de llamadas realizadas del Call Center del área de marketing del Banco en cuestión.

OBJETIVO
Este estudio se genera con el objetivo de medir la eficacia de ventas vía telemarketing para fondos de inversión a
largo plazo, pronosticando si este servicio va a ser contratado o no (variable dependiente) por el cliente mediante
un modelo predictivo de Minería de Datos y con ello resolver la problemática de lanzar o no el servicio al
mercado.

Los resultados esperados serán poder determinar si será rentable la salida al mercado del servicio, los beneficios
esperados a obtener serán las posibles ganancias que se generen si el producto es viable.

Páginá 1
WEKA

PROCESO
A continuación se presenta en forma general el proceso para el Análisis de Minería.

Páginá 2
WEKA

METODOS DE LIMPIEZA DE BASE DE DATOS


En general se utilizará el software PYTHON con la librería de PANDAS para poder realizar la
Limpieza de la base de datos.

Se inputarán los valores faltantes de la siguiente manera:

a) Si el valor es categórico o numérico y puede ser inputado mediante un método de clasificación (árbol de
decisión, Análisis discriminante, Regresión logística, etc) entonces el dato se agregará de esa forma.
b) Si el valor no puede inputarse como en el inciso anterior entonces se procederá a realizar un análisis
estadístico de la serie (en caso de valores numéricos) y se determinará si se inputa algún valor con sentido.
c) En caso que no se puedan realizar los incisos anteriores se estudiará si se inputa un valor NaN (valor no
válido) o si se elimina el registro de la base.

METODOS ESTADISTICOS DE BASE DE DATOS


Una vez limpiada la base de datos de proseguirá con el análisis estadístico de la misma. El objetivo principal de este
análisis es poder comprender las distribuciones de las variables numéricas, la repetición de patrones, el
comportamiento de varianza y encontrar variables que puedan no influir en los métodos de minería que se
realizarán. Los datos que se generarán serán los citados a continuación:

a) Series Numéricas
1) Media, Moda, Mediana
2) Varianza
3) Kurtosis
4) Sesgo
5) Distribución
6) Cuartiles

b) Series No Numéricas
1) Repeticiones
2) Valores Nulos
3) Categorías
4) Patrones

Páginá 3
WEKA

Descripción de Datos
Información y descripción de Variables.

Label Descripción Type


age Edad numeric
job Tipo de trabajo nominal
marital Estado civil nominal
education Nivel de estudios nominal
default ¿Ha tenido mora un crédito? nominal
balance nominal
housing ¿Ha tenido un préstamo personal? nominal
loan ¿Ha tenido un crédito hipotecario? nominal
contact Tipo de comunicación de contacto nominal
day Ultimo contacto por día de la semana numeric
month Mes de último contacto nominal
duration Duración de último contacto, en segundos numeric
campaign Número de contactos durante esta campaña y para este cliente numeric
pdays Número de contactos durante esta campaña y para este cliente numeric
previous Numero de contactos hechos en esta campaña a este cliente numeric
poutcome Salida de la última campaña de marketing nominal
y ¿El cliente se suscribiría al servicio? nominal

Fuente:

- [Moro et al., 2014]


- http://archive.ics.uci.edu/ml/datasets/Bank+Marketing

Páginá 4
WEKA

Análisis exploratorio.
EDAD
Análisis descriptivo:

Edad
Media 40.9 Edad
Error típico 0.05 1200
Mediana 39.0 1000
Moda 32.0 800
Desviación estándar 10.6
600
Varianza de la muestra 112.8
400
Curtosis 0.3
200
Coeficiente de asimetría 0.7
0
Rango 77.0

y mayor...
20
25
30
35
40
45
50
55
60
65
70
75
80
85
90
95
Mínimo 18
Máximo 95
Cuenta 45,211

MARITAL
En un primer acercamiento a la concentración del estado civil podemos observar que de toda nuestra
información, el 28.29% se encuentra en single, sin embargo de aquellos que si contratarían el servicio
tenemos un 36.15% es decir, está por arriba de la media general, lo cual indica que puede ser un
factor para contratar el servicio.

Marital No Si Total general Marital Si


divorced 10.14% 1.38% 11.52% divorced 11.76%
married 54.10% 6.09% 60.19% married 52.09%
single 24.06% 4.23% 28.29% single 36.15%
Total general 88.30% 11.70% 100.00% Total general 100.00%

Páginá 5
WEKA

Distribución "marital"

divorced married single Total general

EDUCATION
Análogamente a la concentración del nivel de educación podemos observar que de toda nuestra
información, el 28.42% se encuentra en tertiary, sin embargo de aquellos que si contratarían el
servicio tenemos un 37.74% es decir, está por arriba de la media general, lo cual indica que puede
ser un factor para contratar el servicio.

education No Si Total general education Si


primary 13.85% 1.31% 15.15% primary 11.17%
secondary 45.90% 5.42% 51.32% secondary 46.32%
tertiary 25.00% 4.41% 29.42% tertiary 37.74%
unknown 3.55% 0.56% 4.11% unknown 4.76%
Total general 88.30% 11.70% 100.00% Total general 100.00%

Distribución "education"

primary secondary tertiary unknown Total general

Páginá 6
WEKA

JOB
Análogamente a la concentración del nivel de educación podemos observar que de toda nuestra
información, el 20.92% se encuentra en management, sin embargo de aquellos que si contratarían el
servicio tenemos un 24.60% es decir, está por arriba de la media general, lo cual indica que puede
ser un factor para contratar el servicio.

job No Si Total general job Si


admin. 10.04% 1.40% 11.44% admin. 11.93%
blue-collar 19.96% 1.57% 21.53% blue-collar 13.39%
entrepreneur 3.02% 0.27% 3.29% entrepreneur 2.33%
housemaid 2.50% 0.24% 2.74% housemaid 2.06%
management 18.04% 2.88% 20.92% management 24.60%
retired 3.87% 1.14% 5.01% retired 9.76%
self-employed 3.08% 0.41% 3.49% self-employed 3.54%
services 8.37% 0.82% 9.19% services 6.98%
student 1.48% 0.59% 2.07% student 5.09%
technician 14.95% 1.86% 16.80% technician 15.88%
unemployed 2.44% 0.45% 2.88% unemployed 3.82%
unknown 0.56% 0.08% 0.64% unknown 0.64%
Total general 88.30% 11.70% 100.00% Total general 100.00%

Distribución "job"

admin. blue-collar entrepreneur housemaid management


retired self-employed services student technician
unemployed unknown Total general

Páginá 7
WEKA

MONTH
Análogamente a la concentración del mes en cual fue contactado, podemos observar que de toda
nuestra información, febrero, marzo y abril, septiembre, octubre y noviembre tienen una mayor
concentración de aquellos que si contratarían el servicio por arriba de la media general, lo cual indica
que puede ser un factor para contratar el servicio.

month No Si Total general month Si


jan 2.79% 0.31% 3.10% jan 2.68%
feb 4.88% 0.98% 5.86% feb 8.34%
mar 0.51% 0.55% 1.06% mar 4.69%
apr 5.21% 1.28% 6.49% apr 10.91%
may 28.40% 2.05% 30.45% may 17.49%
jun 10.61% 1.21% 11.81% jun 10.32%
jul 13.86% 1.39% 15.25% jul 11.85%
aug 12.30% 1.52% 13.82% aug 13.01%
sep 0.69% 0.59% 1.28% sep 5.09%
oct 0.92% 0.71% 1.63% oct 6.11%
nov 7.89% 0.89% 8.78% nov 7.62%
dec 0.25% 0.22% 0.47% dec 1.89%
Total general 88.30% 11.70% 100.00% Total general 100.00%

month
16000

14000

12000

10000

8000

6000

4000

2000

0
jan feb mar apr may jun jul aug sep oct nov dec

Páginá 8
WEKA

Modelos iniciales
PRELIMINARES
- Carga de base
- Eliminar las variables “day” y “pdays”
- Tomar el J48 con los siguientes parámetros:

Páginá 9
WEKA

=== Detailed Accuracy By Class ===

TP Rate FP Rate Precision Recall F-Measure MCC ROC Area PRC Area Class

0.972 0.638 0.920 0.972 0.945 0.428 0.806 0.955 no

0.362 0.028 0.629 0.362 0.460 0.428 0.806 0.478 yes

Weighted Avg. 0.900 0.566 0.886 0.900 0.888 0.428 0.806 0.900

=== Confusion Matrix ===

a b <-- classified as

38792 1130 | a = no

3373 1916 | b = yes

Páginá 10
WEKA

Resultados
TITULO 1

Páginá 11
WEKA

Anexos
=== Run information ===

Scheme: weka.classifiers.trees.J48 -C 0.25 -M 150

Relation: bank-full-weka.filters.unsupervised.attribute.Remove-R10,14

Instances: 45211

Attributes: 15

age

job

marital

education

default

balance

housing

loan

contact

month

duration

campaign

previous

poutcome

Test mode: 10-fold cross-validation

=== Classifier model (full training set) ===

Páginá 12
WEKA

J48 pruned tree

------------------

duration <= 410

| poutcome = unknown: no (30787.0/1317.0)

| poutcome = failure: no (4188.0/348.0)

| poutcome = other: no (1518.0/173.0)

| poutcome = success

| | duration <= 132: no (241.0/54.0)

| | duration > 132: yes (934.0/279.0)

duration > 410

| duration <= 647

| | poutcome = unknown: no (3506.0/743.0)

| | poutcome = failure: no (438.0/125.0)

| | poutcome = other: no (199.0/72.0)

| | poutcome = success: yes (208.0/44.0)

| duration > 647

| | poutcome = unknown

| | | duration <= 827: no (1165.0/458.0)

| | | duration > 827

| | | | contact = unknown

| | | | | month = may: no (297.0/135.0)

| | | | | month = jun: yes (166.0/68.0)

| | | | | month = jul: no (7.0/2.0)

| | | | | month = aug: no (1.0)

Páginá 13
WEKA

| | | | | month = oct: no (0.0)

| | | | | month = nov: no (1.0)

| | | | | month = dec: no (0.0)

| | | | | month = jan: no (0.0)

| | | | | month = feb: no (1.0)

| | | | | month = mar: no (0.0)

| | | | | month = apr: no (0.0)

| | | | | month = sep: no (0.0)

| | | | contact = cellular: yes (938.0/356.0)

| | | | contact = telephone: yes (90.0/39.0)

| | poutcome = failure: yes (275.0/130.0)

| | poutcome = other: yes (123.0/61.0)

| | poutcome = success: yes (128.0/23.0)

Number of Leaves : 27

Size of the tree : 36

Time taken to build model: 0.5 seconds

=== Stratified cross-validation ===

=== Summary ===

Correctly Classified Instances 40708 90.04 %

Incorrectly Classified Instances 4503 9.96 %

Páginá 14
WEKA

Kappa statistic 0.4092

Mean absolute error 0.153

Root mean squared error 0.2777

Relative absolute error 74.0623 %

Root relative squared error 86.396 %

Total Number of Instances 45211

=== Detailed Accuracy By Class ===

TP Rate FP Rate Precision Recall F-Measure MCC ROC Area PRC Area Class

0.972 0.638 0.920 0.972 0.945 0.428 0.806 0.955 no

0.362 0.028 0.629 0.362 0.460 0.428 0.806 0.478 yes

Weighted Avg. 0.900 0.566 0.886 0.900 0.888 0.428 0.806 0.900

=== Confusion Matrix ===

a b <-- classified as

38792 1130 | a = no

3373 1916 | b = yes

Páginá 15

S-ar putea să vă placă și