Sunteți pe pagina 1din 58

TRABAJO ANÁLISIS MULTIVARIANTE

GRUPO 11

GRUPO FORMADO POR:

- ALFREDO MURILLO CALLE NORA CHAOUAY PUENTE

- PAULA FERNÁNDEZ VALENZUELA SANDRA LOBÓN VIQUEIRA

- VALLE GUERRA OREJUELA JOSÉ ELIGIO GARCÍA HERNÁNDEZ

APARTADO 1
La criminología, como no sucede en otras ciencias sociales, presenta problemas para acceder a datos veraces
y fiables. La estadística criminal constituye una fuente importante para la investigación criminológica, ya que
ofrece valiosa información sobre una serie de dimensiones cuantificables del fenómeno delictivo.

A medida que contamos con mayor información para analizar el fenómeno delictivo podemos estudiar el
mismo con mayor detenimiento. Las fuentes estadísticas en criminología son complejas debido a la dispersión
que éstas ostentan y los organismos que las emiten. Por lo tanto, podemos hacer alusión a las fuentes
estadísticas oficiales primordiales: Policiales, judiciales y penitenciarias.

Fuentes policiales

Su objeto de estudio son los hechos que llegan a conocimiento de la policía a través de denuncias de los
ciudadanos o a través de investigaciones policiales de oficio, realizando una contabilización y registro de dicha
información. Ofrecen una imagen cada vez más próxima a la realidad proporcionando información completa,
fiable, puntual y regular sobre el crimen.

Se trata de un buen instrumento para medir los hechos delictivos contemplados en el Código Penal o en las
leyes de un país. A nivel estatal existen el Cuerpo Nacional de Policía y la Guardia Civil. Aunque el formulario
elaborado por ambos cuerpos es único, los dos lo analizan por separado, por lo que la información que ambos
ofrecen se complementa. Estos formularios presentan una gran complejidad sobre el fenómeno delictivo,
analizando elementos como el lugar del delito o la situación de la víctima. Este cuestionario está destinado
exclusivamente a fines estadísticos y no es necesario tener conocimientos avanzados del Derecho Penal para
su cumplimentación.

La información analizada y recogida pasa a una segunda fase de depuración, donde se trata de detectar
posibles errores. Esto se hace dentro del mismo organismo y por personas que están en contacto con aquellas
que han cumplimentado el formulario, para contrastar información en caso de que fuese necesario. Una
tercera fase la constituiría la remisión de los datos a los funcionarios policiales dependientes del ministerio del
interior.

• En el Anuario Estadístico del Ministerio de Interior se recoge anualmente información


correspondiente a los hechos denunciados o conocidos por parte de los Cuerpos de Seguridad del
Estado. En las últimas ediciones del anuario se reconocen ocho bloques con información relativa al
ejercicio de derechos fundamentales, protección internacional, seguridad ciudadana, instituciones
penitenciarias, tráfico y seguridad vial, protección civil y emergencias, apoyo a víctimas del terrorismo,
atención al ciudadano y actividades administrativas. Incorporándose además información y nuevas
técnicas año tras año. El cual hemos utilizado en su versión del año 2016 para obtener variables como
la población reclusa en España, el porcentaje de hombres reclusos, el porcentaje de reclusos con
medidas de seguridad, el porcentaje de reclusos preventivos, así como el porcentaje de penados con
preventiva. También, debemos de destacar el papel del Boletín Estadístico del Personal al Servicio de
las Administraciones Públicas de donde hemos obtenido la variable ¨número de policías¨

• Destaca también la información dada por el Ministerio de Interior en sus Balances


Trimestrales de Criminalidad, dado que esto implica tener mayor cantidad de información de
periodos más cortos de tiempo. Este portal ha resultado de vital importancia, ya que gracias al portal
estadístico de criminalidad del ministerio del interior encontramos la variable tasa de criminalidad.

• Debemos de tener en consideración que los delitos pueden ser también denunciados ante
otras instancias como la Policía Autonómica y Local. Con respecto a la primera, existe mucha variedad
entre regiones, como la Ertzaintza y los Moss os descuadra quienes tienen más desarrollada su policía,
y tienen sus propias fuentes estadísticas. En otras regiones como Andalucía se dispone también de
estadísticas propias, a las que se puede acceder a petición del interesado. En relación a la Policía Local
que depende de las autoridades municipales, presenta una información aún más dispersa, ya que
pretenden vigilar el cumplimiento de las ordenanzas municipales y el tráfico, pero en algunas ciudades
también reciben e investigan denuncias sobre delitos.

Las principales limitaciones que sostienen las fuentes policiales son diversas; en primer lugar, debemos de
comentar que la información que las fuentes policiales ofrecen es parcialmente publicada, faltando así una
falta de transparencia hacia el ciudadano. Además, la información ofrecida es dispersa, ya que se incorporan
datos sobre hechos conocidos por las policías autonómicas y locales en distintos puntos del país. En tercer
lugar, debemos de tener en cuenta que la calificación delictiva del hecho recogido y registrado está hecha de
forma provisional, no coincidiendo en muchos casos con la que posteriormente realizan los jueces. Siendo así
lo ideal que exista una mayor homogeneidad posible entre los datos a utilizar.

• A escala europea, se implementan distintas directrices que establecen cómo se trabaja y trata
con la información en cada país, ya que para el estudio y comparación de la información es necesaria
una cierta homogeneidad en el método de obtención de esta. Distinguimos tres tipos de países a la
hora de encontrar información; Los que la recogen cuando el delito es denunciado o ¨input¨, los que
la recogen en un momento intermedio, así como los que la recogen cuando la investigación delictiva
ha finalizado o ¨output¨. Podemos discernir distintas ventajas y desventajas en un método u otro. Por
ejemplo, las de salida dan una información fiable, pero puede ocurrir que se pierdan registros si no se
culmina el proceso. Otra problemática que sucede con este tipo de estudio es que la medida con la
que se cuantifica el mismo no es siempre igual, por ejemplo, si el delito es cometido por más de una
persona, en algunos países se registra una sola vez y en otros tantas veces como personas implicadas

• A nivel internacional, no hay ningún registro que con orden regular ofrezca información
criminológica. Sin embargo, las principales agencias de policía internacional, o no ofrecen estadísticas
de delitos conocidos, o restringen su publicación para uso interno, por lo que es necesario acudir a
fuentes como la Estadística de Naciones Unidas sobre tendencias del Crimen y Operaciones de
Sistemas de Justicia Social, entre otras muchas.

Fuentes Judiciales.

Las fuentes judiciales recogen información sobre la actividad y situación de los órganos judiciales que permiten
evaluar el funcionamiento de los recursos judiciales, así como su cooperación con las fuerzas policiales. Sin
embargo, el principal problema conforme a las estadísticas judiciales es que éstas están desfasadas con
respecto a las estadísticas policiales sobre los mismos hechos.

La recogida de información de las estadísticas judiciales parte de la realización de un informe trimestral de la


secretaría de cada juzgado. Cada Letrado de la Administración de Justicia recaba los datos de diversas fuentes
internas al órgano judicial. Este sistema no es más que una aplicación de gestión que sirve de soporte para la
tramitación de la información relativa a los procedimientos judiciales, así, cada órgano judicial puede acceder
a la información recabada, siempre con las garantías de reserva, control y confidencialidad requeridas. No
obstante, no toda la información requerida para cumplimentar el boletín está disponible ya que en muchos
casos es necesario acceder al expediente del caso.

La realización de estos boletines los realiza los LAJ a través de formularios web habilitados en el denominado
Punto Neutro Judicial, que conecta a los órganos judiciales y administradores con competencia en justica con
el Consejo General del Poder Judicial. También tiene acceso las administraciones que facilitan información a
los órganos judiciales, así como las que recogen información de estos, como es el caso del Instituto Nacional
de Estadística.

Con respecto a los contenidos de cada una de las estadísticas ofrecidas por el INE, se constituyen conforme a:
condenados (menores y adultos), juzgados de paz, arrendamientos urbanos, nulidades, separaciones y
divorcios, y violencia doméstica y de género. La ventaja de estas estadísticas es que se ofrece la posibilidad
de hacer distintos cruces de datos con distintas variables como la edad o el sexo. A partir de la información
proporcionada del INE hemos obtenido variables como la población extranjera en 2016, el saldo vegetativo y
la tasa de actividad de la población en la provincia. Las principales estadísticas que ostentan una mayor
relevancia practica con carácter judicial son:

• La Estadística de Condenados incorporada tanto por menores como por adultos ofrece datos
anuales sobre las características sociodemográficas de personas condenadas en sentencia firme,
indicando el tipo de delito cometido y las penas impuestas. Estos datos provienen de la explotación
de la información del denominado Registro Central de Penados del Ministerio de Justicia, en el que se
inscriben las resoluciones firmes que suponen la imposición de una pena por parte de los Tribunales
de la jurisdicción penal ante la comisión de un delito o falta.

• La Estadística de los Juzgados de Paz ofrece datos relativos a la actividad judicial que tiene
lugar en los municipios en los que no existe juzgados de primera instancia e instrucción y que es
desarrollada por los Juzgados de Paz en los ámbitos civil y penal. En el ámbito penal la estadística
recoge información sobre el movimiento de asuntos y la tipología de estos.

• La Estadística de la Violencia Doméstica y la Violencia de Género ofrece datos anuales sobre


las características sociodemográficas de las víctimas y de las personas denunciadas por violencia de
género, tales como sexo, edad, lugar de nacimiento y el tipo de relación entre la víctima y la persona
denunciada. Asimismo, incluye datos relativos sobre las medidas cautelares dictadas de las
infracciones penales imputadas en cada caso.

El Consejo General del Poder Judicial a través de su portal estadístico ofrece información sobre los distintos
aspectos de la Administración de Justicia. Aunque a lo largo de su historia esta información ha sido escasa y
dispersa, basada principalmente en los boletines estadísticos trimestrales. Siendo así las más importantes las
siguientes:

• Los Boletines Trimestrales de los órganos judiciales recogen información de los distintos
juzgados

• Datos de Justicia, agrupan informes temáticos que ofrecen una visión resumida de aspectos
del sistema judicial tales como la calidad de las sentencias, la carga de los órganos judiciales o el coste
de la justicia

• Informes por territorios sobre la actividad de los órganos judiciales, en los que se recogen
informes trimestrales y anuales sobre la actividad judicial de los Tribunales Superiores de Justicia, las
provincias y los partidos judiciales. La información contenida en estos informes territoriales hace
referencia al volumen de asuntos pendientes, ingresados y resueltos, el número de sentencias, autos
y decretos finales, así como el número de ejecutorias ingresadas, resueltas y pendientes

• Justicia Dato a Dato, en el que se reflejan aspectos relacionados con los medios, la actividad
y la calidad de la justicia conforme a una serie de datos o cifras clave.
• Panorámica de la justicia, describe de forma detallada la situación durante el periodo anterior
al de la publicación del informe en cada una de sus jurisdicciones.

• Indicadores clave, consiste en una publicación que ofrece una batería de indicadores que
describen la situación de cada jurisdicción y del conjunto de ellas que ofrecen una visión sintética de
la situación en los órganos judiciales como la tasa de congestión, resolución, pendencia y litigiosidad;
el número de asuntos ingresados por juez; el número de sentencias por juez. Estos indicadores se
generan a nivel estatal y autonómico.

• Violencia sobre la Mujer, elaborados a partir de los datos de los boletines estadísticos
trimestrales recogidos en los juzgados de violencia contra la mujer.

• Base de datos de la estadística judicial, la cual contiene datos anuales para cada uno de los
órganos judiciales desde el año 1995 hasta el último disponible. Ofrece el mayor detalle en cuantos
tipos de procedimientos, ejecutorias, recursos, auxilio judicial, etc. De las fuentes ofrecidas por el
Consejo General del Poder Judicial en la estadística judicial hemos obtenido variables como el
porcentaje de sentencias emitidas o el tiempo promedio de duración del proceso judicial.

Fuentes penitenciarias

Las fuentes penitenciarias son fuentes de conocimiento presentes de un conjunto de instituciones del sistema
penal que se encargan de gestionar la ejecución de las penas privativas de la libertad. En particular estas
estadísticas penitenciarias se han limitado, internacionalmente, a acumular información sobre la población
que se encuentra cumpliendo penas privativas de la libertad. Sólo en una mínima parte, estas estadísticas, se
refieren a algunas informaciones fundamentales con respecto al funcionamiento y vida cotidiana de estas
instituciones penitenciarias.

La estadística penitenciaria es la más fiel ya que aborda el fenómeno delictivo más susceptible de verificación.
Se publican por el Ministerio de Interior a través de su Secretaria General de Instituciones Penitenciarias. Esta
institución ofrece una estadística con datos mensuales y semanales para el total nacional, completada con un
catálogo de establecimientos penitenciario por provincias y tipología de centro. Por otra parte, se recoge
información anual, aunque de aparición irregular en ciertas publicaciones.

Esta institución publica el Informe General de forma anual donde para el total nacional se recogen los datos
anteriores excepto la desagregación por CCAA. Además, se incluyen cuestiones relativas a los programas de
tratamiento, gestión del medio abierto, asistencia sanitaria dentro de los centros penitenciarios, medidas
alternativas y beneficios penitenciarios, entre otras. Del informe que ofrece la Secretaria General de
instituciones penitenciarias hemos obtenido información para determinar variables como la superficie de la
parcela del centro penitenciario en m2 o el número total de celdas.

El INE también proporciona información sobre población reclusa. En concreto, la única información relativa a
la población reclusa publicada por esta institución se encuentra en el Boletín Mensual de Estadística que es
una publicación de síntesis que recoge un amplio conjunto de indicadores

La Agrupación de los Cuerpos de la Administración de Instituciones Penitenciarias (ACAIP) publica


información útil en relación a determinados aspectos de índole penitenciaria tales como el estudio de la
mortalidad en prisiones o los niveles de ocupación en centros penitenciarios por CCAA. Por parte de ACAIP
hemos obtenido información para variables como la ocupación media real o los kilómetros al centro urbano
más cercano.

El International Center for Prision Studies elabora una lista internacional conocida como la World Prison
Population List, que recoge información muy interesante para una gran cantidad de países, incluso del
continente africano, donde no hay un gran estudio estadístico en la materia.
APARTADO 2
a) Especifique un modelo de regresión lineal múltiple que permita
explicar el nivel de población penitenciaria registrado en cada centro en
función de las variables socioeconómicas identificadas por el equipo de
investigación, y proceda a su estimación mediante Mínimos Cuadrados
Ordinarios. Interprete los valores de los coeficientes, analice la bondad
del ajuste y valide el modelo a un 5% de significación utilizando las
herramientas de inferencia estadística, presentado las conclusiones
extraídas de ese análisis.

Especificar modelo de Regresión:

𝑷𝑷𝒊: 𝛽1 + 𝛽2 ∗ 𝑇𝐴𝑖+ 𝛽3 ∗ 𝑆𝑇𝐶𝑖 +β4 ∗ 𝑇𝑃𝐽𝑖 + β𝟓 ∗ 𝑃𝐸𝑖 + ui


Estimar modelo

𝑃̂𝑃𝑖: 2,759 − 0,009 ∗ 𝑇𝐴𝑖 − 0,037 ∗ 𝑆𝑇𝐶𝑖 − 0,089 ∗ 𝑇𝑃𝐽 − 0,075 ∗ 𝑃𝐸𝑖
Interpretar:

- 𝛽1: ORDENADA EN EL ORIGEN: Promedio mínimo de la población penitenciaria si


todas las variables independientes valen 0. En este caso, la población
penitenciaria promedio mínimo es de 2,759 reclusos por cada mil habitantes.
- 𝛽2: Si la tasa de actividad de la población de la provincia aumenta en uno por ciento,
por término medio la población penitenciaria disminuye en 0,009 reclusos por cada
mil habitantes, manteniéndose el resto de las variables constantes.
- 𝛽3: Si el porcentaje de sentencias emitidas aumenta en uno por ciento, por término
medio la población penitenciaria disminuye en 0,037 reclusos por cada mil habitantes,
manteniéndose el resto de las variables constantes.
- β𝟒: Si el tiempo promedio de duración del proceso judicial aumenta en una unidad,
por término medio la población penitenciaria disminuye en 0,089 reclusos por mil
habitantes, manteniéndose el resto de las variables constantes.
- β𝟓: Si el porcentaje de población extranjera aumenta en un uno por ciento, por
término medio la población penitenciaria disminuye en 0.075 reclusos por cada mil
habitantes, manteniéndose las demás variables constantes.

Analizar bondad del ajuste:

Al ser el R cuadrado (coeficiente de determinación) de un 15,1% y, por tanto, muy inferior


al 75%, tenemos una mala bondad del ajuste, es decir, sólo un 15,1% de la población
penitenciaria está explicada por las variables explicativas del modelo.

Además, al ser la diferencia superior al 5%, en este caso de un 10,6; el tamaño muestral
no es suficiente y diremos que el R cuadrado no es fiable y, por lo tanto, debemos quedarnos
con el R cuadrado ajustado, siendo de un 4,5%.
Validar el modelo a un 5%:

- SIGNIFICATIVIDAD GLOBAL

𝐻0: Modelo globalmente no significativo  2= 𝛽3= 𝛽4= 𝛽5= 0

𝐻1: Modelo globalmente significativo  𝛽𝑗 ≠ 0

El p-valor de Fisher de nuestro modelo de regresión es de 0,248 y, por tanto, superior al


0,05. Aceptamos la Hipótesis nula, el modelo no es globalmente significativo.

- SIGNIFICATIVIDAD INDIVIDUAL

𝐻0: Variable no significativa→ 𝛽𝑗= 0

𝐻1: Variable significativa→ 𝛽𝑗 ≠ 0


Todas las variables son superiores al 5% y, por tanto, aceptamos la Ho, siendo todas no
significativas, es decir, no son capaces de explicar la población penitenciaria por término
medio.

De entre todas ellas, siendo todas no significativas, por analizar más detalladamente, la que
más significativa podría ser a la hora de explicar la población penitenciaria por término
medio es el porcentaje de la población extranjera, puesto que tiene una t-student del -
1,581.

La variable que ejerce mayor influencia es el tiempo promedio de duración del


procedimiento, cuya beta es -0,089.

El coeficiente cuya estimación es la más precisa puesto que su error es el más bajo, siendo
del 0,042 es el porcentaje de sentencias emitidas.
b) Estudie el cumplimiento de los supuestos estocásticos del modelo. ¿Se cumplen todos ellos?
En caso negativo, ¿qué supuesto se incumple? ¿Qué consecuencias tiene este hecho para la
interpretación de los resultados?

NORMALIDAD

1- GRÁFICOS

El histograma lo que te hace es dividir los valores del residuo en intervalos y la altura de
este te indica el número de casos que hay en ese intervalo.

Podemos observar, que la mayoría de los valores del residuo están en el intervalo (-1, 0)

Sobre el histograma lo que se la línea que se dibuja es una N (0,1). Comparando la N


(0,1) con el histograma observamos que, en este caso, el histograma es más acusado que la
normal y, además, tenemos una alta frecuencia en los valores más altos del residuo. Por lo
tanto, lo más seguro es que siga una normal
Problema acumulado observado (puntos): la función de distribución del residuo de mi modelo

Problema acumulado esperado (diagonal): la función de distribución de una N (0,1).

Si las dos funciones de distribución son iguales los puntos caen sobre la diagonal.

Los puntos que aparecen aquí son el cruce de la función de tu residuo con la función de
distribución de una N (0,1). En este caso, los puntos están alejados de la diagonal ya que las
funciones son muy diferentes, sólo coinciden en el 0,4; en el resto se aleja.

Es otra forma de ver que tu residuo no tiene una función de distribución normal.

2- TEST DE SHAPIRO-WILK

𝐻0: Perturbación aleatoria sigue normal


𝐻1: Perturbación aleatoria no sigue normal
En este caso, el p-valor tiende a cero (0,000) y al ser inferior a 0,05 rechazamos la 𝐻0 y,
por tanto, decimos que nuestra perturbación aleatoria no sigue una distribución normal.

LINEALIDAD

1- GRÁFICOS

Representa el valor del residuo estandarizado (Regresión residuo estandarizado) con el valor
de la Y estimada (regresión valor predicho estandarizado). La Y estimada recoge el efecto de
todas las variables X.

Lo que tratamos de ver es como se comporta el residuo entorno a su media. El residuo


siempre tiene de media cero por eso la línea esta en el valor dcero.

Si el residuo va teniendo valores y signos que se comportan y cambian de manera aleatoria,


podemos decir que el modelo es lineal, que es lo que parece aquí.

Cuando el valor del residuo de cada observación está relacionado con el anterior, el cambio
del signo es más pausado (al principio son todos los puntos positivos y después negativos,
volviendo a poder ser positivo), va dibujando un ciclo. Esto es porque depende un residuo
de otro.
2- TEST RAMSEY

𝐻0: Modelo inicial está bien especificado→α6= α7 = 0


𝐻1: Modelo inicial no está bien especificado→ α𝑗≠ 0

𝑃𝑅𝑖: α1+ α2 ∗ 𝑇𝐴𝑖 + α3 ∗ 𝑆𝑇𝐶𝑖 + α4 ∗ 𝑇𝑃𝐽𝑖 + α5 ∗ 𝑃𝐸𝑖 + α6 ∗ 𝑃𝑅2+ α𝑖 7 ∗ 𝑃𝑅3 + 𝑢𝑖𝑖

Podemos como comprobar que el coeficiente de determinación de este modelo auxiliar es


mayor que el del modelo original por haberle incluido más variables. Además, no hay una
notable diferencia entre éste y el anterior, tan sólo hay una diferencia de 0,049, por ello,
parece ser que hay mayor evidencia para aceptar nuestra hipótesis.

A continuación, aplicamos nuestro estadístico de prueba:

𝑭𝑬𝑿𝑷: [(R cuadrado nuevo – R cuadrado inicial)/2]/ [(1-R cuadrado nuevo)/ (n-m)]

𝐹𝐸𝑋𝑃: [(0,2 – 0,151)/2]/[(1-0,2)/(37-7)]= 0,0245/0,0266= 0,92105263

Nos vamos a la tabla F de Snedecor, al 95% de confianza y nos fijamos en el número


𝐹2,30 que es 3,32.

Al ser nuestro 𝐹𝐸𝑋𝑃inferior a 3,32 aceptamos la Hipótesis nula y decimos que nuestro
modelo inicial es lineal y, por tanto, está bien especificado.
HOMOCEDASTICIDAD

1- GRÁFICO

En este caso, lo que intentamos ver es si la distancia que hay entre los puntos es
siempre la misma o no, independientemente de lo que valga la Y estimada.
Si la distancia es siempre la misma es porque la Varianza de la perturbación
aleatoria es constante.
Podemos observar que, al principio los puntos están más separados, después
entre 0 y 1 la dispersión es más pequeña. La mayoría de los puntos están entre 0 y 1 y,
por tanto, lo más probable es que la varianza de la perturbación aleatoria sea constante.

2- TEST DE WHITE

𝐻0: La varianza de la perturbación aleatoria es constante→ α2= α3= …= α8 = 0


𝐻1: La varianza de la perturbación aleatoria no es constante→ α𝑗≠ 0

Se crea un modelo de regresión auxiliar, donde la variable dependiente es la estimación de


la varianza y como variable independiente tenemos al término independiente, las variables
explicativas del modelo original, éstas al cuadrado y los productos cruzados dos a dos de las
variables que, al ser opcional y al tener un número considerable de variables, no contaremos
con éste último:
𝑒𝑖 = α1 + α2 ∗ 𝑇𝐴𝑖 + α3 ∗ 𝑆𝑇𝐶𝑖 + α4 ∗ 𝑇𝑃𝐽𝑖 + α5 ∗ 𝑃𝐸𝑖 + α6 ∗ 𝑇𝐴2+ α7 ∗ 𝑆𝑇𝐶2 + α8 ∗ 𝑇𝑃𝐽2+
𝑖 𝑖 𝑖
α9 ∗ 𝑃𝐸2𝑖 + 𝑣𝑖

Nos fijamos en el p-valor de Fisher y vemos que es 0,803, por tanto, es superior a 0,05 y
tendríamos que aceptar la Ho, aceptando que la varianza de la perturbación aleatoria es
constante.
NO AUTOCORRELACIÓN

𝐻0: Ausencia de autocorrelación AR(1) (p=0)→𝑢𝑖=𝑝𝑢𝑖−1+𝐸𝑖


𝐻1: Hay autocorrelación AR(1) p>0 ó p<0

En primer lugar, debemos calcular el Valor estadístico de Durbin-Watson que es igual a


1,663.

Debemos tener en cuenta el tamaño muestral del modelo (n), el nivel de significación
(α) y el número de variables distintos de la ordenada en el origen (k’). Estos valores son 37,
0,05 y 4, respectivamente.

A continuación, debemos acudir a las tablas estadísticas de Durbin-Watson para ver el


valor dL=1,249 y el valor dU= 1,723.

Se deben representar estos datos en una gráfica con las cotas 0-2-4. La zona de duda es
la que quedaría entre 1,249 y 1,723. Nuestro valor estadístico de Durbin-Watson= 1,663
quedaría situado dentro de esta zona de duda.

Por lo tanto, no podemos ni aceptar ni rechazar la hipótesis nula de que no exista


autocorrelación y, tampoco si la estimación es óptima o no; sólo podemos afirmar que, en
caso de existir, sería positiva.

CONCLUSIÓN: Una vez estudiados los supuestos estocásticos, hemos podido observar que no se
cumple la normalidad y tampoco podemos afirmar si se cumple la autocorrelación AR(1), es
decir, si la estimación es óptima o no. Por otro lado, con respecto a la linealidad, ésta si se
cumple, afirmando también que la estimación de las betas sigue un modelo insesgado. Además,
atendiendo a la homocedasticidad, aceptamos que la perturbación aleatoria es constante.

Como la perturbación aleatoria no sigue una normal, la inferencia no es válida.


c) Llegados a este punto, los investigadores se plantean conocer si los centros construidos con
anterioridad a 1995 presentan un comportamiento en su población penitenciaria distinta a la
registrada en los centros de construcción más reciente. Asimismo, se sospecha que el
comportamiento promedio de la población penitenciaria puede variar en función de la eficacia
de los cuerpos policiales. En concreto, se desea conocer si las provincias que presentan una
tasa de detenidos por encima del promedio de la muestra considerada tienen por término
medio una mayor población penitenciaria. A partir del modelo original, especifique, estime e
interprete un nuevo modelo que permita estudiar estas diferencias en el comportamiento
medio de la población penal incorporando dos variables binarias. Asimismo, especifique el
modelo de forma que pueda estudiarse si existen diferencias significativas en el
comportamiento promedio de la población penitenciara, cuando interaccionan entre sí las
variables binarias consideradas. ¿Qué conclusiones puede extraerse al respecto? Contraste al
95% de confianza si dichas diferencias son significativas.

Especifique

PPi= β1+β2 ∗ TAi + β3 ∗ STCi + β4 ∗ TPJi+ β5 ∗ PEi+ β6 ∗ B1+ β7 ∗ B2+ β8 * (𝑉𝐹𝐶 ∗ VTD) + ui

Estime
̂ =1,929 + 0, 005 ∗ TAi − 0,056 ∗ STCi − 0,111 ∗ TPJi − 0,063 ∗ PEi − 0,236 ∗ VFC𝑖 −
𝑃𝑃𝑖
0,291 ∗ VTDi + 1,2 ∗ (VFCi ∗ VTDi)
Interprete un nuevo modelo que permita estudiar estas diferencias.

FC=1; Año de construcción posterior a 1995

FC=0; Año de construcción igual o anterior a 1995

TD=1; Tasa de detenidos superior a la media

TD=0; Tasa de detenidos igual o inferior a la media.

E (PP/AÑO=0; TD=0) = 𝛽1+𝛽2 ∗ 𝑇𝐴 + ⋯ + 𝛽5 ∗ 𝑃𝐸= 𝜇0,𝑇𝐷=0

E (PP/AÑO=1; TD=0) = 𝛽1+…+𝛽6= 𝜇1,𝑇𝐷=0

E (PP/AÑO=0; TD=1) = 𝛽1+…+ 𝛽7= 𝜇0,𝑇𝐷=1

E (PP/AÑO=1; TD=1) = 𝛽1 +…+𝛽6+𝛽7+𝛽8=𝜇1,𝑇𝐷=1

𝛽1: Número de reclusos internos mínimo por cada 1000 habitantes es de 1,929, siendo la
construcción del edificio antes de 1995 y la tasa de detenidos inferior a la media.

𝛽2: Efecto marginal de la tasa de actividad de la provincia con independencia del año de
construcción del centro penitenciario y la tasa de detenidos. Por tanto, si la tasa de actividad de
la provincia aumenta en un uno por ciento, el número de reclusos internos aumenta 0,005 por
cada mil habitantes

𝛽3: Efecto marginal del porcentaje de sentencias emitidas con independencia del año de
construcción del centro penitenciario y la tasa de detenidos. Por tanto, si el porcentaje de
sentencias emitidas aumenta en un uno por ciento, disminuye un 0,056 el número de reclusos
por cada mil habitantes.

𝛽4: Efecto marginal del tiempo promedio de duración del proceso judicial con independencia del
año de construcción del centro penitenciario y la tasa de detenidos. Por tanto, si el tiempo
promedio aumenta en una unidad, el número de reclusos disminuye un 0,111 por cada mil
habitantes

𝛽5: Efecto marginal del porcentaje de población extranjera de la provincia con independencia
del año de construcción del centro penitenciario y la tasa de detenidos. De este modo, si la
población extranjera aumenta un uno por ciento, el número de reclusos disminuirá 0,63 por
cada mil habitantes

𝛽6: La diferencia del número de reclusos internos por cada mil habitantes en un centro posterior
a 1995 es 0,236 mayor respecto a un centro anterior o igual a 1995 cuando la tasa de detenidos
es inferior a la media.

𝛽7: La diferencia del número de reclusos internos por cada mil habitantes cuando la tasa de
detenidos es superior a la media es 0,291 menor respecto a una tasa de detenidos inferior o
igual a la media cuando el centro penitenciario es anterior o igual a 1995.

𝛽8 : Como cambia la diferencia media entre un centro construido en años posteriores a 1995
respecto a un centro construido antes o en el año 1995 cuando pasamos de una tasa de
detenidos superior a la media a la inferior a la media.
𝛽8 : Como cambia la diferencia media entre una tasa de detenidos superior a la media respecto
a la inferior, cuando pasamos de un centro penitenciario anterior o igual a 1995 respecto a uno
posterior a 1995.

Especifique el modelo de forma que pueda estudiarse si existen diferencias significativas en el


comportamiento promedio de la población penitenciara, cuando interaccionan entre sí las
variables binarias consideradas. ¿Qué conclusiones puede extraerse al respecto?

SIGNIFICATIVIDAD INDIVIDUAL DE LA INTERACCIÓN DE BINARIAS

𝐻0= 𝛽8 = 0

𝐻1 = 𝛽8 ≠ 0
Como P (valor) es de 0,1 y por tanto inferior al nivel de significación de 0,05, podemos afirmar
que aceptamos la hipótesis nula, por tanto, decimos que la interacción de las betas no es
significativa. De esta manera podemos concluir que indiferentemente de que se trate de un
centro cuya construcción sea anterior o posterior a 1995 esto no afecta a la tasa de detenidos
por provincia.

SI LAS DIFERENCIAS SON SIGNIFICATIVAS

𝐻0= 𝛽7 = 0
𝐻1 = 𝛽7 ≠ 0
Como P (valor) es de 0.584 y por tanto superior al nivel de significación de 0,05, podemos afirmar
que aceptamos la hipótesis nula, por tanto, decimos que la interacción de las betas no es
significativa. De esta manera podemos concluir que la tasa de detenidos por provincia, no afecta
al número de reclusos internos por cada 1000 habitantes.

LAS DIFERENCIAS SON SIGNIFICATIVAS

𝐻0= 𝛽6 = 0

𝐻1 = 𝛽6 ≠ 0
Como P (valor) es de 0.64 y por tanto superior al nivel de significación de 0,05, podemos afirmar
que aceptamos la hipótesis nula, por tanto, decimos que la interacción de las betas no es
significativa. De esta manera podemos concluir que la fecha de construcción del centro no afecta
al número de reclusos internos por cada 1000 habitantes.
Apartado 3.
- Saldo vegetativo de la población de la provincia en la que se ubica el centro penitenciario. (SV)

- Tasa de criminalidad provincial registrada. (TCPR)

- Porcentaje de penados con preventiva sobre el total de internos preventivos. (PPREV)

- Número de policías por habitante a nivel provincial. (NPHAB)

Modifique el modelo de regresión del apartado 2 Incorporando la información proporcionada


por estos 4 indicadores adicionales y proceda a su estimación.

𝑷𝑷𝒊: β1 + β2 ∗ TAi+ β3 ∗ STCi +β4 ∗ TPJi + β𝟓 ∗ PEi + β6 ∗ SVi + β7 ∗ TCPRi + β8 ∗ PPREVi +


β9 ∗ NPHABi + ui

Estimación
̂ = 3,664 − 0,037 ∗ TAi + 0,051 ∗ STCi − 0,223 ∗ TPJi −0,180∗ PEi −0,203∗ SVi+0,051∗
𝑃𝑃𝑖
TCPRi − 0,080 ∗ PPREVi + 0,00004552 ∗ NPHABi

Coeficientesa
Coeficientes
Coeficientes no estandarizados estandarizados Estadísticas de colinealidad
Modelo B Desv. Error Beta t Sig. Tolerancia VIF
1 (Constante) 3,664 4,697 ,780 ,442

TASA DE ACTIVIDAD DE -,037 ,066 -,122 -,562 ,578 ,564 1,774


LA POBLACIÓN DE LA
PROVINCIA
PORCENTAJE DE-,051 ,047 -,207 -1,089 ,285 ,744 1,345
SENTENCIAS EMITIDAS
TIEMPO PROMEDIO DE -,223 ,252 -,170 -,885 ,383 ,727 1,376
DURACIÓN DEL
PROCESO JUDICIAL
porcentaje -,180 ,189 -,727 -,956 ,347 ,046 21,609
SALDO VEGETATIVO -,213 ,116 -,630 -1,834 ,077 ,227 4,411
TASA DE CRIMINALIDAD ,051 ,036 ,628 1,426 ,165 ,138 7,266
PORCENTAJE DE -,080 ,359 -,043 -,223 ,825 ,732 1,365
PENADOS CON
PREVENTIVA
NÚMERO DE POLICIAS 4,552E-5 ,000 ,402 ,619 ,541 ,063 15,787
a. Variable dependiente: NUMERO DE RECLUSOS INTERNOS POR CADA 1000 HABITANTES
Analice la bondad del ajuste

Al ser el R cuadrado (coeficiente de determinación) de un 25,1% y, por tanto, muy


inferior al 75%, tenemos una mala bondad del ajuste, es decir, sólo un 25,1% de la población
penitenciaria está explicada por las variables explicativas del modelo.

Además, al ser la diferencia superior al 5%, en este caso de un 0,214; el tamaño muestral
no es suficiente y diremos que el R cuadrado no es fiable y, por lo tanto, debemos quedarnos
con el R cuadrado ajustado, siendo de un 3,7%.

Valide el modelo

SIGNIFICATIVIDAD GLOBAL

𝐻0: Modelo globalmente no significativo→ 2= 𝛽3= 𝛽4= 𝛽5= 0


𝐻1: Modelo globalmente significativo→ 𝛽𝑗 ≠ 0

El p-valor de Fisher de nuestro modelo de regresión es de 0,348 y, por tanto, superior al 0,05.
Aceptamos la Hipótesis nula, el modelo no es globalmente significativo.

SIGNIFICATIVIDAD INDIVIDUAL (tabla de coeficientes abajo)

𝐻0: Variable no significativa→ 𝛽𝑗= 0

𝐻1: Variable significativa→ 𝛽𝑗 ≠ 0

Todas las variables son superiores al 5% y, por tanto, aceptamos la Ho, siendo todas no
significativas, es decir, no son capaces de explicar la población penitenciaria por término medio.

De entre todas ellas, siendo todas no significativas, por analizar más detalladamente, la que más
significativa podría ser a la hora de explicar la población penitenciaria por término medio es el
saldo vegetativo, puesto que tiene una t-student del -1,834.
La variable que ejerce mayor influencia es el tiempo promedio de duración del procedimiento,
cuya beta es -0,223.

El coeficiente cuya estimación es la más precisa puesto que su error es el más bajo, siendo del
0,359 es el porcentaje de penados con preventiva.

Coeficientesa
Coeficientes
Coeficientes no estandarizados estandarizados Estadísticas de colinealidad
Modelo B Desv. Error Beta t Sig. Tolerancia VIF

1 (Constante) 3,664 4,697 ,780 ,442


TASA DE ACTIVIDAD DE -,037 ,066 -,122 -,562 ,578 ,564 1,774
LA POBLACIÓN DE LA
PROVINCIA
PORCENTAJE DE-,051 ,047 -,207 -1,089 ,285 ,744 1,345
SENTENCIAS EMITIDAS
TIEMPO PROMEDIO DE -,223 ,252 -,170 -,885 ,383 ,727 1,376
DURACIÓN DEL
PROCESO JUDICIAL
porcentaje -,180 ,189 -,727 -,956 ,347 ,046 21,609
SALDO VEGETATIVO -,213 ,116 -,630 -1,834 ,077 ,227 4,411
TASA DE CRIMINALIDAD ,051 ,036 ,628 1,426 ,165 ,138 7,266

PORCENTAJE DE -,080 ,359 -,043 -,223 ,825 ,732 1,365


PENADOS CON
PREVENTIVA
NÚMERO DE POLICIAS 4,552E-5 ,000 ,402 ,619 ,541 ,063 15,787
a. Variable dependiente: NUMERO DE RECLUSOS INTERNOS POR CADA 1000 HABITANTES

Estudie la posible existencia de un problema de multicolinealidad


aproximada en el modelo resultante.
Cuando las variables independientes usadas presentan una alta relación lineal el análisis
realizado es inestable por lo que las conclusiones que se obtienen quedan en entredicho. Este
problema es conocido como multicolinealidad aproximada.

Para poder analizar si existe o no dicho problema, es necesario comprobar una serie de
requisitos que, si se cumplen, nos indicarán que nuestro modelo tiene un problema de
multicolinealidad aproximada

Primero, es necesario comprobar si se verifica la CONDICIÓN NECESARIA

El coeficiente de determinación es de 25,1% y, por tanto, inferior al 90%; no es


globalmente significativo. Además, todas las variables son individualmente no significativas.

Por tanto, no se verifica la condición necesaria.


Segundo, es necesario comprobar si se verifica la CONDICIÓN SUFICIENTE

Tenemos que tener en cuenta la matriz de correlaciones entre las variables.

Pudiendo comprobar que entre la variable porcentaje de población extranjera y el


número de policía existe un problema de multicolinealidad aproximada puesto que supera al
0,8, siendo su matriz de correlación de un 0,944. Entre ambas existe una regresión lineal fuerte.
Tercero, miramos el NÚMERO DE CONDICIÓN

Al tener un índice de condición de 97,532, comprobamos que tiene un problema muy


grave de multicolinealidad aproximada, puesto que supera el índice que es necesario para que
se dé el mismo, este es 30.

Por último, para saber cuáles son las variables que hacen que el modelo tenga un problema de
multicolinealidad aproximada, tenemos que tener en cuenta el ÍNDICE DE TOLERANCIA Y EL
FACTOR DE AGRANDAMIENTO:

Con respecto al primero, tenemos que tener en cuenta los que están mas cerca de 0,
esto es, aquellas variables que tienen una mayor relación lineal, estas son: porcentaje de
población extranjera (0,046), el número de policía (0,063), la tasa de criminalidad (0,138) y el
saldo vegetativo (0,227).

Sólo el 4,6% de la variabilidad del porcentaje de la población extranjera no está


explicado por el resto de las variables. (ÍDEM con el resto)

Con respecto al segundo, tenemos que tener en cuenta aquellas variables que estén más
alejadas del 0, que son las mismas, pero en este caso cambia el número: porcentaje de población
extranjera (21,609), el número de policía (15,787) la tasa de criminalidad (7,266) y el saldo
vegetativo (4,411).

Estas son las variables que están muy relacionadas entre sí, es decir, dependen mucho
del resto de las variables.

Para intentar mejorar el resultado e incorporar toda la información


proporcionada por los 8 indicadores considerados, se propone aplicar un Análisis en
Componentes Principales para reducir el sistema inicial en un conjunto de
componentes más reducido que explique al menos el 73% de la variabilidad de los
datos. Obtenga el valor de las citadas componentes para cada uno de los centros
penitenciarios e interprete sus valores, explicando detalladamente el procedimiento
aplicado para ello.
En primer lugar, para saber si es adecuada la muestra inicial para el ANÁLISIS DE
COMPONENTES INICIALES, tenemos que tener en cuenta el Test de esfericidad y KMO.

TEST DE ESFERICIDAD DE BARLETT

𝐻𝑂: Matriz de correlación = Matriz de identidad  𝑟𝑖𝑗 = 0

𝐻1: Al menos una correlación ≠ 0


Al ser el p-valor de 0,000, rechazamos la hipótesis nula y asumimos que hay algún
coeficiente de correlación distinto de 0, es decir, al menos alguna de las variables presenta un
nivel de correlación significativamente distinto a cero.

TEST DE KMO (0<KMO<1)

Comparación de los coeficientes de correlación observados entre las variables y los


coeficientes de correlación parcial para el conjunto de las variables.

El coeficiente de correlación parcial mide el grado de asociación o relación lineal


existente entre dos variables controlando los efectos del resto de variables.

Siendo el p-valor de 0,586, podemos decir que es adecuada la muestra inicial para
realizar un Análisis de Componentes Principales, ya que al ser superior al 0,5 es aceptable la
misma. Además, al presentar valores bajos los coeficientes de correlación parcial, más grandes
serán las correlaciones, mayor cantidad de varianza común y las variables compartirán más
factores comunes, siendo, por tanto, más fácil de buscarlos.
Una vez definido el modelo, determinando que es factible la aplicación del Análisis
Factorial, habría que proceder a la EXTRACCIÓN DE FACTORES COMUNES son combinaciones
lineales de todas las variables incluidas en el análisis. Para ello, buscamos un método que
permita encontrar un conjunto reducido de k factores comunes, que expliquen suficientemente
a las variables observadas perdiendo el mínimo de información, de modo que sean fácilmente
interpretables.

Recurrimos al ANÁLISIS DE COMPONENTES PRINCIPALES, donde es posible explicar


el 100% de la variabilidad de cada variable, extrayendo inicialmente tantas componentes como
variables originales, tratando de reducir el número de variables para explicar el fenómeno
analizado, seleccionando un número menor de componentes que reproduzcan bien las
correlaciones observadas y expliquen gran parte de la varianza inicial. Siempre proporciona una
solución, pero los resultados pueden estar sesgados si hay variables con escasa comunalidad.

Como regla de selección empleamos el criterio del valor propio de Kaiser, que tiene en
cuenta aquellos componentes con varianzas mayores que el promedio de la varianza total, que
al estar las variables tipificadas la media será siempre uno. Queremos que cada componente
explique la Varianza total de una de las variables tipificadas.

- Para el caso de NO HABER ROTADO el modelo, hemos seleccionado tres componentes


principales; la primera de ellas, explica un 42,389% de la variabilidad total, la segunda
un 19,850% de la variabilidad total y la tercera un 12,729% de la variabilidad total. Las
tres componentes seleccionadas explican un 74,968% de la variabilidad total.
- Para el caso de HABER ROTADO EL MODELO, también han sido seleccionadas 3
componentes principales, en este caso, la primera explica un 41,800%, la segunda un
18,899% y la tercera un 14,269% de la variabilidad total. Las tres componentes
seleccionadas explican también un 74,968% de la variabilidad total.
DATO: Que el porcentaje acumulado de estas 3 componentes no cambie es porque no modifica la
comunalidad de cada variable, sino el porcentaje de varianza explicado por cada factor común.

También, podemos tener en cuenta el GRÁFICO DE SEDIMENTACIÓN, que es un


gráfico que representa, en el eje de abcisas: el número de factores (número de factores) y en el
eje de ordenadas: los autovalores (la varianza de cada componente), teniendo en cuenta el
punto de inflexión: únicamente servirán los factores anteriores a éste.

La gráfica de sedimentación ordena los valores propios desde el más grande hasta el
más pequeño.
DATO: Cuando no se ha realizado rotación, los valores propios de la matriz de correlación son iguales a las
varianzas de los factores.
Se utiliza para seleccionar el número de factores que se usarán con base en el tamaño
de los valores propios. El patrón ideal es una curva pronunciada, seguida de una inflexión y luego
de una línea recta. Se tiene en cuenta los factores en la curva pronunciada antes del punto de
inflexión que inicia la tendencia de la línea.

Esta gráfica de sedimentación muestra que los tres primeros factores explican la mayor
parte de la variabilidad total en los datos (dada por los valores propios). Los valores propios de
los tres primeros factores son todos mayores o iguales que 1. Los factores restantes explican una
proporción muy pequeña de la variabilidad y probablemente no son importantes.

Para continuar, es necesario INTERPRETAR LAS COMPONENTES PRINCIPALES


SELECCIONADAS, para ello debemos hacer un análisis de las cargas factoriales, las cuales nos
indicarán cómo se relacionan los factores comunes con las variables originales, además del grado
de relación y el tipo.

Cada carga factorial indicará el porcentaje de la varianza de la variable original que está
explicado por el factor correspondiente.

Por lo tanto, identificaremos las variables cuyas cargas factoriales (correlaciones con el
factor) son las más elevadas en valor absoluto. Analizaremos las cargas contenidas en la matriz
de componente tanto en la no rotada como en la rotada, para decantarnos por los componentes
que nos resulte más fácil de interpretar:
DATO: la rotación es varimax, ya que hemos intentado minimizar el número de variables que tienen carga
factoriales grandes en un factor. Cada columna tendrá cargas factoriales altas en algunas variables y bajas
en otras

- Comparando ambas matrices, vemos que ninguna de ellas tiene más de una variable
que cargue en el mismo componente. Con respecto a la componente 1, en la matriz de
componente no rotada, vemos que cargan 4 variables (porcentaje de población
extranjera, el saldo vegetativo, tasa de criminalidad y número de policías); de la misma
manera, en la matriz de componentes rotados, en la componente 1 cargan las mismas
variables con valores muy parecidos.
- En cuento a la componente 2, en la matriz de componentes no rotada, cargan 3
variables (tasa de actividad de la población, tiempo promedio de duración del proceso
judicial y el porcentaje de penados con preventiva). Sin embargo, en la matriz de
componentes rotados, cargan los mismos exceptuando el porcentaje de penados con
preventiva.
- En la tercera componente, en la matriz de componente no rotada, carga una variable
(porcentaje de sentencias emitidas); mientras que, en la matriz de componente rotada,
cargan dos variables (porcentaje de sentencias emitidas y porcentaje de penados con
preventiva).

Aunque se dé una gran similitud entre ambas matrices, y no mejore mucho la rotada con
respecto a la inicial; concluimos que debemos quedarnos con la matriz de componente rotado
por tener sus cargas unos valores más elevados.

Por tanto, el principio de estructura simple se cumple en parte, puesto que cada variable
tiene una carga alta en un solo componente, siendo en el resto más pequeño. Además, no
queremos que haya variables con cargas altas en más de uno.

A continuación, habrá que nombrar cada factor obtenido intentando identificar, si es posible
el concepto latente evaluado, en función de las variables con las que más correlacionado está.

- Nombre de la componente 1 (FACT 1): Porcentaje de población extranjera, saldo


vegetativo, tasa de criminalidad y número de policías
- Nombre de la componente 2 (FACT 2): Tasa de actividad de la población de la provincia
y el tiempo promedio de duración del proceso judicial
- Nombre de la componente 3 (FACT 3): Porcentaje de sentencias emitidas y porcentaje
de penados con preventiva.

No podemos afirmar que el modelo explique al menos un 73% de la variabilidad de los


datos ya que hay variables con una comunalidad inferior al 73%, siendo la variable tiempo
promedio de duración del proceso judicial la que menor comunalidad presenta, con un 67,6%.

Sólo superan este porcentaje 4 variables: porcentaje de sentencias emitidas (76,1%), el


porcentaje de población extranjera (85,8%), la tasa de criminalidad (81,8%) y el número de
policías (74,8%).

A continuación, indicamos la expresión matemática que permite CALCULAR LAS


PUNTUACIONES FACTORIALES (Son los valores que toman las componentes principales en
cada uno de los individuos de la muestra, es decir, los valores de esas nuevas variables) de cada
región para las componentes principales seleccionadas. Estas puntuaciones factoriales se
determinan por la combinación lineal que define que cada componente:

CP1i = 0,107 ∗ ZTAi + 0,058 ∗ ZSE1 + ⋯ + 0,235 ∗ ZNPi CP2i


= 0,499 ∗ ZTAi − 0,231 ∗ ZSEi + ⋯ + 0,011 ∗ ZNPi
CP3i = −0,109 ∗ ZTAi + 0,710 ∗ ZSEi + ⋯ + 0,150 ∗ ZNPi
Realizado esto, plantee, estime e interprete un modelo de regresión múltiple que
permita explicar el comportamiento de la población reclusa en función de las componentes
principales seleccionadas.

𝐏𝐏𝐢: β1 + β2 ∗ FAC1i+ β3 ∗ FAC2i +β4 ∗ FAC3i+ ui

Estimación
𝑷𝑷𝒊 : 1,082 − 0,416 ∗ FAC1i − 0,065 ∗ FAC2i − 0,094 ∗ FAC3i
Analice la bondad del ajuste

Al ser el R cuadrado (coeficiente de determinación) de un 15,9% y, por tanto, muy


inferior al 75%, tenemos una mala bondad del ajuste, es decir, sólo un 15,9% de la población
penitenciaria está explicada por las variables explicativas del modelo.

Además, al ser la diferencia superior al 5%, en este caso de un 0,076; el tamaño muestral
no es suficiente y diremos que el R cuadrado no es fiable y, por lo tanto, debemos quedarnos
con el R cuadrado ajustado, siendo de un 8,3%.

Valide el modelo
SIGNIFICATIVIDAD GLOBAL

𝐻0: Modelo globalmente no significativo→ 𝛽2= 𝛽3= 𝛽4= 0


𝐻1: Modelo globalmente significativo→ 𝛽𝑗 ≠ 0

El p-valor de Fisher de nuestro modelo de regresión es de 0,122 y, por tanto, superior al


0,05. Aceptamos la Hipótesis nula, el modelo no es globalmente significativo.
SIGNIFICATIVIDAD INDIVIDUAL

𝐻0: Variable no significativa→ 𝛽𝑗= 0

𝐻1: Variable significativa→ 𝛽𝑗 ≠ 0

No todas las variables son superiores al 5% y, por tanto, en esas, rechazamos la Ho,
siendo la 𝛽2 significativa y 𝛽3 y 𝛽4 no significativas, es decir, no son capaces de explicar la
población penitenciaria por término medio.

De entre todas ellas, la que más significativa podría ser a la hora de explicar la población
penitenciaria por término medio es FAC1 puesto que tiene una t-student del -2,408.

La variable que ejerce mayor influencia es FAC1, cuyo valor es -0,416.

No podemos determinar que coeficiente del FAC es más preciso al tener todos los
mismos valores en el error estándar, siendo éste de 0,173.

¿Existe un problema de multicolinealidad aproximada en el modelo


resultante?
Primero, es necesario comprobar si se verifica la CONDICIÓN NECESARIA

El coeficiente de determinación es de 15,9% y por tanto, inferior al 90%; no es


globalmente significativo. Además, dos de las variables son individualmente no significativas
FAC2 y FAC3. Mientras que FAC1 si es individualmente significativa

Por tanto, no se verifica la condición necesaria.


Segundo, es necesario comprobar si se verifica la CONDICIÓN SUFICIENTE

Tenemos que tener en cuenta la matriz de correlaciones entre las variables.

Pudiendo comprobar que en ningún caso se supera el valor de 0,8, afirmamos que
nuestro modelo no tiene problemas de multicolinealidad aproximada.

Tercero, miramos el NÚMERO DE CONDICIÓN

Al tener un índice de condición de 1,000, comprobamos que no tiene ningún problema


de multicolinealidad aproximada, puesto que no supera un índice de condición cuyo valor sea
de 20.

Por último, atendiendo al índice de tolerancia y al factor de agrandamiento, podemos observar


que todos los valores son iguales a 1 corroborando finalmente que nuestro modelo no presenta
un problema de multicolinealidad aproximada.
De este modo, podemos afirmar que nuestro modelo NO TIENE PROBLEMA DE
MULTICOLINEALIDAD APROXIMADA.

¿Qué ventajas presenta este segundo modelo de regresión?


Apreciando la bondad del ajuste de ambos modelos, podemos afirmar que ambas tienen
una mala bondad del ajuste, sin embargo, en el primer modelo las variables explican un mayor
porcentaje de la población penitenciaria, siendo en el primer modelo un 25,1% y en el segundo
un 15,9%.

Podemos determinar además que ambos modelos no tienen un tamaño muestral


suficiente ni tampoco son fiables, al tener ambos una diferencia superior al 5% entre el R
cuadrado y R cuadrado corregido.

En cuanto a la significatividad global, podemos afirmar que ambos modelos no son


globalmente significativos al superar el 5%. Siendo así el p (valor) de Fisher en el primer modelo
de 0,348 y de 0,122 en el segundo.

Atendiendo a la significatividad individual, en el primer modelo todas las variables son


superiores al 5% y siendo por lo tanto no significativas, es decir, no son capaces de explicar la
población penitenciaria por término medio. No obstante, en el segundo modelo no todas las
variables no son superiores al 5%, siendo así la 𝐵2 individualmente significativa y la 𝐵3 y 𝐵4
indivualmente no significativas.

Respecto al primer modelo la variable individualmente más significativa sería el saldo


vegetativo con una t-student de -1,834 siendo así distinta en el segundo modelo en el que el FAC
1 es la variable más individualmente significativa con una t-student de -2,408.

El primer modelo presenta un coeficiente para determinar la precisión del mismo en


base al error más bajo, siendo así de 0,359. Sin embargo, no podemos determinar que
coeficiente del FAC es más preciso al tener todos los mismos errores estándar, siendo este de
0,173.

Una vez analizada la posible existencia de un problema de multicolinealidad aproximada


en ambos modelos, podemos confirmar que el segundo modelo es mejor al no presentar este
problema de multicolinealidad y, por tanto, no hay relación lineal entre las variables explicativas
del modelo.
Apartado 4.
Finalmente, el equipo de investigación se plantea realizar una clasificación multivariante de
los centros penitenciarios considerados en la base de datos de partida para identificar grupos
homogéneos.

Esta clasificación se realiza en base a un conjunto de 9 indicadores que caracterizan al


propio centro y a la población reclusa internada en el mismo. En concreto las variables que se
propone utilizar son las siguientes: número total de internos, superficie de la parcela del
centro, número total de celdas, distancia en km al centro urbano más cercano, ocupación
media real, porcentaje de hombres reclusos, porcentaje de reclusos con medidas de
seguridad, porcentaje de reclusos preventivos y la tasa de criminalidad de la provincia.

Para agrupar los centros de forma homogénea, se propone aplicar la técnica


multivariante del Análisis Cluster, con objeto de agrupar a dichos centros en 4 conglomerados
lo más homogéneos posible, atendiendo a la similitud en los indicadores señalados.

a) Determinar la composición de los 4 conglomerados indicados mediante la aplicación


del método jerárquico utilizando como criterio de agrupamiento el método del vecino
más alejado y la distancia euclídea al cuadrado como medida de proximidad.

En primer lugar, al ser las unidades de medidas muy diferentes, es necesario


estandarizar los datos. Una vez estandarizados, se crean nuevas variables renombradas
por Z y el nombre de la variable.

A continuación, aplicamos a estas nuevas variables estandarizadas el método


jerárquico aglomerativo, que es uno de los métodos de agrupamiento, consistente en
que, en principio, comienza con 37 clúster (en nuestro caso por ser el tamaño muestral)
y con cada paso se van recalculando las distancias entre los grupos que se van creando
uniéndose los dos grupos más similares (o menos disimilares), acabando con un clúster
que los contiene a todos.
Primero, utilizaremos como criterio de agrupamiento el método del vecino más
alejado: con el cual se mide la proximidad de los grupos calculando la distancia entre los
objetos más lejanos (o la similitud entre los objetos menos semejantes). Por tanto, es
un método basado en la distancia máxima, tendiendo a definir los grupos pequeños y
compactos.

Podemos observar en esta tabla que son válidos…

Mostrar asimismo gráficamente, a través del dendograma, el proceso de formación de


estos conglomerados y describa dicho proceso.
La línea superior del dendograma (0-25) contiene las distancias a la que se producen los
agrupamientos reescalados.

Los números de la línea vertical izquierda representan el número muestral de nuestro


caso (del 1 al 37). Al lado de estos aparece el nombre de centro penitenciario correspondiente
a cada uno.

Las líneas verticales hacen referencia a la distancia en la que dos elementos o grupos
previos se unen formando un nuevo grupo. A su vez, las líneas horizontales representan los
individuos y grupos que se van generando.

En nuestro dendograma, la línea roja vertical es la etapa en la que se forman los cuatro
conglomerados, ésta está situada un poco antes de llegar a la etapa 33, si empezamos a contar
desde la etapa 36.
A continuación, realizaremos una tabla Excel que contenga la distancias y los saltos del
método del vecino más alejado.

Podemos observar, que los grupos se han formado un poco antes de la etapa 33, por lo
que la distancia será ligeramente mayor a 46,472.

Realmente, lo ideal hubiera sido cortar en la etapa 29, formándose grupos, ya que es el
primer gran salto que se produce de la etapa 29 a la 30 (3,5539), es decir, la distancia que más
se eleva de una etapa a otra, en este caso, de la etapa 35 a 36.

Para generar un cuadro con los casos que conforman cada grupo, necesitamos tener
como referencia la tabla de Clúster de pertenencia:
Es necesario indicar cual es la composición de los 4 grupos creados.

Además, analizaremos como se ha ido formando cada grupo:


CONGLOMERADO 1:
El proceso de formación del conglomerado comienza en la etapa 1 donde el elemento 11 y el
elemento 30 se fusionan en una distancia de 0,764. El proceso continúa en la etapa 2, donde
los elementos 4 y 6 se unen a una distancia de 0,853. A continuación, a una distancia de 0,889,
se unen los elementos 25 y 31 en la etapa 3. Por otro lado, en la etapa 4, a una distancia de
0,895 se unen los elementos 23 y 29.
En la etapa 5, los elementos 15 y 37 se fusionan a una distancia de 1,144. Y en la etapa 6, los
elementos 20 y 33 se fusionan a una distancia de 1,420.
Los elementos 7 y 18, en la etapa 7, se unen a una distancia de 1,431. Por otra parte, en la etapa
8, los elementos 28 y 32 se fusionan a una distancia de 1,471. En la etapa 10, los elementos 3 y
12 se fusionan a una distancia de 1,843 y en la etapa 11, los elementos 1 y 16 se fusionan a una
distancia de 2,258.
A una distancia de 2,413, los elementos 35 y 36 se fusionan en la etapa 12. Siguiendo en la etapa
13, donde los elementos 10 y 25 se unen en una distancia de 2,771.
El grupo formado en la etapa 2 se une con el grupo formado en la etapa 10 a una distancia de
2,905.
El proceso continúa en la etapa 15, donde los elementos del grupo 4 y los del 7, se unen a una
distancia de 3,020.
Por su parte, los elementos 2 y 14 se fusionarán en la etapa 16 a una distancia de 3,571. En la
etapa 17, el elemento 3 se une al elemento 20, a una distancia de 3,983.
En la etapa 18, el elemento 26 se une al elemento 1 a una distancia de 4,023.
En la etapa 20, elemento 27 se une al elemento 11, a una distancia de 4,790. En la etapa 21, se
unen el elemento 7 y 15 a una distancia 4, 964.
Es en la etapa 22 donde el elemento 2 se une al elemento 35, a una distancia de 5,470.
En la etapa 23, los elementos 5 y 8 se fusionan a una distancia de 6,046. En la etapa 24, se unen
el elemento 1 y 2, a una distancia 7, 766.
A continuación, en la etapa 25, el elemento 22 se une a los elementos 28 y 32, a una distancia
de 8,690.
En la etapa 26, el elemento 5 y 8 se unirán al conjunto de elementos 26, a una distancia de
11,103. En la etapa 27, el elemento 17 se une al grupo formado en la etapa 20 (11, 30 y 27) a
una distancia de 11,905. En la etapa 28, el elemento 13 se une al grupo donde se encuentra el
elemento 7, a una distancia de 14,293.
En la etapa 29, el grupo donde se encuentra el elemento 1 se une al grupo donde se encuentra
el elemento 3, a una distancia de 17,365. De esta manera, se crea un grupo que en la etapa 31
se unirá al otro grupo formado en la etapa 27, generándose el segundo gran grupo del cluster.
En la etapa 30, se unen los elementos 28, 32 y 22, que componen un pequeño grupo, a los
elementos 15, 37, 25, 31, 10, 23, 29, 7, 18 y 13, a una distancia de 28,368. De esta forma se crea
el primer gran grupo del cluster.
En la etapa 31, el grupo formado por la unión de los elementos 11, 30, 27 y 17, se unen con el
grupo formado por los elementos 20, 33,4,6,3,12,5,8,26, 34,1,16,35,36,2,14, con una distancia
de 28,639. Formándose así, el segundo gran grupo del cluster.
Finalmente, es en la etapa 32, donde los dos grandes grupos que se han ido formando en el
conglomerado 1, se unirán a una distancia de 40,719, terminando así el proceso de formación
de este conglomerado.
CONGLOMERADO 2:

La formación del conglomerado 2 se da en la etapa 9 donde el elemento 26 y el elemento 34 se


fusionan a una distancia de 1,733.

CONGLOMERADO 3:

El proceso de formación del conglomerado 3 comienza en la etapa 19 donde el elemento 7 y el


elemento 10 se fusionan en una distancia de 4,645.

Por su parte, en la etapa 21 los elementos 7 y 15 se fusionan a una distancia de 4,964.

CONGLOMERADO 4:

La formación de este conglomerado se da en la etapa 24 donde el elemento 1 y 2 se fusionan a


una distancia de 7,766.

b) Aplicar el método no jerárquico de K-medias para agrupar de nuevo las regiones en 4


conglomerados.

En este caso, se nos pide el método no jerárquico, el cual consiste en una única
clasificación de los datos en un determinado número de conglomerados, partiendo de esta
primera clasificación, los elementos se van reorganizando, intentando optimizar la clasificación
de los elementos analizados. Buscando así, por un lado, la homogeneidad en un mismo grupo, y
por otro, la heterogeneidad entre distintos grupos.

Más concretamente hemos de utilizar el método de k-medias, donde la k representa a


los elementos que configuran los conglomerados iniciales, es decir, son los centroides de cada
uno de los grupos iniciales. Así, partiendo de esta agrupación el método va asignando los
elementos analizados al grupo cuyo centroide se encuentre más próximo.

Por ello, empezaremos calculando los centroides de cada grupo. Los centroides que son
los puntos representativos de cada grupo

A continuación, habrá que calcular el método de k-medias mencionado arriba.


Primero, es necesario guardar los centroides en un archivo de datos distintos al original
creando una nueva variable denominada “CLUSTER_” donde aparecerá junto a los centroides.

A continuación, podemos realizar el método de K-medias obteniendo el resultado que


veremos a continuación comparándolo con el método jerárquico del método del vecino más
alejado en el apartado B.

APARECE LOS CENTROS INICIALES Y FINALES DE LOS CONGLOMERADOS, LO QUE NOS


DA UNA IDEA DE LOS VALORES QUE TOMA CADA VARIABLE EN CADA CONGLOMERADO,
pudiendo observar que no cambian:
c) Analizar las diferencias obtenidas con los dos métodos aplicados. ¿Cuál podría decirse que
es más adecuado aplicar en este caso?

Para saber cuál es el método más adecuado para aplicar en este caso, comparamos los
casos que componen cada clúster (teniendo como referencia la tabla de clúster de pertenencia)
que se ha generado con el método de K medias con el que se creó con el método del vecino más
lejano.
En este caso, no ha habido ninguno y, por tanto, la solución inicial que habíamos
definido para los 4 grupos ya era óptima.
Para realizar un análisis más exhaustivo del método no jerárquico K-medias, estudiaremos en
primer lugar, cuáles son los grupos más heterogéneos. Para ello tenemos que ver la distancia
mas alta, es decir, la máxima. En este caso es entre el grupo 3 y 2.

Por otro lado, cuáles son los individuos que presentan una mayor disimilitud dentro del grupo
1, puesto que es este grupo el único formado por mas de dos casos. Tenemos que mirar los
elementos cuyas distancias sean mas diferentes. En nuestro caso, sería el centro penitenciario
de Almería con una distancia al centroide de 0,895 y el centro penitenciario de Tenerife (El
Rosario) con una distancia de 4,117.

Cabe mencionar aquellos elementos que son más homogéneos, estos son el centro
penitenciario de Zaragoza (2,759) y el centro penitenciario de A Coruña (2,759), puesto que
están a la misma distancia.

Es necesario cuál es la variable que presenta una situación mas homogénea dentro del grupo 1
(más homogénea dentro del grupo= más heterogénea entre grupos)
Más homogénea dentro del grupo:

𝐻0 : Igualdad de medias entre grupos

𝐻1 : Diferencias de medias entre grupos.

Nos interesa rechazar y por ello buscaremos el estadístico de Fisher más alto, siendo 27,121: la
variable porcentaje de hombres reclusos.

También es necesario conocer aquella variable que presenta una menor heterogeneidad entre
grupos (más homogéneas entre grupo= más heterogénea dentro del grupo).

Más homogénea entre grupos:

𝐻0 : Igualdad de medias entre grupos

𝐻1 : Diferencias de medias entre grupos.

En este caso nos interesa aceptar la hipótesis buscando el estadístico de Fisher más bajo, en este
caso es la variable Kilómetros al centro urbano más cercano (0,083).

Apartado 4.

Finalmente, el equipo de investigación se plantea realizar una clasificación multivariante de


los centros penitenciarios considerados en la base de datos de partida para identificar grupos
homogéneos. Esta clasificación se realiza en base a un conjunto de 9 indicadores que
caracterizan al propio centro y a la población reclusa internada en el mismo. En concreto las
variables que se propone utilizar son las siguientes: número total de internos, superficie de la
parcela del centro, número total de celdas, distancia en km al centro urbano más cercano,
porcentaje de reclusos de la CCAA que están internos en el centro, porcentaje de hombres
reclusos, porcentaje de reclusos con medidas de seguridad, porcentaje de reclusos
preventivos y la tasa de criminalidad de la provincia.

Para agrupar los centros de forma homogénea, se propone aplicar la técnica multivariante del
Análisis Cluster, con objeto de agrupar a dichos centros en 6 conglomerados lo más
homogéneos posible, atendiendo a la similitud en los indicadores señalados. En este contexto,
se plantean las siguientes cuestiones:

a) Determinar la composición de los 6 conglomerados indicados mediante la aplicación


del método jerárquico utilizando como criterio de agrupamiento el método de la
media dentro de los grupos y la distancia euclídea al cuadrado como medida de
proximidad. Mostrar asimismo gráficamente, a través del dendograma, el proceso de
formación de estos conglomerados y describa dicho proceso.

El Análisis Cluster es una técnica estadística multivariante cuya finalidad es dividir un conjunto
de objetos en grupos o cluster, de forma que los objetos de un mismo grupo sean muy similares
entre sí, mientras que los objetos de clusters diferentes sean lo más distintos posible.

A la hora de aplicar este análisis, los cálculos se pueden hacer sobre la matriz de datos original
o sobre la matriz de datos estandarizada. Estandarizar la matriz de datos convierte las variables
en adimensionales, por lo que no importa si cada una de las variables está medida en unidades
distintas.

En nuestro supuesto hemos de estandarizar porque así las unidades de medida no afectarán a
nuestro resultado final. Se hace, ya que las escalas en las que están medidas nuestras variables
son muy diferentes.

Tras realizar la etapa 1 de elección de variables relevantes, las cuales nos las da el problema,
realizamos la etapa 2 de elección de una medida de similitud o distancia, en la cual aplicaremos
la medida de proximidad de distancia euclídea al cuadrado, que es la medida más utilizada para
calcular la disimilaridad cuando las variables han sido medidas en escala de intervalo (0-25).
Posteriormente, la etapa 3 consta en elegir el método o criterio de agrupamiento, el cual será
el criterio jerárquico aglomerativo de la media dentro de los grupos o vinculación intragrupos.
Este método mide la proximidad entre dos grupos con la distancia media existente entre los
miembros del grupo unión de los dos grupos candidatos a unirse. El objetivo es buscar
combinaciones de elementos intentando que la distancia promedio dentro de cada grupo sea la
menor posible.

Para medir la semejanza o parecido entre dos objetos se utilizan las medidas de similitud o
distancia. Dos objetos son más parecidos cuanto más similares son o cuanto más pequeña es la
distancia entre ellos. Es decir, la matriz de proximidades nos permite comparar los individuos
dos a dos.
El historial de conglomeración nos informa sobre la evolución de la formación de los
conglomerados. Podemos observar que los primeros elementos que se unen son el 2 y el 3 para
una distancia de 0,176. En la segunda etapa el 18 y el 19 para una distancia de 0,236, y así
sucesivamente. En la columna de “Coeficientes” nos muestra la distancia de fusión entre los
elementos, en “Etapa” la etapa donde tiene lugar dicha fusión, y en “Etapa siguiente” donde
volverán a aparecer dichos elementos.
En la salida “Cluster de pertenencia” nos ofrece el programa la información referente al grupo
en el que se encuentra incluida cada variable, para lo que realizamos una tabla de agrupación
de modo que se vea más rápido:

Con respecto al proceso de formación de estos conglomerados:

**Grupo 1:

-Comienza en la etapa 1 con la union de los elementos 2 y 3 a una distancia de 0,176.

-En la etapa 2 se unen los elementos 18 y 19 a una distancia de 0,236.

-En la etapa 3 se une el elemento 12 al grupo formado en la etapa 1 a una distancia de 0,594

-En la etapa 4 se unen los elementos 1 y 4 a una distancia de 0,713.

-En la etapa 5 se unen los elementos 8 y 27 a una disancia de 0,93

-En la etapa 6 se une el elemento 17 al grupo formado en la etapa 3 a una distancia de 0,953

-En la etapa 7 se une el elemento 26 al grupo formado en la etapa 4 a una distancia de 1,219

-En la etapa 9 se unen los elementos 7 y 25 a una distancia de 1,274.

-En la etapa 10 se une el elemento 36 al grupo formado en la etapa 6 a una distancia de 1,282

-En la etapa 11 se une el elemento 5 al grupo formado en la etapa 7 a una distancia de 1,634

-En la etapa 13 se une el elemento 9 al grupo formado en la etapa 5 a una distancia de 1,705

-En la etapa 14, se une el elemento 16 al grupo formado en la etapa 9 a una distancia de 1,804

-En la etapa 16 se une el elemento 21 al grupo formado en la etapa 11 a una distancia de 1,875

-En la etapa 18 se une e grupo formado en la etapa 14 con el grupo formado en la etapa 10 a
una distancia de 2,473

-En la etapa 20 se une el elemento 24 al grupo formado en la etapa 2 a una distancia de 2,779

-En la etapa 22 se une el grupo formado en la etapa 13 con la etapa 16 a una distancia de

2,925

-En la etapa 23 se une el elemento 33 al grupo formado en la etapa 18 a una distancia de 3,097

-En la etapa 26 se unen los grupos formado en las etapas 22 y 23 a una distancia de 4,418

-En la etapa 28 se une el grupo formado en la etapa 26 con el grupo formado en la etapa 20 a

una distancia 6,077

-En la etapa 30 se une el elemento 15 al grupo formado en la etapa 28 a una distancia de 7,573

-Finalmente, en la etapa 31 se une el elemento 14 al grupo formado en la etapa 30 a una

distancia de 8,981.

El proceso de formación del grupo 2 empieza en la etapa 8 donde el elemento 6 se une al


elemento 22 para una distancia de 1,248; continua en la etapa 12 donde el elemento 29 se une
al elemento 31 para una distancia de 1,701; sigue en la etapa 17 donde el elemento 11 se une
al elemento 35 para una distancia de 2,385; prosigue en la etapa 21 donde el grupo formado en
la etapa 8, que es la unión del elemento 6 y el 22, se une al 29 para una distancia de 2,866;
continua en la etapa 25 donde al grupo formado en la etapa 21, que es la unión de los elementos
6,22 y 29, se une el elemento 11 para una distancia de 4,237; por último, en la etapa 29 se une
al grupo formado en la etapa 21, formado por los elementos 6,22,29 y 11, se une el elemento
23 para una distancia de 6,507.

El proceso de formación del grupo 3 se produce en la etapa 24 donde el elemento 10 se une al


elemento 32 a una distancia de 3,867.

En el proceso de formación del grupo 4 se inicia en la etapa 15 donde el elemento 13 se une al


elemento 34 a una distancia de 1,872 y finaliza en la etapa 19 donde al grupo formado
anteriormente, por los elementos 13 y 34, se une el elemento 37 a una distancia de 2,478.

En el grupo 5 únicamente encontramos el caso número 20.

En el grupo 6 únicamente encontramos el caso número 28.

DENDOGRAMA:

Nos permite determinar el número de grupos o conglomerados que se forman. En el


dendograma, las líneas verticales indican el punto en el que dos individuos o grupos previos se
unen formando un nuevo grupo, en tanto que cada línea horizontal es un grupo. Para ello
trazamos una línea vertical a una distancia levemente inferior a la línea que marca el número
15, la cual, al cortar las líneas horizontales, nos permite determinar la existencia de 6
conglomerados a una distancia aproximada de 14, con una simple observación del gráfico.

El proceso de agrupamiento debe ser parado en aquel punto en el que las líneas horizontales
sean muy elevadas (primer gran salto en el valor de la distancia a la que se producen las fusiones
de una etapa a la siguiente).
Hemos realizado una tabla de Excel, en la cual hemos obtenido los siguientes resultados:

En la columna etapa, aparecen numeradas las 36 etapas.

En la columna distancia, se copia de la salida del programa Historial de conglomeración, la


columna de Coeficientes, que recoge la distancia a la que se fusionan los grupos.
En la columna distancia 0-25, calculamos los niveles de distancia exactos para los que las uniones
tienen lugar, teniendo que realizar una operación de reescalado, de manera que habría que
realizar una operación matemática, que sería:

En la columna saltos, calculamos cada valor según la distancia 0-25 de la etapa, menos la
distancia de la etapa anterior.

En este apartado en concreto, lo ideal sería cortar en la etapa 23, ya que en esta etapa se
produce el primer gran salto a la etapa 24, pasando de 0,2689 a 1,0694 como se puede observar
en la columna saltos; no obstante, como en el enunciado se nos solicita crear seis grupos, hemos
tenido que cortar en la etapa 31, cuya distancia es ligeramente superior a 10,51805556
reescalada 0-25, que es donde se cortaría en virtud del dendograma.

b) Tomando como punto de partida los centroides de los conglomerados configurados


en el apartado anterior, aplicar el método no jerárquico de K-medias para agrupar de nuevo
las regiones en 6 conglomerados

c) Analizar las diferencias obtenidas con los dos métodos aplicados. ¿Cuál podría
decirse que es más adecuado aplicar en este caso? (realizaremos los apartados juntos por
razón de conexidad entre los contenidos, para una mayor facilidad en su comprensión y
resulte más ordenado).

Previamente a la realización del apartado debemos realizar k-medias para obtener los
centroides de los 6 cluster. De esta forma, a partir de nuestras puntuaciones Z, el programa nos
calcula la media de estas para cada uno de los grupos.

Introducimos los centroides en un nuevo archivo:


1) A continuación, para que el programa puede leer los centroides en un K-medias no jerárquico
es necesario crear un archivo nuevo con los mismos, que procederemos a realizar de la siguiente
manera.
En la Vista de variables incluimos la variable CLUSTER_, además de las puntuaciones Z
anteriormente obtenidas.

2) Una vez introducidas todas las variables, nos trasladamos a la vista de datos donde debemos
seleccionar como nº de conglomerados 6, ya que anteriormente obtuvimos 6 conglomerados.
Seguidamente, copiamos de nuestra salida informes el valor de los centroides.

A continuación, conforme a las siguientes capturas de pantalla, analizaremos la optimización


llevada a cabo por el procedimiento k-medias, y si es mejor que el método jerárquico utilizado
con anterioridad.
Al comparar los centroides iniciales con los centroides finales observamos que existen
diferencias entre ambos, por lo que nos podría dar la idea de que el método jerárquico no era
óptimo.
El método no jerárquico busca reasignaciones de elementos entre los grupos que den lugar a
una mejora en el criterio de agrupación considerado. De no poder mejorar el resultado, el
proceso se da por concluido. Por tanto, el método de k-medias intenta formular k grupos
maximizando a la vez la homogeneidad de cada grupo y la heterogeneidad entre grupos.
El k-medias nos ha dado esta clasificación:
En la salida “Pertinencia a los conglomerados” nos encontramos ante un número de casos
numerados del 1 al 37, a las que se les asigna un conglomerado y una determinada distancia. A
modo de ejemplo, vemos como el número de caso 1, se le asigna el conglomerado 1 y la
distancia a la que queda sujeto es 0,666.
En la salida “Número de casos en cada cluster” podemos observar el número de elementos
que corresponden a cada conglomerado k-medias.

Estas tablas se han generado en un Excel a partir de la información de las dos salidas
explicadas anteriormente. Como podemos observar, las tablas constan de tres columnas en las
cuales se indica a qué clúster pertenece cada caso y el número de casos por clúster.
Observamos que existen diferencias en 3 de los 6 clusters, que aunque no son muy
pronunciadas nos darían como respuesta que nuestro conglomerado jerárquico no era óptimo
ya que se ha producido una reasignación elevada de casos para configurar los nuevos grupos al
realizar el k-medias, señal de que el método jerárquico utilizado no era adecuado para los
datos analizados.
Para terminar, podemos hacer referencia a una información adicional que caracteriza la
clasificación final que hemos obtenido con la solución a través de k-medias.
Así, a través de la salida “Distancias entre centros de clústeres finales”, podemos saber que
clústeres se parecen más y cuáles presentan una mayor diferencia.
En nuestro caso, vemos como el Clúster 3 y el 5 son los más diferentes, pues son los que
presentan una distancia más alta (7,544). Por otro lado, los Clúster 1 y 4 son los más parecidos
pues entre ellos se encuentra la distancia más baja (3,718).
Por otro lado, a partir de la tabla ANOVA podemos determinar en qué variables los grupos se
parecen más o las diferencias son más acusadas. Como bien sabemos, en este contraste
usamos el estadístico de Fisher y su Ho es la igualdad de medias.
Podemos observar así, redondeados, todos los p-valor iguales a 0, lo que implicaría que
rechazamos en todas esas variables la Ho. Para determinar en cuál de las mismas existe más
evidencias para rechazar, debemos determinar la que tenga una F de Fisher mayor, que en
este caso sería “Porcentaje de reclusos con medidas de seguridad”, es decir, en esta variable
es donde existen más diferencias entre un grupo y otro.
Seguidamente, en la variable con una F de Fisher menor y un p-valor más alto, es donde se
acepta la Ho con una mayor contundencia, en este caso “Distancia en km al centro urbano más
cercano”, que implicaría que es en esta variable donde los grupos son más parecidos.

S-ar putea să vă placă și