Documente Academic
Documente Profesional
Documente Cultură
GRUPO 11
APARTADO 1
La criminología, como no sucede en otras ciencias sociales, presenta problemas para acceder a datos veraces
y fiables. La estadística criminal constituye una fuente importante para la investigación criminológica, ya que
ofrece valiosa información sobre una serie de dimensiones cuantificables del fenómeno delictivo.
A medida que contamos con mayor información para analizar el fenómeno delictivo podemos estudiar el
mismo con mayor detenimiento. Las fuentes estadísticas en criminología son complejas debido a la dispersión
que éstas ostentan y los organismos que las emiten. Por lo tanto, podemos hacer alusión a las fuentes
estadísticas oficiales primordiales: Policiales, judiciales y penitenciarias.
Fuentes policiales
Su objeto de estudio son los hechos que llegan a conocimiento de la policía a través de denuncias de los
ciudadanos o a través de investigaciones policiales de oficio, realizando una contabilización y registro de dicha
información. Ofrecen una imagen cada vez más próxima a la realidad proporcionando información completa,
fiable, puntual y regular sobre el crimen.
Se trata de un buen instrumento para medir los hechos delictivos contemplados en el Código Penal o en las
leyes de un país. A nivel estatal existen el Cuerpo Nacional de Policía y la Guardia Civil. Aunque el formulario
elaborado por ambos cuerpos es único, los dos lo analizan por separado, por lo que la información que ambos
ofrecen se complementa. Estos formularios presentan una gran complejidad sobre el fenómeno delictivo,
analizando elementos como el lugar del delito o la situación de la víctima. Este cuestionario está destinado
exclusivamente a fines estadísticos y no es necesario tener conocimientos avanzados del Derecho Penal para
su cumplimentación.
La información analizada y recogida pasa a una segunda fase de depuración, donde se trata de detectar
posibles errores. Esto se hace dentro del mismo organismo y por personas que están en contacto con aquellas
que han cumplimentado el formulario, para contrastar información en caso de que fuese necesario. Una
tercera fase la constituiría la remisión de los datos a los funcionarios policiales dependientes del ministerio del
interior.
• Debemos de tener en consideración que los delitos pueden ser también denunciados ante
otras instancias como la Policía Autonómica y Local. Con respecto a la primera, existe mucha variedad
entre regiones, como la Ertzaintza y los Moss os descuadra quienes tienen más desarrollada su policía,
y tienen sus propias fuentes estadísticas. En otras regiones como Andalucía se dispone también de
estadísticas propias, a las que se puede acceder a petición del interesado. En relación a la Policía Local
que depende de las autoridades municipales, presenta una información aún más dispersa, ya que
pretenden vigilar el cumplimiento de las ordenanzas municipales y el tráfico, pero en algunas ciudades
también reciben e investigan denuncias sobre delitos.
Las principales limitaciones que sostienen las fuentes policiales son diversas; en primer lugar, debemos de
comentar que la información que las fuentes policiales ofrecen es parcialmente publicada, faltando así una
falta de transparencia hacia el ciudadano. Además, la información ofrecida es dispersa, ya que se incorporan
datos sobre hechos conocidos por las policías autonómicas y locales en distintos puntos del país. En tercer
lugar, debemos de tener en cuenta que la calificación delictiva del hecho recogido y registrado está hecha de
forma provisional, no coincidiendo en muchos casos con la que posteriormente realizan los jueces. Siendo así
lo ideal que exista una mayor homogeneidad posible entre los datos a utilizar.
• A escala europea, se implementan distintas directrices que establecen cómo se trabaja y trata
con la información en cada país, ya que para el estudio y comparación de la información es necesaria
una cierta homogeneidad en el método de obtención de esta. Distinguimos tres tipos de países a la
hora de encontrar información; Los que la recogen cuando el delito es denunciado o ¨input¨, los que
la recogen en un momento intermedio, así como los que la recogen cuando la investigación delictiva
ha finalizado o ¨output¨. Podemos discernir distintas ventajas y desventajas en un método u otro. Por
ejemplo, las de salida dan una información fiable, pero puede ocurrir que se pierdan registros si no se
culmina el proceso. Otra problemática que sucede con este tipo de estudio es que la medida con la
que se cuantifica el mismo no es siempre igual, por ejemplo, si el delito es cometido por más de una
persona, en algunos países se registra una sola vez y en otros tantas veces como personas implicadas
• A nivel internacional, no hay ningún registro que con orden regular ofrezca información
criminológica. Sin embargo, las principales agencias de policía internacional, o no ofrecen estadísticas
de delitos conocidos, o restringen su publicación para uso interno, por lo que es necesario acudir a
fuentes como la Estadística de Naciones Unidas sobre tendencias del Crimen y Operaciones de
Sistemas de Justicia Social, entre otras muchas.
Fuentes Judiciales.
Las fuentes judiciales recogen información sobre la actividad y situación de los órganos judiciales que permiten
evaluar el funcionamiento de los recursos judiciales, así como su cooperación con las fuerzas policiales. Sin
embargo, el principal problema conforme a las estadísticas judiciales es que éstas están desfasadas con
respecto a las estadísticas policiales sobre los mismos hechos.
La realización de estos boletines los realiza los LAJ a través de formularios web habilitados en el denominado
Punto Neutro Judicial, que conecta a los órganos judiciales y administradores con competencia en justica con
el Consejo General del Poder Judicial. También tiene acceso las administraciones que facilitan información a
los órganos judiciales, así como las que recogen información de estos, como es el caso del Instituto Nacional
de Estadística.
Con respecto a los contenidos de cada una de las estadísticas ofrecidas por el INE, se constituyen conforme a:
condenados (menores y adultos), juzgados de paz, arrendamientos urbanos, nulidades, separaciones y
divorcios, y violencia doméstica y de género. La ventaja de estas estadísticas es que se ofrece la posibilidad
de hacer distintos cruces de datos con distintas variables como la edad o el sexo. A partir de la información
proporcionada del INE hemos obtenido variables como la población extranjera en 2016, el saldo vegetativo y
la tasa de actividad de la población en la provincia. Las principales estadísticas que ostentan una mayor
relevancia practica con carácter judicial son:
• La Estadística de Condenados incorporada tanto por menores como por adultos ofrece datos
anuales sobre las características sociodemográficas de personas condenadas en sentencia firme,
indicando el tipo de delito cometido y las penas impuestas. Estos datos provienen de la explotación
de la información del denominado Registro Central de Penados del Ministerio de Justicia, en el que se
inscriben las resoluciones firmes que suponen la imposición de una pena por parte de los Tribunales
de la jurisdicción penal ante la comisión de un delito o falta.
• La Estadística de los Juzgados de Paz ofrece datos relativos a la actividad judicial que tiene
lugar en los municipios en los que no existe juzgados de primera instancia e instrucción y que es
desarrollada por los Juzgados de Paz en los ámbitos civil y penal. En el ámbito penal la estadística
recoge información sobre el movimiento de asuntos y la tipología de estos.
El Consejo General del Poder Judicial a través de su portal estadístico ofrece información sobre los distintos
aspectos de la Administración de Justicia. Aunque a lo largo de su historia esta información ha sido escasa y
dispersa, basada principalmente en los boletines estadísticos trimestrales. Siendo así las más importantes las
siguientes:
• Los Boletines Trimestrales de los órganos judiciales recogen información de los distintos
juzgados
• Datos de Justicia, agrupan informes temáticos que ofrecen una visión resumida de aspectos
del sistema judicial tales como la calidad de las sentencias, la carga de los órganos judiciales o el coste
de la justicia
• Informes por territorios sobre la actividad de los órganos judiciales, en los que se recogen
informes trimestrales y anuales sobre la actividad judicial de los Tribunales Superiores de Justicia, las
provincias y los partidos judiciales. La información contenida en estos informes territoriales hace
referencia al volumen de asuntos pendientes, ingresados y resueltos, el número de sentencias, autos
y decretos finales, así como el número de ejecutorias ingresadas, resueltas y pendientes
• Justicia Dato a Dato, en el que se reflejan aspectos relacionados con los medios, la actividad
y la calidad de la justicia conforme a una serie de datos o cifras clave.
• Panorámica de la justicia, describe de forma detallada la situación durante el periodo anterior
al de la publicación del informe en cada una de sus jurisdicciones.
• Indicadores clave, consiste en una publicación que ofrece una batería de indicadores que
describen la situación de cada jurisdicción y del conjunto de ellas que ofrecen una visión sintética de
la situación en los órganos judiciales como la tasa de congestión, resolución, pendencia y litigiosidad;
el número de asuntos ingresados por juez; el número de sentencias por juez. Estos indicadores se
generan a nivel estatal y autonómico.
• Violencia sobre la Mujer, elaborados a partir de los datos de los boletines estadísticos
trimestrales recogidos en los juzgados de violencia contra la mujer.
• Base de datos de la estadística judicial, la cual contiene datos anuales para cada uno de los
órganos judiciales desde el año 1995 hasta el último disponible. Ofrece el mayor detalle en cuantos
tipos de procedimientos, ejecutorias, recursos, auxilio judicial, etc. De las fuentes ofrecidas por el
Consejo General del Poder Judicial en la estadística judicial hemos obtenido variables como el
porcentaje de sentencias emitidas o el tiempo promedio de duración del proceso judicial.
Fuentes penitenciarias
Las fuentes penitenciarias son fuentes de conocimiento presentes de un conjunto de instituciones del sistema
penal que se encargan de gestionar la ejecución de las penas privativas de la libertad. En particular estas
estadísticas penitenciarias se han limitado, internacionalmente, a acumular información sobre la población
que se encuentra cumpliendo penas privativas de la libertad. Sólo en una mínima parte, estas estadísticas, se
refieren a algunas informaciones fundamentales con respecto al funcionamiento y vida cotidiana de estas
instituciones penitenciarias.
La estadística penitenciaria es la más fiel ya que aborda el fenómeno delictivo más susceptible de verificación.
Se publican por el Ministerio de Interior a través de su Secretaria General de Instituciones Penitenciarias. Esta
institución ofrece una estadística con datos mensuales y semanales para el total nacional, completada con un
catálogo de establecimientos penitenciario por provincias y tipología de centro. Por otra parte, se recoge
información anual, aunque de aparición irregular en ciertas publicaciones.
Esta institución publica el Informe General de forma anual donde para el total nacional se recogen los datos
anteriores excepto la desagregación por CCAA. Además, se incluyen cuestiones relativas a los programas de
tratamiento, gestión del medio abierto, asistencia sanitaria dentro de los centros penitenciarios, medidas
alternativas y beneficios penitenciarios, entre otras. Del informe que ofrece la Secretaria General de
instituciones penitenciarias hemos obtenido información para determinar variables como la superficie de la
parcela del centro penitenciario en m2 o el número total de celdas.
El INE también proporciona información sobre población reclusa. En concreto, la única información relativa a
la población reclusa publicada por esta institución se encuentra en el Boletín Mensual de Estadística que es
una publicación de síntesis que recoge un amplio conjunto de indicadores
El International Center for Prision Studies elabora una lista internacional conocida como la World Prison
Population List, que recoge información muy interesante para una gran cantidad de países, incluso del
continente africano, donde no hay un gran estudio estadístico en la materia.
APARTADO 2
a) Especifique un modelo de regresión lineal múltiple que permita
explicar el nivel de población penitenciaria registrado en cada centro en
función de las variables socioeconómicas identificadas por el equipo de
investigación, y proceda a su estimación mediante Mínimos Cuadrados
Ordinarios. Interprete los valores de los coeficientes, analice la bondad
del ajuste y valide el modelo a un 5% de significación utilizando las
herramientas de inferencia estadística, presentado las conclusiones
extraídas de ese análisis.
𝑃̂𝑃𝑖: 2,759 − 0,009 ∗ 𝑇𝐴𝑖 − 0,037 ∗ 𝑆𝑇𝐶𝑖 − 0,089 ∗ 𝑇𝑃𝐽 − 0,075 ∗ 𝑃𝐸𝑖
Interpretar:
Además, al ser la diferencia superior al 5%, en este caso de un 10,6; el tamaño muestral
no es suficiente y diremos que el R cuadrado no es fiable y, por lo tanto, debemos quedarnos
con el R cuadrado ajustado, siendo de un 4,5%.
Validar el modelo a un 5%:
- SIGNIFICATIVIDAD GLOBAL
- SIGNIFICATIVIDAD INDIVIDUAL
De entre todas ellas, siendo todas no significativas, por analizar más detalladamente, la que
más significativa podría ser a la hora de explicar la población penitenciaria por término
medio es el porcentaje de la población extranjera, puesto que tiene una t-student del -
1,581.
El coeficiente cuya estimación es la más precisa puesto que su error es el más bajo, siendo
del 0,042 es el porcentaje de sentencias emitidas.
b) Estudie el cumplimiento de los supuestos estocásticos del modelo. ¿Se cumplen todos ellos?
En caso negativo, ¿qué supuesto se incumple? ¿Qué consecuencias tiene este hecho para la
interpretación de los resultados?
NORMALIDAD
1- GRÁFICOS
El histograma lo que te hace es dividir los valores del residuo en intervalos y la altura de
este te indica el número de casos que hay en ese intervalo.
Podemos observar, que la mayoría de los valores del residuo están en el intervalo (-1, 0)
Si las dos funciones de distribución son iguales los puntos caen sobre la diagonal.
Los puntos que aparecen aquí son el cruce de la función de tu residuo con la función de
distribución de una N (0,1). En este caso, los puntos están alejados de la diagonal ya que las
funciones son muy diferentes, sólo coinciden en el 0,4; en el resto se aleja.
Es otra forma de ver que tu residuo no tiene una función de distribución normal.
2- TEST DE SHAPIRO-WILK
LINEALIDAD
1- GRÁFICOS
Representa el valor del residuo estandarizado (Regresión residuo estandarizado) con el valor
de la Y estimada (regresión valor predicho estandarizado). La Y estimada recoge el efecto de
todas las variables X.
Cuando el valor del residuo de cada observación está relacionado con el anterior, el cambio
del signo es más pausado (al principio son todos los puntos positivos y después negativos,
volviendo a poder ser positivo), va dibujando un ciclo. Esto es porque depende un residuo
de otro.
2- TEST RAMSEY
𝑭𝑬𝑿𝑷: [(R cuadrado nuevo – R cuadrado inicial)/2]/ [(1-R cuadrado nuevo)/ (n-m)]
Al ser nuestro 𝐹𝐸𝑋𝑃inferior a 3,32 aceptamos la Hipótesis nula y decimos que nuestro
modelo inicial es lineal y, por tanto, está bien especificado.
HOMOCEDASTICIDAD
1- GRÁFICO
En este caso, lo que intentamos ver es si la distancia que hay entre los puntos es
siempre la misma o no, independientemente de lo que valga la Y estimada.
Si la distancia es siempre la misma es porque la Varianza de la perturbación
aleatoria es constante.
Podemos observar que, al principio los puntos están más separados, después
entre 0 y 1 la dispersión es más pequeña. La mayoría de los puntos están entre 0 y 1 y,
por tanto, lo más probable es que la varianza de la perturbación aleatoria sea constante.
2- TEST DE WHITE
Nos fijamos en el p-valor de Fisher y vemos que es 0,803, por tanto, es superior a 0,05 y
tendríamos que aceptar la Ho, aceptando que la varianza de la perturbación aleatoria es
constante.
NO AUTOCORRELACIÓN
Debemos tener en cuenta el tamaño muestral del modelo (n), el nivel de significación
(α) y el número de variables distintos de la ordenada en el origen (k’). Estos valores son 37,
0,05 y 4, respectivamente.
Se deben representar estos datos en una gráfica con las cotas 0-2-4. La zona de duda es
la que quedaría entre 1,249 y 1,723. Nuestro valor estadístico de Durbin-Watson= 1,663
quedaría situado dentro de esta zona de duda.
CONCLUSIÓN: Una vez estudiados los supuestos estocásticos, hemos podido observar que no se
cumple la normalidad y tampoco podemos afirmar si se cumple la autocorrelación AR(1), es
decir, si la estimación es óptima o no. Por otro lado, con respecto a la linealidad, ésta si se
cumple, afirmando también que la estimación de las betas sigue un modelo insesgado. Además,
atendiendo a la homocedasticidad, aceptamos que la perturbación aleatoria es constante.
Especifique
PPi= β1+β2 ∗ TAi + β3 ∗ STCi + β4 ∗ TPJi+ β5 ∗ PEi+ β6 ∗ B1+ β7 ∗ B2+ β8 * (𝑉𝐹𝐶 ∗ VTD) + ui
Estime
̂ =1,929 + 0, 005 ∗ TAi − 0,056 ∗ STCi − 0,111 ∗ TPJi − 0,063 ∗ PEi − 0,236 ∗ VFC𝑖 −
𝑃𝑃𝑖
0,291 ∗ VTDi + 1,2 ∗ (VFCi ∗ VTDi)
Interprete un nuevo modelo que permita estudiar estas diferencias.
𝛽1: Número de reclusos internos mínimo por cada 1000 habitantes es de 1,929, siendo la
construcción del edificio antes de 1995 y la tasa de detenidos inferior a la media.
𝛽2: Efecto marginal de la tasa de actividad de la provincia con independencia del año de
construcción del centro penitenciario y la tasa de detenidos. Por tanto, si la tasa de actividad de
la provincia aumenta en un uno por ciento, el número de reclusos internos aumenta 0,005 por
cada mil habitantes
𝛽3: Efecto marginal del porcentaje de sentencias emitidas con independencia del año de
construcción del centro penitenciario y la tasa de detenidos. Por tanto, si el porcentaje de
sentencias emitidas aumenta en un uno por ciento, disminuye un 0,056 el número de reclusos
por cada mil habitantes.
𝛽4: Efecto marginal del tiempo promedio de duración del proceso judicial con independencia del
año de construcción del centro penitenciario y la tasa de detenidos. Por tanto, si el tiempo
promedio aumenta en una unidad, el número de reclusos disminuye un 0,111 por cada mil
habitantes
𝛽5: Efecto marginal del porcentaje de población extranjera de la provincia con independencia
del año de construcción del centro penitenciario y la tasa de detenidos. De este modo, si la
población extranjera aumenta un uno por ciento, el número de reclusos disminuirá 0,63 por
cada mil habitantes
𝛽6: La diferencia del número de reclusos internos por cada mil habitantes en un centro posterior
a 1995 es 0,236 mayor respecto a un centro anterior o igual a 1995 cuando la tasa de detenidos
es inferior a la media.
𝛽7: La diferencia del número de reclusos internos por cada mil habitantes cuando la tasa de
detenidos es superior a la media es 0,291 menor respecto a una tasa de detenidos inferior o
igual a la media cuando el centro penitenciario es anterior o igual a 1995.
𝛽8 : Como cambia la diferencia media entre un centro construido en años posteriores a 1995
respecto a un centro construido antes o en el año 1995 cuando pasamos de una tasa de
detenidos superior a la media a la inferior a la media.
𝛽8 : Como cambia la diferencia media entre una tasa de detenidos superior a la media respecto
a la inferior, cuando pasamos de un centro penitenciario anterior o igual a 1995 respecto a uno
posterior a 1995.
𝐻0= 𝛽8 = 0
𝐻1 = 𝛽8 ≠ 0
Como P (valor) es de 0,1 y por tanto inferior al nivel de significación de 0,05, podemos afirmar
que aceptamos la hipótesis nula, por tanto, decimos que la interacción de las betas no es
significativa. De esta manera podemos concluir que indiferentemente de que se trate de un
centro cuya construcción sea anterior o posterior a 1995 esto no afecta a la tasa de detenidos
por provincia.
𝐻0= 𝛽7 = 0
𝐻1 = 𝛽7 ≠ 0
Como P (valor) es de 0.584 y por tanto superior al nivel de significación de 0,05, podemos afirmar
que aceptamos la hipótesis nula, por tanto, decimos que la interacción de las betas no es
significativa. De esta manera podemos concluir que la tasa de detenidos por provincia, no afecta
al número de reclusos internos por cada 1000 habitantes.
𝐻0= 𝛽6 = 0
𝐻1 = 𝛽6 ≠ 0
Como P (valor) es de 0.64 y por tanto superior al nivel de significación de 0,05, podemos afirmar
que aceptamos la hipótesis nula, por tanto, decimos que la interacción de las betas no es
significativa. De esta manera podemos concluir que la fecha de construcción del centro no afecta
al número de reclusos internos por cada 1000 habitantes.
Apartado 3.
- Saldo vegetativo de la población de la provincia en la que se ubica el centro penitenciario. (SV)
Estimación
̂ = 3,664 − 0,037 ∗ TAi + 0,051 ∗ STCi − 0,223 ∗ TPJi −0,180∗ PEi −0,203∗ SVi+0,051∗
𝑃𝑃𝑖
TCPRi − 0,080 ∗ PPREVi + 0,00004552 ∗ NPHABi
Coeficientesa
Coeficientes
Coeficientes no estandarizados estandarizados Estadísticas de colinealidad
Modelo B Desv. Error Beta t Sig. Tolerancia VIF
1 (Constante) 3,664 4,697 ,780 ,442
Además, al ser la diferencia superior al 5%, en este caso de un 0,214; el tamaño muestral
no es suficiente y diremos que el R cuadrado no es fiable y, por lo tanto, debemos quedarnos
con el R cuadrado ajustado, siendo de un 3,7%.
Valide el modelo
SIGNIFICATIVIDAD GLOBAL
El p-valor de Fisher de nuestro modelo de regresión es de 0,348 y, por tanto, superior al 0,05.
Aceptamos la Hipótesis nula, el modelo no es globalmente significativo.
Todas las variables son superiores al 5% y, por tanto, aceptamos la Ho, siendo todas no
significativas, es decir, no son capaces de explicar la población penitenciaria por término medio.
De entre todas ellas, siendo todas no significativas, por analizar más detalladamente, la que más
significativa podría ser a la hora de explicar la población penitenciaria por término medio es el
saldo vegetativo, puesto que tiene una t-student del -1,834.
La variable que ejerce mayor influencia es el tiempo promedio de duración del procedimiento,
cuya beta es -0,223.
El coeficiente cuya estimación es la más precisa puesto que su error es el más bajo, siendo del
0,359 es el porcentaje de penados con preventiva.
Coeficientesa
Coeficientes
Coeficientes no estandarizados estandarizados Estadísticas de colinealidad
Modelo B Desv. Error Beta t Sig. Tolerancia VIF
Para poder analizar si existe o no dicho problema, es necesario comprobar una serie de
requisitos que, si se cumplen, nos indicarán que nuestro modelo tiene un problema de
multicolinealidad aproximada
Por último, para saber cuáles son las variables que hacen que el modelo tenga un problema de
multicolinealidad aproximada, tenemos que tener en cuenta el ÍNDICE DE TOLERANCIA Y EL
FACTOR DE AGRANDAMIENTO:
Con respecto al primero, tenemos que tener en cuenta los que están mas cerca de 0,
esto es, aquellas variables que tienen una mayor relación lineal, estas son: porcentaje de
población extranjera (0,046), el número de policía (0,063), la tasa de criminalidad (0,138) y el
saldo vegetativo (0,227).
Con respecto al segundo, tenemos que tener en cuenta aquellas variables que estén más
alejadas del 0, que son las mismas, pero en este caso cambia el número: porcentaje de población
extranjera (21,609), el número de policía (15,787) la tasa de criminalidad (7,266) y el saldo
vegetativo (4,411).
Estas son las variables que están muy relacionadas entre sí, es decir, dependen mucho
del resto de las variables.
Siendo el p-valor de 0,586, podemos decir que es adecuada la muestra inicial para
realizar un Análisis de Componentes Principales, ya que al ser superior al 0,5 es aceptable la
misma. Además, al presentar valores bajos los coeficientes de correlación parcial, más grandes
serán las correlaciones, mayor cantidad de varianza común y las variables compartirán más
factores comunes, siendo, por tanto, más fácil de buscarlos.
Una vez definido el modelo, determinando que es factible la aplicación del Análisis
Factorial, habría que proceder a la EXTRACCIÓN DE FACTORES COMUNES son combinaciones
lineales de todas las variables incluidas en el análisis. Para ello, buscamos un método que
permita encontrar un conjunto reducido de k factores comunes, que expliquen suficientemente
a las variables observadas perdiendo el mínimo de información, de modo que sean fácilmente
interpretables.
Como regla de selección empleamos el criterio del valor propio de Kaiser, que tiene en
cuenta aquellos componentes con varianzas mayores que el promedio de la varianza total, que
al estar las variables tipificadas la media será siempre uno. Queremos que cada componente
explique la Varianza total de una de las variables tipificadas.
La gráfica de sedimentación ordena los valores propios desde el más grande hasta el
más pequeño.
DATO: Cuando no se ha realizado rotación, los valores propios de la matriz de correlación son iguales a las
varianzas de los factores.
Se utiliza para seleccionar el número de factores que se usarán con base en el tamaño
de los valores propios. El patrón ideal es una curva pronunciada, seguida de una inflexión y luego
de una línea recta. Se tiene en cuenta los factores en la curva pronunciada antes del punto de
inflexión que inicia la tendencia de la línea.
Esta gráfica de sedimentación muestra que los tres primeros factores explican la mayor
parte de la variabilidad total en los datos (dada por los valores propios). Los valores propios de
los tres primeros factores son todos mayores o iguales que 1. Los factores restantes explican una
proporción muy pequeña de la variabilidad y probablemente no son importantes.
Cada carga factorial indicará el porcentaje de la varianza de la variable original que está
explicado por el factor correspondiente.
Por lo tanto, identificaremos las variables cuyas cargas factoriales (correlaciones con el
factor) son las más elevadas en valor absoluto. Analizaremos las cargas contenidas en la matriz
de componente tanto en la no rotada como en la rotada, para decantarnos por los componentes
que nos resulte más fácil de interpretar:
DATO: la rotación es varimax, ya que hemos intentado minimizar el número de variables que tienen carga
factoriales grandes en un factor. Cada columna tendrá cargas factoriales altas en algunas variables y bajas
en otras
- Comparando ambas matrices, vemos que ninguna de ellas tiene más de una variable
que cargue en el mismo componente. Con respecto a la componente 1, en la matriz de
componente no rotada, vemos que cargan 4 variables (porcentaje de población
extranjera, el saldo vegetativo, tasa de criminalidad y número de policías); de la misma
manera, en la matriz de componentes rotados, en la componente 1 cargan las mismas
variables con valores muy parecidos.
- En cuento a la componente 2, en la matriz de componentes no rotada, cargan 3
variables (tasa de actividad de la población, tiempo promedio de duración del proceso
judicial y el porcentaje de penados con preventiva). Sin embargo, en la matriz de
componentes rotados, cargan los mismos exceptuando el porcentaje de penados con
preventiva.
- En la tercera componente, en la matriz de componente no rotada, carga una variable
(porcentaje de sentencias emitidas); mientras que, en la matriz de componente rotada,
cargan dos variables (porcentaje de sentencias emitidas y porcentaje de penados con
preventiva).
Aunque se dé una gran similitud entre ambas matrices, y no mejore mucho la rotada con
respecto a la inicial; concluimos que debemos quedarnos con la matriz de componente rotado
por tener sus cargas unos valores más elevados.
Por tanto, el principio de estructura simple se cumple en parte, puesto que cada variable
tiene una carga alta en un solo componente, siendo en el resto más pequeño. Además, no
queremos que haya variables con cargas altas en más de uno.
A continuación, habrá que nombrar cada factor obtenido intentando identificar, si es posible
el concepto latente evaluado, en función de las variables con las que más correlacionado está.
Estimación
𝑷𝑷𝒊 : 1,082 − 0,416 ∗ FAC1i − 0,065 ∗ FAC2i − 0,094 ∗ FAC3i
Analice la bondad del ajuste
Además, al ser la diferencia superior al 5%, en este caso de un 0,076; el tamaño muestral
no es suficiente y diremos que el R cuadrado no es fiable y, por lo tanto, debemos quedarnos
con el R cuadrado ajustado, siendo de un 8,3%.
Valide el modelo
SIGNIFICATIVIDAD GLOBAL
No todas las variables son superiores al 5% y, por tanto, en esas, rechazamos la Ho,
siendo la 𝛽2 significativa y 𝛽3 y 𝛽4 no significativas, es decir, no son capaces de explicar la
población penitenciaria por término medio.
De entre todas ellas, la que más significativa podría ser a la hora de explicar la población
penitenciaria por término medio es FAC1 puesto que tiene una t-student del -2,408.
No podemos determinar que coeficiente del FAC es más preciso al tener todos los
mismos valores en el error estándar, siendo éste de 0,173.
Pudiendo comprobar que en ningún caso se supera el valor de 0,8, afirmamos que
nuestro modelo no tiene problemas de multicolinealidad aproximada.
Las líneas verticales hacen referencia a la distancia en la que dos elementos o grupos
previos se unen formando un nuevo grupo. A su vez, las líneas horizontales representan los
individuos y grupos que se van generando.
En nuestro dendograma, la línea roja vertical es la etapa en la que se forman los cuatro
conglomerados, ésta está situada un poco antes de llegar a la etapa 33, si empezamos a contar
desde la etapa 36.
A continuación, realizaremos una tabla Excel que contenga la distancias y los saltos del
método del vecino más alejado.
Podemos observar, que los grupos se han formado un poco antes de la etapa 33, por lo
que la distancia será ligeramente mayor a 46,472.
Realmente, lo ideal hubiera sido cortar en la etapa 29, formándose grupos, ya que es el
primer gran salto que se produce de la etapa 29 a la 30 (3,5539), es decir, la distancia que más
se eleva de una etapa a otra, en este caso, de la etapa 35 a 36.
Para generar un cuadro con los casos que conforman cada grupo, necesitamos tener
como referencia la tabla de Clúster de pertenencia:
Es necesario indicar cual es la composición de los 4 grupos creados.
CONGLOMERADO 3:
CONGLOMERADO 4:
En este caso, se nos pide el método no jerárquico, el cual consiste en una única
clasificación de los datos en un determinado número de conglomerados, partiendo de esta
primera clasificación, los elementos se van reorganizando, intentando optimizar la clasificación
de los elementos analizados. Buscando así, por un lado, la homogeneidad en un mismo grupo, y
por otro, la heterogeneidad entre distintos grupos.
Por ello, empezaremos calculando los centroides de cada grupo. Los centroides que son
los puntos representativos de cada grupo
Para saber cuál es el método más adecuado para aplicar en este caso, comparamos los
casos que componen cada clúster (teniendo como referencia la tabla de clúster de pertenencia)
que se ha generado con el método de K medias con el que se creó con el método del vecino más
lejano.
En este caso, no ha habido ninguno y, por tanto, la solución inicial que habíamos
definido para los 4 grupos ya era óptima.
Para realizar un análisis más exhaustivo del método no jerárquico K-medias, estudiaremos en
primer lugar, cuáles son los grupos más heterogéneos. Para ello tenemos que ver la distancia
mas alta, es decir, la máxima. En este caso es entre el grupo 3 y 2.
Por otro lado, cuáles son los individuos que presentan una mayor disimilitud dentro del grupo
1, puesto que es este grupo el único formado por mas de dos casos. Tenemos que mirar los
elementos cuyas distancias sean mas diferentes. En nuestro caso, sería el centro penitenciario
de Almería con una distancia al centroide de 0,895 y el centro penitenciario de Tenerife (El
Rosario) con una distancia de 4,117.
Cabe mencionar aquellos elementos que son más homogéneos, estos son el centro
penitenciario de Zaragoza (2,759) y el centro penitenciario de A Coruña (2,759), puesto que
están a la misma distancia.
Es necesario cuál es la variable que presenta una situación mas homogénea dentro del grupo 1
(más homogénea dentro del grupo= más heterogénea entre grupos)
Más homogénea dentro del grupo:
Nos interesa rechazar y por ello buscaremos el estadístico de Fisher más alto, siendo 27,121: la
variable porcentaje de hombres reclusos.
También es necesario conocer aquella variable que presenta una menor heterogeneidad entre
grupos (más homogéneas entre grupo= más heterogénea dentro del grupo).
En este caso nos interesa aceptar la hipótesis buscando el estadístico de Fisher más bajo, en este
caso es la variable Kilómetros al centro urbano más cercano (0,083).
Apartado 4.
Para agrupar los centros de forma homogénea, se propone aplicar la técnica multivariante del
Análisis Cluster, con objeto de agrupar a dichos centros en 6 conglomerados lo más
homogéneos posible, atendiendo a la similitud en los indicadores señalados. En este contexto,
se plantean las siguientes cuestiones:
El Análisis Cluster es una técnica estadística multivariante cuya finalidad es dividir un conjunto
de objetos en grupos o cluster, de forma que los objetos de un mismo grupo sean muy similares
entre sí, mientras que los objetos de clusters diferentes sean lo más distintos posible.
A la hora de aplicar este análisis, los cálculos se pueden hacer sobre la matriz de datos original
o sobre la matriz de datos estandarizada. Estandarizar la matriz de datos convierte las variables
en adimensionales, por lo que no importa si cada una de las variables está medida en unidades
distintas.
En nuestro supuesto hemos de estandarizar porque así las unidades de medida no afectarán a
nuestro resultado final. Se hace, ya que las escalas en las que están medidas nuestras variables
son muy diferentes.
Tras realizar la etapa 1 de elección de variables relevantes, las cuales nos las da el problema,
realizamos la etapa 2 de elección de una medida de similitud o distancia, en la cual aplicaremos
la medida de proximidad de distancia euclídea al cuadrado, que es la medida más utilizada para
calcular la disimilaridad cuando las variables han sido medidas en escala de intervalo (0-25).
Posteriormente, la etapa 3 consta en elegir el método o criterio de agrupamiento, el cual será
el criterio jerárquico aglomerativo de la media dentro de los grupos o vinculación intragrupos.
Este método mide la proximidad entre dos grupos con la distancia media existente entre los
miembros del grupo unión de los dos grupos candidatos a unirse. El objetivo es buscar
combinaciones de elementos intentando que la distancia promedio dentro de cada grupo sea la
menor posible.
Para medir la semejanza o parecido entre dos objetos se utilizan las medidas de similitud o
distancia. Dos objetos son más parecidos cuanto más similares son o cuanto más pequeña es la
distancia entre ellos. Es decir, la matriz de proximidades nos permite comparar los individuos
dos a dos.
El historial de conglomeración nos informa sobre la evolución de la formación de los
conglomerados. Podemos observar que los primeros elementos que se unen son el 2 y el 3 para
una distancia de 0,176. En la segunda etapa el 18 y el 19 para una distancia de 0,236, y así
sucesivamente. En la columna de “Coeficientes” nos muestra la distancia de fusión entre los
elementos, en “Etapa” la etapa donde tiene lugar dicha fusión, y en “Etapa siguiente” donde
volverán a aparecer dichos elementos.
En la salida “Cluster de pertenencia” nos ofrece el programa la información referente al grupo
en el que se encuentra incluida cada variable, para lo que realizamos una tabla de agrupación
de modo que se vea más rápido:
**Grupo 1:
-En la etapa 3 se une el elemento 12 al grupo formado en la etapa 1 a una distancia de 0,594
-En la etapa 6 se une el elemento 17 al grupo formado en la etapa 3 a una distancia de 0,953
-En la etapa 7 se une el elemento 26 al grupo formado en la etapa 4 a una distancia de 1,219
-En la etapa 10 se une el elemento 36 al grupo formado en la etapa 6 a una distancia de 1,282
-En la etapa 11 se une el elemento 5 al grupo formado en la etapa 7 a una distancia de 1,634
-En la etapa 13 se une el elemento 9 al grupo formado en la etapa 5 a una distancia de 1,705
-En la etapa 14, se une el elemento 16 al grupo formado en la etapa 9 a una distancia de 1,804
-En la etapa 16 se une el elemento 21 al grupo formado en la etapa 11 a una distancia de 1,875
-En la etapa 18 se une e grupo formado en la etapa 14 con el grupo formado en la etapa 10 a
una distancia de 2,473
-En la etapa 20 se une el elemento 24 al grupo formado en la etapa 2 a una distancia de 2,779
-En la etapa 22 se une el grupo formado en la etapa 13 con la etapa 16 a una distancia de
2,925
-En la etapa 23 se une el elemento 33 al grupo formado en la etapa 18 a una distancia de 3,097
-En la etapa 26 se unen los grupos formado en las etapas 22 y 23 a una distancia de 4,418
-En la etapa 28 se une el grupo formado en la etapa 26 con el grupo formado en la etapa 20 a
-En la etapa 30 se une el elemento 15 al grupo formado en la etapa 28 a una distancia de 7,573
distancia de 8,981.
DENDOGRAMA:
El proceso de agrupamiento debe ser parado en aquel punto en el que las líneas horizontales
sean muy elevadas (primer gran salto en el valor de la distancia a la que se producen las fusiones
de una etapa a la siguiente).
Hemos realizado una tabla de Excel, en la cual hemos obtenido los siguientes resultados:
En la columna saltos, calculamos cada valor según la distancia 0-25 de la etapa, menos la
distancia de la etapa anterior.
En este apartado en concreto, lo ideal sería cortar en la etapa 23, ya que en esta etapa se
produce el primer gran salto a la etapa 24, pasando de 0,2689 a 1,0694 como se puede observar
en la columna saltos; no obstante, como en el enunciado se nos solicita crear seis grupos, hemos
tenido que cortar en la etapa 31, cuya distancia es ligeramente superior a 10,51805556
reescalada 0-25, que es donde se cortaría en virtud del dendograma.
c) Analizar las diferencias obtenidas con los dos métodos aplicados. ¿Cuál podría
decirse que es más adecuado aplicar en este caso? (realizaremos los apartados juntos por
razón de conexidad entre los contenidos, para una mayor facilidad en su comprensión y
resulte más ordenado).
Previamente a la realización del apartado debemos realizar k-medias para obtener los
centroides de los 6 cluster. De esta forma, a partir de nuestras puntuaciones Z, el programa nos
calcula la media de estas para cada uno de los grupos.
2) Una vez introducidas todas las variables, nos trasladamos a la vista de datos donde debemos
seleccionar como nº de conglomerados 6, ya que anteriormente obtuvimos 6 conglomerados.
Seguidamente, copiamos de nuestra salida informes el valor de los centroides.
Estas tablas se han generado en un Excel a partir de la información de las dos salidas
explicadas anteriormente. Como podemos observar, las tablas constan de tres columnas en las
cuales se indica a qué clúster pertenece cada caso y el número de casos por clúster.
Observamos que existen diferencias en 3 de los 6 clusters, que aunque no son muy
pronunciadas nos darían como respuesta que nuestro conglomerado jerárquico no era óptimo
ya que se ha producido una reasignación elevada de casos para configurar los nuevos grupos al
realizar el k-medias, señal de que el método jerárquico utilizado no era adecuado para los
datos analizados.
Para terminar, podemos hacer referencia a una información adicional que caracteriza la
clasificación final que hemos obtenido con la solución a través de k-medias.
Así, a través de la salida “Distancias entre centros de clústeres finales”, podemos saber que
clústeres se parecen más y cuáles presentan una mayor diferencia.
En nuestro caso, vemos como el Clúster 3 y el 5 son los más diferentes, pues son los que
presentan una distancia más alta (7,544). Por otro lado, los Clúster 1 y 4 son los más parecidos
pues entre ellos se encuentra la distancia más baja (3,718).
Por otro lado, a partir de la tabla ANOVA podemos determinar en qué variables los grupos se
parecen más o las diferencias son más acusadas. Como bien sabemos, en este contraste
usamos el estadístico de Fisher y su Ho es la igualdad de medias.
Podemos observar así, redondeados, todos los p-valor iguales a 0, lo que implicaría que
rechazamos en todas esas variables la Ho. Para determinar en cuál de las mismas existe más
evidencias para rechazar, debemos determinar la que tenga una F de Fisher mayor, que en
este caso sería “Porcentaje de reclusos con medidas de seguridad”, es decir, en esta variable
es donde existen más diferencias entre un grupo y otro.
Seguidamente, en la variable con una F de Fisher menor y un p-valor más alto, es donde se
acepta la Ho con una mayor contundencia, en este caso “Distancia en km al centro urbano más
cercano”, que implicaría que es en esta variable donde los grupos son más parecidos.