Gil, J (2017) - Metodología Cuantitativa en Educación. Madrid, ESPAÑA UNED - Universidad Nacional de Educación A Distancia, 2015. ProQuest Ebrary. Web. 22

Metodología cuantitativa
en educación
JUAN ANTONIO GIL PASCUAL
UNIVERSIDAD NACIONAL DE EDUCACIÓN A DISTANCIA

METODOLOGÍA CUANTITATIVA EN EDUCACIÓN
Quedan rigurosamente prohibidas, sin la

autorización escrita de los titulares del
Copyright, bajo las sanciones establecidas
en las leyes, la reproducción total o
parcial de esta obra por cualquier medio
o procedimiento, comprendidos la reprografía
y el tratamiento informático, y la distribución
de ejemplares de ella mediante alquiler
o préstamos públicos.
© Universidad Nacional de Educación a Distancia

Madrid 2015
XXXVOFEFTQVCMJDBDJPOFT
© Juan Antonio Gil Pascual
ISBNFMFDUSØOJDP: 978-84-362-
&diciónEJHJUBM: PDUVCSF de 2015

ÍNDICE
Capítulo 1. PROGRAMAS INFORMÁTICO-ESTADÍSTICOS: S P S S Y R

1. El análisis de datos con ordenador
2. Introducción al SPSS
2 . 1 . Ventanas de SPSS
2.2. Menús
2.3. Barra de herramientas y barra de estado
2.4. Entrada y ejecución del SPSS
2.5. Pasos básicos para realizar un análisis de datos con SPSS
2.6. Matriz de datos
3. El programa R y R-Commander
3.1. Lectura y escritura de datos
3.1.1. Lectura de datos
3.1.2. Exportar datos
3.1.3. Guardar y leer datos
4. Análisis descriptivo de datos
4 . 1 . Con SPSS
4.2. Con R
4.2.1. La exploración de los datos
5. La relación entre variable
5.1. Con SPSS
5.2. Con R
6. Gráficos
6.1. Con SPSS
6.2. Con R
7. La decisión estadística
7 . 1 . Pruebas paramétricas
7.1.1. Con SPSS
7.2. Pruebas no paramétricas
7.2.1. Con SPSS
7.2.2. C o n R
8. El m o d o lineal
8.1. Regresión lineal
8.1.1. Con SPSS
8.2. Análisis de la varianza
8.2.1. Con SPSS
9. Un ejemplo de investigación con SPSS y R
referencias bibliográficas
Capítulo 2. INTRODUCCIÓN A LA SELECCIÓN DE MUESTRAS EN EL ÁMBITO EDU-

CATIVO
1. Introducción
1.1. Diseños muestrales
1.2. Selección de la muestra en diseños probabilísticos
2. Muestreo aleatorio simple
2 . 1 . Estimación de media y proporción
2.2. Selección del t a m a ñ o de la muestra para la estimación de la media
y proporción
3. Muestreo estratificado
3.1. Estimadores de la media y la proporción poblacional
3.2. Cálculo del t a m a ñ o muestral para la estimación de la media y
proporción poblacional
3.2.1. Afijación
3.2.2. Cálculo t a m a ñ o de la muestra en la estimación de la
media
3.2.3. Cálculo del t a m a ñ o de la muestra en la estimación
de la proporción
4. Muestreo por conglomerados
4 . 1 . Estimación de la media y proporción poblacional
4.2. T a m a ñ o de la muestra para la estimación de la media y proporción
poblacional
4.3. Muestreo por conglomerados en dos etapas
5. Muestreo sistemático
6. Muestreo por cuotas
7. Muestreo por contraste de hipótesis estadística
7.1 Comparación de dos medias
7.2. Comparación de dos proporciones
8. Referencias bibliográficas
ÍNDICE
Capítulo 3. TÉCNICAS DESCRIPTIVAS MULTIVARIANTES: ANÁLISIS FACTORIAL

EXPLORATORIO Y ANÁLISIS DE CLUSTER O CONGLOMERADOS
1. Análisis factorial
1.1. Introducción
1.2. Diseño y método
1.2.1. Diseño
1.2.2. Modelo matemático
1.2.3. Propiedades
1.2.4. Soluciones múltiples del modelo
1.3. Supuestos y limitaciones
1.3.1. Evaluación de la matriz de correlaciones
1.3.2. Limitaciones
1.4. Procedimiento
1.4.1. Pasos para la realización del análisis factorial exploratorio
1.4.2. Extracción de factores
1.4.3. Rotación de los factores
1.4.4. Cálculo de las puntuaciones factoriales
1.4.5 . Interpretación de resultados
2. Análisis de conglomerados
2 . 1 . Definición y objetivos
2.1.1. Definición
2.1.2. Objetivos
2.2.1. Diseño
2.2.1.1. Selección de las variables
2.2.1.2. Elección de la medida de proximidad
2.2.1.3. Elección del método para la formación de conglo-
merados
2.2.1.4. Elección del número de conglomerados
2.4. Procedimiento
2.4.1 Métodos jerárquicos
2.4.1.1. Métodos aglomerativos o ascendentes
2.4.1.2. Métodos disociativos o descendentes
2.4.2. Métodos no jerárquicos

2.4.2.1. Método de k-medias
2.5. Interpretación de resultados
3. Un ejemplo de análisis factorial y de cluster
3 . 1 . Análisis factorial
3.1.1. Pertinencia del análisis
3.1.2. Extracción de los factores
3.1.3. Solución rotada
3.1.4. Análisis factorial con R
3.2. Análisis de cluster
Referencias bibliográficas
Capítulo 4 TÉCNICAS EXPLICATIVAS MULTIVARIANTES: ANÁLISIS DISCRIMINAN-

TE, ANÁLISIS DE REGRESIÓN Y ANÁLISIS DE SEGMENTACIÓN
1. Análisis discriminante
1.1. Definición y objetos
1.2.2. T a m a ñ o de la muestra
1.2.3. División de la muestra
1.3.1. Supuestos del modelo
1.3.2. Comprobación de los supuestos paramétricos
1.4. Procedimiento
1.4.1. Fases del análisis
1.4.1.1. Selección de las variables discriminantes
1.4.1.2. Extracción de las funciones discriminantes
1.4.1.3. Clasificación de los individuos
2. Análisis de regresión
2 . 1 . Objetivos
2.2.1. Diseño de investigación
2.4. Procedimiento
3. Análisis de segmentación. el modelo Chaid
ÍNDICE
3.1. Introducción
3.2. El análisis de segmentación. el modelo Chaid
3.2.1. Definiciones
3.2.2. Objetivos y aplicaciones del método
3.2.3. Relación con otros métodos multivariantes
3.2.4. El estadístico ji-cuadrado en la segmentación
3.2.5. El procedimiento Chaid
3.2.6. Un ejemplo de aplicación del procedimiento Chaid
3.2.7. Supuestos y limitaciones
3.2.8. Interpretación de resultados
4. Ejemplos de análisis discriminante, de regresión y de segmentación
4 . 1 . Análisis discriminante
4.2. Análisis de regresión
4.3. Análisis de segmentación
5. Referencias bibliográficas
Capítulo 5. TÉCNICAS RELACIONADAS CON LA MEDIDA. VALIDACIÓN DE INSTRU-

MENTOS DE MEDIDA. TEORÍA DE RESPUESTA AL ÍTEM. DISEÑOS
DE CASO ÚNICO
1. Técnicas relacionadas con la medida
2. Análisis de los ítems
2 . 1 . Teoría clásica de los test (TCT)
2.1.1. Dificultad
2.1.2. Discriminación
2.1.3. Análisis de distractores
2.1.4. Coeficiente de fiabilidad
2.1.5. Validez
2.1.6. Dimensionalidad
2.2. Teoría de respuesta al ítem
2.2.1. Supuestos
2.2.2. Modelos
2.2.3. Curva característica del test
2.2.4. Funciones de información
2.2.5. Aplicaciones de la TRI
2.2.5.1. Banco de ítems
2.2.5.2. Equiparación de puntuaciones
2.2.5.3. Funcionamiento diferencial de los ítems
2.2.5.4. Tests adaptativos
3. Diseños de caso único

3.1. Características de los diseños experimentales de caso único
3.2. Fases en la experimentación de caso único
3.3. Tipos de diseño de caso único
3.4. Ventajas e inconvenientes de este tipo de diseño
4. Un ejemplo de análisis de un instrumento de medida desde la TCT
5. Un ejemplo de análisis de un instrumento de medida desde la TRI
referencias bibliográficas
Capítulo 1
Programas informático-estadísticos: SPSS y R
1. El análisis de datos con ordenador

2. Introducción al SPSS
2.1. Ventanas de SPSS
2.2. Menús
3. El programa R y R-Commander
4. Análisis descriptivo de datos
4.1. Con SPSS
4.2. Con R
5. La relación entre variable
5.1. Con SPSS
5.2. Con R
6. Gráficos
6.1. Con SPSS
6.2. Con R
7. La decisión estadística
7.1. Pruebas paramétricas
8. El modo lineal
9. Un ejemplo de investigación con SPSS y R
1. EL ANÁLISIS DE DATOS CON ORDENADOR
El análisis de datos con la ayuda del ordenador resulta en la actualidad

imprescindible en todo proceso de análisis de datos recogidos de investiga-
ciones. El tratamiento de los mismos mediante técnicas estadísticas, o la
representación gráfica de estos, se ve ayudado por el uso de paquetes esta-
dísticos.
Hoy en día la proliferación de dichos paquetes, para realizar tareas con-

cretas y programas de propósito general que abarcan un conjunto amplio
de las mismas, hacen difícil la elección al investigador. No obstante, en
Ciencias Sociales el uso del paquete SPSS, de propósito general, está muy
difundido, aunque su alto precio lo hace costoso para el investigador novel
o en el mundo académico. Como respuesta a este problema ha tomado fuer-
za, dentro del software libre, el paquete estadístico R.
Para realizar el análisis estadístico de los datos de una investigación, en

la mayoría de los casos, se realizará el siguiente proceso:
a) Introducir los datos en el programa estadístico o grabar los datos en

una hoja de cálculo, archivo de texto plano (tipo notepack de Windows)
o una base de datos. En todos los casos se tendrá un fichero de datos en
forma matricial, donde en filas estarán los entes o casos de los que se
han recogido los datos (personas, instituciones, actividades, etc.) y en
columnas los atributos o variables que tienen las entidades (altura, peso,
edad, nivel académico, etc.)
b) Filtrado y depuración de los datos eliminando los casos anómalos, don-

de las variables tienen un valor fuera del rango de las mismas, o cuyo
valor sea extremo (mayor o menor de 1,5 veces el rango inter-cuartílico).
c) Imputación o eliminación de casos ausentes bien por falta de respues-

ta o dejados exprofeso en esa condición.
d) Seleccionar un procedimiento para calcular algún estadístico o crear
un gráfico. Para lo cual se seleccionará las variables y/o los casos para
el análisis.
e) Ejecutar el procedimiento y elegir los resultados que se necesiten
como salida. Esta selección llevará al investigador a salvar los resulta-
dos en un fichero que permita su posterior agregación a los informes de
investigación.
2. INTRODUCCIÓN AL SPSS
La investigación en ciencias sociales, y en especial la investigación cuan-
titativa, necesita el uso de paquetes informático-estadístico para su desa-
rrollo. En este apartado se fijará los rudimentos mínimos para utilizar uno
de los programas estadísticos más populares, el SPSS.
Statistics de SPSS es un paquete estadístico de análisis de datos utiliza-
do en la investigación en ciencias sociales, económicas y de la salud.
Contiene programas capaces de realizar desde unos simples análisis des-
criptivos hasta diferentes tipos de análisis multivariante. Está formado por
un conjunto de módulos que conforman el paquete básico llamado SPSS
Statistics donde en la pestaña de Análisis permite realizar:
— Informes (libro de códigos, cubos OLAP, informes por filas o columnas).
— Estadísticos descriptivos ( Frecuencias, Descriptivos, Explorar, Tablas
cruzadas, Gráficos P-P y Q-Q).
— Tablas (Personalizadas y Respuestas múltiples).
— Comparar medias (Medias, Prueba T para una muestra, Prueba T para
muestras independientes, Prueba T para muestras relacionadas, ANOVA
de un factor).
— Modelo lineal general (Univariante, Multivariante, Medidas repetidas,
Componentes de la Varianza).
— Modelos lineales generalizados (Modelos lineales generalizados,
Ecuaciones de estimación generalizadas).
PROGRAMAS INFORMÁTICO-ESTADÍSTICOS: SPSS Y R
— Modelos mixtos (Lineales, Lineales generalizados).

— Correlaciones (Bivariadas, Parciales, Distancias).
— Regresión (Modelación lineal automatizada, Lineales, Estimación
curvilínea, Mínimos cuadrados parciales, Logística binaria, Logística
multinomial, Ordinal, Probit, No lineal, Estimación ponderada,
Mínimos cuadrados en dos fases, Escalamiento óptimo (CATREG).
— Loglineal (General, Logit, Selección de modelo).
— Clasificar (Cluster bietápico, Cluster de k-medias, Cluster jerárquico,
Discriminante, Vecino más cercano).
— Reducción de dimensiones (Factor, Análisis de correspondencias,
Escalamiento óptimo).
— Escala (Análisis de fiabilidad, PREFSCAL, PROXSCAL, ALSCAL).
— Pruebas no paramétricas (Una muestra, muestras independientes,
muestras relacionadas).
— Previsiones — Modelos para series temporales.
— Supervivencia (Tablas de mortalidad, Kaplan-Meier, Regresión de Cox,
Cox con covariable dep. del tiempo).
— Respuesta múltiple
— Muestras complejas.
— Simulación.
— Control de Calidad (Gráficos de control, Gráficos de Pareto).
— Curva COR.
2.1. Ventanas de SPSS
SPSS utiliza diferentes ventanas:
Datos Contiene el fichero de datos. Con este editor se puede crear un fichero de
datos o modificar uno ya existente. Esta ventana se abre automáticamente
cuando se ejecuta el SPSS. El fichero de datos tiene extensión.sav
Resultados Contiene los resultados de la ejecución de los comandos del SPSS, tanto de
lectura de datos, transformación de datos, etc., como de análisis de datos.
Esta ventana se abre automáticamente cuando se ejecuta el SPSS. Se pue-
den abrir varias ventanas de salida. Los ficheros de resultados aparecen en
el visor del mismo nombre y tienen extensión.spv
Sintaxis Esta ventana se utiliza para ejecutar comandos del SPSS. Estos comandos
pueden pertenecer a un fichero que ha sido creado con el SPSS, o pueden
escribirse directamente, o pueden proceder de ejecutar la opción Pegar de
alguna de las ventanas de diálogo. Los mencionados comandos se pueden
grabar en un fichero para utilizarlos en otro momento de la sesión de
SPSS. Se pueden abrir varias ventanas de sintaxis. Para ejecutar los
comandos SPSS de una ventana de sintaxis, se marca con el ratón los
comandos que se desean ejecutar y se pincha en el icono (ejecutar).
Los ficheros de sintaxis tienen extensión.sps
Script Ejecuta programas en Sax Basic sobre un objeto de SPSS, por ejemplo una
tabla pivote. Hay programas que contienen procesos standard almacenados
en el subdirectorio SPSS y con extensión sbs. En Windows necesita tener
instalado WinHlp32.exe. También puede ejecutar script en Python, siempre
que esté instalado IBM® SPSS Statistics - Essentials for Python.
En todas las ventanas del SPSS están disponibles unos menús, una ba-
rra de herramientas, una barra de estado, y unos botones, algunos de los
cuales son comunes a todas las ventanas y otros son específicos de cada
una de ellas.
2.2. Menús
Los menús más importantes del SPSS son los siguientes:
Archivo Se utiliza para nuevo (datos, sintaxis, resultados, script), abrir, abrir base
de datos, leer datos de texto, cerrar, guardar, guardar como, mostrar infor-
mación de datos, hacer caché de datos, imprimir, presentación preliminar,
cambiar servidor, detener procesador, datos usados recientemente, archi-
vos usados recientemente, salir de SPSS.
Edición Se utiliza para deshacer, rehacer, cortar, copiar, pegar, pegar variables, eliminar
en los ficheros de datos y procedimientos y buscar en el fichero de datos y
opciones para definir las condiciones de entorno para tablas y datos.
Ver Se utiliza para visualizar la barra de estado, visualizar los iconos de la

barra de herramientas, cambiar las fuentes, poner o quitar la cuadrícula en
los datos y para visualizar las etiquetas de valor, y finalmente variables (si
se está en la vista de datos).
Datos Se utiliza para realizar cambios en el fichero de datos, tales como: definir
propiedades de variables, copiar propiedades de datos, definir fechas,
insertar variable, insertar caso, ir a caso, ordenar casos, transponer, rees-
tructurar, fundir archivos (añadir casos, añadir variables), agregar- es
decir, crear grupos de casos para un análisis-, diseño ortogonal, segmentar
archivos, seleccionar casos y ponderar casos. Estos cambios, excepto el
caso de agregar que crea un archivo independiente, son temporales a no
ser que se graben antes de salir del programa.
Transformar Se utiliza para realizar cambios en las variables seleccionadas del fichero
de datos y crear nuevas variables basadas en valores de otras variables que
ya existen. Estos cambios son temporales y se guardan al salvar el fichero
de datos. Las opciones del menú transformar son las siguientes: calcular,
semilla de aleatorización, contar apariciones, recodificar (en las mismas
variables, en distintas variables), categorizar variables, asignar rango a casos,
recodificación automática, crear serie temporal, reemplazar valores perdidos.
Generar valores aleatorios.
Analizar Se utiliza para realizar el análisis estadístico deseado. Las opciones son:
Informes, Estadísticos descriptivos, Tablas, Comparar medias, Modelo
lineal general, Modelos lineales generalizados, Modelos mixtos,
Correlaciones, Regresión, Loglineal, Clasificar, Reducción de dimensiones,
Escala, Pruebas no paramétricas, Previsiones, Supervivencia, Respuesta
múltiple, Muestras complejas, Simulación, Control de Calidad, Curva
COR.
Gráficos Se utiliza para crear gráficos: Generar gráficos, de Barras, Barras 3D,
Líneas, Áreas, Circular, Máximos y mínimos, Diagramas de caja y Barras
de error, Pirámide de población, Dispersión, Histograma.
Utilidades Se utiliza para visualizar información sobre el contenido del fichero de

datos, del fichero de parámetros, o definir grupos de variables. Las distin-
tas opciones disponibles son: variables, información del archivo, definir
conjuntos, usar conjuntos, ejecutar proceso y editor de menús.
Ventana Para minimizar las ventanas y donde van apareciendo los distintos fiche-
ros que se ejecutan.
? Este menú abre una ventana de ayuda que contiene información sobre el
uso de cualquiera de las características del SPSS.
Statistics tiene una barra de herramientas donde se reflejan mediante

iconos las distintas opciones de la ventana activa. Consiste, de alguna for-
ma, un método abreviado de acceder a los menús. La barra de estado, situa-
da en la parte inferior de la pantalla, tiene varias secciones:
— Área del procesador: nos indica el estado del procesador
— Área de recuento: iteraciones realizadas en el fichero de datos
— Área de filtrado: si existen datos filtrados
— Área de ponderación: si los datos están ponderados
— Área de segmentación de archivos
Solo se reflejará información cuando el procesador esté realizando su
actividad y cuando se ejecute la misma.
Como cualquier programa Windows, SPSS tiene dos procedimientos de

ejecución: 1) abriendo cualquier fichero de sintaxis o procedimientos (.sps),
de datos (.sav) o de resultados (.spo o.spv); 2) al dar en el icono correspon-
diente al programa. Cualquiera de las dos opciones anteriores dará acceso
a una ventana principal «SPSS para Windows», y a una ventana con un fi-
chero de datos en blanco.
Además de estas formas de entrar en SPSS, existe dos formas de ejecu-
tar SPSS: a) pulsando el botón ACEPTAR en el menú correspondiente del
procedimiento estadístico, b) marcando con el ratón en el fichero de pro-
cedimientos (.sps) los comandos a ejecutar y pulsando el icono realizar.
Recordemos que cuando en el menú de SPSS damos la opción PEGAR,
aparecerán en el fichero de sintaxis los comandos que realizan las opciones
seleccionadas en el menú.
Figura 1.1 Pantalla principal de SPSS.
Introducir los datos en SPSS. Se puede abrir un archivo de datos pre-

viamente grabado en SPSS, importar de una hoja de cálculo o una base de
datos, leer de un archivo de texto o introducir datos directamente en el edi-
tor de datos del SPSS.
Seleccionar un procedimiento para calcular algún estadístico o crear
un gráfico.
Seleccionar las variables para el análisis. Cuando elijamos un procedi-
miento estadístico hay que seleccionar las variables a las que vamos a apli-
car el mismo.
Ejecutar el procedimiento y seleccionar los resultados que se necesite
como salida. Esta selección se realizará en el navegador de resultados.
Para realizar un análisis estadístico es necesario disponer de una ma-

triz de datos. Dicha matriz se puede estructurar de la siguiente forma:
VARIABLE 1 VARIABLE 2 ............... VARIABLE m

Caso 1
Caso 2
Caso 3
t
t
t
Caso n
Es decir, es una matriz rectangular de dimensión n x m, donde n (núme-

ro de filas) corresponde a las unidades o elementos de análisis, y m (núme-
ro de columnas) corresponde a las variables.
El proceso de construcción de esta matriz de datos se compone de:
1. Introducir o importar los datos. Para realizar esta labor se puede

utilizar el editor de datos de SPSS o importarlos de una base de datos, hoja
de cálculo, de otros programas estadísticos, o bien con un procesador de
textos crear un fichero ASCII contenedor de dicha matriz de datos.
Como se ha comentado, los datos se pueden introducir directamente en

el editor del SPSS. Es aconsejable definir primero las variables y después
introducir los datos. Ambas operaciones se realizan desde la ventana
«Nuevo Datos».
La ventana de datos tiene dos visiones: a) vista de datos, donde se mues-

tran los valores reales o las etiquetas de valor definidas y b) vista de varia-
bles, con la información relativa a las mismas.
2. Definir variables. Para crear un archivo de datos de SPSS (.sav), se

necesita además «definir variables». Esta labor incluye: nombrar las varia-
bles, el tipo, el formato de lectura, la etiqueta de la variable, la etiqueta de
las categorías (cuando la variable es discreta) y la definición de los valores
«missing» (ausentes).
3. Salvar el fichero de datos. Una vez que se ha introducido la matriz de

datos utilizando SPSS, ésta se puede almacenar en un fichero. Statistics
permite almacenar los datos y la definición de las variables en distintos ti-
pos de ficheros; el tipo que se elija dependerá de lo que se vaya a hacer pos-
teriormente.
Para almacenar los datos, se pincha en el menú Archivo y se selecciona
la opción Guardar datos o Guardar como
3. EL PROGRAMA R Y R-COMMANDER
R es un software estadístico-matemático orientado al proceso de datos,

con un entorno gráfico de trabajo. Se pueden destacar las siguientes com-
ponentes:
t Un sistema de manejo y almacenamiento de datos eficiente
t Funciones matemáticas para el proceso de vectores y matrices
t Una gran cantidad de funciones estadísticas integradas en el sistema
t Una amplia variedad de librerías especializadas para estadística y
análisis de datos
t Funciones de proceso gráfico orientadas al análisis de datos
t Un lenguaje de programación completo basado en el lenguaje S
R se obtiene de forma gratuita en: http://cran.es.r-project.org. En dicha
dirección se pueden encontrar muy distintos materiales de apoyo.
R-Commander es una Interfaz Gráfica de Usuario (GUI en inglés), crea-
da por John Fox, que, mediante menús, facilita la introducción, manipula-
ción y tratamiento de datos.
Para poder arrancar R-Commander se necesita instalar R y la librería
Rcmdr. Veamos cómo se realiza este proceso, no obstante en la página del
curso tiene el programa portable R donde ya está realizado el proceso deta-
llado a continuación y sólo debe descomprimir el fichero R.zip.
Para cargar e instalar R y el paquete Rcmdr:
1. Bajar R de la dirección http://cran.es.r-project.org e instalar R
2. Dar Instalar paquete(s) y escribir Rcmdr

3. Dar Cargar paquete y seleccionar Rcmdr
4. Escribir en la línea de comandos > library(Rcmdr)
En sucesivas ocasiones para entrar en el Rcmdr (R Commander) se pue-
de optar por:
a) Escribir en la línea de comandos > library(Rcmdr)
b) Modificar el archivo Rprofile.site situado en c:/Archivos de programas/R/
etc/Rprofile.site y añadir library(Rcmdr) salvar el fichero y la próxima
vez ya se entrará directamente en R-Commander
Aquellos otros lectores que descargaron directamente de la página del
curso el programa sólo necesitarán, para entrar en R-Commander, ejecutar
el fichero RCommander.BAT
El aspecto de la pantalla de R-Commander es el siguiente:
Figura 1.2 Pantalla de R-Commander.

Mediante los menús de R-Commander se podrá realizar la mayoría de

las operaciones sencillas, no obstante, en algunas ocasiones será necesario
cargar algún paquete de R y ejecutar algún comando. Para ir familiarizán-
dose con los comandos se irá insertando los mismos en recuadros de texto;
asimismo, en la red (ver referencias de R, en la bibliografía) tiene numero-
sos enlaces a documentación de R y extracto de sus comandos.
Como verá el lector, todas las operaciones que se realicen en el menú se
reflejarán en comandos de R que se mostrarán en la ventana de instruccio-
nes, de tal manera que al final de los cálculos se podrá salvar el fichero de
instrucciones que permitirá realizar de nuevo el proceso para los mismos u
otros datos similares. Para ejecutar un comando de R se seleccionará este con
el ratón y se pulsará el botón de ejecutar. El resultado de la ejecución del co-
mando se reflejará en la ventana de resultados. Además, si se produce algún
error en la ejecución de un comando se mostrará en la ventana de Mensajes.
Junto con R-Commander se pueden cargar paquetes adicionales (plugins)
que facilitan la realización de algunos análisis adicionales, entre los cuales
utilizaremos el relativo al análisis de contenido. Para cargar un plugins se
debe elegir en el menú de R-Commander: Herramientas -> Cargar plugins
de R Commander y seleccionar los paquetes. Después se pedirá reiniciar
R-Commander, tras lo cual estarán disponibles los paquetes seleccionados.

3.1.1. Lectura de datos
a) De un fichero
read.table lee un fichero con datos separados por espacios en blanco,
tabuladores o saltos de línea.
read.table(file, header = FALSE, sep = "", quote = "\"",
dec = ".", numerals = c("allow.loss", "warn.loss", "no.loss"),
row.names, col.names, as.is = !stringsAsFactors,
na.strings = "NA", colClasses = NA, nrows = -1,
skip = 0, check.names = TRUE, fill = !blank.lines.skip,
strip.white = FALSE, blank.lines.skip = TRUE,
comment.char = "#",
allowEscapes = FALSE, flush = FALSE,

stringsAsFactors = default.stringsAsFactors(),
fileEncoding = "", encoding = "unknown", text, skipNul = FALSE)
Para poder leer una hoja de datos directamente, el archivo externo debe
reunir las condiciones adecuadas. La forma más sencilla es:
— La primera línea del archivo debe contener el nombre de cada variable
de la hoja de datos.
— En cada una de las siguientes líneas, el primer elemento es la etiqueta de
la fila, y a continuación deben aparecer los valores de cada variable.
— >tabla.datos <- read.table("c:/R/mis.datos", header = TRUE, sep = "",
comment.char = "")
Para referirnos a las variables de tabla.datos será necesario escribir ta-
bla.datos$nombre de la variable, entonces resulta más sencillo utilizar el
comando attach, que pone temporalmente en un primer nivel el archivo de
datos. De esta manera se evita arrastrar su nombre cada vez que se haga
uso de una de sus variables. La función attach actúa hasta ejecutar la orden
detach para el mismo fichero.
b) La función scan()
Lee datos de un fichero o de la consola de trabajo. Su formato es:
scan(file = "", what = double(), nmax = -1, n = -1, sep = "",
quote = if(identical(sep, "\n")) "" else "’\"", dec = ".",
skip = 0, nlines = 0, na.strings = "NA",
flush = FALSE, fill = FALSE, strip.white = FALSE,
quiet = FALSE, blank.lines.skip = TRUE, multi.line = TRUE,
comment.char = "", allowEscapes = FALSE,
fileEncoding = "", encoding = "unknown", text, skipNul = FALSE)
c) Leer datos de librerías

Con la función data se puede leer los ficheros de datos de las librerías
disponibles en el programa R.
> data() # muestra todos los ficheros
> data(co2)
> data(co2, package = "datasets") # es equivalente
> co2 # presenta en consola los datos
d) Acceder a datos de una biblioteca

Para acceder a los datos incluidos en una biblioteca, basta utilizar el
argumento package en la función data. Por ejemplo,
data(package="nls")
data(Puromycin, package="nls")
Si la biblioteca ya ha sido conectada mediante la función library, sus

datos habrán sido incluidos automáticamente en la trayectoria de búsqueda
y no será necesario incluir el argumento package. Así,
> library(nls)
> data()
> data(Puromycin)
3.1.2. Exportar datos
Para exportar datos lo más sencillo es exportar una matriz (es necesario
transponer la matriz).
> write(t(x), file = "c:/R/data.txt", ncolumns = n, append = FALSE)
Pero para exportar un data.frame es mejor:

> write.table(my.data.frame, file = "mi.output.txt", sep = "", row.names = FALSE,
col.names = TRUE)
Para escribir un fichero CSV importable desde Excel

> write.table(x, file = "foo.csv", sep = ",", col.names = NA
3.1.3. Guardar y leer datos
Resulta muy importante poder guardar datos, funciones, etc., para ser
usados en otras sesiones de R. Esos datos así guardados pueden compartir-
se con otros usuarios e incluso utilizarse en distintos sistemas operativos:
> x <- runif(30)
> y <- list(a = 1, b = TRUE, c = "salida")
> save(x, y, file = "xy. RData")
los leeremos con

> load("xy. RData")
Podemos salvar todos los objetos con

> save.image() # salvado como ". RData"
> save.image(file = "un.nombre. RData")
4. ANÁLISIS DESCRIPTIVO DE DATOS
4.1. Con SPSS

Después de introducir o importar los datos se necesita analizarlos, para
lo cual se debe, en primer lugar, depurarlos. La opción Analizar-
>Estadísticos descriptivos->Explorar, con las variables seleccionadas, da
acceso al comando EXAMINE que permite detectar valores atípicos (valo-
res por encima de 1,5 por el rango inter-cuartílico), comprobar los supues-
tos paramétricos de los datos, comprobar supuestos y características entre
subpoblaciones (grupos de casos formados en relación a una variable o fac-
tor), indagar posibles transformaciones para conseguir la normalidad de la
distribución, controlar los datos perdidos, etc.
Si la variable es continua, la opción Analizar->Estadísticos descripti-
vos->Descriptivos utiliza el comando DESCRIPTIVES proporciona estadís-
ticos descriptivos univariantes. Además, permite crear nuevas variables con
los valores de variables existentes tipificados (z). Las variables se pueden
ordenar alfabéticamente, según el valor de su media u otros estadísticos y
conforme son referenciadas para el análisis (opción por defecto).
Si la variable es discreta, la opción Analizar->Estadísticos descriptivos-
>Frecuencias emplea el comando FREQUENCIES proporciona tablas de
frecuencias y, opcionalmente, estadísticos descriptivos básicos, gráficos de
barras e histogramas. Sirve como punto de partida en cualquier análisis
posterior y sobre todo para localizar valores de las variables fuera del rango
de medida, cuestión que aparece con frecuencia en los casos de error en la
introducción de datos. Se pueden organizar los valores de las variables en
orden ascendente o descendente e incluso se pueden ordenar las categorías
por sus frecuencias. Vale suprimir la tabla de frecuencias de una variable
cuando ésta tiene gran cantidad de categorías.
4.2. Con R
4.2.1. La exploración de los datos
Para estudiar la distribución de los datos se puede realizar con las fun-
ciones summary o fivenum; y también puede realizar un diagrama de tallo
y hojas con la función stem
> data(faithful)
> attach(faithful)
> summary(eruptions)
> summary(eruptions)
Min. 1st Qu. Median Mean rd Qu. Max.
1.600 2.163 4.000 3.488 4.454 5.100
> stem(eruptions)
> stem(eruptions)
The decimal point is 1 digit(s) to the left of the |

16 | 070355555588
18 | 000022233333335577777777888822335777888
20 | 00002223378800035778
22 | 0002335578023578
24 | 00228
26 | 23
28 | 080
30 | 7
32 | 2337
34 | 250077
36 | 0000823577
38 | 2333335582225577
40 | 0000003357788888002233555577778
42 | 03335555778800233333555577778
44 | 02222335557780000000023333357778888
46 | 0000233357700000023578
48 | 00000022335800333
50 | 0370
También se puede realizar un contraste para comprobar la normalidad.

> long <- eruptions[eruptions> 3]
> shapiro.test(long)
> shapiro.test(long)
Shapiro-Wilk normality test
data: long
W = 0.9793, p-value = 0.01052
También se puede utilizar la librería psych

library(psych)
describe(faithful)# n, mean, sd, median, trimmed, mad, min, max, range, skew,
kurtosis, se
> describe(faithful)# n, mean, sd, median, trimmed, mad, min, max,
range, skew, kurtosis
vars n mean sd median trimmed mad min max range skew kurtosis se
eruptions 1 272 3.49 1.14 4 3.53 0.95 1.6 5.1 3.5 -0.41 -1.51 0.07
waiting 2 272 70.90 13.59 76 71.50 11.86 43.0 96.0 53.0 -0.41 -1.16 0.82
Y la opción, describe en función de una variable categórica:

library(psych)
data(iris)
describe.by(iris$Sepal. Length, group=iris$Species)
> describe.by(iris$Sepal. Length, group=iris$Species)

group: setosa
1 1 50 5.01 0.35 5 5 0.3 4.3 5.8 1.5 0.11 -0.45 0.05
----------------------------------------------------------
group: versicolor
1 1 50 5.94 0.52 5.9 5.94 0.52 4.9 7 2.1 0.1 -0.69 0.07
----------------------------------------------------------
group: virginica
1 1 50 6.59 0.64 6.5 6.57 0.59 4.9 7.9 3 0.11 -0.2 0.09
5. LA RELACIÓN ENTRE VARIABLE
5.1. Con SPSS

Existen dos grupos de comandos para cuantificar el grado de relación
entre variables. Si las variables son continuas o discretas (ordinales) se uti-
lizará Analizar->Correlaciones->Bivariadas que proporciona matrices de
correlaciones. Calcula el coeficiente de correlación de Pearson (comando
CORRELATIONS), la ȡ de Spearman y la tau-b de Kendall (comando
NOPAR CORR) con sus niveles de significación. Es interesante, antes de
realizar los cálculos, eliminar los valores atípicos porque sesgan el grado de
relación entre las variables. Además, conviene recordar las limitaciones de
uso del coeficiente de correlación de Pearson, donde entre cada pareja de
variables se debe dar la normalidad bivariada.
El otro grupo de comandos que se utiliza para cuantificar o valorar la
independencia entre variables categóricas es CROSSTABS (tablas cruza-
das). Habrá que seleccionar: Analizar-’Estadísticos descriptivos-’Tablas de
contingencia. El procedimiento Tablas de Contingencia proporciona tablas
de clasificación múltiple, estadísticos y medidas de asociación entre las va-
riables. Los estadísticos y las medidas de asociación sólo se calculan para
dos vías de clasificación, si existe un tercer factor o capa, se calcularán
aquellos por categoría del tercer factor.
5.2. Con R
Tablas:
attach(mydata)
mytable<-table(A, B)#A fila, B columna
mytable #resultado
margin.table(mytable,1)#A marginal
margin.table(mytable,2)#B marginal
prop.table(mytable)#
prop.table(mytable,1)# porcentaje fila
prop.table(mytable,2)# porcentaje columna
Cross-tabla parecida a la salida de SPSS:
library(gmodels)
CrossTable(mydata$myrowvar, mydata$mycolvar)
Correlaciones y covarianzas:
cor(mtcars, use="complete.obs", method="kendall")
cov(mtcars, use="complete.obs")
Otras correlaciones:
# correlación policórica
# x es una tabla de contingencia
library(polycor)
polychor(x)
# pearson (var.numérica-numérica),
# polyserial (numérica-ordinal),
# y polychoric (ordinal-ordinal)
# x es un data frame
library(polycor)
hetcor(x)
# correlación parcial
library(ggm)
data(mydata)
pcor(c("a", "b", "x", "y", "z"), var(mydata))
# correlación parcial entre a y b controlado por x, y, z
6. GRÁFICOS
6.1. Con SPSS

Además de los gráficos presentes en los comandos FREQUENCIES (dia-
grama de barra o histograma) y EXAMINE (diagrama de caja, de tallo y
hojas e histograma), SPSS tiene un menú específico para crear un conjunto
de gráficos para representar una o más variables. Para realizar dichos grá-
ficos debemos seleccionar Gráficos en el menú del programa.
Gráfico de barras, líneas, áreas y sectores sirven para representar grá-
ficamente la distribución de frecuencias de las variables. Diagramas de
caja y barras de error se utilizan en la exploración de los datos. Histograma
sirve para mostrar el número de casos que se encuentran en cada intervalo
de la variable seleccionada. Diagrama de dispersión se utiliza para valorar
la forma y relación entre variables. Gráfico P-P y Q-Q crea un gráfico de las
proporciones acumuladas o de los cuantiles, de una variable respecto a las/
los de una distribución cualquiera de prueba. Estos tipos de gráficos suelen
emplearse para determinar si la distribución de una variable coincide con
una distribución dada. Si los valores empíricos de la variable seleccionada
coinciden con los valores teóricos de la distribución de prueba, los puntos
formarán una línea recta.
También se puede probar los valores empíricos de distribuciones transfor-
madas. SPSS tiene las siguientes opciones de transformación: el logaritmo
natural, tipificar valores, diferencia y diferencia estacional. Además, se puede
especificar el método utilizado para calcular las distribuciones esperadas, así
como para resolver «empates», u observaciones múltiples con el mismo valor.
6.2. Con R
Introducción:
Se puede ver diferentes posibilidades gráficas dando:
> demo(graphics)
Gráficos alto nivel:

barplot(VADeaths, beside = TRUE, col = c("lightblue", "mistyrose", "lightcyan",
"lavender", "cornsilk"), # diagrama de barras
legend = rownames(VADeaths), ylim = c(0, 100)) # leyenda del diagrama de ba-
rras
title(main = "Death Rates in Virginia", font.main = 4) # titulo del diagrama de
barras
boxplot(decrease ~ treatment, data = OrchardSprays, log = "y", col = "bisque") #

diagrama de cajas
hist(sqrt(islands), breaks = 12, col="lightblue", border="pink")# histograma

par(opar); opar <- par(pty = "s", bg = "lightcyan")

plot(x = 0, y = 0, type = "n", xlim = rx, ylim = ry, xlab = "", ylab = "")
u <- par("usr")
rect(u[1], u[3], u[2], u[4], col = tcol[8], border = "red")
contour(x, y, volcano, col = tcol[2], lty = "solid", add = TRUE,
vfont = c("sans serif", "plain")))#gráfico de contorno
title("A Topographic Map of Maunga Whau", font = 4)
abline(h = 200*0:4, v = 200*0:4, col = "lightgray", lty = 2, lwd = 0.1
pairs(~ Fertility + Education + Catholic, data = swiss,

subset = Education <20, main = "Swiss data, Education <20")# pares de gráfi-
cos de dispersión por variables
z <- 2 * volcano # exagera el relieve

x <- 10 * (1: nrow(z)) # 10 metros expansión (S a N)
y <- 10 * (1: ncol(z)) # 10 metros expansión (E a O)

## No sacar las líneas de la cuadrícula: border = NA
par(bg = "slategray")
persp(x, y, z, theta = 135, phi = 30, col = "green3", scale = FALSE, ltheta =
-120, shade = 0.75, border = NA, box = FALSE) #gráfico 3D
El comando más utilizado en gráficos es plot.

x<-c(-10:10)
y<-x^2
plot(x, y)
Se le puede añadir a plot varios argumentos:
axes= F Suprimir los ejes

log=’<x|y|xy>’ Ejes Logarítmicos
main=’título’ Titulo
new=<logical> Adiciona sobre el gráfico actual
sub=’título de abajo’ Subtítulo
type=’<l|p|b|n>’ Línea, puntos, ambos, ninguno
lty=n Tipo de Línea
pch=’.’ Carácter de dibujo
col=2 Para dibujar en color rojo
xlab=’Nombre del eje x’
ylab=’Nombre del eje y’
xlim=c(xminimo; xmaximo)
ylim=c(yminimo; ymaximo)
Gráficos de bajo nivel:

Se utilizan ciertos comandos para añadir información a los gráficos de
alto nivel:
plot(x, y, type="p", lty=1:5, pch=, col=1:4)
points(x, y, type="p", lty=1:5, pch=, col=1:4) # añade puntos
lines(x, y, type="l", lty=1:5, pch=, col=1:4) # añade líneas
text(x, y, texto) # añade texto al gráfico en la posición x, y
abline(a, b) # añade una línea de pendiente a y de ordenada en el origen b
abline(h=y) # añade una línea horizontal
abline(v=x) # añade una línea vertical
qqplot(x, y, plot=TRUE)
qqnorm(x, datax=FALSE, plot=TRUE)
Múltiples gráficos por página:

Empezamos con par(mfrow=c(filas, columnas)) antes del comando plot.
> par(mfrow = c(2, 2))
> plot(rnorm(20))
> plot(runif(5), rnorm(5))
> plot(runif(15))
> plot(rnorm(10), rnorm(10))
Guardar los gráficos:

Se puede especificar dónde guardar un gráfico.
> pdf(file = "graf1.pdf", width = 10, height = 10)
> plot(rnorm(20))
> dev.off()
O bien, se puede copiar una figura a un fichero.

> plot(runif(50))
> dev.copy2eps()
7. LA DECISIÓN ESTADÍSTICA
El proceso de investigación, en la mayoría de los casos, tiene como fin

último la generalización de resultados a una población objetivo con datos
procedentes de una muestra extraída o seleccionada de la población de for-
ma aleatoria. En este proceso se formulan hipótesis estadísticas sobre pa-
rámetros de la población en base a conocimientos de la muestra.
El investigador debe distinguir entre hipótesis de investigación, formu-
ladas en forma de conjeturas sobre algún tema de interés científico, de hi-
pótesis estadísticas, formuladas en términos estadísticos —de probabili-
dad— acerca de uno o varios parámetros poblacionales.
Ejemplos de estas hipótesis las tenemos en la investigación educativa
cuando se quiere tomar decisiones sobre la bondad de un determinado mé-
todo didáctico frente a otro o cuando se quiere valorar si ciertas relaciones
entre variables observadas en una muestra se dan también en la población,
son dos de los casos, entre una infinidad, donde se debe realizar un con-
traste de hipótesis.
En suma, se realizará un contraste de hipótesis cuando se desee tomar
una decisión para generalizar resultados a una población con datos de una
muestra representativa de la misma. Pero, esa exigencia de representativi-
dad condiciona el método de extracción o selección de la muestra y además,
por utilizar la muestra y no la población, el investigador debe exigirse una
precisión (error probable) para sus conclusiones, que condicionará el tama-
ño de la muestra.
Para tomar decisión sobre aceptar o rechazar la hipótesis se necesita
utilizar unas pruebas estadísticas o test de hipótesis. Estas pruebas se clasi-
fican en función del conocimiento sobre la distribución del parámetro en la
población, en dos grandes grupos:
— Pruebas paramétricas. Donde se admite que la distribución de la pobla-
ción pertenece a una cierta familia paramétricas de distribuciones (ge-
neralmente la distribución normal), siendo necesario únicamente preci-
sar el valor de los parámetros para determinar la distribución
poblacional.
— Pruebas no paramétricas. Aquellas que no suponen ninguna distribu-

ción de probabilidad de la población, exigiendo sólo condiciones muy
generales, como por ejemplo la de simetría; no exigen, por tanto, el cál-
culo de parámetros de la población como por ejemplo la media o la des-
viación típica, de ahí el nombre de no-paramétricas.
7.1. Pruebas paramétricas
En la selección de la prueba estadística hay que tener presente no sólo la

naturaleza de la población, sino la aleatoriedad de las muestras, la indepen-
dencia de los datos y la relación o no de las muestras. Estas cuestiones son
algunas de las condiciones que exigen las pruebas denominadas paramétri-
cas, en concreto se exige:
a) Independencia de los datos
t Cualquier sujeto tiene las mismas posibilidades de ser elegido en la
muestra (aleatoriedad).
t La puntuación de un sujeto no influye en la asignada a otro.
b) Normalidad
t Las poblaciones de las que se extraen los sujetos de las muestras deben
estar distribuidas normalmente para el parámetro a estimar.
t Esta condición es habitual asumir su cumplimiento cuando la mues-
tra es grande.
c) Homocedasticidad
t Cuando hay varios grupos, se supone que proceden de la misma po-
blación o poblaciones con igual varianza.
t El incumplimiento de ésta condición afecta a los contrastes de varios
grupos.
d) Medida de intervalo
t Las variables deben medirse en una escala de intervalo o casi-interva-
lo, es decir, en una escala ordinal multicategórica.
e) Linealidad (sólo en la prueba F)

t La relación atribuida a los efectos de las interacciones entre fila y co-
lumna o a ambos, debe ser aditiva y no multiplicativa para evitar su
influencia sobre las varianzas.
Para contrastar una hipótesis estadística hay que:
1. Formular la hipótesis nula H0 y la hipótesis alternativa o de investiga-
ción.
2. Fijar el nivel de significación (Į).
3. Comprobar las características de las variables y plantear las suposicio-
nes necesarias. Cumplimiento o no de las condiciones paramétricas.
4. Elegir un estadístico para contrastar la hipótesis.
5. Estudiar las características de la distribución muestral del estadístico.
6. Determinar la región crítica o de rechazo de H0 y la de aceptación. Viene
determinada por el nivel de significación (Į) dado y por la dirección de H1
(prueba de una o dos colas).
7. Decidir sobre la aceptación o rechazo de H0. Si el valor calculado en la
muestra cae dentro de la zona de aceptación, se acepta la hipótesis nula
y si no se rechazará.
Con el fin de dar una idea del tipo de prueba estadística que se debe apli-
car cuando se realiza un contraste de hipótesis a continuación se presentan
dos mapas conceptuales para un grupo o una muestra y para dos o más
grupos.
Figura 1.3 Pruebas para una sola muestra. Mapa conceptual.
Figura 1.4 Pruebas para dos o más muestras. Mapa conceptual.

7.1.1 Con SPSS

Para comparar medias habrá que seleccionar Analizar->Comparar
medias y se presentan varias alternativas:
1. Medias (comando MEANS). Calcula estadísticos descriptivos básicos para
una o más variables dependientes en los grupos de casos definidos por los
valores de una o más variables independientes. Se puede obtener el análisis
de la varianza de un factor, la eta y una prueba de linealidad. Las variables
dependientes son cuantitativas y las independientes categóricas. Los valo-
res de las variables categóricas pueden ser numéricos o de cadena corta.
2. El comando T-TEST permite aplicar la prueba t de Student para una
muestra, para dos muestras relacionadas o para dos muestras independien-
tes. En el primer caso se utilizará para comparar la media de una variable
con un valor conocido o que queremos inferir. En el caso de muestras rela-
cionadas compara la igualdad de medias para dos grupos relacionados,
por ejemplo pre-test post-test aplicado a un grupo de clase. Finalmente, en
grupos independientes compara la igualdad de medias, por ejemplo los
resultados de una prueba de vocabulario en función del sexo.
Tabla 1.1 Clasificación de las pruebas no paramétricas
ORGANIZACIÓN UTILIZADA CON MEDIDAS UTILIZADA CON MEDIDAS

DE LOS DATOS NOMINALES ORDINALES
Una muestra Ji-cuadrado Kolmogorov-Smirnov

Binomial
Rachas
Dos muestras relacionadas McNemar Signos

Wilcoxon
K-muestras relacionadas Q-Cochran Análisis de la varianza de Friedman
Dos muestras independientes Ji-cuadrado Mediana

Prueba exacta de Fisher U de Mann-Whitney
Kolmogorov-Smirnov
Rachas
Kmuestras independientes Ji-cuadrado Mediana

Análisis de la varianza de Kruskal-Wallis
7.2.1. Con SPSS

Todos los estadísticos y las razones críticas de z, t o F de Fisher parten
de unos supuestos denominados paramétricos: normalidad de la distribu-
ción base, la medición de los datos por lo menos en una escala de intervalo,
la igualdad de varianzas entre las poblaciones, la independencia de las ob-
servaciones realizadas de modo que la selección de un dato cualquiera no
afecte a las probabilidades de selección de otro distinto, etc.
En la práctica aparecen situaciones en las que tales requisitos no se
cumplen, como el caso de distribuciones claramente asimétricas o mues-
tras muy pequeñas. En estas ocasiones existen otros métodos, denomina-
dos no paramétricos, que no suponen nada sobre la distribución poblacio-
nal básica, a lo sumo la continuidad de la función de distribución o la
continuidad de la función de densidad. Estos métodos se pueden clasificar
según la tabla 1.1 y se resuelven mediante el comando NPAR TEST al cual
se accede mediante: Analizar->Pruebas no paramétricas.
Cuando tenemos una única muestra las propiedades más importantes
que podemos estudiar son las siguientes:
t Comprobar el supuesto de bondad de ajuste, es decir, que la distribu-
ción de frecuencia de la muestra se ajusta a una distribución conoci-
da.
t Ver si la muestra es aleatoria para saber si los resultados se pueden
extender a toda la población o a un único extracto o por el contrario
no se puede extender.
t Comprobar la simetría de la muestra.
Para la prueba de bondad de ajuste se utilizará Kolmogorov o ji-cuadra-
do, según el tipo de variable. Para la prueba de aleatoriedad, se emplea la
prueba de rachas y para la simetría se puede utilizar la bondad de ajuste a
la normal.
7.2.2. Con R
t.test(x, y=NULL,
Realiza el contraste de hipótesis de la media de x o
alternative="two.sided",
de la diferencia de medias (x-y) de una población
mu=0, paired=F, var.equal=T,
normal.
conf.level=.95)
binom.test(x, n, p=0.5, Test exacto para una proporción, x=número de éxi-

alternative="two.sided") tos, n=número de pruebas
Test de la diferencia de proporciones, x=número de

prop.test(x, n, p,
elementos de las muestras que cumplen una carac-
alternative="two.sided",
terística, n=vector del número de elementos en las
conf.level=0.95, correct=T)
muestras, p=vector de probabilidad de éxito.
var.test(x, y,
Contraste del cociente de varianzas x e y
alternative="two.sided")
ks.gof(x, y=NULL, Test de Kolmogorov-Smirnov para ajuste de datos a

distribution="normal", distribuciones dadas. Habrá que cargar librería
alternative="two.sided") gldex
Test de Shapiro para comprobar ajuste de datos a

shapiro.test una distribución normal. Habrá que cargar librería
cwhmisc
Aplica el test de rachas, pero previamente habrá que

runs.test(as.factor(x’median(x))) cargar library("tseries"). Con as.factor pasa la varia-
ble a dicotómica en función del valor mediana de x
chisq.test(x, y=NULL, Test de la chi-cuadrado para datos de conteo, x=es

correct=T) una matriz o tabla de contingencia
Test exacto de Fisher para datos de conteo, x=es una

fisher.test(x, y=NULL,..)
matriz o tabla de contingencia
Para una única muestra x, realiza el test de

wilcox.test(x, y, Wilcoxon de rangos con signos. Para dos muestras x
alternative="two.sided", e y y además paired=F, realiza el test de Mann-
mu=0, paired=F, exact=F, Whitney para dos muestras independientes. Si
correct=T) paired=T, realiza el test de Wilcoxon de rangos con
signos para muestras relacionadas
Test de Kruskal-Wallis, y=vector numérico y

groups=diferentes grupos para contrastar la hipóte-
Kruskal.test(y, groups)
sis de que todos ellos proceden de la misma pobla-
ción
Test de Friedman, y=vector numérico y

friedman.test(y, groups, blocks) groups=diferentes tratamientos y blocks=diferentes
muestras extraídas
cor.test(x, y,
alternative = c("two.sided", "less", "greater"), Test de correlación según las características de los
method = c("pearson", "kendall", "spearman"), datos
exact = NULL, conf.level = 0.95,...)
Calcula el análisis de la varianza de los datos según

aov(formula, data)
la fórmula indicada
Ajusta a un modelo lineal a los datos especificados

según la fórmula. Por defecto incorpora ordenada
lm(formula, data) en el origen. Si no interesa añadir -1 en la fórmula.
La fórmula tampoco incluye los coeficientes del
modelo. La fórmula de la regresión simple será: y~x
8. EL MODELO LINEAL
La regresión lineal estudia la relación existente entre una o más varia-

bles, denominadas independientes y otra, denominada dependiente, con
propósitos tanto descriptivos como predictivos.
Se puede plantear una relación, en principio lineal, entre una variable Y
dependiente que trata de ser explicada por k variables independientes y un
término de perturbación aleatoria e. De esta forma para cada observación
se tendrá:
yi=b0+b1xi1+......+bk xik+ei i=1,...., n
donde:
b0,......., bk son parámetros desconocidos a estimar, y

ei i=1,...., n son variables error, independientes y con distribución
normal(0,ı2)
8.1.1. Con SPSS

El comando REGRESSION cuyo acceso se llega después de dar:
Analizar->Regresión->Lineal permite realizar análisis de regresión, tanto
simple como múltiple, proporcionando diversos métodos y criterios para la
construcción de cada ecuación de regresión.

El análisis de la varianza resuelve el problema de comparar varios gru-
pos que tienen sus propias particularidades estimándose, en virtud de los
resultados, la diferencia que existe entre dichos grupos y la significación o
no de dicha diferencia. En concreto, el análisis de la varianza considera los
datos de los grupos como un conjunto y a través de las pruebas estadísticas
oportunas decide si los grupos provienen o no de la misma población (o de
poblaciones distintas con la misma varianza) y, por consiguiente, si los gru-
pos tienen medias significativamente distintas o no.
Por otra parte, el análisis de la varianza no es otra cosa que el estudio de
la variación total de un conjunto de datos respecto a la media general, divi-
diendo esta variación en varios componentes que dependen de las particu-
laridades de cada grupo.
Puede parecer extraño cómo un procedimiento que compara las medias
se llame análisis de la varianza. Sin embargo, este nombre se deriva del he-
cho que para probar la diferencia de medias, estamos comparando real-
mente, es decir, analizando, las variaciones.
8.2.1. Con SPSS

Los comandos de SPSS que realizan el análisis de la varianza de un fac-
tor son: UNIANOVA (Analizar->Modelo lineal general->Univariante) o
ONEWAY (Analizar->Comparar medias->Anova de un factor). Debe tener-
se presente la mayor capacidad de manejar modelos que tiene el primer co-
mando frente al segundo.
9. UN EJEMPLO DE INVESTIGACIÓN CON SPSS Y R
Para fijar ideas se presentará una pequeña investigación y a continua-

ción se realizará unos breves análisis estadísticos con los programas SPSS
y R. Veamos la génesis de la investigación.
Una de las razones más frecuentes que se presenta para explicar el bajo
rendimiento de los estudiantes en todos los niveles del sistema educativo, es
la falta de hábitos de estudio, como son: el uso adecuado del tiempo, leer y
sacar buen provecho de lo que lee, como tomar notas, hacer un bosquejo,
utilizar adecuadamente el centro de acceso a la información.
El objetivo de la investigación es pasar un cuestionario de Hábitos de
Estudio a un conjunto de 200 estudiantes para valorar los mismos en el co-
lectivo. El cuestionario con el que se pretende trabajar es el siguiente:
EVALUACIÓN DE HÁBITOS DE ESTUDIO
Pon una cruz en la casilla que corresponda con tu respuesta

1. He pensado en mejorar mi rendimiento en el colegio pero no sé cómo
hacerlo:
Nada Poco Bastante Mucho
2. Estoy dispuesto o dispuesta a aprender técnicas para mejorar mi rendi-

miento en el colegio:
3. Tengo un lugar fijo de estudio:

4. Estudio en un lugar donde no hay ruidos y tengo a mano todo lo que pue-
do necesitar:
5. Estudio todos los días:

6. Mis padres me ayudan a estudiar cuando lo necesito:

7. Me acuesto más o menos todos los días a la misma hora:

8. Estudio y hago los deberes todos los días:

9. Es importante atender a las explicaciones de los profesores y profesoras:

10. En clase, pregunto las cosas que no entiendo:

11. Estudio en el comedor, con compañía y viendo la tele:

12. Datos de clasificación:
12.1 Sexo:
a) Chico
b) Chica
12.2. Estudios que está realizando:
a) Enseñanza Primaria ..................
b) Enseñanza Secundaria ...................
c) Bachillerato .....................
Al tratarse de un ejemplo con resultados simulados se acotan los objeti-

vos de investigación en los siguientes términos:
— Descripción de los resultados de cada ítem. Distribución de frecuencias.
— Relación entre los estudios que está realizando y, por ejemplo, el ítem 9.
— Relación entre el sexo y, por ejemplo, el ítem 10.

Veamos a continuación el proceso de realizar el análisis de datos con

SPSS. El fichero de sintaxis utilizado para obtener los resultados que de-
mandan los objetivos es el siguiente:
FREQUENCIES
VARIABLES=it1 it2 it3 it4 it5 it6 it7 it8 it9 it10 it11 sexo estudios
/NTILES= 4
/STATISTICS=MODE
/BARCHART FREQ
/ORDER= ANALYSIS.
CROSSTABS
/TABLES=it9 BY estudios
/FORMAT= AVALUE TABLES
/STATISTIC=CHISQ
/CELLS= COUNT COLUMN
/COUNT ROUND CELL.
CROSSTABS
/TABLES=it10 BY sexo
/FORMAT= AVALUE TABLES
/STATISTIC=CHISQ
/CELLS= COUNT COLUMN
/COUNT ROUND CELL.
Los resultados se muestran a continuación:

Estadísticos
N PERCENTILES
MODA
VÁLIDOS PERDIDOS 50 75 VÁLIDOS
it1 200 0 3 1,00 3,00 3,00
it2 200 0 4 2,00 3,00 4,00
it3 200 0 4 2,00 2,00 4,00
it4 200 0 2 2,00 2,00 3,00
it5 200 0 3 2,00 3,00 3,00
it6 200 0 2 2,00 2,00 3,00
it7 200 0 1 1,00 2,00 3,00
it8 200 0 4 1,00 3,00 4,00
it9 200 0 2 2,00 2,00 4,00

it10 200 0 1(a) 1,00 2,00 3,00
it11 200 0 1 1,00 2,00 3,00
sexo 200 0 1 1,00 1,00 2,00
estudios 200 0 3 1,00 2,00 3,00
(a) Existen varias modas. Se mostrará el menor de los valores.
it1
PORCENTAJE PORCENTAJE
FRECUENCIA PORCENTAJE
VÁLIDO ACUMULADO
Válidos 1 54 27,0 27,0 27,0
2 44 22,0 22,0 49,0
3 56 28,0 28,0 77,0
4 46 23,0 23,0 100,0
Total 200 100,0 100,0
it2
VÁLIDO ACUMULADO
Válidos 1 45 22,5 22,5 22,5

2 48 24,0 24,0 46,5
3 51 25,5 25,5 72,0
4 56 28,0 28,0 100,0
Total 200 100,0 100,0
it3
VÁLIDO ACUMULADO
Válidos 1 47 23,5 23,5 23,5

2 54 27,0 27,0 50,5
3 42 21,0 21,0 71,5
4 57 28,5 28,5 100,0
Total 200 100,0 100,0
it4
VÁLIDO ACUMULADO
Válidos 1 48 24,0 24,0 24,0

2 58 29,0 29,0 53,0
3 46 23,0 23,0 76,0
4 48 24,0 24,0 100,0
Total 200 100,0 100,0
it5
VÁLIDO ACUMULADO
Válidos 1 49 24,5 24,5 24,5

2 46 23,0 23,0 47,5
3 60 30,0 30,0 77,5
4 45 22,5 22,5 100,0
Total 200 100,0 100,0
it6
VÁLIDO ACUMULADO
Válidos 1 49 24,5 24,5 24,5

2 55 27,5 27,5 52,0
3 49 24,5 24,5 76,5
4 47 23,5 23,5 100,0
Total 200 100,0 100,0
it7
VÁLIDO ACUMULADO
Válidos 1 55 27,5 27,5 27,5

2 52 26,0 26,0 53,5
3 49 24,5 24,5 78,0
4 44 22,0 22,0 100,0
Total 200 100,0 100,0
it8
VÁLIDO ACUMULADO
Válidos 1 52 26,0 26,0 26,0

2 46 23,0 23,0 49,0
3 47 23,5 23,5 72,5
4 55 27,5 27,5 100,0
Total 200 100,0 100,0
it9
VÁLIDO ACUMULADO
Válidos 1 43 21,5 21,5 21,5

2 61 30,5 30,5 52,0
3 45 22,5 22,5 74,5
4 51 25,5 25,5 100,0
Total 200 100,0 100,0
it10
VÁLIDO ACUMULADO
Válidos 1 52 26,0 26,0 26,0

2 51 25,5 25,5 51,5
3 52 26,0 26,0 77,5
4 45 22,5 22,5 100,0
Total 200 100,0 100,0
it11
VÁLIDO ACUMULADO
Válidos 1 66 33,0 33,0 33,0

2 41 20,5 20,5 53,5
3 55 27,5 27,5 81,0
4 38 19,0 19,0 100,0
Total 200 100,0 100,0
Sexo
VÁLIDO ACUMULADO
Válidos chico 105 52,5 52,5 52,5

chica 95 47,5 47,5 100,0
Total 200 100,0 100,0
Estudios
VÁLIDO ACUMULADO
Válidos Estudios Primarios 65 32,5 32,5 32,5

Estudios Secundarios 67 33,5 33,5 66,0
Bachillerato 68 34,0 34,0 100,0
Total 200 100,0 100,0
Al ser los datos generados de forma aleatoria con distribución uniforme

se observa un comportamiento constante en la distribución de frecuencias.
Se muestra también a título informativo los diagramas de barras de las
dos primaras variables:
Los cruces de las variables según los objetivos segundo y tercero son:
Tabla de contingencia it9 * estudios
ESTUDIOS
ESTUDIOS ESTUDIOS TOTAL

BACHILLERATO
PRIMARIOS SECUNDARIOS
it9 1 Recuento 17 8 18 43
% de estudios 26,2% 11,9% 26,5% 21,5%
2 Recuento 22 19 20 61
% de estudios 33,8% 28,4% 29,4% 30,5%
3 Recuento 12 20 13 45
% de estudios 18,5% 29,9% 19,1% 22,5%
4 Recuento 14 20 17 51
% de estudios 21,5% 29,9% 25,0% 25,5%
Total Recuento 65 67 68 200
% de estudios 100,0% 100,0% 100,0% 100,0%
Pruebas de chi-cuadrado
SIG. ASINTÓTICA
VALOR gl
(BILATERAL)
Chi-cuadrado de Pearson 7,980(a) 6 ,240

Razón de verosimilitudes 8,325 6 ,215
Asociación lineal por lineal ,124 1 ,725
N de casos válidos 200
a 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La fre-

cuencia mínima esperada es 13,98.
Tabla de contingencia it10* sexo
SEXO
CHICO TOTAL
CHICA CHICO
it10 1 Recuento 25 27 52
% de sexo 23,8% 28,4% 26,0%
2 Recuento 28 23 51
% de sexo 26,7% 24,2% 25,5%
3 Recuento 28 24 52
% de sexo 26,7% 25,3% 26,0%
4 Recuento 24 21 45
% de sexo 22,9% 22,1% 22,5%
Total Recuento 105 95 200
% de sexo 100,0% 100,0% 100,0%
Pruebas de chi-cuadrado
SIG. ASINTÓTICA
VALOR gl
(BILATERAL)
Chi-cuadrado de Pearson ,576(a) 3 ,902
Razón de verosimilitudes ,576 3 ,902
Asociación lineal por lineal ,230 1 ,631
N de casos válidos 200
a 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La fre-

cuencia mínima esperada es 21,38.
Como se puede observar por las tablas anteriores entre el it9 y estudios
no hay diferencias significativas y tampoco las hay entre el it10 y sexo.
Los resultados al realizar los análisis con R resultan similares. El fiche-
ro de sintaxis que se incluye a continuación muestra además la generación
aleatoria de las variables it1 a it11 y sexo y estudios, en un primer cuadro y
la sintaxis de los cálculos en un segundo cuadro:
it1<-sample(c(1:4),200, replace=TRUE)
sexo<-sample(c(1:2),200, replace=TRUE)
estudios<-sample(c(1:3),200, replace=TRUE)
master1<-data.frame(it1, it2, it3, it4, it5, it6, it7, it8, it9, it10, it11, sexo, estudios)
write.table(master1,"E:/curso 2008-09/master investigación/metodología cuan-

titativa/gen1.txt", sep="\t")
Segundo fichero de sintaxis:

gen.datos <-
read.spss("E:/curso 2008-09/master investigación/metodología cuantitati-
va/gen1.sav",
use.value.labels=TRUE, max.value.labels=Inf, to.data.frame=TRUE)
summary(gen.datos)
gen.datos$it10 <- factor(gen.datos$it10, labels=c(<nada’,’poco’,’bastante’,’mucho’))
gen.datos$it9 <- factor(gen.datos$it9, labels=c(<nada’,’poco’,’bastante’,’mucho’)).
. Table <- xtabs(~it9+estudios, data=gen.datos)
. Table
. Test <- chisq.test(. Table, correct=FALSE)
. Test
remove(. Test)
remove(. Table)
. Table <- xtabs(~it10+sexo, data=gen.datos)
. Table
. Test <- chisq.test(. Table, correct=FALSE)
. Test
remove(. Test)
remove(. Table)
Los resultados se muestran a continuación en tres cuadros que se co-

rresponden con los tres objetivos:
> summary(gen.datos)
ord it1 it2 it3 it4
Min. : 1.00 Min. : 1.00 Min. : 1.00 Min. : 1.000 Min. : 1.00
1st Qu. : 50.75 1st Qu. : 1.00 1st Qu. : 2.00 1st Qu. : 2.000 1st Qu. : 2.00
Median : 100.50 Median : 3.00 Median : 3.00 Median : 2.000 Median : 2.00
Mean : 100.50 Mean : 2.47 Mean : 2.59 Mean : 2.545 Mean : 2.47
3rd Qu. : 150.25 3rd Qu. : 3.00 3rd Qu. : 4.00 3rd Qu. : 4.000 3rd Qu. : 3.00
Max. : 200.00 Max. : 4.00 Max. : 4.00 Max. : 4.000 Max. : 4.00
it5 it6 it7 it8 it9
Min. : 1.000 Min. : 1.00 Min. : 1.00 Min. : 1.000 Min. : 1.00
1st Qu. : 2.000 1st Qu. : 2.00 1st Qu. : 1.00 1st Qu. : 1.000 1st Qu. : 2.00
Median : 3.000 Median : 2.00 Median : 2.00 Median : 3.000 Median : 2.00
Mean : 2.505 Mean : 2.47 Mean : 2.41 Mean : 2.525 Mean : 2.52
3rd Qu. : 3.000 3rd Qu. : 3.00 3rd Qu. : 3.00 3rd Qu. : 4.000 3rd Qu. : 4.00
Max. : 4.000 Max. : 4.00 Max. : 4.00 Max. : 4.000 Max. : 4.00
it10 it11 Sexo Estudios
Min. : 1.00 Min. : 1.000 chico : 105 Estudios Primarios : 65
1st Qu : 1.00 1st Qu. : 1.000 chica : 95 Estudios Secundarios : 67
Median : 2.00 Median : 2.000 Bachillerato : 68
Mean : 2.45 Mean : 2.325
3rd Qu. : 3.00 3rd Qu. : 3.000
Max. : 4.00 Max. : 4.000
>. Table
Estudios
it9 Estudios Primarios Estudios Secundarios Bachillerato
nada 17 8 18
poco 22 19 20
bastante 12 20 13
mucho 14 20 17
>. Test
Pearson’s Chi-squared test
data: .Table
X-squared = 7.9799, df = 6, p-value = 0.2396
>. Table
Sexo
it Chico Chica
nada 25 27
poco 28 23
bastante 28 24
mucho 24 21
>. Test
Pearson’s Chi-squared test
data: . Table
X-squared = 0.5763, df = 3, p-value = 0.9018
REFERENCIAS BIBLIOGRÁFICAS
EGUZKITZA, J. M.; Bayo, I (2007). Prácticas de estadística con R. Bilbao: Arte Kopi.
GARCÍA PÉREZ, A. (2008). Estadística aplicada con R. Madrid: UNED.
GIL PASCUAL, J. A. 2.ª ed. (2006). Estadística e Informática (SPSS) para el tratamien-
to descriptivo e inferencial de datos. Madrid: UNED.
NICOLÁS, M. J. (2006). Estadística aplicada con R. Murcia: Nausícaä
STEFAN TH. GRIES (2009). Quantitative Corpus Linguistics with R. A Practical
Introduction. London: Routledge.
UGARTE, M. D.; MILITINO, A. F. 2.ª ed. (2002). Estadística Aplicada con S-PLUS.
Pamplona: Universidad Pública de Navarra.
Referencias de R:
«R para Principiantes», the Spanish version of «R for Beginners», translated by
Jorge A. Ahumada (PDF).
A Spanish translation of «An Introduction to R» by Andrés González and Silvia
González (PDF, Texinfo sources).
«Gráficos Estadísticos con R» by Juan Carlos Correa and Nelfi González (PDF).
«Cartas sobre Estadística de la Revista Argentina de Bioingeniería» by Marcelo R.
Risk (PDF).
«Introducción al uso y programación del sistema estadístico R» by Ramón Díaz-
Uriarte, transparencies prepared for a 16-hours course on R, addressed mainly
to biologists and bioinformaticians (PDF).
«Generacion automatica de reportes con R y LaTeX» by Mario Alfonso Morales
Rivera (PDF).
«Métodos Estadísticos con R y R Commander» by Antonio Jose Saez Castillo (PDF,
ZIP, 2010-07-08).
«Optimización Matemática con R: Volumen I» by Enrique Gabriel Baquela and Andrés
Redchuk (PDF, 161 pages). Data sets and complementary information are available at
https://cran.r-project.org/doc/contrib/Optimizacion_Matematica_con_R_
Volumen_I.pdf.
«Introducción al uso de R y R Commander para el análisis estadístico de datos en
ciencias sociales» by Rosario Collatón Chicana (PDF, 128 pages, 2014-05-11).
«El arte de programar en R» by Julio Sergio Santana and Efraín Mateos Farfán
(PDF, 197 pages, 2014-12-15; online).
Capítulo 2
Introducción a la selección de muestras
en el ámbito educativo
1. Introducción
2. Muestreo aleatorio simple

2.1. Estimación de media y proporción
2.2. Selección del tamaño de la muestra para la estimación
de la media y proporción
3. Muestreo estratificado
3.2. Cálculo del tamaño muestral para la estimación de la
media y proporción poblacional
4. Muestreo por conglomerados

4.1. Estimación de la media y proporción poblacional
4.2. Tamaño de la muestra para la estimación de la media
y proporción poblacional
5. Muestreo sistemático
6. Muestreo por cuotas
7. Muestreo para contraste de hipótesis estadística
7.1. Comparación de dos medias
1. INTRODUCCIÓN
Al estudiar las características de un grupo de individuos u objetos, po-

demos, o bien examinar el grupo entero llamado población o universo, o
bien examinar una pequeña parte del grupo llamada muestra.
Además de población y muestra existen algunos términos relacionados
con el muestreo que se necesitan conocer con cierta precisión:
— Elemento. Es un objeto en el cual se toman las mediciones
— Población. Es un conjunto de elementos acerca de los cuales se desea
hacer inferencias
— Unidades de muestreo. Son grupos excluyentes de elementos de la po-
blación que completan la misma
— Marco. Es una lista de unidades de muestreo
— Muestra. Es una colección de unidades seleccionadas de un marco o de
varios
Veamos un ejemplo que clarifique estos conceptos. En una ciudad se
realiza una encuesta para determinar la actitud del ciudadano frente a la
salida al mercado de una novela de un autor conocido. En concreto, se qui-
so saber la proporción de público favorable a su introducción en los circui-
tos comerciales.
En el ejemplo los elementos serán los potenciales encuestados, habitantes
de la ciudad, de los que se toma como medida su actitud ante el lanzamiento
del producto (1=actitud favorable, 0=actitud contraria a su implantación).
La población es el conjunto de habitantes de la ciudad. Para definir con
precisión la población se necesita concretar los elementos que la definen y
la medición que se va a realizar con los mismos.
Las unidades de muestreo pueden ser los habitantes de la ciudad o por

ejemplo los hogares de la ciudad, consumidores de libros. Las unidades de
muestreo deben ser disjuntas de tal manera que un hogar no pueda ser
muestreado más de una vez.
El marco puede ser una lista de todos los hogares de la ciudad obtenida
del censo de la misma.
Finalmente, una muestra puede ser un conjunto de hogares selecciona-

dos del marco.
La teoría del muestreo estudia la relación entre una población y las

muestras tomadas de ella. Es de gran utilidad en muchos campos, por
ejemplo, para estimar magnitudes desconocidas de una población, tales
como media y varianza, llamadas a menudo parámetros de la población o
simplemente parámetros, a partir del conocimiento de esas magnitudes
sobre muestras, que se llaman estadísticos de la muestra o simplemente
estadístico.
Fig. 2.1 Intervalo de confianza.
La teoría del muestreo es también útil para determinar si las diferencias

observadas entre dos muestras son debidas a variaciones fortuitas o si son
realmente significativas. La respuesta implica el uso de los llamados con-
trastes o tests de hipótesis y de significación.
INTRODUCCIÓN A LA SELECCIÓN DE MUESTRAS EN EL ÁMBITO EDUCATIVO
Fig. 2.2 Contraste de hipótesis.
Para que las conclusiones de la teoría del muestreo y de la inferencia

estadística sean válidas, las muestras deben escogerse representativas de la
población. Una forma de obtener una muestra representativa es mediante
muestreo aleatorio, de acuerdo con el cual, cada miembro de la población
tiene la misma probabilidad de ser incluido en la muestra.
Cochran (1975) enumera cuatro ventajas que aporta el empleo del mues-
treo estadístico: «Costo reducido, mayor rapidez, mayores posibilidades y
mayor exactitud».
La selección de una muestra de un marco apropiado puede realizarse

por procedimientos probabilísticos, es decir, con procedimientos que ase-
guren a cada una de las unidades muestrales una probabilidad de ser selec-
cionadas, entonces se tendrá los llamados muestreos probabilísticos.
Cuando no ocurre tal hecho se tendrá los muestreos no probabilísticos.
Los principales muestreos probabilísticos son: aleatorio simple, estrati-

ficado, por conglomerados y sistemático.
Entre los segundos están: por cuotas, el intencional o deliberado y el
accidental.
Aun cuando el capítulo se dedicará a revisar el primer grupo, del segun-
do el muestreo por cuotas suele auxiliar al muestreo probabilístico para
conservar cierta representación de grupos destacados en la investigación.
En el muestreo intencional el investigador selecciona la muestra de modo
directo para asegurarse la presencia de elementos necesarios en la investi-
gación. El muestreo accidental se caracteriza por utilizar las muestras que
tienen a su alcance.
Como sabemos el objetivo del muestreo es estimar parámetros de la po-

blación como la media, el total o la proporción de un determinado atributo.
Si R es el parámetro en estudio y R̂ el estimador del mismo. Para la se-
lección de la muestra será necesario tomar dos decisiones:
— Fijar un error de estimación (e), e k V (Rˆ ) .
— Fijar un valor k para un nivel de confianza. En la mayoría de los casos
k=2, que en el supuesto de distribución normal del estimador, represen-
tará el 95,5% de nivel de confianza, de que los intervalos formados por
Rˆ o k V (Rˆ ) cubran al parámetro R . Donde V indica la varianza y R̂ el
estimador del parámetro R .
El objetivo del investigador será conseguir un diseño que produzca mí-
nimo error(e) con un coste reducido.
2. MUESTREO ALEATORIO SIMPLE
Extraer una muestra aleatoria simple de n unidades, elegidas entre las N

N¬
de la población, es escogerla de manera que todas las muestras posibles
n ®
tengan la misma probabilidad de ser elegidas. Así por ejemplo, si en un ins-
tituto de 1200 alumnos se quieren elegir 60 alumnos de forma aleatoria,
habrá:
1200¬ 1200! 1141.1142......1199.1200

= 1.511x10102
60 ® (1200 60)!60! 1.2.3......59.60
muestras diferentes que tendrán 60 1 probabilidad cada muestra de

ser elegida. 1200 20
Para seleccionar una muestra aleatoria simple el primer paso es confec-

cionar una lista de objetos de los cuales se seleccionará la muestra. Estos
objetos, según se ha comentado, son las unidades muestrales.
La manera más sencilla y más segura de obtener una muestra aleatoria

de n unidades muestrales de una población grande N, es utilizar una tabla
de números aleatorios, comprendidos entre 1 y N, y elegir n. Los números
así elegidos forman la muestra. Este esquema de muestreo donde las uni-
dades muestrales no regresan a formar parte de nuevo para la siguiente
elección se llama muestreo sin reemplazamiento. Si vuelven a formar par-
te de la elección el muestreo es con reemplazamiento. En la mayoría de
programas estadísticos de ordenador hay funciones de librería para ex-
traer los números aleatorios. Por ejemplo SPSS tiene distintos comandos
para este fin:
COMPUTE X = UNIFORM(10).
EXECUTE.
Calcula X con los valores generados, de forma aleatoria, de una distribu-

ción uniforme en el intervalo (0,10).
2.1. Estimación de media y proporción
Para fijar ideas se supone el siguiente ejemplo.

Ejemplo 1: Los resultados obtenidos por una muestra de 10 alumnos de
una población de 100, en una prueba de matemáticas son:
NÚMERO NÚMERO NÚMERO

SEXO DE EJERCICIOS DE EJERCICIOS BIEN DE EJERCICIOS MAL
ALUMNO TERMINADOS RESUELTOS RESUELTOS
XI
YI ZI WI
1 0 4 2 2
2 0 4 2 2
3 0 5 3 2
4 0 6 2 4
5 1 6 3 3
6 1 3 1 2
7 0 7 3 4
8 0 5 2 3
9 1 5 2 3
10 1 4 2 2
Total 4 49 22 27
Estimador de la media poblacional
Si se denota por μ la media poblacional y por y la media muestral, esta

última es un estimador insesgado de la primera. Es decir:
E( y )=μ n
y i
49
En el ejemplo 1: y i1
= 4,9
n 10
Además debemos estudiar la bondad del estimador que vendrá dado por
la varianza:
T 2 N n ¬
V( y )= [1]
n N 1 ® N
( y N)
i
2
Donde: T 2 es la varianza poblacional= i1
Como en la mayoría de los casos se desconoce T 2 , pero se sabe que el

estimador insesgado de la cuasi-varianza poblacional de la media es la cua-
si-varianza muestral de la media. Es decir, se cumple: E(s2)=S2
Donde:
N n
( yi N)2 ( y y)
i
2
S2 i1
es la cuasi-varianza poblacional y s i1 2
la
N 1 n 1
cuasi-varianza muestral (recuérdese la equivalencia, para abreviar las nota-
ciones, entre ŝ2 s2 ).
Y que existe la relación N T 2 = (N–1)S2 o N T 2 =(N–1)s2 al sustituir por su

estimador. Entonces la estimación de la varianza de la media muestral será:
s2 N n ¬ s2 n ¬ s2
Vˆ ( y ) 1 1 f
[2]
n N ® n N ® n
n Nn
donde f= se llama fracción de muestreo y corrección por pobla-
N N
ciones finitas.
En el ejemplo 1:
s2 10 ¬ s2
Vˆ ( y ) 1 0,9
= 0,129;
10 100 ® 10
n n
( yi y)2 y 2
i
ny 2
253 240,1
s2 i1
i1
= 1,43
n 1 n 1 9
El intervalo de confianza donde, en el (1–B)%, de las veces estará el pa-

rámetro poblacional μ será:
y o k Vˆ ( y )
donde k: factor de desviación y le corresponde, en general, una confianza

1
Pk: Pk> 1 2 . En la mayoría de los casos k=2, y si la distribución del estima-
k
dor es normal Pk=0,954.
En la fórmula [2] si N se hace muy grande frente a n, en la práctica

1
Scheaffer (1986, p. 46) aconseja tomar esta medida cuando n≤ N, enton-
20
s2
ces f=0 y por tanto: Vˆ ( y )
n
Estimador de la proporción poblacional
Supongamos que A es el número total de individuos que presentan un

atributo. En el ejemplo 1, sea el atributo ai, el sexo, que toma el valor 1 si el
alumno es mujer y 0 si es hombre. Es decir, en general:
1 si el elemento tiene el atributo ½

ai ® ¾
¯0 si el elemento no tiene el atributo ¿
N
A B NA
A= ai . Sea P= y B=N–A, por tanto Q= =1–P
i1 N n
N N
ai
a
El estimador de P será p= i1
. Es un estimador insesgado E(p)=P
n n
a
El estimador de A será: Aˆ Np N . Es también un estimador inses-
n
gado: E( Â )=A
Realmente al ser A una variable dicotómica se cumple:
N 1 n
A=Y; y p ; s2=PQ; S2= s ; pero s = pq
N n 1
Por tanto todas las fórmulas de la varianza quedan así:
N n PQ ˆ N n pq
V(p)= ; V ( p)
N 1 n N n 1
Y el intervalo de confianza para p será: p o k Vˆ ( p)
N n PQ
Para A será: V ( Aˆ ) V ( Np) N 2V ( p) N 2
N 1 n
N n ¬ pq
Donde su estimación será: Vˆ ( Aˆ ) N 2Vˆ ( p) N 2
N ® n 1
En consecuencia su intervalo de confianza será:
Aˆ o k Vˆ ( Aˆ )
En el ejemplo 1:
a 4
A=4 cuando sexo=1 y n–a=10–4=6 por tanto p= =0,4
n 10
100 10 0,4.0,6
Y por tanto Vˆ ( p) =0,024; Â =100.0,4=40
100 10 1
100 10 0,4.0,6
y su estimación de varianza será: Vˆ ( Aˆ ) 1002 240
100 10 1
En resumen se puede plantear la siguiente tabla:
Tabla 2.1 Estimadores, varianzas e intervalo

de confianza: media y proporción
ESTIMADOR VARIANZA ESTIMADOR INTERVALO

PARÁMETRO
DEL PARÁMETRO DEL ESTIMADOR DE LA VARIANZA DE CONFIANZA
Media n
S2 2
y i V ( y) 1 f
Vˆ ( y ) s 1 f
y o k Vˆ ( y )
y= i1 n
n
Proporción a N n PQ ˆ N n pq p o k Vˆ ( p)
p=
n V(p)= V ( p)
N 1 n N n 1
Â Np V ( Aˆ ) N 2V ( p) Vˆ ( Aˆ ) N Vˆ ( p) Aˆ o k Vˆ ( Aˆ )
2
2.2. Selección del tamaño de la muestra para la estimación

de la media y proporción
El elegir un número adecuado de unidades muestrales presenta un aho-

rro en tiempo, dinero y una mayor eficacia.
Para calcular el tamaño de la muestra, según se ha visto anteriormente,

el investigador necesita:
a) Fijar un error de estimación (e).
b) Fijar un valor k para un nivel de confianza. En la mayoría de los
casos k=2, que en el supuesto de distribución normal del estimador, repre-
sentará el 95,5% de nivel de confianza, de que los intervalos formados por
TÖ r N 9 TÖ cubran al parámetro T .
Media poblacional
T 2 N n ¬ e2
Como k V ( y ) = e, entonces,
n N 1 ® k2
Como en la mayoría de los casos se desconoce T 2 (varianza poblacio-
ˆ s2 N n
y
nal) y debe reemplazarse V( ) por su estimador V ( y ) enton-
n N
s Nn e
2 2
ces: 2 que nos lleva a:
n N k
s2
n
s2
D
N
e2 e2
Con D cuando k=2
k2 4
En el ejemplo 1 el tamaño de muestra apropiado con e=0,05 y k=2 será:
1,43
n x 97
0,052 1,43

22 100
Si la población es infinita, o el muestreo es con reemplazamiento

Nn s2 2
x 1 y por tanto Vˆ ( y ) con lo cual s D que nos lleva a la fór-
N n n
mula:
s2
n nd
D
A la fórmula anterior se puede llegar mediante el límite, cuando N tien-

2
de a infinito, de la expresión de población finita, es decir, s tiende a cero.
N
Proporción
a
En el cálculo de p= , donde a es una determinada característica o atri-
n
buto. Esa proporción en la población viene expresada por P y Q=1–P.
N n PQ N n PQ
Sabemos que V(p)= , por tanto D
N 1 n N 1 n
N
PQ
n N 1
1
D PQ
N 1
Si la población es infinita o el muestreo es con reemplazamiento el tama-

ño muestral será el límite de la expresión anterior cuando N tiende a infinito.
PQ
n nd
D
Cuando no conocemos PQ pero si se sabe el máximo valor que puede

1
tomar P=Q= , lo habitual es coger ese valor extremo como estimador de
2
PQ. Entonces las fórmulas anteriores quedarán así:
N
Población finita: n N 1
1
4D
N 1
1
Población infinita: n nd
4D
En el anterior ejemplo, la muestra apropiada en las condiciones más des-
1 0,052
favorables del muestreo P=Q= , k=2, e=0,05 entonces D por tanto:
2 4
100
n 99 x 81
4.0,052 1

4 99
En resumen, conviene recordar la siguiente tabla:
Tabla 2.2. Cálculo del tamaño de la muestra.

Muestreo aleatorio simple
PARÁMETRO POBLACIÓN FINITA POBLACIÓN INFINITA
Media
s2
n s2
s2 n
D D
N
Proporción N
PQ
n N 1
1 PQ
D PQ n
N 1 D
N
1
1 N 1 n
Caso P=Q= , n 4D
2 1
4D
N 1
Nota: En el caso de un muestreo aleatorio simple, una unidad muestral contiene solamente un elemento.
3. MUESTREO ESTRATIFICADO
Un procedimiento para reducir los costos de sondeos de opinión pública

o de los consumidores, es dividir en segmentos, llamados estratos, la región
geográfica en la cual residen los elementos (personas) de la población. Se
seleccionan muestras dentro de cada estrato; después se combina esta in-
formación para hacer inferencias acerca de toda la población.
El muestreo aleatorio estratificado tiene otra ventaja, aparte de la eco-
nómica, no solamente puede combinar la información de las muestras de
los estratos para obtener inferencias de la población, sino también utilizar
la información de la muestra acerca de la característica de cada estrato.
Por ejemplo nos permite ver la diferencia en la opinión entre hombres y
mujeres.
La principal limitación del muestreo estratificado es que se requiere co-

nocer de antemano los factores importantes de la población, así como sus
proporciones relativas.
Para obtener mayor precisión en las estimaciones, con este tipo de mues-
treo, se debe perseguir que los estratos cumplan la condición de que la va-
rianza intra-estrato sea mínima y la varianza entre-estrato máxima, con
este ideal reduciremos el error muestral o conseguiremos reducir el tama-
ño muestral si deseamos mantener el mismo error muestral, es decir, logra-
remos mayor eficacia.
Para seleccionar una muestra aleatoria estratificada habrá que especifi-

car claramente los estratos. Después se seleccionará una muestra aleatoria
de cada estrato.
Por ejemplo, se supone que se va a realizar una encuesta para estudiar

los hábitos de lectura en un núcleo de población donde hay tres zonas per-
fectamente diferenciadas: A = zona rural, B = zona semi-urbana y C = zona
urbana. Para realizar el muestreo se elegirá aleatoriamente, de cada zona,
las unidades muestrales pertinentes. Si N es el tamaño poblacional y L el
número de estratos:
N1 ¦²
¦¦
N2 ¦¦
¦
... ¦¦¦ L
N j ¦¦
» L estratos N j tamaño del estrato N
j 1
j N
¦
... ¦¦
¦¦
NL ¦¦¼
Nj
Llamaremos Wj el peso del estrato j dentro de la población Wj
L N
siendo W
j 1
j 1

Media poblacional
Se cumplirá:
L
1 N N N
yst [ N1 y1 N2 y2 ........ NL yL ] 1 y1 2 y2 ........ L yL Wj yj
N N N N j 1
El estimador de la varianza de yst :
1 N2 N2 N2 L
Vˆ ( yst ) 2 [ N12Vˆ ( y1 ) N22Vˆ ( y2 ) ...... NL2Vˆ ( yL )] 12 Vˆ ( y1 ) 22 Vˆ ( y2 ) ...... L2 Vˆ ( yL ) Wj2Vˆ ( yj )
N N N N j 1
ˆ N j nj s2j
Como V ( y j ) , sustituyendo:
N j nj
L N j nj s2j
Vˆ ( yst ) Wj2
j 1 N j nj
2
nótese que sj es la cuasi-varianza muestral.
El intervalo de confianza de la media poblacional será:
yst o k Vˆ ( yst )
En el ejemplo anterior de los hábitos de lectura supongamos los siguien-

tes datos:
Ejemplo 2:
ZONA A ZONA B ZONA C
n1=18 n2=10 n3=12
y1 =34 y2 =25,2 y3 =18,5

s12 =35,4 s22 =210,2 s32 =86,8
N1=160 N2=72 N3=98
N=N1+N2+N3=160+72+98=330
3 3 N j − nj s2j
yst = ∑ wj yj V ( yst ) = ∑ wj
ˆ 2
j =1 j =1 N j nj
160 16 72 12 98 49
w1 w2 w3
330 33 330 55 330 165
16 12 49
yst = .34 + .25, 2 + .18, 5 =27,477
33 55 165
2 2 2
⎛16 ⎞ 160 − 18 35, 4 ⎛12 ⎞⎟ 72 − 10 210, 2 ⎛ 49 ⎞⎟ 98 − 12 86, 8
Vˆ ( yst ) = ⎜⎜ ⎟⎟⎟ + ⎜⎜ ⎟⎟ + ⎜⎜ =1,8318
⎜⎝ 33 ⎠ 160 18 ⎜⎝ 55 ⎠ 72 10 ⎜⎝165 ⎟⎟⎠ 98 12
Proporción poblacional p
L
1 N N N
pˆ st = ( N1 pˆ 1 + N2 pˆ 2 + ......... + NL pˆ L ) = 1 pˆ 1 + 2 pˆ 2 + ......... + L pˆ L = ∑ wj pˆ j
N N N N j =1
El estimador de la varianza de p̂st será:
1 L L N j − nj pˆ j qˆ j
Vˆ ( pˆ st ) = 2 [ N12Vˆ ( pˆ 1 ) + N22Vˆ ( pˆ 2 ) + ......... + NL2Vˆ ( pˆ L )] = ∑ w2j Vˆ ( pˆ j ) = ∑ w2j
N j =1 j =1 N j nj − 1
El intervalo de confianza será:
pˆ st o k Vˆ ( pˆ st )
En el ejemplo 2 supongamos que se sabe que el número de hogares don-

de se lee algún libro de aventuras se distribuye en los estratos de la siguien-
te manera:
NÚM. DE HOGARES
^
ESTRATO TAMAÑO DE LA MUESTRA DONDE SE LEE ALGÚN pj
LIBRO DE AVENTURAS
A 18 8 0,44
B 10 4 0,4
C 12 6 0,5
La estimación de la proporción de personas que leen algún libro de aven-

turas en la población será:
L
16 12 49
pˆ st = ∑ wj pˆ j = .0, 44 + .0, 4 + .0, 5 =0,44909
j =1 33 55 165
L
Vˆ ( pˆ st ) = ∑ w2j Vˆ ( pˆ j ) pero:
j =1
N − n1 pˆ 1 qˆ1 160 18 0, 44.0, 56

Vˆ ( pˆ 1 ) = 1 = . =0,012864
N1 n1 − 1 160 18 1
N − n2 pˆ 2 qˆ 2 72 10 0, 4.0, 6
Vˆ ( pˆ 2 ) = 2 = . =0,022963
N2 n2 − 1 72 10 1
N − n3 pˆ 3 qˆ 3 98 12 0, 5.0, 5
Vˆ ( pˆ 3 ) = 3 = . =0,019944
N3 n3 − 1 98 12 1
En consecuencia
2 2 2
⎛16 ⎞ ⎛12 ⎞ ⎛ 49 ⎞⎟
Vˆ ( pˆ st ) = ⎜⎜ ⎟⎟⎟ .0, 012864 + ⎜⎜ ⎟⎟⎟ .0, 022963 + ⎜⎜
⎜⎝165 ⎟⎟⎠
.0, 019944 = 0,005876
⎜⎝ 33 ⎠ ⎜⎝ 55 ⎠
3.2. Cálculo del tamaño muestral para la estimación de la media

3.2.1. Afijación
Se denomina afijación al reparto del tamaño muestral n entre los distintos

L
estratos de tal forma que se verifique n = ∑ nj . Puede ser de distintos tipos:
j =1
n
Afijación uniforme, donde se reparte por igual entre todos los estratos nj
L
Afijación proporcional, la que se hace en proporción al tamaño del estra-
n
to j cte.
Nj
Teniendo, en este caso, todas las unidades muestrales la misma probabi-
lidad de ser seleccionadas en la muestra.
Afijación óptima o de mínima varianza, donde se eligen los nj de forma
NS
que minimicen la varianza para un n fijo: nj = L j j n
∑ N j Sj j =1
Afijación para un coste, en la que se eligen los nj de forma que minimicen la

L
varianza para un coste fijo, C que generalmente se expresa como c = c0 + ∑ nj cj
j =1
donde cj es el coste de elegir una unidad en el estrato j y c0 es el coste inicial, se
obtiene los tamaños:

1
N j Sj
cj
nj = L
n
1
∑ N j Sj
j =1 cj
o también
1
( c − c0 )Wj Sj
cj
nj = L
n
∑W S
j =1
j j cj
Si se diera el caso que el tamaño de nj es mayor que el tamaño del estra-

to Nj, evidentemente inviable. El problema se resuelve dando al estrato j el
tamaño Nj y repartiendo el resto de unidades nj – Nj entre los demás estra-
tos, siempre conservando el tamaño total, n, de la muestra. Este cambio al-
teraría la varianza del estimador, que se debería modificar.
3.2.2. Cálculo tamaño de la muestra en la estimación de la media
La fórmula general a utilizar será:
L Wj2 Sj2
∑
j =1 wj
n= 2
e 1 L
2
+ ∑ Wj Sj2
k N j=1
2
En general se cumple: V ( yst ) e D suponiendo como en la mayoría
4
de los casos k=2. Pero como la expresión de la varianza cambia según el tipo
de afijación, en consecuencia el tamaño muestral toma distintas expresio-
nes según el tipo de afijación.
Para el caso de la afijación proporcional, y para la estimación de la me-
dia, se cumple:
L L
∑ Wj Sj2
j =1
∑W S j
2
j
j =1
wj Wj por tanto n = y si llamamos n0 =
1 L D
D + ∑ Wj Sj2
N j=1
n0
entonces n =
n
1+ 0
N
En la afijación óptima, y para la estimación de la media, se cumple:
2
⎛ L ⎞
⎜⎜ W S ⎟⎟
nj
= L
Wj Sj
⎜⎜ ∑ j j ⎟⎟
n por tanto n = ⎝ j=1 ⎠
∑j =1
W S
j j 1 L
D + ∑ Wj Sj2
N j=1
Con D en función del error admisible y del intervalo de confianza desea-

do del estimador de la media de una variable y
Por ejemplo, se supone que se va a realizar una encuesta para estudiar
los hábitos de estudio en un núcleo de población donde hay tres zonas per-
fectamente diferenciadas: A=zona rural, B=zona semi-urbana y C=zona ur-
bana con tamaños: N1=600, N2=300 y N3=100. Se quiere determinar el tama-
ño de la muestra para afijación proporcional y para afijación óptima para
una varianza del estimador de la media de 5. El tamaño poblacional N=1000.
La muestra obtenida será:
ESTRATO WJ SJ WJSJ WJSJ2
1 0,6 4 2,4 9,6
2 0,3 12 3,6 43,2
3 0,1 80 8 640
14 692,8
692, 8 n0 138, 56
n0 luego n = = ≈ 122 si la asignación es propor-
5 n0 138, 56
1+ 1+
cional N 1000
Luego el reparto por estrato será:
600.122 300.122 100.122

n1 = ≈ 73 , n2 = ≈ 37 , n3 = ≈ 12
1000 1000 1000
(14)
2
Si la afijación es óptima n = ≈ 35
692, 8
5+
1000
Luego el reparto por estrato será:
Wj Sj 2, 4.35 3, 6.35 8.35
nj = L
n , n1 6 , n2 9 , n3 20
14 14 14
∑W S
j =1
j j
3.2.3. Cálculo del tamaño de la muestra en la estimación

de la proporción
La fórmula general a utilizar será:

L Nj Pj Qj
∑W
j =1
j
2
N j − 1 wj
n=
e2 1 L N j2
k 2
+ 2
N
∑N
j =1 −1
Pj Qj
j
nj
donde wj y S2 es la cuasi-varianza poblacional.
n
Nj
Recordar que Sj2 = Pj Qj
Nj −1
De forma operativa el cálculo del tamaño de la muestra en la estimación

de la proporción es:
L
∑W p q
j =1
j j j
n0
Para afijación proporcional: n0 = , n=
D n
1+ 0
2
N
⎛ L ⎞
⎜⎜ W p q ⎟⎟
⎜⎜∑ j j j ⎟⎟
⎝ j=1 ⎠ n0
Para afijación óptima: n0 = , n=
D 1 L
1+ ∑ Wj pj qj
ND j=1
donde D es la varianza deseada en el estimador de la proporción P

Supóngase por ejemplo una población con tres estratos, cuyos pesos re-
lativos son: W1=0,5; W2=0,3; W3=0,2 y en una encuesta piloto realizada en
un colegio se supone que la proporción de estudiantes que tienen una carac-
terística en estudio es: p1=0,52; p2=0,4; p3=0,6. Se supone Nj suficientemente
grande frente a nj. Se quiere determinar el tamaño de una muestra estrati-
ficada, con afijación proporcional, que dé la misma precisión para estimar
P que una muestra de tamaño n’=600 sin estratificar.
En primer lugar como la afijación es proporcional nj nWj
La varianza del estimador de la proporción en el muestreo estratificado

L
W p q j j j
con afijación proporcional será: V ( Pˆst ) j 1
n
pq
En el muestreo aleatorio simple será: V ( Pˆ )
n' L
n ’ ∑ Wj pj qj
j =1
Igualando las dos expresiones y despejando n tenemos: n =
L p(1 − p)
donde p = ∑ Wj pj
j =1
ESTRATO WJ PJ QJ WJPJ WJPJQJ
1 0,5 0,52 0,48 0,26 0,1248

2 0,3 0,4 0,6 0,12 0,072
3 0,2 0,6 0,4 0,12 0,48
0,5 0,2448
600.0, 2448
Por tanto: n 588 y los tamaños en los estratos serán:
0, 5.0, 5
n1 = 588.0,5 = 294; n2 = 588.0,3 = 176; n3 = 588.0,2 = 118
4. MUESTREO POR CONGLOMERADOS
Un conglomerado es una colección de elementos que tiene una configu-

ración parecida a la población de que procede.
Cada conglomerado es un grupo natural constituyente de la población,
así por ejemplo: las casas que componen una manzana, las personas que
integran una familia.
La principal ventaja que aporta este método es su bajo coste, por la
facilidad de elección de los elementos muestrales. Por contra su principal
inconveniente es el posible error sistemático que se pueda incurrir al ele-
gir por ejemplo un determinado bloque que sea poco representativo de la
población.
El muestreo por conglomerados (monoetápico) en realidad es una va-

riante del aleatorio simple o el estratificado con la única salvedad que en
este caso las unidades muestrales no son los individuos sino los propios
grupos (conglomerados), elementos naturales de la población. Este tipo de
muestreo debe perseguir que la varianza intra-conglomerado sea elevada y
la varianza inter-conglomerados baja.
Scheaffer (1986, p.197) aconseja utilizar el muestreo por conglomerados
cuando:
— No se puede disponer o es muy costoso obtener el marco muestral que
lista los elementos de la población, mientras que se puede lograr fácil-
mente un marco que liste los conglomerados.
— El costo por obtener observaciones se incrementa con la distancia que

separa los elementos.
La forma de seleccionar una muestra en el muestreo por conglomerados

consiste en conformar un marco que liste todos los conglomerados de la
población. Después se elegirá una muestra aleatoria simple de este marco.
4.1. Estimación de la media y proporción poblacional
El muestreo por conglomerados es un muestreo aleatorio simple donde

cada unidad de muestreo contiene un número de elementos.
NOMENCLATURA:
N = número de conglomerados en la población.

n = número de conglomerados seleccionados en la muestra.
mi = número de elementos en el conglomerado i, i=1,..., N.
1 n
m= ∑ mi , tamaño promedio del conglomerado en la muestra.
n i=1
N
M = ∑ mi , número de elementos de la población.
i=1
M , tamaño promedio del conglomerado en la población.

M
N
Media
El estimador de la media poblacional será:

n
∑y i
y= i=1
n
∑m
i=1
i
El estimador de la varianza de y será:

n
N−n
∑ ( y − m y)i i
2
Vˆ ( y ) = . i=1
NnM2 n −1
Por tanto el intervalo de confianza de la media es:
y o k Vˆ ( y )
Ejemplo 3: Se realiza entrevistas en 10 hogares españoles sobre los gas-

tos en esparcimiento (ocio) en un pueblo de 400 hogares. Los resultados se
presentan en la tabla siguiente:
CONGLOMERADO NÚMERO DE PERSONAS GASTOS EN OCIO

(I) (MI) (EUROS) (Y I)
1 4 120
2 6 72
3 8 320
4 10 240
5 4 82
6 6 76
7 7 94
8 5 72
9 3 60
10 2 42
Estimar la media y calcular el error de estimación

La media o gasto medio por persona será:
n
∑y i
1178
y= i=1
n
= =21,418
55
∑m
i=1
i
N−n
∑ ( y − m y)
i i
2
400 − 10 34285
Vˆ ( y ) = ⋅ i=1
= ⋅ =19645
NnM2 n −1 ⎛ 55 ⎞⎟
2
9
400.10.⎜⎜⎜ ⎟
⎝ 400 ⎠⎟
Por tanto, el error de estimación será: Vˆ ( y ) =140,16
Proporción poblacional p
Sea ai el número de elementos en el conglomerado i que posee la carac-

terística en estudio.
n
∑a i
p̂ = i=1
n
∑m
i=1
i
El estimador de la varianza de p̂ :
n
N−n
∑ ( a − pm
ˆ ) i i
2
Vˆ ( pˆ ) = . i=1
NnM2 n −1
y su intervalo de confianza:
pˆ o k Vˆ ( pˆ )
Ejemplo 4: Supóngase el ejemplo 3 donde además se quiere saber la pro-

porción de personas de cada hogar que son titulados superiores. La tabla se
completa con los siguientes datos:
CONGLOMERADO NÚM. DE NÚM. DE GASTOS EN OCIO

(I) PERSONAS (MI) TITULADOS (AI) (€) (YI)
1 4 2 120
2 6 2 72
3 8 3 320
4 10 4 240
5 4 1 82
6 6 2 76
7 7 2 94
8 5 3 72
9 3 1 60
10 2 1 42
Se desea saber la proporción de titulados y calcular el error de estimación.

n
∑a i
21
pˆ = i=1
n
= = 0, 3818
55
∑m i=1
i
N−n
∑ ( a − pm
i
ˆ ) i
2
400 − 10 2, 4264
Vˆ ( pˆ ) = . i=1
= . = 1, 3903
NnM2 n −1 ⎛ 55 ⎞⎟ 10 − 1
2
400.10.⎜⎜⎜ ⎟
⎝ 400 ⎟⎠
El error de estimación será Vˆ ( pˆ ) 1, 3903 1,1791

4.2. Tamaño de la muestra para la estimación de la media

Suponiendo que se ha elegido el tamaño del conglomerado y que se in-

tenta que sea mínima la varianza entre conglomerados, entonces el número
de conglomerados para la estimación de la media poblacional será:
e2 N−n 2 2
2
= 2
.T c donde T c2 es la cantidad estimada por sc
k NnM
n
∑ ( y − m y)
i i
2
donde s = i=1
2
c que se obtiene de una muestra previa.
n −1
Nsc2
Y por tanto n =
e2
2
NM2 + sc2
k
Ejemplo 5: Supóngase que los datos de la tabla anterior se consideran

como previos para el cálculo del tamaño muestral para la estimación de la
media poblacional de gastos y además en la estimación de la media de gas-
tos se supone un error de 20 euros:
3267553
400 ⋅
n= 9 ≈ 93 será necesario entrevistar a 93 hogares.
2
20 3267553
.400.5, 5 +
2
4 9
En el caso de la proporción, se vuelve a utilizar una muestra piloto y se

obtiene:
n
( a Sˆ m )
i i
2
sc2 i1 con lo cual n será:

n 1
e2 N − n 2 , resultado similar al calculado en la estimación de la

2
= ⋅ sc
k NnM2
media poblacional:
Nsc2
n=
e2
NM2 + sc2
k2
Aun cuando por su complejidad no vamos a entrar en detalle para éste

tipo de muestreo, no obstante se ha querido mostrar al lector una visión
general del mismo para que conozca algún método complejo de muestreo.
Una muestra en el muestreo por conglomerados bietápico se obtiene se-
leccionando primero una muestra aleatoria de conglomerados y posterior-
mente una muestra aleatoria de los elementos de cada conglomerado elegi-
do en la etapa precedente.
Por ejemplo para conocer la opinión de los universitarios sobre la gue-
rra, se puede seleccionar en primer lugar de forma aleatoria las universida-
des, para posteriormente elegir una muestra aleatoria de los alumnos de
cada universidad seleccionada anteriormente.
Scheaffer (1986, pp. 233-234) propone dos condiciones deseables a la

hora de seleccionar la muestra:
— Proximidad geográfica de los elementos dentro de cada conglomerado
— Tamaño de conglomerado conveniente para su manejo
Además añadimos que se necesita un tamaño de conglomerado que con-
trole el coste total de la investigación.
Un muestreo por conglomerados en dos etapas muy utilizado es aquel
donde las probabilidades de elección del conglomerado son proporcionales
al tamaño del mismo.
Ejemplo: Un investigador quiere saber la proporción de alumnos que
faltan más de 2 días a clase en 6 institutos públicos. Desea elegir 3 institu-
tos y puesto que los mismos varían en número de alumnos, su elección de-
sea realizarla de forma proporcional a su tamaño. Además en los institutos

elige un 10% de total de alumnos. Con los datos adjuntos, vamos a calcular
la proporción de alumnos solicitada.
NÚMERO INTERVALO
INSTITUTO
DE ALUMNOS ACUMULADO
1 420 1- 420
2 360 421- 780
3 620 781-1400
4 480 1401-1880
5 510 1881-2390
6 210 2391-2600
Se procede de la siguiente manera:
Se elige aleatoriamente 3 números del 1 al 2600. Supongamos dan por

resultado: 842, 2048 y 108. Mirando en la columna de intervalo acumulado
estos números se localizan en los institutos 3, 5 y 1.
Supongamos que en estos institutos el resultado de muestrear al 10% del
total arroja los siguientes datos:
NÚMERO DE ALUMNOS NÚMERO DE ALUMNOS QUE

INSTITUTO
MUESTREADOS FALTAN MÁS DE 2 DÍAS
1 42 20
3 62 32
5 51 22
Con estos datos la proporción por instituto será la media muestral, en

consecuencia para las tres muestras:
1 20 32 22 ¬
Nˆ = 0,4745
3 42 62 51 ®
5. MUESTREO SISTEMÁTICO
La simplicidad en la selección de la muestra ha hecho del muestreo sis-

temático uno de los procedimientos más utilizados.
Consiste en seleccionar un elemento de los primeros k elementos en el
marco y después cada k-ésimo elemento.
Presenta la ventaja frente al muestreo aleatorio simple que es más fácil
de llevar a cabo y además proporciona más información por unidad de
costo.
Un ejemplo donde se utiliza este tipo de muestreo es en las cadenas de
montaje, donde el control de calidad se realiza seleccionando, de forma se-
cuencial, un producto de cada k fabricados.
La forma de seleccionar una muestra n de una población N de forma

୒
sistemática cada k elementos con la condición k ≤ , será elegir un número
୬
menor de k y luego de forma secuencial cada k elementos elegir los n ele-
mentos de la muestra.
En este tipo de muestreo debe prestarse especial atención al reparto no
secuencial de los elementos en el marco. Por ejemplo si se está haciendo un
estudio en un colegio mixto y se seleccionan exclusivamente hombres, o en
una encuesta de opinión sobre un producto de cosmética femenina salen
seleccionadas exclusivamente mujeres mayores. Se puede evitar este pro-
blema cambiando al azar, cada cierto tiempo, el punto de partida.
A la hora del cálculo de los estimadores de la media y proporción existen
tres posibles variantes:
Población aleatoria.
Se dirá que una población es aleatoria si sus elementos están ordenados
al azar.
En este caso el muestreo sistemático es equivalente al muestreo aleato-
rio simple y se puede aplicar las fórmulas vistas para el segundo.
Por ejemplo, si se quiere elegir una muestra de investigadores en CC. de
la Educación y se coge como población los socios, ordenados alfabética-
mente, de AIDIPE. La población estará ordenada al azar y por tanto para

estudiar, por ejemplo, el número promedio de investigaciones realizadas
durante el año 2002 se podrá utilizar las mismas fórmulas vistas en el
muestreo aleatorio simple.
Población ordenada
Se dirá que la población está ordenada, si los elementos dentro de la po-
blación están ordenados de acuerdo con algún esquema previo.
Por ejemplo si se ordenan las calificaciones de los alumnos de un curso
en una determinada materia y se quiere saber la efectividad en la misma,
cogiendo una muestra de calificaciones.
En este caso la población de calificaciones está ordenada y el muestreo
sistemático producirá menor error de estimación que el muestreo aleatorio
simple; no obstante una cota superior del mismo puede ser el error mues-
tral obtenido para el muestreo aleatorio simple.
Población periódica
Será aquella en que los elementos de la población tienen variación cíclica.
Por ejemplo se quiere saber el promedio de ventas diarias en una cadena
de tiendas de ropa deportiva. La población de ventas diarias claramente es
cíclica.
En este caso el error muestral en la estimación de dicho promedio será
superior mediante muestreo sistemático, que si se realizara un muestreo
aleatorio simple de las ventas diarias.
Para evitar este problema, como ya se comentó, lo que se hace es alea-
torizar varias veces el punto de arranque en el muestreo sistemático; de
ésta forma se podrá utilizar la misma formulación del muestreo aleatorio
simple.
6. MUESTREO POR CUOTAS
Entre los muestreos no probabilísticos uno de los más utilizados es el

muestreo por cuotas donde los elementos se eligen de acuerdo con ciertas
instrucciones pero sin la intervención del azar.
Las cuotas de elementos de la muestra se eligen de acuerdo con el crite-

rio del investigador entre las categorías de las variables independientes más
relevantes. Por ejemplo: sexo, nivel económico, nivel de instrucción, etc.. En
el tamaño de las cuotas se intenta respetar la proporcionalidad con la po-
blación objeto de estudio.
Este tipo de muestreo presenta la dificultad del conocimiento del error

muestral y por tanto de la representatividad de la muestra, y el desconoci-
miento de la idoneidad de las cuotas elegidas como variables importantes y
representativas de las características del universo.
Presenta como ventaja su bajo coste.
Este tipo de muestreo no probabilístico, a veces, se combina con otro

probabilístico como el de conglomerados. Por ejemplo, en principio se
eligen al azar las manzanas de una ciudad y en segunda instancia se eli-
gen las personas respetando un esquema de cuotas definido con anterio-
ridad.
Un ejemplo de esquema de asignación por cuotas puede ser el siguiente:

se desea entrevistar a un grupo de 40 personas de 3 núcleos de población:
rural, urbano y semi-urbano, con representación de hombre y mujeres y
de 3 intervalos de edad. El esquema será:
SEXO ZONA EDAD
Mujeres. 18 Rural. 12 20-35 10
Hombres. 22 Urbana. 18 36-45 14
Semi-urbana. 10 46-60 16
Total. 40 Total. 40 Total. 40
7. MUESTREO PARA CONTRASTE DE HIPÓTESIS ESTADÍSTICA
Los estudios de contraste de hipótesis se utilizan fundamentalmente para

comparar si las medias o las proporciones de las muestras son diferentes.
Habitualmente el investigador pretende comparar dos tratamientos ge-

neralmente uno experimental y otro de control para valorar la eficacia del
primero. Para el cálculo del tamaño muestral se necesita conocer:
1. El valor de la diferencia a detectar y pensar si es relevante para la inves-
tigación. Se pueden comparar dos proporciones o dos medias.
2. Tener una idea aproximada de la variabilidad de la diferencia que se
estudia (bibliografía, estudios previos).
3. Precisión del estudio (riesgo de cometer un error B).
4. Poder estadístico (1-C) (riesgo de cometer un error C).
5. Definir si la hipótesis va a ser unilateral o bilateral.
— Bilateral: Cualquiera de los dos parámetros a comparar (medias o
proporciones) puede ser mayor o menor que el otro. No se establece
dirección.
— Unilateral: Cuando se considera que uno de los parámetros debe ser
mayor que el otro, indicando por tanto una dirección de las diferencias.
La hipótesis bilateral es una hipótesis más conservadora y disminuye el
riesgo de cometer un error de tipo I (rechazar la H0 cuando en realidad es
verdadera).
7.1. Comparación de dos medias
Supongamos el siguiente ejemplo:

Se desea utilizar un nuevo método de enseñanza y se considera que se-
ría pedagógicamente eficaz si lograse un descenso del número de suspensos
de 20 alumnos respecto al método convencional mediante clase magistral.
Por estudios previos se sabe que la desviación típica del número de suspen-
sos en alumnos que han utilizado este nuevo método es de 15 alumnos.
Aceptamos un riesgo de 0.05 y deseamos un poder estadístico de 90% para
detectar diferencias entre métodos si es que existen.
— Se supone una población normal de varianza conocida.
— Se trata de un contraste unilateral.
— Se conoce B 0, 05 y C = 1 − 0, 9 = 0,1
2( Zα + Zβ )2 ⋅ S2 2(1, 645 + 1, 282)2 .152

n= luego n = ≈ 10
d2 202
Se necesita una muestra de 10 personas por grupo.
Veamos el siguiente ejemplo:

Se desea evaluar si el procedimiento B es mejor que el procedimiento A
para resolver problemas matemáticos para lo que se diseña un experimen-
to. Se sabe por estudios previos que la eficacia del procedimiento habitual
está alrededor del 65% y se considera didácticamente relevante si el nuevo
procedimiento permite resolver problemas en un 85% de los casos.
Se fija un nivel de riesgo de 0.05 y un poder estadístico de un 90%.
Se supone una población normal con p1=p2 y de ahí se toma como esti-
p + p2
mador de p = 1
2
— Se trata de un contraste unilateral
— Se conoce B 0, 05 y C = 1 − 0, 9 = 0,1
(Z )
2
α * 2 p(1 − p) + Zβ * p1 (1 − p1 ) + p2 (1 − p2 )
n=
( p1 − p2 )
2
(1, 645 * 2.0, 75.0, 25 + 1, 282 * 0, 65.0, 35 + 0, 85.0,15 )

2
p=0,75; n= ≈ 79
(0, 65 − 0, 85)
2
Se necesita una muestra de 79 personas por grupo.

COCHRAN, W. G. (1971). Técnicas de Muestreo. México: CECSA.

GIL PASCUAL, J. A. (2008). Bases metodológicas de la Investigación Educativa
(Análisis de datos). Madrid: UNED.
SCHEAFFER, R., MENDENHALL, W., OTT, L. (1987). Elementos de muestreo. México:
Grupo Editorial Iberoamérica.
Capítulo 3
Técnicas descriptivas multivariantes: análisis factorial
exploratorio y análisis de clúster o conglomerados.
1. Análisis factorial
1.1. Introducción
1.4. Procedimiento
2. Análisis de conglomerados
2.1. Definición y objetivos
2.4. Procedimiento
3. Un ejemplo de análisis factorial y de clúster

3.1. Análisis factorial
3.2. Análisis de clúster
1. ANÁLISIS FACTORIAL
1.1. Introducción
El análisis factorial es un método multivariante que intenta explicar,

mediante un modelo lineal, un conjunto amplio de variables según un nú-
mero reducido de variables hipotéticas llamadas factores. La característica
fundamental de los factores es que no son directamente observables. Es el
método multivariante más utilizado cuando se desea simplemente una re-
ducción de datos o cuando se persigue la búsqueda de un indicador, pareci-
do al clásico de la medida de la inteligencia y el cociente intelectual, o de
otros ejemplos de constructos como: el clima laboral de los docentes, la in-
teligencia emocional, la creatividad, etc.

1.2.1. Diseño
Para algunos investigadores el análisis factorial es un aliado ante una

falta o inadecuada planificación de la investigación. Pero, cuando se realiza
un diseño de la investigación, y se quiere utilizar el análisis factorial, se de-
bería:
— Formular un modelo factorial previo.
— Elegir las variables que pueden ser indicadores de los factores del mo-
delo teórico planteado. Algunos autores, Comrey (1985), recomienda
como mínimo 5 variables por factor.
— Cuando en el análisis se tiene variables complejas, es decir, variables que
tienen peso moderado en varios factores, no aportan ayuda en la identi-
ficación de la naturaleza de los factores, por eso los indicadores no debe-
rían ser de esta naturaleza, sino saturar sólo en el factor que pretenden
medir. No deben seleccionarse variables que estén altamente correlacio-
nadas de tal manera que sean capaces de crear factores con poca va-
rianza, es decir, de baja jerarquía. Así por ejemplo, si dos variables expli-
can un factor y este representa poca cantidad de varianza común, será
preferible suprimir una de las variables o elegir menos factores.
— Se deben elegir variables medidas en escala continua o cuando me-
nos de muchas categorías. Comrey (1985) recomienda de 12 o más
categorías.
— Es conveniente tomar un tamaño muestral de 100 o más casos, y míni-
mo 5 veces el número de variables (Hair, 1999).
El análisis factorial parte de dos suposiciones importantes: a) las di-

mensiones subyacentes o factores pueden usarse para explicar fenómenos
complejos y b) las correlaciones que se observan entre las variables son el
resultado del hecho de que tales variables comparten los mismos factores.
Sean x1 x2.......xn n variables, se trata de extraer f1....... f m (m<n) tal que:
x1 a11 f1 a12 f2 ..... a1m fm I1

x2 a21 f1 a22 f2 ..... a2 m fm I2
......................................................
xn an1 f1 an2 f2 ..... anm fm In
matricialmente podemos explicarlo así:
X Af I [1]
a11 a12 .. a1m ¯

X [ x1, x2 ,......., xn ]' ¡ °
donde: ¡ a21 a22 .. a2 m °
f [ f1, f2 ,......., fm ]' A ¡¡ °
¡ .. .. .. .. °°
I [I1, I2 ,......., In ]' ¡a
¢ n1 an2 .. anm °±
TÉCNICAS DESCRIPTIVAS MULTIVARIANTES: ANÁLISIS FACTORIAL Y ANÁLISIS DE CLÚSTER
La matriz A se denomina matriz factorial y contendrá los valores aij car-

ga de los factores. Cada aij mide la contribución de la i-ésima variable al j-
ésimo factor. Los factores f son los factores comunes porque influyen en
todas las variables y h son los factores únicos porque afectan sólo a una
variable e incluye también el error del ajuste lineal.
Las condiciones del modelo exigen:
— Los f k son independientes e idénticamente distribuidos, con media 0 y
varianza 1, para k=1,......, m E( fk , fh ) 0 si k v h E( fk , fk ) 1
— Los Șj están independientemente distribuidos con media 0 y varianza ȥj
para j=1,...., n E( I i , I j ) 0 si i v j E( I j , I j ) Z j
— Los f k y los Și tienen distribuciones independientes para todas las com-
binaciones de k e i, k=1,...., m e i=1,....., n
E( f k , I i ) 0 E ( I i , f k ) 0
De forma matricial estas condiciones del modelo se pueden poner como:
— f ~ (0, I)
— Ș~ (0, y) donde ȥ=diag(ȥ1,.......,ȥn)
— f y Ș son independientes
1.2.3. Propiedades
Conforme el modelo [1] la matriz de covarianzas entre las observaciones

verifica:
4 E[(X N)(X N)'] AE[ ff '] A ' E[II '] entonces 4 AA ' Z [2]
ya que E[ ff '] I , es decir, los factores están incorrelados. Además

E[II '] Z
Como los factores y las cargas factoriales son desconocidos, la matriz de

covarianzas observadas poblacional 4 se estima mediante la muestral S y
entonces el modelo [2] puede ponerse:
ˆ ˆ ' Zˆ donde como en las variables normalizadas cov(Z)=corr(Z)=R,
S x AA
entonces la expresión [2] puede tomar la forma: R x AA ˆ ˆ ' Zˆ [3] que se co-
noce como teorema de Thustone. Para abreviar nomenclatura se pondrá:

R AA ' Z [4]
Como consecuencia de la expresión [2] para una variable cualquiera xj,
se cumplirá:
m
1. σ i2 = ∑ aij2 + ψi2 , i=1,….., n la varianza de una variable observada, se pue-
j=1
de poner como la suma de efecto de los factores, más el efecto de la
perturbación o unicidad.
2. De otra forma, si denominamos hi2 = ai21 + ai22 + ...... + aim

2
(suma de colum-
nas) como comunalidad podemos observar que es la contribución de
todos los factores a la variación de la variable i, es decir, la proporción
de la variabilidad de dicha variable explicada por los m- factores. Siendo
ȥi el término no explicado por los factores que denominamos unicidad
o especifidad de la variable i.
3. σi2 = hi2 + ψi2 la varianza observada es igual a la variabilidad común (co-
munalidad)+ variabilidad específica.
1.2.4. Soluciones múltiples del modelo
En el modelo factorial ni la matriz de carga, A, ni los factores, f, son ob-

servables, por lo que se plantea un problema de indeterminación, por lo
cual la solución a [3] no es única, pues si tenemos una matriz ortogonal K
(como sabemos la condición de ortogonalidad representa KK’=I), se puede
escribir la ecuación [4] así:
R=AA´+ȥ=AIA’+ȥ=AKK’A’+ȥ=(AK)(AK)’+ȥ
Por lo cual si A es una matriz de cargas factoriales, entonces AK
también lo es, para toda matriz ortogonal K. En consecuencia, la matriz
de cargas factoriales no es única, y por tanto los factores tampoco son
únicos.
Una de las formas de lograr una solución única será conseguir una ma-
triz: R*=R–ȥ=AA´ matriz de correlaciones reducida, donde podemos rela-
cionar a ésta con el producto de AA’.
2 ... r1k ¬
h1 r12

r h22 ... r2 k
La matriz R* será de la forma: R 21
*
... ... ... ...

rn1 rn2 ... hn2 ®
Tenemos que hacer que la matriz A sea de rango m para que tenga solu-
ción el sistema [1]. Se demuestra que AA´ tiene rango m y es semidefinida
positiva. Recíprocamente si la matriz es semidefinida positiva se puede des-
componer de la forma AA´.
El número de cantidades desconocidas de A y ȥ es nm+n=n(m+1); el nú-
mero de cantidades desconocidas en R es n(n+1)/2 al ser R simétrica. En
consecuencia, el sistema R=AA´+ȥ dará lugar a n(n+1)/2 ecuaciones en
n(m+1) incógnitas que deben resolverse. Así, por ejemplo, para n=10 y m=4,
se tendrá 55 ecuaciones con 50 incógnitas. Estas cantidades dan una idea
de lo complejo que puede resultar su solución manual y la necesidad de uti-
lizar el ordenador en este proceso.
También los cálculos del párrafo anterior nos pueden dar una idea del
número máximo de factores (m) que podemos extraer de (n) variables.
Para que el sistema [4] tenga solución única se necesita que el número de
ecuaciones n(n+1)/2 sea mayor que el número de incógnitas n(m+1) menos el
número de restricciones m(m-1)/2 para solución única:
n( n 1) m( m 1) por tanto ( n m)2 p ( n m)

p n( m 1)
2 2
Por ejemplo para extraer m=2 factores necesitamos como mínimo n=5
variables, o de otra forma con 5 variable como máximo habrá 2 factores.

1.3.1. Evaluación de la matriz de correlaciones
A la hora de valorar la pertinencia y las limitaciones del análisis facto-

rial, el elemento más sobresaliente, sin lugar a duda, es la evaluación de la
matriz de correlaciones.
Para que se pueda realizar el análisis factorial, las variables tienen que
estar muy correlacionadas, esto implica, coeficientes de correlación gran-
des en valor absoluto lo que nos lleva a que el determinante de la matriz de
correlación sea distinto de 1.
Como sabemos la matriz de correlación R contiene la varianza de todas
las variables incluidas en el análisis. La varianza de cada variable, al ser nor-
malizada, es igual a 1 y viene expresada por la correlación de la variable con-
sigo misma, esto es, por los valores de la diagonal principal. Así pues, la va-
rianza total explicada por la matriz R, es igual a la suma de los valores de los
elementos de la diagonal principal, o lo que es lo mismo, al número de varia-
bles incluidas en el análisis. Como lo que se pretende al factorizar es encon-
trar factores independientes, es decir no correlacionados, si partimos de una
matriz de correlación con valores bajos no será necesario su factorización.
Para ver si una matriz R se puede factorizar, se emplea la prueba de es-
fericidad de Bartlett.
El test de esfericidad de Bartlett, bajo la hipótesis de normalidad multi-
variante, exige que: H0: |R|=1 frente a H1: |R|≠1
Habrá que calcular el estadístico:
1
D 2 [( n 1) ](2m 5) Ln | R |
6
con: n = número de sujetos de la muestra

m = número de variables incluidas en la matriz de correlación
g.l. = 1/2 (m2–m)
Si se rechaza la hipótesis nula (p-valor < B) la matriz es apropiada para

la factorización.
Adecuación de la muestra. Otra forma de observar el grado de correla-
ción entre las variables es por medio de los coeficientes de correlación par-
cial. Las correlaciones parciales son estimadores de las correlaciones entre
los factores únicos y debe ser cercanas a cero cuando se cumplen las suposi-
ciones del análisis factorial. Una matriz que contiene los coeficientes de co-
rrelación parciales negativos (la matriz de correlaciones anti-imagen) debe
mostrar una proporción muy reducida de coeficientes de correlación altos, a
fin de que pueda considerarse apropiado el análisis factorial. Un indicador

de la adecuación de la muestra, es el conocido como Kaiser-Meyer-Olkin
(KMO), donde valores pequeños en este índice (cercanos a cero) indican que
no es recomendable usar el análisis factorial, siendo que las correlaciones
entre pares de variables no son explicadas por las otras variables.
Otro indicador de medida de la adecuación de la muestra es el MSA.
Es un índice que compara las magnitudes de los coeficientes de correlación
observados y las magnitudes de los coeficientes de la correlación parcial.
Un valor bajo en la adecuación muestral, junto a valores reducidos de co-
munidad da pistas sobre variables poco apropiadas en el modelo factorial
construido.
El cuadrado del coeficiente de correlación múltiple (R2) entre una varia-
ble y todas las demás, es otro indicador de la fortaleza de la asociación li-
neal entre las variables y coincidirá con la comunalidad cuando el procedi-
miento de factorización no es el de componentes principales. Cuando este
coeficiente es pequeño, para una variable en particular, es recomendable
considerar la posibilidad de eliminarla del conjunto de variables en estudio.
1.3.2. Limitaciones
Entre las limitaciones, es importante recordar que si se utiliza el coefi-

ciente de correlación de Pearson, como medida de asociación entre varia-
bles, éste, se ve afectado por la falta de normalidad y linealidad de las mis-
mas. Como sabemos el análisis factorial parte del supuesto de una medida
continua en los factores subyacentes y por tanto, se realiza sobre variables
continuas, no obstante, en otras ocasiones se necesita reducir la dimensión
de variables categóricas (ordinales o dicotómicas), por lo cual la matriz de
correlaciones se adaptará al tipo de relación, de acuerdo con el orden de
medición de las variables involucradas.
Tabla 3.1. Medida de correlación entre variables
Escala de medición Continua Ordinal Dicotómica

Continua Pearson Poliserial Poliserial Puntual
Ordinal Policórica Policórica
Dicotómica Tetracórica
Como se ha visto en las propuestas del modelo, el análisis factorial supo-

ne la existencia de una variable latente continua con distribución normal.
De esta manera, cuando se utilizan variables discretas (ordinales y dicotó-
micas), estás se utilizan como si fueran continuas.
Otro aspecto destacable es la necesaria homogeneidad de las unidades
de análisis; en esta línea es preferible hacer análisis factorial de grupos por
separado antes de mezclar conjuntos de distinta procedencia.
1.4. Procedimiento
1.4.1. Pasos para la realización del análisis factorial exploratorio
— Selección de las variables.

— Cálculo de la matriz de correlaciones entre las variables.
— Evaluación del cumplimiento de las condiciones de aplicación.
— Extracción de los factores.
— Rotación de los factores.
— Cálculo de las puntuaciones factoriales para cada caso y/o interpreta-
ción de los factores rotados.
Respecto a la selección de las variables, hay que respetar el principio de

unidad temática, es decir, no podemos intentar, por ejemplo, extraer facto-
res de un cuestionario que reúna ítems de actitudes y de aptitudes. Es acon-
sejable, en este punto, que el analista tenga una idea más o menos clara de
cuáles son los factores comunes que quiere medir, y elija las variables de
acuerdo con ellos y no al revés.
Una vez seleccionadas las variables que intervienen en el análisis, el
cálculo de la matriz de correlación es la primera operación que realiza
cualquier programa informático-estadístico antes de la evaluación de la
pertinencia del análisis factorial. En esta operación, si las unidades de me-
dida de las variables no son comparables, estandariza los datos antes de
realizar el análisis. Si no se hiciera esta operación sería necesario utilizar la
matriz de covarianzas en lugar de correlaciones.
La evaluación del cumplimiento de las condiciones de aplicación se ha

visto anteriormente.
1.4.2. Extracción de factores
Según hemos dicho, el propósito central del análisis factorial es deter-

minar los factores que subyacen en las variables medidas (observadas). Para
ello se cuenta con diversos métodos los cuales difieren en el criterio que
usan para definir lo que es una buena selección.
Análisis factorial versus análisis de componentes principales
Existen ciertas diferencias entre ambos tipos de análisis, aun cuando en

la mayoría de los casos se considera el análisis de componentes principales
como un procedimiento más de análisis factorial. No obstante, el método
de componentes principales tiene como objetivo explicar las varianzas de
las variables, mientras que el factorial se construye para explicar las cova-
rianzas o correlaciones entre las variables. En segundo lugar el método de
componentes principales es un modelo descriptivo mientras que el análisis
factorial es un modelo de generación de datos mediante una estructura
construida.
De forma matricial con el procedimiento de componentes principales se
puede descomponer la matriz de varianza y covarianzas de X como:
M1 0 ... 0 ¯
¡ ° a ¯
¡ 0 M2 ... 0 ° ¡ 1 °
S A(A ' [ a1.....an ] ¡¡ ° ¡ ° = M1a1a '1 ....... Mn an a 'n
°¡ # °
¡ # # # °¡ °
¡ 0 0 ... M ° ¢ an ±
¢ n±
Si se da el caso que para un j < n se tiene M j 0 se puede reconstruir S

con los j primeros componentes. Si llamamos P A(1/2 , se tiene: S PP '
En el análisis factorial se descompone S como:
S AA ' Z
Por lo cual ahí está la diferencia, en el primer caso se trata de explicar la

varianzas de las variables y en el segundo caso explica las covarianzas o
correlaciones. Si Z 0 ambos procedimiento coinciden.
Métodos de extracción de factores
Método de los componentes principales. El método de los componen-

tes principales tiene como objetivo extraer la máxima varianza de las varia-
bles observadas. El primer factor o componente sería aquel explica una ma-
yor parte de la varianza, el segundo factor sería aquel que explica la mayor
parte de la varianza restante, es decir, de la que no explicaba el primero. Y
así sucesivamente hasta obtener m factores de forma que la matriz resul-
tante sea igual a una matriz 0 o nula.
Se puede extraer tantos factores como variables, en ese caso la muestra

quedaría totalmente explicada y no sería necesario el factor único, pero no se
habría reducido la dimensión del problema (m=n); por ello, a partir de los n
factores inicialmente extraídos se conservarán únicamente los m primeros.
Factorización de ejes principales. Método para la extracción de fac-

tores que parte de la matriz de correlaciones original con los cuadrados
de los coeficientes de correlación múltiple insertados en la diagonal prin-
cipal como estimaciones iniciales de las comunalidades. Las saturaciones
factoriales resultantes se utilizan para estimar de nuevo las comunalida-
des que reemplazan a las estimaciones previas de comunalidad en la dia-
gonal. Las iteraciones continúan hasta que el cambio en las comunalida-
des, de una iteración a la siguiente, satisfaga el criterio de convergencia
para la extracción.
Método de máxima verosimilitud. Se persigue proporcionar las esti-

maciones de los parámetros que con mayor probabilidad ha producido la
matriz de correlaciones observada, si la muestra procede de una distribu-
ción normal multivariada. Las correlaciones se ponderan por el inverso de
la unicidad de las variables, y se emplea un algoritmo iterativo. Se pretende
minimizar la función:
F ln | AA ' Z | traza( S | AA ' Z |1 ) ln | S | n

Una condición que se exige al método es que X tenga una distribución

normal multivariada, cuestión que en la mayoría de los casos no se cumple,
pero el método es robusto ante esta condición. Eso sí, no se puede utilizar
con variables nominales u ordinales.
Permite, además, seleccionar el número de factores mediante contrastes

1 2
de hipótesis del estadístico: U n 'min( F ) con n ' N 1 (2n 5) m .
6 3
Este estadístico asintóticamente tiende a una ji-cuadrado de gl grados de
libertad:
1 1
gl ( n m)2 ( n m)
2 2
El número de factores óptimo será aquel cuyo p-valor sea mayor de B,

es decir, no significativo
Método de mínimos cuadrados. Este método de extracción de facto-

res persigue minimizar la suma de los cuadrados de las diferencias entre
las matrices de correlación observada y reproducida, ignorando las dia-
gonales.
Método de mínimos cuadrados generalizados. Se persigue minimizar

la suma de los cuadrados de las diferencias entre las matrices de correla-
ción observada y reproducida. Las correlaciones se ponderan por el inverso
de su unicidad, de manera que las variables que tengan un valor alto de
unicidad reciban una ponderación menor que aquéllas que tengan un valor
bajo de unicidad.
Análisis alfa. Se basa en maximizar la fiabilidad B de los factores, con-

siderando que las variables analizadas son el universo, mientras que los
sujetos participantes constituyen la muestra.
Análisis de imagen. Se fundamenta en la idea de imagen de una varia-

ble entendida como regresión lineal con el resto de variables.
Comparación entre los distintos métodos
1. Cuando las comunalidades son altas (mayores que 0.6) todos los proce-
dimientos tienden a dar la misma solución.
2. Cuando las comunalidades son bajas para algunas de las variables el

método de componentes principales tiende a dar soluciones muy dife-
rentes del resto de los métodos, con cargas factoriales mayores.
3. Si el número de variables es alto (mayor que 30), las estimaciones de la
comunalidad tienen menos influencia en la solución obtenida y todos
los métodos tienden a dar el mismo resultado.
4. Si el número de variables es bajo es relevante el método utilizado para
estimar las comunalidades y de si éstas son altas.
Número de factores
Los principales criterios sobre el número de factores a extraer son:

— Criterio de la raíz latente. Sólo se escogerá aquellos autovalores mayo-
res que 1.
— Criterio a priori. Donde el investigador extrae el número de factores
fijados previamente.
— Criterio del porcentaje de la varianza. Parecido al anterior, sólo que en
este caso se fija un porcentaje de varianza explicado por el modelo. En
CC. Sociales se suele admitir como solución válida aquella que informa
como mínimo en un 60%.
— Criterio de contraste de caída. Normalmente con él se extraen más
factores que con la raíz latente, y consiste en extraer factores hasta que
la raíz latente (el autovalor) se estabilice, es decir, sea de un valor simi-
lar al precedente.
1.4.3. Rotación de los factores
El objetivo de la rotación de factores es conseguir el llamado principio

de estructura simple:
— Cada variable no debe estar saturada en más de un factor.
— Cada factor debe tener pocas saturaciones altas y las restantes próxi-
mas a cero.
— Dos factores distintos deben presentar saturaciones altas y bajas en di-
ferentes variables.
El fin prioritario de la rotación es dar mayor interpretación científica a

los factores. Esta interpretación vendrá marcada por el peso que aporte la
variable al factor, de esta forma tendrán mayor importancia las variables
que aporten mayor peso.
La rotación de factores pretende transformar la matriz inicial en una

que sea más fácil de interpretar, lo cual es importante para identificar fac-
tores que sean substancialmente importantes. Esta rotación puede ser orto-
gonal y oblicua.
En las soluciones factoriales donde se aplica la rotación oblicua, es de-

cir, donde los factores no son perpendiculares, se pueden dar el caso que los
pesos de la matriz factorial sea mayores que 1.
Cuando varios factores tienen una carga grande respecto a varias varia-
bles, resulta muy difícil determinar la forma en cómo difieren los factores.
La rotación no afecta a la bondad de la solución factorial, y aunque la

matriz factorial cambie, las comunalidades y los porcentajes de la varianza
total explicada no cambian, pero si cambian los porcentajes imputables a
cada factor. La rotación redistribuye la varianza explicada por los factores
individuales. Así que diferentes métodos de rotación pueden conducir a la
identificación de factores diferentes.
Los métodos de rotación ortogonal son:
a) Método Varimax: es el más común y trata de minimizar el número de

variables que tienen alta carga en un factor. Por tanto, simplifica la in-
terpretación de los factores. Los mantiene incorrelados.
Supongamos V=AT entonces VV’=AT(AT)’=ATT’A’, pero si hacemos que

TT’=I entonces VV’=AA’ y en consecuencia R*= VV’
Para que TT’=I se exige de la matriz T (matriz de la transformación) que
cumpla las siguientes condiciones:
a. la suma de los cuadrados de cada fila y de cada columna debe ser

igual a 1;
b. el producto interno de una fila por otra y de una columna por otra
debe ser igual a cero para todo par de filas o columnas distintas;
Además, para evitar que las variables con mayores comunalidades ten-
gan más peso en la solución final, suele efectuarse la normalización de
Kaiser consistente en dividir cada carga factorial al cuadrado por la
comunalidad de la variable correspondiente.
b) Método Quartimax: enfatiza la interpretación simple de las variables.

En su solución minimiza el número de factores necesarios para expli-
car cada variable.
c) Método Equamax: es una combinación de los dos anteriores: simplifica
los factores (varimax) y simplifica las variables (quartimax).
Los procedimientos oblicuos más conocidos son: oblimin directo y pro-

max. De estos procedimientos oblicuos, el promax es el más rápido de cal-
cular y por tanto más aconsejable con grandes volúmenes de datos.
Las rotaciones oblicuas son recomendables cuando se sospecha que

existe una relación entre los factores y conviene aplicarlas cuando hay mu-
chas observaciones por factor.
1.4.4. Cálculo de las puntuaciones factoriales
El cálculo de las puntuaciones factoriales se realiza a partir de la matriz

factorial rotada y se basa en diferentes procedimientos.
Hay tres métodos de estimación de las puntuaciones factoriales:
1. Método de regresión
Se estima f por el método de mínimos cuadrados: fˆ ( A ' A)1 A 'X
2. Método de Barlett
Se estima las puntuaciones factoriales por el método de mínimos cua-

drados generalizados: fˆ ( A ' : 1 A)1 A ' : 1 X
3. Método de Anderson-Rubin
Se utiliza también la estimación por mínimos cuadrados generalizados

pero se impone la condición f ' f I , por tanto: fˆ ( A ' : 1R: 1 A)1 A ' : 1 X
Comparación de los tres métodos:
1. El método de regresión da lugar a puntuaciones con máxima correla-

ción con las puntuaciones teóricas, sesgadas y no unívocas. En el caso
de que los factores sean ortogonales, puede dar lugar a puntuaciones
correladas.
2. El método de Bartlett da lugar a puntuaciones correladas con las pun-

tuaciones teóricas, insesgadas y unívocas. En el caso de que los factores
sean ortogonales, puede dar lugar a puntuaciones correladas.
3. El método de Anderson-Rubin da lugar a puntuaciones ortogonales que

están correladas con las puntuaciones teóricas. El estimador no es inses-
gado ni es unívoco.
Las puntuaciones factoriales exactas sólo pueden calcularse cuando se

utiliza el método de componentes principales y con el resto de métodos se
calcula una estimación de las mismas.
1.4.5 Interpretación de resultados
La interpretación de los factores se basa en las correlaciones estimadas

de los mismos con las variables del problema. Sin pérdida de generalidad si
se supone las variables normalizadas y si los condicionantes del modelo
factorial se cumplen, se tiene que:
cov( zh fk )
cor ( zh fk )
V ( zh )V ( fk )
pero como V(zh)=1 por ser reducida, y V(f k)=1 por las condiciones del mode-
m
lo, entonces cor(zh, f k)=cov(zh, f k)= ahj cov( f j fk ) =ahk para todo h, h=1,…, n
j1
y todo k, k=1,…, m, si los factores son ortogonales.
Por tanto juega un papel clave en la interpretación la matriz de cargas

2
factoriales. Además, si los factores son ortogonales, ahk representa el por-
centaje de las varianza de la variable zh explicada por el factor f k.
Para una mejor interpretación de los factores existe dos primeras estra-
tegias: a) agrupar las variables que tienen una mayor carga respecto al mis-
mo factor; para esto se puede requerir cuando se realiza los cálculos me-
diante un programa estadístico, que se organice las variables de modo que
aparezcan juntas aquellas con mayor carga en un factor, y b) omitir las
cargas pequeñas (la idea de carga grande o pequeña siempre estará en fun-
ción de cada estudio y contexto teórico), e incluso que se suprima aquella
variable cuyo peso factorial sea inferior a un determinado valor (por ejem-
plo inferior a 0,3). Además, a efectos prácticos, en la interpretación de los
factores se aconseja los dos pasos siguientes:
a) Identificar las variables cuyas correlaciones con el factor son las más
elevadas en valor absoluto.
b) Intentar dar un nombre a los factores. El nombre debe asignarse de
acuerdo con la estructura de sus correlaciones con las variables, tenien-
do en cuenta si dicha correlación es positiva o negativa. De esta forma,
analizando con qué variables tiene una relación fuerte es posible, en la
mayoría de los casos, hacerse una idea más o menos clara de cuál es el
significado de un factor.
Otro elemento de ayuda en la interpretación de los factores es la repre-

sentación gráfica de los resultados obtenidos. La representación se hace
tomando los factores dos a dos. Cada factor representa un eje de coordena-
das. A estos ejes se les denomina ejes factoriales. Sobre estos ejes se pro-
yectan las variables originales. Las coordenadas vienen dadas por los res-
pectivos coeficientes de correlación entre la variable y el factor de forma
que las variables saturadas en un mismo factor aparecen agrupadas. Esto
puede ayudar a descubrir la estructura latente de este factor. Las variables
al final de un eje son aquellas que tienen correlaciones elevadas sólo en ese
factor y, por consiguiente, lo describen. Las variables cerca del origen tie-
nen correlaciones reducidas en ambos factores. Las variables que no están
cerca de ninguno de los ejes se relacionan con ambos factores.
Los resultados de investigaciones donde se utilice el análisis factorial
pueden variar en función de:
— Las comunalidades. Que en la mayoría de los casos se calculan me-
diante un proceso numérico de aproximación, y por consiguiente son
aproximaciones de las comunalidades verdaderas.
— Los métodos de extracción factorial. Los factores inicialmente extraí-

dos por un método u otro pueden ser distintos y por tanto llegar a dis-
tintas soluciones.
— El número de factores extraídos. La limitación a un número de factores

acota la cantidad de varianza explicada por los mismos y en conse-
cuencia la información que pueden aportar.
— Como rotar los factores. Diferentes procedimientos de rotación llevan a

distintas agrupaciones de variables y consiguientemente, en algunos
casos, a dispares interpretaciones de los factores.
Además tiene, entre otras, las siguientes fuentes de error:
— El uso de variables con distribuciones sesgadas, bimodales, con casos

extremos o con regresiones no lineales.
— El uso de datos experimentalmente no independientes.
— Indeterminación de los factores. Debe haber, por lo menos, cinco varia-

bles indicadoras por cada factor (Comrey, 1985).
— Utilización de demasiadas variables complejas o muy similares. Es de-

cir, no tener unas buenas variables indicadoras.
— No incluir suficientes factores en el análisis. Como mínimo, habrá que

respetar la norma de SPSS de coger el mismo número de factores que
el de valores propios mayores de 1 (uno de los criterios de extracción de
factores visto anteriormente).
— Interpretar un factor con pesos o saturaciones bajas.
Finalmente la posibilidad de generalización de los resultados, es decir,

de alguna forma una validación del modelo, se puede abordar de dos for-
mas, una mediante el análisis factorial confirmatorio, y otra mediante la
división de la muestra total en dos submuestras y comparar la estructura
factorial resultante de ambos procesos.
2. ANÁLISIS DE CONGLOMERADOS
2.1.1. Definición
La idea de clasificar se entronca con la noción de ciencia. Los científicos

en su actividad persiguen realizar distintas agrupaciones en función de sus
variables de estudio. No existe una clasificación perfecta, pero si una cate-
gorización mejor que otra. La clasificación, en la ciencia, es el primer paso
para el hallazgo de la estructura del fenómeno que se estudia.
El análisis de clúster consiste en clasificar las observaciones de las va-
riables en grupos lo más homogéneo posible en función de valores observa-
dos; es decir, se pretende la máxima homogeneidad de los objetos dentro de
los grupos, mientras se mantiene la heterogeneidad entre los mismos. Es
una técnica exploratoria, no inferencial, descriptiva, sin variables depen-
dientes. Su solución no es única sino que depende de la muestra asociada,
de la medida de similitud, de las variables, etc. Presenta cierta semejanza
con el análisis discriminante, al permitir ambos clasificar individuos en
categorías, pero se diferencia de éste; en el análisis de clúster no se conocen
a priori el grupo de procedencia y en el discriminante sí. También tiene si-
militudes con el análisis factorial de individuos en la idea de resumir la
matriz de datos.
2.1.2. Objetivos
El objetivo fundamental del análisis de clúster es la formación de gru-

pos, para lo cual el investigador debe tomar varias decisiones: a) qué medi-
da de similitud utilizar para controlar la proximidad entre las unidades de
análisis; b) cómo formar los conglomerados: mediante un procedimiento
jerárquico, mediante uno no jerárquico, como por ejemplo el de k-medias y
mediante un método de máxima verosimilitud y c) cuantos grupos formar.
En las tres decisiones el investigador tiene entera libertad, no obstante, en
la última, el investigador debe tener presente que a menor número de con-
glomerados menor homogeneidad intra-grupo. Es, por tanto, una técnica
muy subjetiva.
En el caso de agrupar variables el proceso de formación es exactamente

el mismo que para casos cuando se utilizan los métodos jerárquicos, lo que
varía es la medida de similitud elegida; es decir, es conveniente que la ma-
triz de similitud esté calculada a partir de medidas adecuadas para compa-
rar variables. Una medida de proximidad muy utilizada en el caso de varia-
bles, es el valor absoluto del coeficiente de correlación, dado que tiene en
cuenta el grado de asociación entre las variables, independientemente de la
dirección de dicha asociación.
El análisis de conglomerados de variables es menos restrictivo que el
análisis factorial, no exige linealidad, y permite el uso de variables categóri-
cas, pero es más subjetivo que éste porque el resultado depende de la medi-
da de distancia tomada y el método de formación de los conglomerados.
Entre las principales aplicaciones de esta metodología figuran: a) la for-
mulación de una taxonomía (clasificación de objetos realizada empíricamen-
te), o para contrastar una tipología (clasificación basada en una teoría) defi-
nida previamente; b) simplificación de datos al poder escoger muestras
homogéneas; c) identificar relaciones entre observaciones (Hair, 1999, p. 500).

2.2.1. Diseño
Una vez eliminados los casos atípicos, para conseguir la formación de

conglomerados necesitamos realizar varias elecciones:
a) Elección de las variables para el análisis.
b) Elección de la medida de proximidad o semejanza entre individuos o
variables.
c) Elección del criterio para agrupar a los individuos en conglomerados
(grupos): algoritmos de clasificación.
d) Elección del número de conglomerados.
2.2.1.1. Selección de las variables
Se deben coger variables que caractericen a los objetos respecto algún

criterio elegido por el investigador y que tengan gran poder discriminativo.
En la elección de las variables para el análisis se pueden plantear tres

tipos de problemas:
— las variables están en diferentes unidades;
— el número de variables es muy grande;
— las variables están correlacionadas.
Cuando las variables están expresadas en diferentes unidades o rango
de medida, lo que procede, es “normalizarlas” o tipificarlas para que tengan
un rango común. También se puede tipificar las observaciones por ejemplo
para eliminar casos que presentan tendencia o sesgo hacia un tipo de res-
puesta.
Para resolver los dos últimos problemas debemos usar el método facto-
rial con el procedimiento de los componentes principales que, como sabe-
mos, reduce el número de variables a aquellas más significativas, las que
explican una mayor cantidad de varianza (método de componentes princi-
pales), y que además produce variables no correlacionadas entre sí. Para la
última opción, aun así, tenemos la posibilidad de utilizar medidas de simi-
litud que no se ven afectadas por la correlación entre variables, como puede
ser la distancia de Mahalanobis.
2.2.1.2. Elección de la medida de proximidad
La proximidad expresa el grado de semejanza que existe entre variables

o individuos, es decir el grado similaridad (asociación) o el grado de disimi-
laridad (distancia) entre aquellos.
La similaridad (sij) entre dos individuos Ai y Aj es una medida del grado
de semejanza o similaridad entre ambos. La mayoría de los coeficientes de
similaridad varían de 0 a 1.
Existen algunos coeficientes de similaridad que expresan dependencia
estocástica entre Ai y Aj y varían de –1 a 1. Indicando máxima similaridad
para el valor de 1 y mínima para –1. El valor 0 será indicador de indepen-
dencia estocástica.
Las propiedades que pueden tener una distancia o disimilaridad, repre-
sentada por d, son todas o algunas de las siguientes:
1. dij ≥ 0
2. dii=0
3. dij=dji (simetría)
4. dij≤dik+dkj (desigualdad triangular)
5. d(i, j)=0 iŁj
6. d(i, j)≤máx. {d(i, t), d(j, t)} (desigualdad ultramétrica)
m
7. d( i, j) = ∑(x
k=1
ik − xjk )2 (euclídea)
El ejemplo más conocido de distancia es la euclídea. Se cumple que a

mayor distancia entre individuos más distintos son los mismos. Una distan-
cia recibe diferentes denominaciones según las propiedades que verifica
(Cuadras 1991, p. 372):
— Disimilaridad: 1, 2 y 3.
— Distancia métrica: 1, 2, 3, 4 y 5.
— Distancia ultramétrica: 1, 2, 3 y 6.
— Distancia euclídea: 1, 2, 3, 4 y 7.
En la mayoría de los casos a todo coeficiente de similaridad sij tal que
0≤sij≤1, se le puede hacer corresponder una distancia poniendo: d(i, j)=1-sij
Resulta muy conocida la clasificación de Sneath y Sokal (1973) de los
coeficientes de similaridad:
— Coeficientes de correlación.
— Medidas de distancia.
— Coeficientes de asociación.
— Medidas de similaridad probabilística.
Los coeficientes de correlación para medir la proporcionalidad o inde-
pendencia estocástica entre los vectores de variables o individuos. El más
conocido es el coeficiente de correlación de Pearson.
Las medidas de distancia o disimilitud como una medida de proximi-
dad entre individuos. La más utilizada es la distancia euclídea.
Los coeficientes de asociación utilizados sobre todo para datos cualita-

tivos como medida de concordancia entre dos columnas de datos. Por ejem-
plo el coeficiente de similitud de Russell y Rao.
Los coeficientes de similitud probabilística se utilizan como una medida

del buen ajuste de una distribución estadística. Los coeficientes construidos
son aditivos y se distribuyen como una ji-cuadrado, por lo que se puede ha-
cer inferencia sobre los mismos.
Coeficientes de similaridades
a) Para datos en intervalo
Fundamentalmente se utiliza el coeficiente de correlación de Pearson:
cov( x, y)
S( x, y)
var( x) var( y)
Por ejemplo si: cov(x, y)=30,247; var(x)=33,641; var(y)=36,542 el coefi-

ciente de correlación será: 0,863
También se utiliza como medida de similaridad el coseno que forman

los vectores de las dos variables, es decir:
∑x y i i
cos( x, y) = i
∑ ( x )∑ ( y )
i
2
i
i
2
i
Con los datos utilizados en el coeficiente de correlación de Pearson el

valor de cos(x, y) será: 0,994
b) Para datos binarios (presencia o ausencia de una característica)
Existen numerosas medidas de similaridad para variables dicotómicas:

Russell y Rao, Concordancia simple, Jaccard, Dice, Rogers y Tanimoto,
Sokal y Sneath 1, Sokal y Sneath 2, Sokal y Sneath 3, Kulczynski 1, etc.
Todas estas medidas parten de una tabla de contingencia de doble entrada:
Variable y
Presencia Ausencia
Variable x Presencia a b
Ausencia c d
n=a+b+c+d
Salvo que se diga lo contrario, todos estos coeficientes varían de 0 a 1,
donde 1 será indicador de máxima similaridad y 0 de mínima.
1. Medidas de similaridad:
a) Russel y Rao:
a
RRxy
n
b) Concordancia simple:
a d
PSxy
n
c) Jaccard:
a
J xy
a b c
d) Dice, Czekanowski y Sorenson:

2a
Dxy
2a b c
e) Sokal y Sneath:
2( a d)
SSxy
2( a d) b c
f) Rogers y Tanimoto:
a d
RTxy
a d 2( b c)
g) Sokal y Sneath (medida 2):

a
SS2 xy
a 2( b c)
h) Kulczynski:
a
K xy
b c
Puede obtener un valor superior a 1 cuando b=c=0. El programa SPSS

pone en este caso 999,999
i) Sokal y Sneath (medida 3):
a d
SS3xy
b c
Puede obtener un valor superior a 1 cuando b=c=0. El programa SPSS

pone en este caso 999,999
j) Ochiai
a a
Oxy ¸
a b a c
Es la alternativa binaria del coseno (para variables continuas)

k) Sokal y Sneath (medida 5):
ad
SS5xy
( a b)( a c)( b d)( c d)
l) Coeficiente de correlación phi:

ad bc
Gxy
( a b)( a c)( b d)( c d)
Su rango de valores va de –1 a 1
m) Dispersión:
ad bc
Dxy
n2
Su rango de valores va de –1 a 1
Ejemplo: Dada la siguiente tabla de datos de dos individuos medidos en

ocho características dicotómicas:
⎛ .... .. .. .. .. .. .. .. ..⎞⎟
⎜⎜ ⎟
⎜⎜ individuo i 1 0 1 1 0 1 0 1⎟⎟⎟
⎜⎜ ⎟⎟
⎜⎜ .... .. .. .. .. .. .. .. ..⎟⎟
⎜⎜ ⎟⎟
⎝ individuo j 0 1 1 1 0 0 1 1⎟⎠
Se puede plantear la siguiente tabla asociada:
Individuo j
Presencia (1) Ausencia(0)
Presencia (1) 3 2
Individuo i
Ausencia (0) 2 1
Los coeficientes de similitud entre el individuo i y el j (sij) tomarán el

valor:
— Russel y Rao ..................0,375
— Concordancia simple ...... 0,5
— Jaccard ........................ 0,429
— Dice .................................. 0,6
— Rogers y Tanimoto ...... 0,333
— Sokal y Sneath 1 ......... 0,667
— Sokal y Sneath 2 ......... 0,273
— Sokal y Sneath 3 ................ 1
— Kulczynsk 1 ................... 0,75
— Ochiai .............................. 0,6
— Sokal y Sneath 5 ............. 0,2
— Correlación phi ......... –0,067
— Dispersión ................. –0,016
2. Medidas de similitud de probabilidades condicionales:
a) Kulczynski (medida 2)
a a

( a b) ( a c)
K 2 xy
2
b) Sokal y Sneath (medida 4):

a a d d

( a b) ( a c) ( b d) ( c d)
SS4 xy
4
c) Hamann
( a d) ( b c)
Hxy
n
Su valor va de –1 a 1
Ejemplo: Utilizando los datos anteriores los valores que tomarán los
coeficientes de similaridad entre el individuo i y el j serán:
— Kulczynsk 2 ..................... 0,6
— Sokal y Sneath 4 ......... 0,467
— Hamann ............................ 0
3. Medidas de predicción:
a) D de Anderberg
max( a, b) max( c, d) max( a, c) max( b, d) max( a c, b d) max( a b, c d)
Dxy
2n
b) Lambda de Goodman y Kruskal

max( a, b) max( c, d) max( a, c) max( b, d) max( a c, b d) max( a b, c d)
Mxy
2n
c) Y de Yule
ad bc
Yxy
ad bc
Varía de –1 a 1
d) Q de Yule
ad bc
Qxy
ad bc
Varía de –1 a 1
Ejemplo: Con los datos anteriores los valores que tomarán los coeficien-
tes de similaridad entre el individuo i y el j serán:
— D de Anderberg.................................. 2,5
— Lambda de Goodman y Kruskal.... 0
— Y de Yule........................................... –0,072
— Q de Yule........................................... –0,143
c) Para datos en diferentes niveles de medición
Cuando se analiza variables en diferentes niveles de medición cabe dife-

rentes tipos de estrategias: a) convertir las variables continuas en dicotómi-
cas, con la consiguiente pérdida de información; b) pasar las categóricas a
continuas mediante las variables dummy. Así por ejemplo, la variable esta-
do civil (x) con los valores: soltero, casado, separado y viudo, se puede con-
vertir en las cuatro variables:
Sí No
X1 (soltero) 1 0
X2 (casado) 1 0
X3 (separado) 1 0
X4 (viudo) 1 0
asi un inidviduo soltero tomara los valores x1=1, x2=0, x3=0, x4=0; c) también
se puede formar grupos de variables con el mismo nivel de medida y estu-
diar los mismos por separado. Y d) finalmente analizar las variables de
forma conjunta con diferentes niveles de medición. Esta última estrategia
nos llevaría a utilizar como coeficiente de similaridad el de Gower:
s ijk wijk
sij k1
p
w
k1
ijk
Donde sijk representa el valor de la similitud en la variable k para los in-

dividuos i y j e wijk es una ponderación o peso que se da a la variable k, cuyo
valor será 1 si resulta válida la comparación entre los individuos i y j y 0 si
no es válida, por ejemplo porque uno de los ellos falte o el investigador deci-
da que no procede la comparación.
— Cuando k es una variable categórica sijk vale 1 cuando para los indivi-
duos i y j tienen el mismo valor y 0 cuando tienen valores distintos.
— Cuando k es una variable no categórica entonces:
sijk 1 | xik xjk | / Rk
donde xik y xjk son los valores individuales de la variable k y R k es el rango de

la variable k en el grupo.
Ejemplo: Supongamos el siguiente ejemplo. Sean los valores de 5 estu-

diantes en unas pruebas de comportamiento, junto con algunas caracterís-
ticas físicas. Se quieres saber la similitud entre el estudiante 1 y el 2. Además
el investigador no desea utilizar la variable tolerancia:
Estudiante Peso (kg) Grado de estrés ¿Es agresivo? ¿Es tolerante? Altura
1 55,2 Medio No No Pequeño
2 69 Bajo Si No Mediano
3 50,6 Alto Si Si Alto
4 66,7 Medio No Si Alto
5 55,2 Medio No Si Pequeño
13,8
1* (1 ) 1* 0 1* 0 0 *1 1* 0
18, 4
s12 0,0625
1 1 1 0 1
Coeficientes de disimilaridades (distancias)
a) Para datos en intervalo
a1. La distancia euclidiana

Si los individuos están situados en el punto 1 y 2 del plano y los valores
de las variables son las proyecciones de cada punto sobre los ejes (que re-
presentan las variables) entonces la distancia entre ellos es:
d12 X 2 X1
+ Y2 Y1
2 2
si tenemos m individuos llegamos a la siguiente expresión dada en forma

matricial:
dij2=(xi-xj)´(xi-xj)=d´d
conocida como distancia euclídea al cuadrado.
Naturalmente, cuanto menor sea la distancia entre dos puntos (indivi-

duos) más similaridad hay entre ellos.
a2. La distancia de Mahalanobis
La distancia de Mahalanobis, también en notación matricial es:
dij2=(xi-xj)´S -1(xi-xj)
siendo S la matriz de covarianza.
La ventaja de la distancia de Mahalanobis sobre la distancia euclídea es
que permite que las variables estén correlacionadas. En el caso que las co-
rrelaciones sean cero la distancia de Mahalanobis es igual a la euclídea
medida con variables estandarizadas.
a3. Otras distancias para medidas en intervalo

La distancia de Chebychev. Es una distancia no euclídea, cuya expresión
es:
d(x, y)=maxi|xi-yi|
La seudoeuclídea o euclídea al cuadrado.
d( x, y) = ∑ ( xi − yi )2
i
Distancia de Manhattan o City-block

Bxy=∑|xi-yi|
Distancia en un poder métrico absoluto
Pxy=(∑|xi-yi|p)1/r
Si r=p entonces se trata de la distancia de Minkowski.
Ejemplo: Los valores de cociente intelectual (x) y rapidez de lectura en

palabras por minuto (y) de seis alumnos es:
x y
60,00 75,00
100,00 124,00
130,00 162,00
87,00 98,00
75,00 87,00
112,00 120,00
La matriz de distancias para los seis individuos será:
Distancia euclídea
1 2 3 4 5 6
1 ,000 63,253 111,665 35,468 19,209 68,768
2 63,253 ,000 48,415 29,069 44,654 12,649
3 111,665 48,415 ,000 77,104 93,005 45,695
4 35,468 29,069 77,104 ,000 16,279 33,302
5 19,209 44,654 93,005 16,279 ,000 49,578
6 68,768 12,649 45,695 33,302 49,578 ,000
Esta es una matriz de disimilaridades.
Distancia euclídea al cuadrado

1 2 3 4 5 6
1 ,000 4001,000 12469,000 1258,000 369,000 4729,000
2 4001,000 ,000 2344,000 845,000 1994,000 160,000
3 12469,000 2344,000 ,000 5945,000 8650,000 2088,000
4 1258,000 845,000 5945,000 ,000 265,000 1109,000
5 369,000 1994,000 8650,000 265,000 ,000 2458,000
6 4729,000 160,000 2088,000 1109,000 2458,000 ,000
Distancia de Chebychev
1 2 3 4 5 6
1 ,000 49,000 87,000 27,000 15,000 52,000
2 49,000 ,000 38,000 26,000 37,000 12,000
3 87,000 38,000 ,000 64,000 75,000 42,000
4 27,000 26,000 64,000 ,000 12,000 25,000
5 15,000 37,000 75,000 12,000 ,000 37,000
6 52,000 12,000 42,000 25,000 37,000 ,000
Distancia de bloques de ciudad

1 2 3 4 5 6
1 ,000 89,000 157,000 50,000 27,000 97,000
2 89,000 ,000 68,000 39,000 62,000 16,000
3 157,000 68,000 ,000 107,000 130,000 60,000
4 50,000 39,000 107,000 ,000 23,000 47,000
5 27,000 62,000 130,000 23,000 ,000 70,000
6 97,000 16,000 60,000 47,000 70,000 ,000
Distancia de Minkowski (2)

1 2 3 4 5 6
1 ,000 63,253 111,665 35,468 19,209 68,768
2 63,253 ,000 48,415 29,069 44,654 12,649
3 111,665 48,415 ,000 77,104 93,005 45,695
4 35,468 29,069 77,104 ,000 16,279 33,302
5 19,209 44,654 93,005 16,279 ,000 49,578
6 68,768 12,649 45,695 33,302 49,578 ,000
Distancia de potencia (3,2)

1 2 3 4 5 6
1 ,000 426,203 1000,751 178,466 71,435 481,387
2 426,203 ,000 286,133 140,616 257,445 42,332
3 1000,751 286,133 ,000 584,509 766,975 282,701
4 178,466 140,616 584,509 ,000 55,308 162,089
5 71,435 257,445 766,975 55,308 ,000 294,262
6 481,387 42,332 282,701 162,089 294,262 ,000
La distancia de Mahalanobis no está disponible en el comando proximi-

ties del programa SPSS y por tanto se debe acudir a su cálculo de forma
manual o mediante un programa preparado ‘ad hoc’. En nuestro caso se ha
optado por realizar una función en R con los siguientes resultados:
Distancia de Mahalanobis
1 2 3 4 5 6
1 0.000 1.584 2.793 1.600 0.966 3.014
2 1.584 0.000 1.215 1.449 1.351 2.418
3 2.793 1.215 0.000 2.356 2.480 2.746
4 1.600 1.449 2.356 0.000 0.639 1.415
5 0.966 1.351 2.480 0.639 0.000 2.053
6 3.014 2.418 2.746 1.415 2.053 0.000
b) Para datos cualitativos no binarios
Se utilizan las dos medidas siguientes:
b1. Distancia ji-cuadrado
< xi E( xi )> < yi E( yi )>

2 2
dD
2
xy E( xi )

E( yi )
Donde xi, yi son las frecuencias observadas para la categoría i de la va-

riable x ó y e E(xi), E(yi) son las frecuencias esperadas en la hipótesis de in-
dependencia entre los elementos.
Su valor va de 0 (máxima similitud) a infinito
b2. Distancia phi-cuadrado
dDxy
2
d'2xy
n
Su valor va de 0 (similitud plena) a 1 (máxima disparidad o disimilitud)
Ejemplo: La valoración de 71 estudiantes en dos ítems de un cuestiona-

rio de autoestima, en una escala de cuatro valores que van desde el 1 (muy
mal) hasta el 4 (muy bien) es:
Item2
Item1 1 2 3 4
1 8 4 4 3 19
2 5 6 5 4 20
3 3 3 10 2 18
4 4 2 6 2 14
20 15 25 11 71
Calcular la distancia ji-cuadrado y la phi-cuadrado.

La distancia entre los dos ítems viene expresado en las tablas siguientes:
Chi cuadrado entre conjuntos

de frecuencias
ITEM1 ITEM2
ITEM1 ,000 5,417
ITEM2 5,417 ,000
Phi cuadrado entre conjuntos

de frecuencias
ITEM1 ITEM2
ITEM1 ,000 ,295
ITEM2 ,295 ,000
c) Para datos en binario
Se utilizan medidas que hemos visto en el apartado de similaridades:

Distancia euclídea, Distancia euclídea al cuadrado, Diferencia de tamaño,
Diferencia de configuración, Varianza, Forma y Lance y Williams.
Como anteriormente, todas estas medidas parten de una tabla de con-
tingencia de doble entrada:
Variable y
Presencia Ausencia
Presencia a b
Variable x
Ausencia c d
c.1) Distancia euclídea binaria

EBxy b c
donde b y c representan las casillas diagonales correspondientes a los casos

presentes en un elemento pero ausentes en el otro.
c.2) Distancia euclídea binaria al cuadrado

EBxy2=b+c
luego representa el número de casos discordantes. Su valor mínimo es 0 y
no tiene límite superior.
c.3) Diferencia de tamaño

( b c)2
Txy
n2
Se trata de un índice de asimetría. Oscila de 0 a 1.

c.4) Diferencia de configuración

bc
Pxy
n2
Sus valores oscilan de 0 a 1
c.5) Varianza
b c
Vxy
4n
No tiene límite superior, pero si inferior que es 0.
c.6) Forma
No tiene ni límite superior ni inferior y penaliza la asimetría de las dis-

cordancias.
n( b c) ( b c)2
DBFxy
n2
c.7) Lance y Williams

Esta medida oscila entre 0 y 1. También se conoce como el coeficiente
no métrico de Bray-Curtis.
b c
LWxy
2a b c
Ejemplo: Dada la tabla anterior de datos de dos individuos medidos en

ocho características dicotómicas:
⎛ .... .. .. .. .. .. .. .. ..⎞⎟
⎜⎜ ⎟
⎜⎜ individuo i 1 0 1 1 0 1 0 1⎟⎟⎟
⎜⎜ ⎟⎟
⎜⎜ .... .. .. .. .. .. .. .. ..⎟⎟
⎜⎜ ⎟⎟
⎝ individuo j 0 1 1 1 0 0 1 1⎟⎠
Se puede plantear la siguiente tabla asociada:
Individuo j
Presencia (1) Ausencia (0)
Presencia (1) 3 2
Individuo i
Ausencia (0) 2 1
Las distancias entre el individuo i y el j (dij) tomarán el valor:

— Distancia euclídea binaria ............................ 2
— Distancia euclídea binaria al cuadrado ....... 4
— Diferencia de tamaño .................................... 0
— Diferencia de configuración ................... 0,063
— Varianza .................................................. 0,125
— Forma .......................................................... 0,5
— Lance y Williams ........................................ 0,4
Transformar valores
La transformación de valores, a la hora de calcular las proximidades,
son necesarios para:
— Datos cuantitativos en una escala aproximadamente lineal: cuando las
medidas están en diferentes escalas, la variable con medidas mayores
contribuye más, al calcular las distancias, que la variable con medidas
menores. La forma recomendada para superar estas desventajas consiste
en transformar las medidas de las variables en medidas estandarizadas.
— Datos que sean rangos de observaciones (escala ordinal). Se suelen tipi-
ficar en una escala de [0,1] (rango 0 a 1 de SPSS).
— Datos cuantitativos en una escala no lineal se transforman en una es-
cala lineal, por ejemplo mediante una transformación logarítmica.
Transformar medidas
Además de transformar los valores se puede transformar la medida de
distancia una vez calculada esta. Las opciones disponibles son: Valores ab-
solutos, Cambiar el signo y Cambiar la escala al rango 01. En este último
caso para obtener los nuevos valores se resta a los primitivos la distancia
más pequeña y cada nueva distancia se divide por el rango o amplitud de
todas las distancias.
2.2.1.3. Elección del método para la formación de conglomerados
Los métodos para la formación de conglomerados se clasifican de dis-

tinta manera, según distintos autores. La más universal los divide en: méto-
dos jerárquicos y métodos no jerárquicos. El primero es idóneo para deter-
minar el número de conglomerados de los datos y el segundo se utiliza
fundamentalmente cuando existe un volumen importante de datos y parte
de la elección del número de conglomerados a formarse y utiliza métodos
aglomerativos. Ambos métodos, a su vez, se subdividen conforme la siguien-
te tabla (Cea, 2002, p. 238)
Tabla 3.2. Clasificación de los algoritmos de clasificación

en el análisis de clúster
Jerárquicos No jerárquicos (partitativos o de optimización)
Aglomerativos Disociativos Búsqueda

Reasignación Directos
o ascendentes o descendentes de la densidad
Distancia min. Partición binaria de K-medias Aproximación Block
Distancia máx. Howard-Harris Quick cluster tipológica: clustering
Promedio entre grupos Promedio entre grupos Nubes dinámicas Análisis modal
Media ponderada Ward Taxmap
Centroide Fortin
Mediana Aproximación
probabilística:
Ward
Wolf
Insistimos que según el método elegido y la medida de similitud o dis-

tancia se puede llegar a distintos resultados. De todos los métodos y distan-
cias los más utilizados son el método del centroide y como distancia la
euclídea al cuadrado. Es interesante comparar resultados con distintos mé-
todos y/o medidas de proximidad.
2.2.1.4. Elección del número de conglomerados
Fundamentalmente, existen tres formas de elegir el número de conglo-

merados:
— Según algún criterio teórico.
— En los métodos jerárquicos, mediante el dendrograma, cuando exista

una fuerte variación en la medida de distancia será indicador del nú-
mero de conglomerados a elegir y su constitución. Para lo cual, si la
representación del dendrograma es horizontal, se procederá a trazar
una recta vertical que segmentará el mismo y se identificarán por el
número de rectas horizontales el número de conglomerados y en éstos
su composición.
— Como el análisis factorial exploratorio, en el análisis de conglomerados
se puede elaborar un gráfico de sedimentación. Se representará en el
eje de ordenadas el coeficiente de conglomeración (en la mayoría de los
casos, el mínimo valor de la tabla de distancias, en los procedimientos
jerárquicos) y en el eje de abscisas el número de conglomerados asocia-
do a tal coeficiente. El número a partir del cual se estabiliza la curva de
representación será indicador del número de conglomerados a elegir.
También se puede realizar un gráfico similar pero poniendo en el eje
de ordenadas la varianza intragrupal y en abscisas el número de con-
glomerado, marcando el número óptimo de conglomerados la disminu-
ción brusca del valor de dicha varianza.
Antes de tomar cualquier decisión relacionada con el diseño, se necesita

eliminar casos atípicos porque pueden distorsionar los resultados.
Además de los casos atípicos, el análisis de clúster se ve afectado por la
representatividad de la muestra, fundamentalmente, para poder generali-
zar los resultados y por la multicolinealidad. Esta última tiene importancia
porque las variables que son multicolineales tienen mayor peso en la mues-
tra, de ahí que desvirtúen la información de los grupos donde están repre-
sentadas.
Una forma de atenuar el efecto de la multicolinealidad es utilizar como
medida de proximidad la distancia de Mahalanobis.
El procedimiento jerárquico tiene por limitaciones de cálculo y de inter-
pretación un tamaño de aproximadamente 200 casos como máximo. Para
valores superiores se aconseja el procedimiento de k-medias.
El procedimiento de formación de conglomerados no jerárquico de k-

medias necesita que las variables sean de intervalo u ordinales y que estén
dadas en la misma escala de medida. No obstante, éste último inconvenien-
te se puede solucionar transformando la escala, por ejemplo mediante tipi-
ficación de la misma.
2.4. Procedimiento
Después de elegidas las variables, su distancia o similitud, debemos se-

leccionar el algoritmo de clasificación. Estos algoritmos, según se ha visto
(tabla 3.2), se pueden clasificar en métodos jerárquicos y no jerárquicos.
Los métodos jerárquicos no examinan muestras muy grandes por la
complejidad que presentan los cálculos y su interpretación. Este tipo de
muestras deben ser tratadas por los no jerárquicos. Además estos últimos se
ven afectados menos que los primeros por: los casos atípicos, la medida de
distancia utilizada y la inclusión de variables irrelevantes; pero son vulnera-
bles a la elección del punto de origen o semilla para el comienzo del cálculo.
Es interesante la combinación de los métodos jerárquicos con los que no
lo son. Partiendo de una muestra y utilizando los primeros, esta unión ayu-
da al cálculo del número de conglomerados, los puntos de comienzo o semi-
lla, e identifica puntos atípicos. Después se utilizará los métodos no jerár-
quicos para el tratamiento de todo el colectivo.
2.4.1 Métodos jerárquicos
Los métodos jerárquicos para la formación de conglomerados se basan

en la construcción de un árbol de clasificación.
Estos métodos de clasificación se pueden dividir en métodos aglomera-
tivos y métodos disociativos o divisivos:
2.4.1.1. Métodos aglomerativos o ascendentes
Comienzan el análisis con tantos conglomerados como individuos (cada

individuo es un conglomerado inicial). A partir de estas unidades iniciales
se van formando grupos de forma ascendente, agrupando cada vez más in-
dividuos en los sucesivos conglomerados que se vayan formando. En cada

paso se unen dos elementos o grupos de elementos que están más próximos
según la medida de distancia elegida. Al final del proceso todos los casos
estarán en un único conglomerado.
La elección de un método de conglomeración apropiado determina la
idoneidad de la solución alcanzada. Las pistas para elegir éste método ven-
drán dadas por la configuración de la estructura de datos y la forma multi-
variante de la nube de puntos.
Entre los métodos aglomerativos están: el método de las distancias mí-
nimas, el método de las distancias máximas, el método del promedio intra
grupos, el promedio entre grupos, método del centroide, método de Ward y
método de la mediana.
2.4.1.2. Métodos disociativos o descendentes
Se parte de un único conglomerado, se va dividiendo en grupos más pe-

queños hasta llegar a cada uno de los sujetos como conglomerado.
Entre los métodos descendentes está el de Howard-Harris. Está pensado
sobre todo para variables dicotómicas porque en cada paso se elegirá la va-
riable que maximice la disociación medida mediante el estadístico ji-cuadra-
do de la tabla de contingencia. Un grupo muy destacado de métodos disocia-
tivos toman nombre de la forma de representación más utilizada, son los
llamados “árboles de segmentación”, el más conocido es el algoritmo CHAID.
2.4.2. Métodos no jerárquicos
Realizan una partición de los individuos en k grupos; el investigador

debe fijar, a priori, el número de grupos que debe formarse. La asignación
de individuos a los grupos se hace mediante algún proceso que optimice el
criterio de clasificación. Entre este tipo de métodos se encuentran: el méto-
do de k-medias, el método de quick clúster y el método de Forgy, entre mu-
chos otros.
2.4.2.1. Método de k-medias
Se basa en la conformación aglomerativa de casos (no permite la agru-

pación de variables). Se parte de los k-casos más distantes (previamente
hay que definir el número de clúster a formar) y luego se va leyendo todos

los datos asignándolos al centro (centroide) más próximo. El valor del
centroide se recalcula conforme se añaden los datos. Cuando se han in-
cluido todos los datos el procedimiento k-medias calcula los centroides
finales.
Utiliza siempre como medida de distancia la euclídea y sirve tanto para
variables cuantitativas continuas como para ordinales. Pero en ambas ésta
distancia se ve afectada por la variabilidad de las variables y por tanto si
tienen distinto rango será aconsejable la transformación de las mismas an-
tes del análisis. Una transformación aconsejable puede ser la tipificación,
transformación en variables z de media 0 y desviación 1.
La transformación de los datos no sólo genera ventajas, sino que presen-
ta un inconveniente a la hora de interpretar resultados, por manejar una
escala distinta a la inicial de las variables.
El programa SPSS tiene la posibilidad de partir de unos centroides da-
dos por el usuario o calcular los mismos. En esta segunda opción se acon-
seja repetir los cálculos con diferente número de conglomerados (recuérde-
se que en éste procedimiento el usuario debe definir previamente el número
de clúster a formar).
En los últimos años en numerosas investigaciones sociales, la aplicación
conjunta del procedimiento jerárquico de Ward y el no jerárquico de k-me-
dias ha llegado a ser práctica habitual. Con el procedimiento de Ward en
una pequeña muestra aleatoria se obtiene el número de conglomerados, sus
centroides y los casos atípicos; luego el método de k-medias partiendo de los
datos conseguidos por Ward conseguirá clasificar los casos en los conglo-
merados definidos.
A la hora de interpretar los resultados del análisis de conglomerados

resulta útil elaborar el perfil de los grupos en términos de las variables uti-
lizadas. Para lograr ese objetivo se puede emplear distintas estrategias:
a) relacionar los grupos formados con ciertas variables del estudio y de ahí
sacar información para poder caracterizar los mismos; b) emplear el análi-
sis discriminante y cogiendo como variable de clasificación el número de
conglomerado al que pertenece la observación, ver que variables influyen

en cada conglomerado, es decir, el perfil del conglomerado.
Esta última estrategia nos ayuda en el siguiente proceso: si fijamos a
priori unas variables como predictoras para clasificar grupos, la relación
entre los resultados obtenidos y las variables empleadas, sirven como vali-
dez concurrente de estas últimas, al constatar la asignación de los indivi-
duos a los clúster mediante dichas variables.
La estrategia de relacionar los clúster con variables permite explicar la
entidad de estos. Para conseguir este objetivo existe varias estrategias: a)
cruzar, mediante tablas de contingencia, si las variables son categóricas, b)
utilizar el análisis de la varianza con las variables continuas, c) utilizar el
análisis discriminante con la variable clúster de pertenencia como depen-
diente.
Algunos analistas han criticado la excesiva subjetividad del análisis
de clúster: en la elección de la medida de distancia, en la elección del mé-
todo, en la elección de las variables, en la iteración o clasificación, etc.
Todas estas decisiones justifican que no exista una solución única y ópti-
ma ante un problema concreto, sino distintas soluciones que deban ser
contrastadas.
Respecto a la validación, si se utiliza la aglomeración jerárquica, en
variables continuas y como medida el coeficiente de correlación entre va-
riables, se puede utilizar el análisis factorial para comprobar si los resul-
tados del modelo coinciden. También en la validación se puede utilizar
parte de la muestra para construir el modelo y parte para validarlo o uti-
lizar otra muestra distinta generada por procedimientos de simulación
tipo Montecarlo que presente unas características similares a la muestra
original.
También se pueden utilizar procedimientos gráficos para identificar
agrupamientos y para validar resultados. Uno de estos procedimientos son
las curvas de Andrews que producirán gráficos semejantes cuando las ob-
servaciones pertenecen al mismo clúster y diferentes curvas sino forman
parte del mismo agrupamiento. Otro método gráfico son las caras de
Chernoff, representación m-dimensional útil para identificar objetos con
las mismas características, y práctico cuando el tamaño de la muestra es
reducido.
3. UN EJEMPLO DE ANÁLISIS FACTORIAL Y DE CLÚSTER
El ejemplo toma sus datos de un estudio de clima laboral realizado a un

colectivo de 803 empleados. Por motivos didácticos sólo se cogen los prime-
ros nueve ítems del cuestionario.
La base de datos la puede descargar de: http://www.uned.es/personal/
jgil/
3.1. Análisis factorial
La reducción de la dimensión, objetivo del análisis factorial explorato-

rio, se puede realizar mediante distintos procedimientos. Los resultados
que se presentan se han realizado con el procedimiento de componentes
principales y mediante el programa SPSS con el objetivo de reducir la di-
mensión de las variables V1 a V9.
El fichero de sintaxis se muestra a continuación:
FACTOR
/VARIABLES v1 v2 v3 v4 v5 v6 v7 v8 v9 /MISSING LISTWISE /ANALYSIS v1 v2
v3 v4 v5 v6 v7 v8 v9
/PRINT INITIAL DET KMO REPR EXTRACTION ROTATION
/FORMAT SORT BLANK(.40)
/CRITERIA MINEIGEN(1) ITERATE(25)
/EXTRACTION PC
/CRITERIA ITERATE(25)
/ROTATION VARIMAX
/METHOD=CORRELATION.
Para realizar el procedimiento seleccionado se ha tomado una serie de

decisiones:
— Variables que van a formar parte del análisis: v1 a v9. Además si tienen
algún caso missing (perdido) en el conjunto de variables de la lista, se
anulará totalmente el caso.
— Si se trabajará con la matriz de correlación o con la matriz de cova-

rianzas. Recordar que si las variables están tipificadas coinciden am-
bas matrices.
— Procedimiento de extracción de los factores: método de componentes
principales.
— Tipo de rotación: varimax.
— Si se ordenarán los factores extraídos y si para facilitar su interpreta-
ción se anulará las cargas factoriales menores de un valor.
— Finalmente si se salvará las puntuaciones factoriales.
Los resultados muestran en primer lugar la pertinencia del análisis fac-

torial según los valores de la matriz de correlaciones, KMO y prueba de
Bartlett. Luego las comunalidades donde V3 es la variable que mayor va-
rianza común explica y V6 la de menor explicación. La varianza explicada
por el modelo factorial es del 84,7%. Después se muestra la matriz de com-
ponentes antes de la rotación y más adelante la matriz de componentes ro-
tada. La matriz de correlaciones reproducida muestra un buen ajuste del
modelo con tan sólo el 19% de residuos significativos. Finalmente se mues-
tra la matriz de la transformación en la rotación.
3.1.1. Pertinencia del análisis
Matriz de correlaciones(a): Determinante = 4,24E-005

KMO y prueba de Bartlett
Medida de adecuación muestral de Kaiser-Meyer-Olkin. ,765
Prueba de esfericidad de Bartlett Chi-cuadrado aproximado 8036,454
gl 36
Sig. ,000
3.1.2. Extracción de los factores

Comunalidades
Inicial Extracción
v1 1,000 ,800
v2 1,000 ,853
v3 1,000 ,892
v4 1,000 ,876
v5 1,000 ,887
v6 1,000 ,754
v7 1,000 ,830
v8 1,000 ,860
v9 1,000 ,872
Método de extracción: Análisis de Componentes principales.
Varianza total explicada
Sumas de las saturaciones al Suma de las saturaciones al

Autovalores iniciales
cuadrado de la extracción cuadrado de la rotación
Componente % %
% de la va- % de la % % de la
Total acumula- Total Total acumu-
rianza varianza acumulado varianza
do lado
1 4,331 48,119 48,119 4,331 48,119 48,119 4,310 47,886 47,886
2 3,294 36,602 84,721 3,294 36,602 84,721 3,315 36,835 84,721
3 ,375 4,164 88,885
4 ,293 3,253 92,137
5 ,214 2,377 94,514
6 ,192 2,131 96,645
7 ,165 1,829 98,474
8 ,095 1,059 99,532
9 ,042 ,468 100,000

Matriz de componentes (a)
Componente
1 2
v3 ,938
v5 ,934
v4 ,928
v2 ,917
v1 ,888
v9 ,921
v8 ,914
v7 ,894
v6 ,862
Método de extracción: Análisis de componentes principales.

(a) 2 componentes extraídos.
Correlaciones reproducidas
v1 v2 v3 v4 v5 v6 v7 v8 v9
Correlación v1 ,800(b) ,826 ,845 ,837 ,842 ,004 -,058 -,038 -,035
reproducida v2 ,826 ,853(b) ,872 ,864 ,870 ,002 -,061 -,041 -,037
v3 ,845 ,872 ,892(b) ,884 ,889 -,002 -,067 -,047 -,044
v4 ,837 ,864 ,884 ,876(b) ,881 ,011 -,053 -,032 -,029
v5 ,842 ,870 ,889 ,881 ,887(b) ,009 -,055 -,034 -,031
v6 ,004 ,002 -,002 ,011 ,009 ,754(b) ,789 ,804 ,810
v7 -,058 -,061 -,067 -,053 -,055 ,789 ,830(b) ,845 ,851
v8 -,038 -,041 -,047 -,032 -,034 ,804 ,845 ,860(b) ,866
v9 -,035 -,037 -,044 -,029 -,031 ,810 ,851 ,866 ,872(b)
Residual(a) v1 -,029 -,016 -,066 -,080 ,008 ,002 ,000 -,009
v2 -,029 -,015 -,030 -,072 -,006 ,003 ,002 ,002
v3 -,016 -,015 -,072 -,007 -,006 ,003 ,000 ,004
v4 -,066 -,030 -,072 ,041 -,001 ,001 ,000 -,001
v5 -,080 -,072 -,007 ,041 -,010 ,003 ,001 ,004
v6 ,008 -,006 -,006 -,001 -,010 -,152 -,056 -,024
v7 ,002 ,003 ,003 ,001 ,003 -,152 -,002 -,022
v8 ,000 ,002 ,000 ,000 ,001 -,056 -,002 -,084
v9 -,009 ,002 ,004 -,001 ,004 -,024 -,022 -,084
(a) Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 7 (19,0%) resi-
duales no redundantes con valores absolutos mayores que 0,05.
(b) Comunalidades reproducidas.
Matriz de transformación de las componentes
Componente 1 2
1 ,990 -,142
2 ,142 ,990

Método de rotación: Normalización Varimax con Kaiser.
3.1.3. Solución rotada
Matriz de componentes rotados(a)
Componente
1 2
v3 ,944
v5 ,942
v4 ,936
v2 ,923
v1 ,894
v9 ,934
v8 ,927
v7 ,910
v6 ,868

Método de rotación: Normalización Varimax con Kaiser.
(a) La rotación ha convergido en 3 iteraciones.
3.1.4. Análisis factorial con R

A continuación se va a realizar el mismo ejemplo, pero se utilizará R.
En primer lugar se presenta el fichero de procedimiento:
library(foreign)
Datos <- read.spss(“C:/Mis libros/metodología de la inv _ cuantita-
tiva/revisión 2015/cap3/factor1.sav”, use.value.labels=TRUE, max.
value.labels=Inf, to.data.frame=TRUE)
x<-as.matrix(Datos[,1:9]).z <- scale(x) # normalizar las variables
r<-cor(.z) # matriz de correlaciones

r #matriz de correlaciones
##### Procedencia del análisis#####
library(psych)
KMO(.z) # KMO y MSA
cortest.bartlett(.z) # prueba de barlett
#######
#######
# Determinar número de factores a extraer
library(nFactors)
ev <- eigen(cor(.z)) # get eigenvalues

ap <- parallel(subject=nrow(.z), var=ncol(.z),
rep=100, cent=.05)
nS <- nScree(x=ev$values, aparallel=ap$eigen$qevpea)
plotnScree(nS)
mo<-nS$Components$noc #número de factores elegidos
#####
# Rotación Varimax
# Análisis de componentes principales
library(GPArotation)
fit <- principal(.z, nfactors=mo, rotate=”varimax”)
fit # print results
#####
#Análisis factorial de máxima verosimilitud
fit2<-factanal(.z, factors=5, rotation=”varimax”)
fit2 #resultados máxima verosimilitud
Los resultados muestran en primer lugar la matriz de correlaciones:

v1 v2 v3 v4 v5 v6
v1 1.00000000 0.79701007 0.828676784 0.771215033 0.762237266 0.011801062
v2 0.79701007 1.00000000 0.857485626 0.834561809 0.798005210 -0.003235570
v3 0.82867678 0.85748563 1.000000000 0.811454245 0.882819775 -0.008277297
v4 0.77121503 0.83456181 0.811454245 1.000000000 0.922205078 0.009567087
v5 0.76223727 0.79800521 0.882819775 0.922205078 1.000000000 -0.001100091
v6 0.01180106 -0.00323557-0.008277297 0.009567087 -0.001100091 1.000000000
v7 -0.05599911 -0.05841461-0.064494370 -0.052234127 -0.052084656 0.636576824
v8 -0.03798241 -0.03878035 -0.046597812 -0.032594734 -0.033622228 0.747930139
v9 -0.04386818 -0.03587741 -0.039804755 -0.030162282 -0.026770183 0.785669163
v7 v8 v9
v1 -0.05599911 -0.03798241 -0.04386818
v2 -0.05841461 -0.03878035 -0.03587741
v3 -0.06449437 -0.04659781 -0.03980475
v4 -0.05223413 -0.03259473 -0.03016228
v5 -0.05208466 -0.03362223 -0.02677018
v6 0.63657682 0.74793014 0.78566916
v7 1.00000000 0.84314020 0.82902672
v8 0.84314020 1.00000000 0.78216031
v9 0.82902672 0.78216031 1.00000000
Después la procedencia del análisis factorial. Primero el valor del KMO

y después el valor del MSA para cada variables. Al final la prueba de Barlett.
>KMO(.z) # KMO y MSA
Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = .z)
Overall MSA = 0.77
MSA for each item =
v1 v2 v3 v4 v5 v6 v7 v8 v9
0.910.83 0.76 0.74 0.72 0.72 0.70 0.77 0.75
>cortest.bartlett(.z) # prueba de barlett

R was not square, finding R from data
$chisq
[1] 8036.454
$p.value
[1] 0
$df
[1] 36
A continuación el número de factores a elegir:
Como se puede observar el número óptimo será 2 factores.
Finalmente los resultados después de la rotación varimax de los facto-

res, las comunalidades e unicidades de las variables y el grado de explica-
ción de la varianza.
Principal Components Analysis

Call: principal(r =.z, nfactors = mo, rotate = “varimax”)
Standardized loadings (pattern matrix) based upon correlation matrix
RC1 RC2 h2 u2
v1 0.89 0.01 0.80 0.20
v2 0.92 0.01 0.85 0.15
v3 0.94 0.00 0.89 0.11
v4 0.94 0.02 0.88 0.12
v5 0.94 0.02 0.89 0.11
v6 0.00 0.87 0.75 0.25
v7 -0.07 0.91 0.83 0.17
v8 -0.05 0.93 0.86 0.14
v9 -0.05 0.93 0.87 0.13
RC1 RC2
SS loadings 4.32 3.31
Proportion Var 0.48 0.37
Cumulative Var 0.48 0.85
Proportion Explained 0.57 0.43
Cumulative Proportion 0.57 1.00
Test of the hypothesis that 2 components are sufficient.
The degrees of freedom for the null model are 36 and the objective
function was 10.07
The degrees of freedom for the model are 19 and the objective
function was 1.26
The total num ber of observations was 803 with MLE Chi Square =
1003.95 with prob < 7.6e-201
Fit based upon off diagonal values = 0.99
Y para terminar se presenta los resultados obtenidos con 5 factores y

utilizando el método de máxima verosimilitud. Debe observarse que para
este método es 5 el número de factores óptimo.
Call:
factanal(x =.z, factors = 5, rotation = “varimax”)
Uniquenesses:
v1 v2 v3 v4 v5 v6 v7 v8 v9
0.242 0.155 0.048 0.005 0.005 0.005 0.005 0.212 0.198
Loadings:
Factor1 Factor2 Factor3 Factor4 Factor5
v1 0.862 -0.106
v2 0.908 -0.143
v3 0.953 -0.208
v4 0.927 0.358
v5 0.932 0.346
v6 0.783 0.618
v7 0.975 -0.205
v8 0.883
v9 0.882 0.154
Factor1 Factor2 Factor3 Factor4 Factor5

SS loadings 4.207 3.121 0.456 0.182 0.160
Proportion Var 0.467 0.347 0.051 0.020 0.018
Cumulative Var 0.467 0.814 0.865 0.885 0.903
Test of the hypothesis that 5 factors are sufficient.

The chi square statistic is 6.11 on 1 degree of freedom.
The p-value is 0.0134
3.2 Análisis de clúster
Los datos son los mismos utilizados en el análisis factorial. En esta oca-
sión se utiliza un método aglomerativo, k-medias, dado el número elevado
de individuos para agrupar y según las variables V1 a V9. Se utiliza como
medida de proximidad la distancia euclídea.
Con SPSS
El procedimiento será:
QUICK CLUSTER v1 v2 v3 v4 v5 v6 v7 v8 v9
/MISSING=LISTWISE
/CRITERIA=CLUSTER(2) MXITER(25) CONVERGE(0)
/METHOD=KMEANS(NOUPDATE)
/SAVE CLUSTER
/PRINT INITIAL ANOVA.
Y los resultados:
Centros de clústeres iniciales
Clúster
1 2
v1 2,58 2,66
v2 8,81 8,22
v3 8,77 5,90
v4 3,25 3,60
v5 10,07 6,53
v6 -5,95 29,05
v7 -6,46 13,47
v8 -4,16 23,75
v9 -8,93 25,96
Historial de iteracionesa
Cambiar en centros de clústeres

Iteración
1 2
1 24,781 24,052
2 ,482 ,499
3 ,399 ,419
4 ,302 ,303
5 ,159 ,162
6 ,107 ,111
7 ,112 ,116
8 ,185 ,194
9 ,097 ,104
10 ,146 ,160
11 ,146 ,162
12 ,052 ,058
13 ,038 ,042
14 ,053 ,059
15 ,099 ,108
16 ,108 ,118
17 ,082 ,089
18 ,045 ,049
19 ,000 ,000
a. Convergencia conseguida debido a que no hay ningún cambio
en los centros de clústeres o un cambio pequeño. El cambio de la coor-
denada máxima absoluta para cualquier centro es ,000. La iteración
actual es 19. La distancia mínimo entre los centros iniciales es 60,335.
Centros de clústeres finales
Clúster
1 2
v1 5,87 3,94
v2 11,34 8,40
v3 11,87 7,90
v4 5,99 3,80
v5 11,51 8,44
v6 7,13 13,29
v7 3,27 7,07
v8 7,67 12,74
v9 6,87 13,72
ANOVA
Clúster Error
F Sig.
Media cuadrática gl Media cuadrática gl
v1 745,114 1 7,266 801 102,546 ,000
v2 1733,457 1 13,091 801 132,411 ,000
v3 3161,442 1 19,256 801 164,181 ,000
v4 967,815 1 7,179 801 134,805 ,000
v5 1892,846 1 12,630 801 149,874 ,000
v6 7615,571 1 15,673 801 485,913 ,000
v7 2891,287 1 5,680 801 508,989 ,000
v8 5160,046 1 10,381 801 497,052 ,000
v9 9398,356 1 13,976 801 672,477 ,000
Las pruebas F sólo se deben utilizar con fines descriptivos porque los clústeres se han elegido para
maximizar las diferencias entre los casos de distintos clústeres. Los niveles de significación observados
no están corregidos para esto y, por lo tanto, no se pueden interpretar como pruebas de la hipótesis de
que los medias de clúster son iguales.
Número de casos en cada clúster

Clúster 1 420,000
2 383,000
Válido 803,000
Perdidos ,000
De los resultados se puede decir que hay dos clúster que clasifican a los
803 encuestados, cuyo reparto se muestra en la tabla anterior. La tabla de
anova muestra que todas las variables son significativas con respecto a la
variable de clasificación a uno u otro clúster. Además se presenta los valores
de las medias finales de cada variable en los dos clúster.
Con R
El fichero de procedimiento será:
library(foreign)
Datos <- read.spss(“C:/Mis libros/metodología de la inv_cuantitativa/
revisión 2015/cap3/factor1.sav”, use.value.labels=TRUE, max.value.
labels=Inf, to.data.frame=TRUE)
## Preparación de los datos
x<-as.matrix(Datos[,1:9]).
z <- scale(x) # normalizar las variables
####
# Determinar número de cluster
wss <- (nrow(.z)-1)*sum(apply(.z,2, var))
for (i in 2:15) wss[i] <- sum(kmeans(.z, centers=i)$withinss)
plot(1:15, wss, type=”b”, xlab=”Número de Cluster”,
ylab=”Suma de cuadrados intra-grupos”)
####
library(vegan)
cc1<- cascadeKM(.z,2,10, iter=25, criterion=’calinski’)
plot(cc1, sortq = TRUE) #criterio de calinski ver número de cluster
###
# K-Means Cluster Análisis
fit <- kmeans(.z, 2) # solución de 2 cluster
# Medias de las variables en cada grupo
aggregate(x, by=list(fit$cluster), FUN=mean)
# añadir el cluster asignado a cada individuo
Datos2 <- data.frame(Datos, cluserP=fit$cluster)
Los resultados sobre el número de clúster a elegir:
La elección con el criterio de Calinski:

SSB
k 1 donde SSB= suma de cuadrados entre los grupos, SSW suma de
SSW
cuadrados intra-grupos, n= número de casos, k=número de grupos
n k
Tomará la forma:
En el anterior gráfico el investigador podía elegir el número de clúster

según la suma de cuadrados intra-grupos. Con el criterio de Calinski ya
viene dada tal elección según dicho índice. En este caso el número de gru-
pos es 2 que es el valor que hace máximo el criterio de Calinski.
La media de las variables en los grupos tomará los siguientes valores:
Group.1 v1 v2 v3 v4 v5 v6 v7
1 1 6.973993 12.749915 13.515783 7.043191 12.885335 9.222426 4.327047
2 2 2.943021 7.158638 6.483202 2.872603 7.245267 10.900860 5.824157
v8 v9
1 9.116804 8.956242
2 11.044420 11.304487
Nótese una cuestión fundamental en el cálculo. Con SPSS las variables

se han tomado sin normalizar y el sistema por defecto clasifica los encues-
tados en 2 grupos. Con R se ha normalizado previamente (cuestión necesa-
ria al tener distinto rango las variables). Si con R no se normaliza y se toma
2 grupos los resultados son similares a SPSS.
AFIFI, A. A. AND CLARK, V. (1996). Computer-Aided Multivariate Analysis. Third

Edition. Texts in Statistical Science. Chapman and Hall.
ATO, M. Y LÓPEZ, J. J. (1996). Análisis estadístico para datos categóricos. Madrid:
Síntesis.
BATISTA FOGUET, J. M. MARTÍNEZ ARIAS, M. R. (1989). Análisis multivariante: análisis
de componentes principales. Barcelona: Hispano Europea.
BIGSS, D., DE VILLE B., Y SUEN E. (1991). «A method of choosing multiway partitions
for classification and decision trees». Journal of Applied Statistics, 18:48-62.
BISQUERRA, R. (1989). Introducción Conceptual al Análisis Multivariable(Tomo 1).
Barcelona: PPU.
BISQUERRA, R. (1989). Introducción Conceptual al Análisis Multivariable(Tomo 2).
Barcelona: PPU.
BREIMAN L., FRIEDMANN J. H, OLSHEN R. A. Y STONE C. J. (1984). Classification and
regression trees. Wadsworth: Belmont. Calif.
BRIONES, G. (1982). «Clasificación y tipologías», en Métodos y técnicas de investiga-
ción para las ciencias sociales,(250-258), México: Trillas.
CEA, M. A. (2002). Análisis multivariable. Teoría y práctica en la investigación social.
Madrid: Síntesis.
CHATFIELD C. Y COLLINS A. J. (1980). Introduction to multivariate analysis. London:
Chapman and Hall.
CISNEROS, G. (1997). Análisis multivariante de datos categóricos. Fotocopias Rey.
CLOGG C. C. Y ELIASIN S. R. (1987). «Some problems in log-linear analysis».
Sociological Methods and Research, 16:1, 8-44.
COMREY, A. L. (1985). Manual de Análisis Factorial. Madrid: Cátedra.
CUADRAS, C. M. (1981). Métodos de Análisis Multivariante. Barcelona: Eunibar.
ESCOBAR, M. (1992). El análisis de segmentación: concepto y aplicaciones. Madrid:
Fundación Juan March.
EVERITT, B. Y GRAHAM, D. (1991). Applied Multivariate Data Analysis. Arnold.
FERRANDO, P. J. (1994). Introducción al Análisis Factorial. Barcelona: PPU.
GARCÍA FERRANDO, M. (1988). «Análisis de conglomerados y segmentación», en
Socioestadística, (451-457), Madrid: Alianza.
GIL PASCUAL, J. A. (2000). Estadística e Informática (SPSS) aplicada a la investiga-
ción descriptiva e inferencial. Madrid: UNED.
GIL PASCUAL, J. A. (2008). Métodos de investigación en Educación (Análisis
Multivariante). Madrid: UNED.
GNANADESIKAN, R. (1977). Methods for statistical data analysis of multivariate obser-

vations. New York: John Wiley & Sons, Inc.
GOODMAN, L. A. (1979). «Simple models for the analysis of association in cross-
classifications having ordered categories». Journal of the American Statistical
Association, 74: 537-552.
HAIR, ANDERSON, TATHAM, BLACK (1999). Análisis multivariante. 5/e. Madrid: Prentice
Hall.
HARMAN H. H. (1980). El análisis factorial moderno. Madrid: Saltés.
HARRISON D., Y RUBINFELD D. L. (1978). «Hedonic prices and the demand for clean
air». Journal Environmental Economics & Management, 5: 81-102.
HOTELLING, H. (1936). «Relations between two sets of variables». Biometrika, 28,
321-377.
JAMBU, M. (1978). Classification automatique pour l´analyse des donnes. París:
Dunod.
JOHNSON D. E. (1998). Métodos multivariados aplicados al análisis de datos. México:
International Thomson Editores.
KASS, G. (1980). «An exploratory tecmique for investigating large quantities of cate-
gorical data». Applied Statistics, 292, 119-127.
KIM, J. Y MUELLER, C. W. (1978). An Introduction to Factor Analysis: What it is and
how to do it. Beverly Hills, CA: Sage.
KINNEAR, T. C Y TAYLOR, J. R. (1989). «Análisis de conglomerados y clasificación mul-
timiensional», en Investigación de mercados, (552-558), Bogotá: MacGraw Hill.
KLINE, R. B. (1998). Principles and Practice of Structural Equation Modeling. The
Guilford Press.
LAMBERT, A. Y SALAZAR J. (1997). «La segmentación jerárquica y el posicionamiento
mediante el uso conjunto del algorítmo CHAID y el análisis de corresponden-
cias: una aplicación metodológica». ESIC MARKET (julio-septiembre 1997).
LOH W. Y. Y SHIH Y. S. (1997). «Split selection methods for classification trees».
Statistica Sinica, 7: 815-840.
MAGIDSON, J. (1987). «Weighted Log-Linear Modeling». American Statistical
Association, 1987 Proceedings of the Social Statistics Section, pp.175-181.
MAGIDSON, J. (1989). «CHAID, LOGIT, and log-linear Modeling». Marketing
Information System, Report 11-130, Delran, NJ: Datapro Research Corporation
MALINOWSKI, E. R. Y HOWERY, D. G. (1980). Factor Analysis in Chemistry. New York:
Johm Wiley.
MAXWELL, A. E. (1977). Multivariate analysis in Behavioural Research. London:
Chapman and Hall.
MULAIK, S. A. (1972). The Foundation of Factor Analysis. New York: McGraw-Hill.

ORTEGA MARTÍNEZ, E. (1990). «Análisis discriminante, segmentación y tipología», en
Manual de investigación comercial,(496-539), Madrid: Pirámide.
REPETTO, E. Y GIL PASCUAL, J. A. (1993). «Agrupación de alumnos de Enseñanza
Secundaria en razón de sus factores sociales y valores ocupacionales», en
Revista de Orientación Escolar y Vocacional. Vol. 4. N.º 5, pp. 194-209.
REPETTO, E. Y GIL PASCUAL, J. A. (1994). «Últimas aportaciones en la evaluación del
programa de orientación metacognitiva de comprensión lectora.» En Revista de
Investigación Educativa. N.º 23, pp.314-323.
RUIZ-MAYÁ, L. (1990). Metodología estadística para el análisis de datos cualitativos.
Madrid: Centro de Investigaciones Sociológicas.
RUIZ-MAYÁ, L. (1995). Análisis estadístico de encuestas: datos cualitativos. Madrid:
Editorial AC.
RUMMEL, R. J. (1970). Applied Factor Analysis. Evanston: Northwistern University
Press.
SÁNCHEZ CARRIÓN, J. J. (1984). Introducción a las Técnicas de Análisis Multivariable
Aplicadas a las Ciencias Sociales. Madrid: CIS.
SÁNCHEZ CARRIÓN, J. J. (1989). Análisis de tablas de contingencia. CIS. Madrid.
SÁNCHEZ CUENCA, J (1990). «La segmentación», en Ortega, E., Manual de investiga-
ción comercial. Madrid: Pirámide.
VISAUTA, B. (1999). Análisis estadístico con SPSS para Windows. Madrid: McGraw-
Hill.
YELA, M. (1957). La Técnica del Análisis Factorial. Madrid: Biblioteca Nueva.
Capítulo 4
Técnicas explicativas multivariantes: análisis discrimi-
nante, análisis de regresión y análisis de segmentación
1. Análisis discriminante
1.1. Definición y objetos
1.4. Procedimiento
2. Análisis de regresión
2.1. Objetivos
2.4. Procedimiento
3. Análisis de segmentación. El modelo Chaid

3.1. Introducción
3.2. El análisis de segmentación. El modelo Chaid
4. Ejemplos de análisis discriminante, de regresión y de segmentación

4.1. Análisis discriminante
1. ANÁLISIS DISCRIMINANTE
El análisis discriminante tiene su origen en los trabajos de Fisher (1936)

sobre clasificación de flores del género iris. A partir de g muestras aleato-
rias de g grupos de individuos y de los valores en p variables X1,....., Xp para
cada miembro de cada muestra, se trata de obtener D1,....., Dm funciones li-
neales de X1,....., Xp de la forma:
Di=Bi1X1+.......+BipXp+Bi0 i=1,...., m m=mín(g-1, p) y tales que separen
todo lo posible(discriminen) los g grupos.
Como hemos expresado, el número máximo de funciones discriminan-
tes es el mínimo entre el número de variables y el número de grupos menos
uno.
El objetivo fundamental del análisis discriminante es obtener, a partir
de las observaciones en un conjunto de variables para individuos pertene-
cientes a distintos grupos o subpoblaciones, unas funciones que permitan
clasificarlos en uno de ellos. Este objetivo se concreta en:
1. Comprender, mediante la identificación de las variables discriminantes,
las características de grupos.
2. Clasificar objetos en grupos o clases. Es decir, asignar los individuos de
los que se desconoce su grupo de adscripción, a uno de los grupos for-
mados con las distintas categorías de la variable dependiente.
El análisis discriminante es una técnica capaz de informarnos qué va-
riables permiten diferenciar a los grupos y cuántas de estas variables son
necesarias para conseguir la mejor clasificación posible. Hay una variable
categórica dependiente, con tantas categorías como grupos, y un conjunto
de variables independientes discriminantes, en las que se supone difieren

los distintos grupos.
Aplicaciones a la investigación educativa
Son múltiples las aplicaciones del análisis discriminante en la investiga-

ción educativa:
— Distinguir entre diversos grupos mutuamente excluyentes, como puede

ser entre buenos y malos profesores; alumnos responsables e irrespon-
sables en una institución educativa.
— Para distinguir o clasificar las observaciones de una investigación.
— Para detectar el porqué de las diferencias entre alumnos en una mate-

ria.
— Para pronosticar a qué grupo pertenecerá una persona de acuerdo a

sus características. Por ejemplo: características de los alumnos que su-
peran la selectividad, frente aquellos otros que no la superan.
— Identificar las variables que son importantes para distinguir entre los
grupos a fin de desarrollar un procedimiento para predecir la ubica-
ción de aquellos casos que no han sido estudiados. Como puede ser el
caso de responder a una solicitud de empleo por parte de un estudiante
de una universidad.
A partir de g muestras aleatorias de g grupos de individuos y de los valo-

res en p variables X1,....., Xp para cada miembro de cada muestra, se trata de
obtener D1,....., Dm funciones lineales de X1,....., Xp de la forma:
Di=Bi1X1+.......+BipXp+Bi0 i=1,...., m m=mín(g-1, p) y tales que separen todo

lo posible(discriminen) los g grupos.
TÉCNICAS EXPLICATIVAS MULTIVARIANTES: ANÁLISIS DISCRIMINANTE, ANÁLISIS DE REGRESIÓN Y...
Tabla 4.1. Individuos y grupos del análisis discriminante
X1........... XP GRUPO
1 1
...
n1
1 2
...
n2
... ...
...
...
1 g
...
nk
En la tabla 4.1 tenemos los n=n1+n2+....+nk individuos y los g grupos de-

finidos previamente.
1.2.2. Tamaño de la muestra
El tamaño mínimo que sugieren los investigadores es 20 datos por va-

riable independiente. Además, el tamaño del grupo más pequeño debe ser
mayor que el número de variables independientes. Se aconseja que los gru-
pos que forma la variable dependiente en función de sus categorías sean de
parecido tamaño (Hair, 1999).
1.2.3. División de la muestra
La muestra se puede dividir en dos partes una para cálculo de la fun-

ción discriminante y otra para validación de la misma. Se suelen elegir am-
bas mediante un proceso de muestreo estratificado proporcional.
Cuando el espacio muestral es pequeño se utiliza toda la muestra para la
construcción de la función discriminante y la misma para la validación.
1.3.1. Supuestos del modelo
— Es necesario que haya al menos dos grupos

— Para cada grupo se necesitan dos o más casos
— El número de variables discriminantes debe ser inferior al número de
casos menos dos
— La variable que define los grupos debe ser categórica, mientras que las
variables discriminantes deben ser medidas en escala de intervalo o de
razón
— Nin
— guna variable discriminante debe ser combinación lineal de otras va-
riables discriminantes (colinealidad)
— El número máximo de funciones discriminantes es el mínimo entre el
número de variables y el número de grupos menos uno
— Las matrices de varianzas-covarianzas de cada grupo deben ser
aproximadamente iguales
— Las variables deben seguir una distribución normal multivariable en
cada grupo
— Finalmente, habrá que controlar los casos atípicos suprimiendo aque-
llos que tengan esta característica porque influyen en la clasificación
de las observaciones
1.3.2. Comprobación de los supuestos paramétricos
La función discriminante minimiza la probabilidad de error en la clasi-

ficación de los individuos en cada grupo en la medida en que las variables
independientes presentan diferencias significativas en cada grupo, proce-
den de una distribución normal multivariable y las matrices de varianzas-
covarianzas son iguales en todos los grupos. En la práctica, la técnica es
muy robusta y no es completamente necesario que se cumplan los dos su-
puestos.
a) Distribución normal multivariable
Una primera aproximación es comprobar que cada variable sigue una

distribución normal; sin embargo, aunque así sea, la distribución conjunta
no será necesariamente normal multivariable. Una forma de realizar una
aproximación será la representación gráfica (frecuencias observadas frente
a frecuencias esperadas).
b) Matrices de varianzas-covarianzas iguales: prueba M de Box
La prueba M de Box permite contrastar la hipótesis nula: H0: las matri-

ces de varianzas-covarianzas son iguales en los diferentes grupos. Si el p-
valor asociado al estadístico es menor que α, se rechazará la hipótesis nula
al nivel de significación α.
1.4. Procedimiento
1.4.1. Fases del análisis:
1) Encontrar las variables que más discriminan a los grupos.

2) Encontrar la función o funciones que discriminan los grupos.
3) Buscar el criterio de asignación de los individuos a los grupos.
1.4.1.1. Selección de las variables discriminantes
En primer lugar se realiza un análisis descriptivo, observando las me-

dias y las desviaciones típicas de cada variable. Las variables que más dis-
criminan los grupos, serán aquellas que tienen distintas medias en los gru-
pos y menor varianza. Si por ejemplo existen dos grupos, gráficamente se
procurará la siguiente configuración:
......(....*....)......*......(....*....)
X X X
2 1
Debe recordarse que la variabilidad entre grupos —por ejemplo para el

grupo 1— será: X X1 . Y que la variabilidad intra-grupos será: di = X1 − X1i
Además la suma de cuadrados (SC) total=suma de cuadrados entre

grupos+suma de cuadrados intra-grupo
Una vez observados estos valores se calcula el estadístico F=SCentre/SCintra
. Si F es grande habrá mucha homogeneidad en cada grupo y los grupos
estarán muy separados, la variable será muy discriminante; mientras que si
F es pequeña, la variable discriminará poco, al darse poca homogeneidad
en los grupos y por tanto estar muy próximos.
Un razonamiento contrario se puede hacer con la - de Wilks definida
como -=SCintra /SCtotal. Si tiende a 0 la variable discrimina, pero, si por con-
tra, se aproxima a 1 no será buena variable para formar parte de la función
o funciones discriminantes.
Métodos para la selección de variables
Se puede destacar dos métodos:

a) Método directo. Todas las variables que cumplan el criterio de selec-
ción (F<1 o ->1) se considerarán aptas para formar parte de la función/es
discriminante/s.
b) Método por pasos (stepwise). Las variables entrarán una a una según
su mayor importancia (mayor F o menor -). En cada paso se incluirá la
variable que cumpla el criterio de selección, se reevaluará entre las varia-
bles que no forman parte de la función/es discriminante/s y se seleccionará
aquella con mayor F o menor -, se observará las variables de la función/es
discriminante/s y se eliminarán aquellas que tengan (F<1 o -1) y se volve-
rá a empezar mientras existan variables que cumplan el criterio de asigna-
ción.
Tolerancia y criterio de selección de variables
En el método de selección de variables por pasos, en cada paso será

aconsejable evaluar la significación de F o -. Fijado un nivel de significa-
ción B=0,05 todas aquellas variables cuya F o L no resulten significativas
no deben entrar a formar parte de la función/es discriminante/s.
Respecto al criterio de selección de variables, según se ha dicho ante-

riormente, entrarán aquellas con F>1 y saldrán cuando F<1.
Como se ha comentado, se define el estadístico F como:
|A | donde |A| determinante de la matriz de covarianzas entre-gru-

F=
|W |
pos, y |W| determinante de la matriz de covarianzas intra-grupos (suma de
las matrices de covarianzas en los grupos).
La relación entre F y - es:
n - g - p-1 1
F= ( - 1) donde p es el número de variables seleccionadas.
g -1 -
- y F se interpretan igual que en el caso univariable, pero en el caso de

dos o más variables, se compararán los centroides de los grupos (los vecto-
res de medias de las variables en cada grupo).
La F de entrada evalúa la disminución que se produciría en la lambda
de Wilks si la variable se seleccionara en esa etapa y luego se verá si es sig-
nificativa.
La F de salida evalúa el incremento que se produciría en la lambda si la
variable se eliminara del análisis en esa etapa.
En relación con la tolerancia, al tratarse de un modelo de relación lineal
de un conjunto de variables con otra, la tolerancia mide la colinealidad o
correlación entre las variables independientes. Resulta nada deseable la co-
linealidad porque la variable relacionada con otras no aporta información
al modelo, y además dificulta los procesos matemáticos de inversión de ma-
trices. Se mide por 1-R i2, donde R i2 representa la correlación múltiple al
cuadrado (coeficiente de determinación) entre la variable predictora i con el
resto de variables independientes introducidas en el modelo. Resulta evi-
dente suponer que el valor ideal de tolerancia será 1, no obstante, los pro-
gramas informáticos (SPSS) marcan unos niveles próximos a cero, para
impedir que una variable entre en el modelo si está altamente relacionada
con las demás. En el procedimiento por pasos de SPSS el valor inicial de
tolerancia es 1 porque no hay ninguna variable en el modelo, posteriormen-
te, según se vayan introduciendo las mismas, irá decreciendo este valor.
1.4.1.2. Extracción de las funciones discriminantes
Como ya se comentó el análisis discriminante consiste en extraer, a par-

tir de X1,........, Xp variables observadas en g grupos de individuos, m funcio-
nes D1,......, Dm de la forma:
Di=Bi1X1+...........+BipXp+Bio i=1,....., m m=mín(g-1, p) [1]
y tales que Corr(Di, Dj)=0 i≠j
Además si las variables X1,........, Xp están tipificadas, las funciones:
Di=Ai1X1+...........+A ipXp i=1,...., m
se denominan funciones discriminantes canónicas.
Las funciones D1,......., Dm se extraen de tal forma que:
D1 será la combinación lineal de X1,........, Xp que proporcione la mayor

discriminación entre los grupos.
D2 será la combinación lineal de X1,........, Xp que proporcione la mayor

discriminación entre los grupos después de D1 y tal que corr(D1,
D2)=0.
En general:
Di será la combinación lineal de X1,........, Xp que proporcione la mayor

discriminación entre los grupos después de D i-1 y tal que corr(Di,
Dj)=0, j=1,....., i-1.
Autovalores
El autovalor Mi asociado a la función discriminante Di, es la proporción

explicada por ésta función, de la varianza total explicada por las m funcio-
nes discriminantes D1,......., Dm
m
La suma de los autovalores ∑M
i=1
i
, es la proporción de la varianza que
queda explicada, que se conserva, al reducir todo el sistema a los ejes discri-
minantes.
En consecuencia, el porcentaje explicado por Di de la varianza explicada

por D1,......., Dm será:
Mi
100 m
M
i=1
i
Correlación canónica
Es una medida del grado de asociación entre las puntuaciones discrimi-

nantes y los grupos. Representa la proporción de varianza total de las fun-
ciones discriminantes atribuible a las diferencias entre grupos.
Para la i-ésima función discriminante, la i-ésima correlación canónica

viene dada por:
Mi
CRi =
1 + Mi
Toma valores entre 0 y 1, de tal manera que, cuanto más próximo este
a 1 su valor, mayor es la potencia discriminante de la i-ésima función.
Significatividad estadística de la lambda de Wilks
El valor de la lambda de Wilks representa, para cada función, la propor-

ción de varianza total de las puntuaciones discriminantes que no ha sido
explicada por las diferencias entre grupos.
La hipótesis nula en el análisis discriminante puede formularse como:
H0: no existe diferencia significativa entre las medias de las puntuacio-

nes discriminantes en los grupos.
La prueba para contrastar esta hipótesis consiste en una transfor-

mación de la lambda de Wilks, cuya distribución es aproximadamente
la de una D2 . Si el p-valor asociado al valor observado para el estadísti-
co D2 es menor que α, se rechazará la hipótesis nula al nivel de signifi-
cación α.
Coeficientes tipificados
Los coeficientes de la matriz (ver tabla 4.2).
Tabla 4.2. Matriz de coeficientes tipificados
D1 ....... Dm
X1 A11 ....... Am1.
........ ........ ....... .......
Xp A1p ....... Amp
Proporciona una aproximación de la importancia relativa de cada varia-

ble en la función discriminante.
Si Aij es grande habrá una asociación fuerte entre la variable Xj y la fun-
ción Di. Su valor va de 0 a 1. Está afectado por la colinealidad entre las va-
riables independientes.
Matriz de estructura
Los elementos Cij de la matriz de estructura (ver tabla 4.3):
Tabla 4.3. Matriz de estructura
D1 ....... Dm
X1 C11 ....... Cm1.
........ ........ ....... .......
Xp C1p ....... Cmp
Son las correlaciones intragrupo (medias de las correlaciones en los gru-

pos) entre cada variable y cada función discriminante. Cij proporciona una
media de las contribuciones de la variable Xj a la función discriminante Di.
Son las relaciones binarias de cada variable independiente con cada fun-
ción discriminante y por tanto no le afecta la colinealidad. Conforme el
valor se aproxima a ± 1 mayor será la relación entre variable y función dis-
criminante.
1.4.1.3. Clasificación de los individuos
Cálculo de las puntuaciones discriminantes
A partir de los coeficientes estimados es posible calcular las puntuacio-

nes discriminantes para cada individuo, es decir, si xij es la puntuación del
individuo i en la variable j, entonces la puntuación del individuo i en la va-
riable discriminante j será: dij=Bj1xi1+......+Bjpxip+Bi0
Regla de Bayes
A partir de las puntuaciones discriminantes, es posible obtener una re-

gla que permita clasificar a los individuos en uno de los g grupos.
Una técnica que se utiliza frecuentemente se basa en la regla de Bayes:
la probabilidad de que un individuo j con una puntuación discriminante
D=(dj1,......., djm) pertenezca al grupo i puede estimarse mediante:
P( D / Gi )P(Gi )
P(Gi / D) = g
P( D / G )P(G )
i=1
i i
donde:
P(Gi) es la probabilidad a priori: es una estimación de la probabilidad de
que el caso pertenezca al grupo i.
P(D/Gi) es la probabilidad condicional de D en el grupo i: se supone que
el individuo pertenece al grupo i y se estima la probabilidad de
la puntuación observada D para los miembros del grupo i.
P(Gi/D) es la probabilidad a posteriori: se estima a partir de P(Gi) y
de P(D/Gi) utilizando la regla de Bayes.
Un individuo será asignado al grupo para el que la probabilidad a poste-

riori sea máxima, es decir será asignado a Gi si: P(Gi / D) máx P(Gi / D)
i

Tasa de clasificaciones incorrectas
A cada individuo, del que se sabe a qué grupo pertenece, es posible clasi-
ficarlo mediante la regla de Bayes en uno de los grupos en función de las
puntuaciones discriminantes. El porcentaje de casos correctamente clasifi-
cados será un índice de la efectividad de la función discriminante.
Al evaluar este índice deberá tenerse en cuenta la tasa de clasificaciones
incorrectas esperadas según las probabilidades a priori (triángulo superior
e inferior de la llamada matriz de confusión).
Hair (1999, p. 274) comenta otro procedimiento de evaluar la capacidad
discriminatoria de la función/es discriminante/s de la matriz de confusión.
Utiliza el estadístico Q de Press.
[ N − ( ng )]
2
Q de Press=
N( g − 1)
Con:
N = tamaño muestra total
n = número de observaciones correctamente clasificadas
g = número de grupos
Q se distribuye como una D2 con un grado de libertad. Cuando este es-
tadístico es significativo denota que el porcentaje de clasificación de la fun-
ción/es discriminante/s es mayor que el esperado por azar. No obstante el
propio Hair (1999, p. 274) advierte que cuando el tamaño muestral aumen-
ta pueda dar el estadístico significativo aunque exista un porcentaje de
clasificación bajo.
Bisquerra (1989, pp. 254-255) tomado de Tatsuoka, apunta otro criterio
de validez de la función/es discriminante/s, el llamado “criterio discrimi-
nante”. Según este criterio, una buena función discriminante es aquella que
tiene la variabilidad intergrupo superior a la variabilidad intragrupos, en-

tonces se define el criterio discriminante (CD) como:
SCint ergrupos
CD
SCint ragrupos
El criterio discriminante coincide con el valor propio, y es una estima-

ción de la variabilidad intergrupo explicada por cada función discriminan-
te. Este resultado es el mismo que se obtendría con un análisis de la varian-
za, con las puntuaciones discriminantes como valores dependientes y los
grupos como independientes.
Otros elementos auxiliares para la interpretación son los gráficos que

dan los paquetes estadísticos (SPSS): histograma total de las puntuaciones
discriminantes, diagrama de dispersión total, diagrama de dispersión por
grupos y mapa territorial.
2. ANÁLISIS DE REGRESIÓN
Las primeras referencias a la palabra “regresión”, desde el punto de vista

estadístico, se deben a los trabajos de Francis Galton. Galton, a finales del
siglo XIX, sentó los fundamentos de las técnicas de correlación en un estu-
dio acerca de la relación entre las estaturas de los niños y sus progenitores.
Observó que la estatura en el hombre tiende a “regresar” hacia la estatura
promedio.
El aspecto de relación entre dos variables, se puede modelizar en la lla-

mada regresión simple. Cuando se plantea la relación entre un conjunto de
variables con otra dependiente estamos ante un posible modelo de regre-
sión múltiple.
Los modelos de regresión forman parte de un conjunto más amplio ma-

temáticamente denominados de tipo 1. Con el fin de acotar el tema nos va-
mos a centrar en la regresión lineal. Estos modelos estudian la relación
existente entre una o más variables, denominadas variables independientes
y otra variable, denominada dependiente, con propósitos tanto descriptivos

como predictivos.
El análisis de regresión es una de las técnicas más utilizada en investi-

gación educativa, sus posibilidades son innumerables como lo demuestran
las continuas referencias en publicaciones. Sus aplicaciones se pueden
agrupar en dos grandes apartados: predicción y explicación. Estos dos usos
no son mutuamente excluyentes y existirán investigaciones donde se apli-
quen ambas.
En la predicción, la combinación lineal de las variables independien-

tes se dirige a maximizar la estimación de la variable dependiente, y es
un predictor del poder explicativo de la variable dependiente por las va-
riables independientes. Se deben conseguir niveles adecuados de explica-
ción de la variable dependiente para justificar el modelo de regresión.
También, la faceta predictiva del análisis de regresión, sirve para evaluar
el conjunto de variables independientes como predictoras de la variable
dependiente.
La vertiente explicativa del análisis de regresión, nos da una visión de la

importancia relativa de cada variable independiente valorando su magni-
tud y signo. Además, se puede trabajar para determinar el tipo de relación
existente (lineal, cuadrática, logarítmica, exponencial, potencial, etc.) con la
variable dependiente.
Podemos plantear una relación, en principio lineal, entre una variable Y

dependiente que trata de ser explicada por k variables independientes y un
término de perturbación aleatoria e. De esta forma para cada observación
se tendrá:
yi=b0+b1xi1+......+bk xik+ei i=1,...., n
donde:
b0,......., bk son los parámetros desconocidos a estimar, y

ei i=1,...., n son variables error independientes N(0,T2)
De forma matricial Y=XB+E donde X es una matriz con la primera co-

lumna unitaria.
Regresión lineal simple
En el caso particular de una única variable independiente X, se habla de

regresión lineal simple. La correspondiente función de regresión será del tipo:
f(X, b0, b1)=b0+b1X
Para cada observación se tendrá:
yi=b0+b1xi+ei i=1,...., n [1]
Según ya hemos visto la recta de ecuación:
Y=b0+b1X
Recibe el nombre de recta de regresión mínimo cuadrática.
Es de destacar que el modelo [1] es idéntico al análisis de la varianza
modelo factorial con un solo factor, con la única diferencia que en [1] la va-
riable X puede tomar cualquier valor, mientras en el modelo de análisis de
la varianza sólo puede tomar los valores 1,0, según se encuentre presente o
no el nivel considerado.
Regresión lineal múltiple
En el caso de más de una variable independiente, se habla de regresión

lineal múltiple.
Un concepto substancial a tener en cuenta, es el de correlación parcial
entre la variable X i y la variable dependiente Y, como una medida del grado
de asociación lineal entre Y y Xi después de eliminar el efecto lineal de las
restantes variables independientes.
2.2.1. Diseño de investigación
El modelo de regresión estará bien diseñado: a) si está bien especificado;

b) las variables están medidas sin error sistemático; y c) los errores en la
predicción cumplen unas determinadas condiciones.
Un modelo de regresión lineal estará bien especificado cuando:

a) la relación entre las variables independientes y dependiente sea li-
neal y aditiva.
b) el modelo esté bien definido, es decir, cuando las variables escogi-
das sean representativas (ni se omitan variables relevantes, ni se
incluyan variables irrelevantes).
c) no exista multicolinealidad entre las variables independientes. Es
decir, cuando no exista combinación lineal entre las variables inde-
pendientes.
Los errores de predicción deben cumplir las siguientes condiciones:
a) Normalidad de la distribución de los errores. Recordemos que el
error de predicción es la diferencia: ei=yi-yi* donde yi* es la predic-
ción del valor de yi por el modelo.
b) Media de los errores es cero...... E(ei)=0
c) La varianza de los errores es constante (homocedasticidad).....
E(ei, ei)=Var(ei)=s2, para toda variable independiente.
d) Independencia de los términos de error..... E(ei, ej)=0 para todo i≠j
Además, en el diseño de una investigación donde se utilice el análisis de
regresión múltiple debe considerarse el tamaño de la muestra y ciertas
transformaciones de los datos para corregir vulneraciones de los supuestos
del modelo.
Tamaño de la muestra
El tamaño de la muestra influye en la potencia de los test de significa-

ción de los parámetros del modelo, y en la generalización del mismo. En
muestras pequeñas (menos de 20), sólo se puede plantear un modelo de re-
gresión lineal simple. En muestras grandes (más de 100) la significación
estadística está casi asegurada, aunque la relación sea débil.
Respecto a la generalización de los resultados, Hair (1999, p. 160) acon-
seja utilizar una relación 5 a 1 entre casos y variables, para los métodos ge-
nerales de extracción de variables independientes, y de 20 a 1 para los méto-
dos por pasos.
En el caso de validación cruzada del modelo de regresión se aconseja

destinar el 60% de los datos a construcción del modelo y 40% de la muestra
a validación del mismo.
Tipo de variables
La variable dependiente del modelo de regresión lineal debe ser conti-

nua. Las independientes pueden ser continuas, ordinales o nominales trans-
formadas en variables dummy.
Si las variables independientes son ordinales deben estar codificadas
según el orden natural. Así por ejemplo la variable grado de aceptación del
profesorado (bajo, medio-bajo, medio, medio-alto, alto), se codificará des-
de 1 (bajo) hasta 5 (alto).
En relación con las variables ficticias (dummy), surgen de la necesidad
de incluir en la ecuación de regresión variables nominales categóricas. Si la
variable independiente es nominal dicotómica, bastará con crear una varia-
ble con el valor 0 para una categoría y 1 para la otra, e incluir esta variable
en la ecuación como una más. Por otra parte, si la variable independiente es
nominal con más de dos categorías, será necesario crear más de una varia-
ble. Por ejemplo, si la variable tiene cuatro categorías, A, B, C y D, será ne-
cesario crear tres variables de la siguiente forma:
Tabla 4.4. Ejemplo de variables ficticias (dummy)

en el modelo de regresión
Xi I1 I2 I3
A 1 0 0
B 0 1 0
C 0 0 1
D 0 0 0
Las variables I1, I2 y I3 se incluirán en la ecuación de regresión junto con

las restantes variables independientes.
La construcción del modelo de regresión
Para conseguir un modelo de regresión será necesario realizar el si-

guiente proceso:
3. Elegir un método de selección de variables
4. Evaluar la significación del modelo de regresión
5. Determinar si hay observaciones que desvirtúen el modelo, analizar las
condiciones de aplicación, y evaluar el modelo
6. Interpretar los resultados, efectuando una valoración del proceso y del
ajuste final obtenido
El identificar el cumplimiento de los condicionantes del modelo, debe

considerarse como paso previo y de validación del análisis de regresión.
Identificación de observaciones influyentes
Hair (1999, p. 177) las clasifica en tres grupos: datos atípicos, puntos de
apalancamiento e influyentes.
Estos puntos «distintos» se basan en alguna de las siguientes condicio-
nes (Hair 1999, p. 178):
— Un error en la entrada de observaciones o datos
— Una observación válida aunque excepcional que es explicable por una
situación extraordinaria
— Una observación excepcional sin una explicación plausible
— Una observación ordinaria en sus características individuales pero ex-
cepcionales en su combinación de características
Estas observaciones influyentes resultan muy importantes que sean ais-
ladas antes de comenzar la aplicación del método, para evitar defectos en
las predicciones realizadas con el mismo.
Los casos atípicos han sido muy estudiados, de forma que se han desa-
rrollado métodos de regresión robustos que minimizan su impacto.
Los datos relevantes (de gran peso o importancia en el modelo), son

identificados, cuando se emplea el SPSS mediante el “Dfajuste”. Se calcula
el valor de la predicción para un elemento, cuando el mismo está vinculado
a la muestra y cuando no está incluido en ella, de tal forma que esta diferen-
cia viene representada por el valor de “Dfajuste” o su valor tipificado
“Dfajuste tipificado”.
Comprobación de las hipótesis del modelo
Según se ha comentado, el modelo de regresión debe: a) estar bien espe-

cificado; b) las variables medidas sin error sistemático; y c) los errores en la
predicción cumplir unas determinadas condiciones [ser independientes con
distribución N(0,T2)].
El estar bien definido exige tener unas variables independientes relevan-
tes, o de otra manera, el modelo de regresión debe cumplir el principio de
parsimonia, es decir, la conformación del modelo con el menor número po-
sible de variables independientes. Para valorar la aportación de cada varia-
ble independiente al modelo habrá que observar si el incremento del coefi-
ciente de determinación (R 2) es significativo.
La existencia de errores sistemáticos de medida, en general, dificulta la
creación de cualquier modelo predictivo.
Respecto a los residuos y la definición del modelo, se cumplirá:
Linealidad
Cada variable independiente tiene una relación lineal con la dependien-

te; o de otra forma, para cada variable independiente la linealidad indica
que el coeficiente de regresión es constante a lo largo de los valores de la
variable independiente (regresión lineal simple).
La comprobación de la linealidad de cada variable independiente se
puede hacer por:
— Los residuos no deben presentar ningún patrón sistemático respecto de
las predicciones o respecto de cada una de las variables independien-
tes, se observará mediante el gráfico de residuos estandarizados
— La correlación parcial entre la variable dependiente y cada una de las

independientes debe ser alta. También los gráficos de regresión parcial
deben presentar una forma lineal.
La corrección de una falta de linealidad de los datos, reflejado en un
gráfico de regresión parcial no lineal, se puede corregir mediante transfor-
maciones.
Homocedasticidad
Las varianzas de las distribuciones de Y ligadas a los distintos valores de

las variables independientes deben ser iguales:
— Los residuos no deben presentar ningún patrón sistemático respecto de
las predicciones o respecto de cada una de las variables independientes.
— Se puede emplear el test de Levene. Si hay heterocedasticidad se puede
utilizar transformaciones en las variables o el método de mínimos cua-
drados ponderados.
Independencia
El valor observado en una variable para un individuo no debe estar in-

fluenciado en ningún sentido por los valores de esta variable observados en
otros individuos, es decir, cada variable predictor es independiente:
— Los residuos no deben presentar ningún patrón sistemático respecto a
la secuencia de casos.
— Los residuos deben estar incorrelados; el estadístico de Durbin-Watson,
D, debe tener valores próximos a 2, si D es menor que 1,5 existe autoco-
rrelación. Si D se aproxima a 4 los residuos estarán negativamente auto-
correlados y, si se aproxima a 0, estarán positivamente autocorrelados.
Normalidad
La distribución de la variable formada por los residuos debe ser normal:

— Los residuos observados y los esperados, bajo hipótesis de distribución
normal, deben coincidir.
— Para su comprobación se puede utilizar métodos gráficos como el dia-

grama P-P, o métodos analíticos como la prueba de Kolmogorov-
Smirnov.
Multicolinealidad
El término multicolinealidad influye en la definición del modelo y se

utiliza para describir la situación en que un gran número de variables inde-
pendientes está altamente interrelacionadas. Las variables que sean aproxi-
madamente una combinación lineal de otras se denominan multicolineales.
Si una variable es una combinación lineal perfecta de otras variables
independientes, la matriz de correlaciones será singular (matriz singular es
aquella cuyo determinante es igual a 0) y no existirá una única solución
mínimo-cuadrática insesgada de cálculo de sus coeficientes.
Una matriz de correlaciones con coeficientes muy altos es un indicio de
probable multicolinealidad; sin embargo, puede haber multicolinealidad
aunque los coeficientes sean relativamente bajos.
Uno de los procedimientos más utilizado para detectar la interdepen-
dencia entre variables es el criterio de la tolerancia.
La tolerancia de una variable X i con las restantes variables indepen-
dientes se define como:
Toli= 1- R i2
donde R i2 es el cuadrado del coeficiente de correlación múltiple entre X i y
las variables X1,.... X i-1, X i+1,....., X k
Si Toli=0 la variable X i es casi una combinación lineal de las restantes

variables y,
Si Tol=1 la variable Xi puede reducir la parte de variación de Y no expli-
cada por las restantes variables.
En el método de selección de variables por pasos, la variable selecciona-
da debe tener una tolerancia mínima con las variables incluidas en la ecua-
ción para poder entrar en el siguiente paso. Por otro lado, al entrar la varia-
ble, ninguna variable en la ecuación debería superar esa mínima tolerancia

con las restantes.
Para solucionar los problemas de multicolinealidad se puede: a) aumen-
tar el tamaño muestral, b) a partir de las variables relacionadas construir
otra como combinación lineal de las anteriores y c) utilizar un procedi-
miento jerárquico para introducir las variables y controlar la tolerancia de
las mismas.
2.4. Procedimiento
Según hemos expresado anteriormente la consecución del modelo de re-
gresión exige el siguiente procedimiento:
a) Elegir un método de selección de variables.
b) Evaluar la significación del modelo de regresión.
c) Determinar si hay observaciones que desvirtúen el modelo, analizar
las condiciones de aplicación, y evaluar el modelo.
d) Interpretar los resultados, efectuando una valoración del proceso y
del ajuste final obtenido.
Como el punto c) se ha visto en el apartado precedente y el apartado d)
se verá en el posterior, en este punto se hablará de los apartados a) y b).
Selección de las variables
Existen diversos criterios: unos, emanados del problema de investiga-

ción, y con claros tintes teóricos, y otros por criterios empíricos.
En el primer caso se puede dar errores de especificación, tomando va-
riables o incluyendo otras irrelevantes para la investigación. La inclusión de
variables irrelevantes afecta a la parsimonia del modelo, y la falta de varia-
bles relevantes influye en el poder explicativo del mismo.
Además del error de especificación, las variables pueden tener errores
de medida en las variables independientes que influyan en las predicciones
de la dependiente. Los errores de medida se pueden evaluar mediante aná-
lisis causal o de ecuaciones estructurales.
Cuando se utilice variables ficticias, los coeficientes del modelo de re-

gresión representarán las diferencias entre la media del grupo y la del gru-
po de referencia (el de valor nulo).
a) Métodos de selección de variables
Entre los procedimientos alternativos a calcular todas las posibles ecua-
ciones de regresión, en función de todas las combinaciones posibles de las
variables, destacan los métodos de construcción por pasos:
a) Método Backward: la ecuación comienza con todas las variables in-
cluidas; en cada paso se eliminará una variable.
b) Método Forward: en cada paso se introduce una variable.
c) Método Stepwise: en cada paso puede eliminarse o introducirse
una variable. Dado que una variable puede entrar y salir de la ecua-
ción en más de una ocasión, es conveniente establecer un límite
para el número de pasos. En general se considera el doble del núme-
ro de variables independientes. En este procedimiento por pasos
hay que tener en cuenta la influencia de la multicolinealidad entre
las variables independientes. El investigador debe plantear un mo-
delo teórico con la inclusión de las variables más relevantes y los
signos de las mismas.
A la hora de calcular los coeficientes, para asegurar que la tasa de error
conjunto a lo largo de todos los test de significación es razonable, deben
emplearse umbrales muy conservadores (0,01) al añadir o quitar variables
(Hair 1999, p. 173).
b) Evaluación de la significación del modelo de regresión
b.1) Estimación de los parámetros

Estimación de B 0, B1,..... Bk
Calcular la ecuación de regresión supone deducir la ecuación del plano
que mejor se ajusta a la nube de puntos (Etxeberria 1999, p. 54).
Uno de los criterios para obtener los coeficientes de regresión B0, B1,...., Bk,
estimaciones de los parámetros desconocidos b0, b1,.....bk es el de mínimos
cuadrados, que consiste en minimizar la suma de los cuadrados de los resi-
duos.
Si en el modelo de regresión se calcula [X’X] y es una matriz no singular,

es decir si su determinante |X’X| es distinto de cero, se puede calcular la
inversa [X’X]-1 y entonces la matriz de los coeficientes será:
b=[X’X]-1X’y
Los bi son los coeficientes de regresión parciales, y así, por ejemplo, b2

nos da la variación de y, inducida por una variación de X 2, suponiendo que
las demás variables permanecen constantes.
Varianza residual. Es la media de los cuadrados de los residuos. Su ex-

presión matricial será:
Se2=1/n [yy’-b’X’y]
1 1 1
∑ ( ej − e ) = ∑ e2j = ∑ ( yj − y*j )2 donde y*j es el valor de
2
ya que Se =
2
n j n j n j
yj calculado por el modelo de regresión. También:
Se = es el error típico de la estimación

Se2
Varianza debida a la regresión es:
SR 2=1/n [b’X’y-n y 2]
si se tiene en cuenta que
1 1
SR2 = ∑
n j
( y*j − y * )2 = ∑ ( y*j − y )2
n j
Varianza total de la variable explicada y será:
Sy2=1/n [y’y-n y 2]
dado que
1 1 1 1
Sy2 = ∑ ( yj − y)2 = n ∑j y2j − y 2 = n y ’ y − y 2 = n ⎡⎢⎣ y ’ y − ny 2 ⎤⎥⎦
n j
Como en el caso de la regresión lineal para dos variables se cumple:
Sy2=Se2+SR 2
Intervalo de confianza para valores extrapolados. Uno de los fines pri-

mordiales que se persigue al ajustar una función a una nube de puntos es el
de poder extrapolar, esto es, dado el valor de la variable/s “independiente/s”
exterior al recorrido que presenta la nube de puntos, calcular el correspon-
diente valor teórico de la variable «dependiente».
El ajuste será más preciso conforme el valor de la variable independien-

te este próximo a los valores primitivos.
b2) Análisis de la asociación entre las variables
El coeficiente de correlación simple S ij, mide el grado de asociación lineal

entre las variables X i y Xj: S ij es tal que: -1≤S ij≤1
Si S ij=1 la asociación será lineal positiva
Si S ij=-1 la asociación será lineal negativa y,
Si S j=0 no existirá asociación lineal
El estimador muestral del S ij es el coeficiente de correlación muestral r ij
El coeficiente de correlación múltiple SY.1..k, es una medida del grado de

asociación lineal entre Y y el conjunto de variables independientes X1,...., X k,
y es tal que: 0≤SY.1..k, ≤1
Si SY.1..k, =1 el ajuste del plano de regresión a la población es casi perfecto y

Si SY.1..k, =0 el plano de regresión no mejora la predicción de Y sobre la
predicción con la media muestral de Y.
El estimador muestral del SY.1..k, es el coeficiente de correlación múltiple

muestral, R.
Todos los cálculos necesarios para el análisis del grado de asociación li-
neal se suelen disponer en una tabla como la siguiente:
SUMA
FUENTE DE VARIACIÓN VARIANZA CORRELACIÓN
DE CUADRADOS
2
SR
Debida a la regresión. b ’ X ay - n y
2
SR2 R2 2
Sy
2
Se
Debida al error. ya y - b ’ X ay Se2 1 − R2 = 2
Sy
2
Total. ya y - n y Sy2 ------
Con todo lo anterior, el coeficiente de correlación múltiple será:
2
Se ya y - b ’ X ay
R= 1 - = 1- 2
ya y - n y
2
Sy
El coeficiente de determinación es el cuadrado del coeficiente de correla-

ción múltiple, S 2Y.1,..., k.
El estimador muestral, en consecuencia, será R 2.
El coeficiente de correlación parcial. Puede interesar estudiar el grado de
asociación existente entre dos variables (por ejemplo Y y X1 una vez que se
ha eliminado la influencia que las restantes independientes ejercen sobre
ella. Este problema viene resuelto mediante la determinación del coeficien-
te de correlación parcial, que representaremos como:
r y1.2,3,4,..., k
Una de las expresiones más utilizada es:
adj T 12
r212.3,4,..., k= -
adj T 22 . adj T 11
Donde adj T12 representa el adjunto del elemento T12 en la matriz de cova-
rianzas.
b3) Estadísticos para las variables

El coeficiente de regresión BETAi es el coeficiente de la variable X i cuan-
do la función de regresión se expresa con todas las variables tipificadas.
(BETA1,....., BETA k) expresa la pendiente del plano de regresión. En el caso
que todas las variables se tipifiquen dicho plano pasará por el origen.
El error típico del coeficiente Bi es s B i = s 2 B i es la varianza estimada
del coeficiente de correlación.
Contraste simple: H0: Bi=0 frente H1:Bi≠0

La hipótesis nula significa que la variable X i no mejora la predicción de
Y sobre la regresión obtenida con las k-1 variables restantes.
El estadístico de contraste t = B i donde sBi se distribuye bajo H0 como

s Bi
una t de Student con n-k-1 grados de libertad. Si el p-valor asociado es me-
nor que B, se rechazará la hipótesis nula al nivel de significación B.
Contraste múltiple: H0: B1=......=Bk=0 frente a H1: i: Bi≠0
La hipótesis nula significa que las variables independientes no mejoran
la predicción de Y sobre y* y Se puede construir una tabla de análisis de
la varianza para estudiar la significación:
Tabla 4.5. Tabla de análisis de la varianza para el modelo de regresión
FUENTE SUMA GRADOS MEDIA ESTADÍSTICO

DE VARIACIÓN DE CUADRADOS DE LIBERTAD DE CUADRADOS F
Regresión. SCreg k
SC reg MC reg
MC reg =
k MC res
Residual. SCres n-k-1
SC res
MC res =
n - k -1
Total. SCtotal n-1
Recordemos que:
SCreg es la variabilidad explicada por la regresión:
SCreg= ∑( y*j − y )2
j
SCres es la variabilidad no explicada por la regresión:
SCreg= ∑( y
j
j − y*j )2
SCtot es la variabilidad total:
SCtot= ∑( y j − y )2 ,
j
Y que se verifica: SCtot=SCreg+SCres

Además, el coeficiente de determinación verifica:
2 SC reg MC reg
R = y F= se pueden relacionar F y R mediante:
SC tot MC res
R2 / k
F=
(1 R2 ) / ( n k 1)
Es decir, R 2 es una estimación de la proporción de varianza explicada

mediante la regresión lineal. Los programas de ordenador dan el R 2 (ajusta-
do) que modula la influencia del tamaño muestral en su valor.
Para interpretar los resultados del análisis de regresión múltiple será

necesario:
Evaluar el coeficiente de regresión
Para ver la influencia de cada variable en el modelo. Se utiliza los coefi-

cientes beta con los datos estandarizados.
Evaluación de la multicolinealidad
— Valorar el grado de multicolinealidad.

— Determinar su impacto en los resultados.
Según hemos comentado, para evaluar la colinealidad de parejas o de
múltiples variables se utiliza el valor de la tolerancia o su inverso el factor
de influencia de la varianza (VIF).
La multicolinealidad hace inestable los coeficientes de la ecuación de
regresión aumentando la variación de los mismos y en consecuencia los in-
tervalos de confianza.
Además de interpretar los resultados, el análisis de regresión exige la
validación de resultados como observación del poder de generalización de
los mismos.
Validación de resultados
— En primer lugar será necesario tener en cuenta el valor de R 2.

— Se puede coger una muestra adicional o dividir la muestra.
— Se puede utilizar el estadístico «PRESS» que es una medida parecida
al R 2 pero para n-1 modelos de regresión. Es un procedimiento similar
a las técnicas de “bootstrapping” de remuestreo.
— Comparación de los modelos de regresión. Se utilizará distinto número
de predictores y/o distinto ajuste (lineal, cuadrático, cúbico, etc.). Será
necesario utilizar el R 2 ajustado para evitar la influencia del tamaño
muestral.
3. ANÁLISIS DE SEGMENTACIÓN. EL MODELO CHAID
3.1. Introducción
Quien no ha oído alguna vez comentar las principales características del

votante de un determinado partido político o el perfil del alumno que obtie-
ne buenos resultados en una materia. Problemas como los presentados son
abordados por la segmentación de datos.
El proceso de elección y agrupamiento de las categorías de una variable

que se relaciona con otra, plantea la formación de ramas de decisión que
encadenadas con otras variables generan un árbol. La raíz es el nodo supe-
rior, en cada nodo se hace una partición hasta llegar a un nodo terminal u
hoja. Esas ramas constituyen caminos de división de la muestra, segmen-
tos, que la particionan.
La investigación de segmentación tiene que ver con el descubrimiento y

la especificación de grupos de población (segmentos), que difieren en la pro-
babilidad de un suceso como el de usar un producto, tener un crédito, res-
ponder a un tratamiento, contraer una enfermedad o matricularse en una
Universidad.
El análisis de segmentación facilita la elección de variables destacadas

(predictoras —independientes—) y la caracterización de la variable criterio
(dependiente) en función de éstas variables predictoras.
La segmentación es una técnica básica de la investigación comercial en

el estudio de mercados. En investigación educativa hay todavía pocos traba-
jos (Gil, 1993; Repetto y Gil, 1993, 1994), aun cuando, dada la potencia de la
técnica, el número aumentará.
Para realizar el análisis de segmentación se construyen árboles de clasi-

ficación y reglas para identificar los segmentos. En el proceso de construc-
ción de los árboles se utiliza una variable criterio y un conjunto de variables
independientes, predictoras; además, se emplean datos para entrenamiento
del modelo y otros para confirmarlo.
Los árboles de clasificación son útiles siempre que los datos se puedan
representar mediante un conjunto prefijado de atributos y valores, ya sean
éstos discretos o continuos. Sin embargo, no resultan demasiado conve-
nientes cuando la estructura de los ejemplos es variable. Tampoco están
especialmente indicados para tratar con información incompleta (cuando
aparecen valores desconocidos en algunos atributos de los casos de entre-
namiento) y pueden resultar problemáticos cuando existen dependencias
funcionales en los datos del conjunto de entrenamiento (cuando unos atri-
butos son función de otros).
Los árboles de clasificación (variable criterio, categórica) o regresión

(variable criterio, continua) difieren según:
— el tipo de variable criterio.

— el tipo de variables independientes.
— el tipo de árbol: binario o n-arios.
— los criterios de partición y parada.
Alguno de los algoritmos más utilizados para la formación de árboles de

clasificación y/o regresión son:
AID (SONQUISTY MORGAN, 1964):
— Variable de respuesta continua.
— Árbol no-ario con reagrupamiento.
— Criterio de partición: F.
— Criterio de parada: umbral sobre la significación.
CHAID (K ASS, 1980):
— Variable de respuesta categórica o continua.

— Árbol no-ario con reagrupamiento.
— Criterio de partición: D o F.
2
CART (BREIMAN et al. 1984) o C&RT:
— Variable de respuesta continua o categórica.

— Árbol binario.
— Criterio de partición: GINI de cantidad de información o binario o
LSD.
ID3 (Quinlan, 1983) (Quinlan, 1986), C4.5 (QUINLAN, 1993):
— Variable de respuesta continua o categórica.

— Árbol no-binario.
— Criterio de partición: GINI de cantidad de información o binario o

LSD.
La construcción de un árbol de segmentación se realiza en una serie de

etapas:
— Selección del fichero de datos.
— Selección de las variables intervinientes.
— Selección del algoritmo de segmentación.
— Elección de los valores de modelización o prueba.
— Elección de las reglas de parada: profundidad del árbol, número míni-
mo de casos en un nodo.
— Selección de las reglas de división de los nodos y fusión de categorías:
convergencia, número de iteraciones, etc.
Las diferencias principales entre los algoritmos para construir árboles
se hallan en la estrategia para podar los árboles, la regla de división de los
nodos y el tratamiento de valores perdidos (“missing values”).
De los algoritmos de segmentación nos detendremos, por cuestiones di-
dácticas, en Chaid aun cuando existan otros algoritmos, con una metodolo-
gía más compleja, que resultan en algunos casos más eficientes.
3.2. El análisis de segmentación. El modelo Chaid
3.2.1. Definiciones
Para comprender las definiciones posteriores pensemos en un ejemplo

sencillo. Supongamos que Y es el resultado de una prueba de rendimiento
en Matemáticas, X1 es la edad en años de los alumnos, según dos categorías
(de 14 a 16 y más de 16 años) y X 2 es una medida de la inteligencia del alum-
no, clasificada en tres categorías (baja, media y alta).
Si definimos segmento como el conjunto de individuos que satisfacen
las condiciones de clasificación de cada uno de los criterios establecidos. Y
segmentación como el proceso de identificación de clases para fraccionar o

dividir una población en segmentos.
Supongamos, por ejemplo, la segmentación de una población en sólo
tres segmentos:
— De 14 a 16 años, baja o media: y =6
— Más de 16 años, media o alta: y =6,5
— De 14 a 16 años, alta: y =7,2
Si extraemos un alumno de la población, su edad es 15 años y su capaci-
dad es alta, se puede pronosticar que su calificación será 7,2.
Recíprocamente, si deseamos encontrar un alumno con media de rendi-
miento 7,2 puntos, maximizaremos la probabilidad de éxito buscándolo
dentro del grupo de edad de 14 a 16 años y de capacidad intelectual alta.
En este ejemplo hemos pretendido formar una estructura relacional
donde la variable Y sea explicada por otras dos X1 y X 2. Esta configuración
puede ser representada esquemáticamente mediante un diagrama en árbol
(dendrograma), empleando distintas técnicas para clasificar y segmentar
los grupos y las categorías de las variables.
Dendrograma del ejemplo

Una de las técnicas más utilizadas para resolver el problema anterior es
la denominada CHAID, acrónimo de Chi-squared Automatic Interaction
Detector (detector automático de interacciones mediante chi-cuadrado). Se
trata de una técnica estadística para formar árboles centrada en la segmen-
tación (formación de grupos homogéneos respecto a la variable criterio)
con el estadístico ji-cuadrado.
En el ejemplo con esta técnica podemos solucionar dos problemas recí-

procos: a) dado un segmento ¿cuál es el valor más probable de la variable
criterio?, y b) dado un valor de la variable criterio ¿en qué segmento hay
mayor probabilidad de encontrar casos con esas características?.
El «Análisis en Árbol» tiene su origen en el Programa de Sonnquist y
Morgan «Automatic Interaction Detection» (AID) desarrollado en el Instituto
para la Investigación Social de la Universidad de Michigan en 1964, desde
entonces varias versiones para este tipo de análisis han surgido en diversas
disciplinas. Originalmente diseñada como una técnica exploratoria para
analizar datos de estudios, las técnicas del análisis en árbol están siendo
utilizadas en campos tan diversos como marketing, epidemiología, investi-
gación social, investigación institucional y en otras ramas de la ciencia.
La técnica CHAID, creada por Kass(1980), se utiliza fundamentalmente
en la descripción o exploración de datos, aunque también da ideas para in-
terpretar los fenómenos causales.
3.2.2. Objetivos y aplicaciones del método
Dada una muestra de n individuos y una variable dependiente Y con un

conjunto de independientes X1, X 2,....., Xq todas ellas categóricas (o categori-
zadas), dividimos la muestra en segmentos, de tal forma que, respecto a la
distribución de la variable dependiente Y, por un lado, cada segmento sea lo
más homogéneo posible y, por otro, los segmentos sean distintos entre sí.
Una vez segmentada la muestra podemos sacar tres tipos de informa-
ción de la misma:
— Saber cuáles son los segmentos más importantes en los que se clasifica
la muestra
— Cualquier individuo de la población, para el que se disponga de obser-
vaciones en las q variables independientes, podrá ser clasificado en uno
de los segmentos
— Una información de tipo causal donde conocemos hasta qué punto los
segmentos predicen a la variable dependiente
En consecuencia con lo anterior, las tres principales posibilidades del

análisis de segmentación son: descriptiva, exploratoria y explicativa.
Descriptiva. El término segmentar significa dividir y este análisis per-

mite con su algoritmo el hallazgo de grupos muy distintos en un determina-
do aspecto. De ahí que se pueda emplear en la descripción de muestras y
naturalmente mediante inferencia de poblaciones (Escobar, 1992 p. 28).
Es aconsejable tener unas reglas básicas en la elección de las variables
predictoras:1) incluir variables relevantes para la variable dependiente
y 2) incluir el máximo de variables predictoras ya que los filtros de tama-
ño y significación se encargarán de limitar el número de las mismas que
al final intervienen. Nunca se debe rechazar a priori un predictor ya que
el propio CHAID lo eliminará si no es relevante en el análisis.
Exploratoria. El análisis de segmentación es un instrumento adecuado
para buscar pautas de relaciones complejas entre variables.
El dendrograma, cuya representación para un ejemplo podemos ver en
la fig. 4.1, y que el CHAID incorpora como salida gráfica, nos permite:
1) detectar qué variables son útiles para describir adecuadamente la varia-
ble dependiente; 2) descubrir qué valores de una variable predictora son
homogéneos en relación con la variable a explicar, y 3) poner de manifiesto
interacciones entre las variables independientes.
Fig. 4.1. Dendrograma ejemplo de segmentación.

Tomado de Gil Pascual (tesis doctoral, 1993)
La segmentación en un mismo nivel por distintas variables es indicador

de interacción entre las mismas. Aun así, no existirá interacción entre varia-
bles si las diferencias de porcentajes entre los grupos segmentados son se-
mejantes en cada división.
Explicativa. Uno de los inconvenientes que se ha puesto a la técnica de
segmentación, como explicativa de variables, es que al encontrar las asocia-
ciones empíricas más fuertes entre predictores, éstas no tienen por qué
coincidir con una relación causa efecto entre fenómenos.
Sin embargo podemos decir que es una técnica que permite realizar hi-
pótesis sobre el modelo de causalidad, conforme la forma del dendrograma.
Estas tres aplicaciones generales se refleja en los siguientes usos:
— Segmentación. Identificación de elementos que pueden ser miembros
de unas clases específicas.
— Estratificación. Asignación de casos a una categoría entre varias, por
ejemplo, grupos de malos estudiantes, de regulares o de buenos.
— Fusión de categorías y categorización de variables continuas. El aná-
lisis de segmentación sirve para fusionar categorías y categorizar va-
riables continuas con la mínima pérdida de información.
— Predicción. Se pueden crear reglas para poder predecir eventos futuros.
— Reducción de datos y clasificación de variables. Sirve para seleccionar
variables de un gran conjunto de estas facilitando la creación de modelos.
3.2.3. Relación con otros métodos multivariantes
La mayoría de las técnicas multivariantes se utilizan en conjunción con

otras; así el análisis de segmentación se puede emplear acompañado del
análisis de correspondencias; el primero descubriendo las variables impor-
tantes para el explicar el fenómeno y el segundo, señalando las categorías
más próximas de las variables indicadas por el primero que pueden formar
agrupación. Un ejemplo de esta utilización conjunta se puede encontrar en
Lambert y Salazar (1997).
También se puede ver en Madgison (1989) diversos ejemplos del uso de la
segmentación mediante el algoritmo CHAID en conjunción con el modelo
log-lineal.
Por otra parte, aunque presente cierto parecido con el análisis discrimi-
nante en la explicación de una variable categórica, incluso con el cálculo de
una matriz de confusión (sólo para el caso de variable criterio categórica);
la segmentación mediante el algoritmo CHAID se diferencia del análisis
discriminante, en que el segundo sólo puede tratar variables predictoras
continuas y el primero cualquier tipo de variable y por tanto mayor flexibi-
lidad para el tratamiento en la clasificación de datos.
En el análisis de la varianza/covarianza (ANCOVA) como diseño del pre-
dictor con efectos principales o efectos de interacción, para variables crite-
rio continuas.
3.2.4. El estadístico ji-cuadrado en la segmentación
Sean y1,....., yc, los c posibles valores o categorías de la variable depen-

diente Y y x1,......., xr, los r posibles valores de una variable independiente X.
Si la muestra se divide en r segmentos en función de los r valores de X, la
distribución de Y en cada uno de los segmentos vendría dada por la tabla de
contingencia:
Tabla 4.6. Tabla de contingencia para la segmentación
y1 ...... yj ...... yc
segmento 1 f11 ...... f1j ...... f1c f1.
...... ...... ...... ...... ...... ...... ......
segmento i fi1 ...... fij ...... fic fi.
...... ...... ...... ...... ...... ...... ......
segmento r fr1 ...... frj ...... frc fr.
f.1 ...... f.j ...... f.c N
donde:
f ij es la frecuencia de observaciones en el segmento i de la categoría j de
la variable dependiente Y, i=1,...., r j=1,...., c
f i. es la frecuencia marginal en el segmento i, i=1,...., r
f.j es la frecuencia marginal que presenten el valor yj en la variable de-
pendiente Y
Con la hipótesis de que los segmentos son homogéneos respecto a la dis-

tribución de los valores de la variable dependiente Y, el estadístico:
fi. f. j
r c ( fij − )2
D = ∑∑
2 N
i=1 j =1
fi. f. j
N
seguirá una distribución ji-cuadrado con (r-1)(c-1) grados de libertad. Para
determinar la mejor agrupación será necesario comparar los p-valores aso-
ciados: cuanto menor sea el p-valor asociado al valor del estadístico ji-cua-
drado para una agrupación, más heterogéneos serán los segmentos deter-
minados.
3.2.5. El procedimiento Chaid
Procedimiento de formación de los segmentos
El procedimiento CHAID funciona con todo tipo de variables: continuas

o categóricas; pero si las variables predictoras son continuas, se categorizan
de forma automática para el análisis.
El proceso de la formación de los segmentos es recursivo:
1) Para cada variable independiente X se busca la mejor agrupación de
sus categorías:
a) Si la variable criterio Y es continua, se utilizará la prueba F.
b) Si la variable criterio Y es nominal, se formará una tabla de contin-
gencia con las categorías de la variable X como filas y las categorías
de Y como columnas. Como prueba de significación se utilizará la
ji-cuadrado o la prueba de la razón de verosimilitud.
c) Si la variable criterio Y es ordinal, se ajusta a un modelo de asocia-
ción de Y (Magidson, 1992); se utilizará la prueba de la razón de
verosimilitud:
eij
L2= -2 nij ln que asintóticamente se distribuye como una ji-
i, j nij
cuadrado con (r-1)(c-1) grados de libertad.
2) La pareja de categorías de X que presenten mayor nivel crítico res-

pecto a la variable criterio Y se compara con el valor crítico fijado para el
agrupamiento (B merge) y se toma alguna de las siguientes decisiones:
a) Si el va lor crítico es mayor que B merge se fusionan las categorías
en una nueva compuesta de las dos y el proceso con estas categorías
de X vuelve a comenzar en el paso 1.
b) Si el valor del nivel crítico es menor que B merge seguir en el paso 3.
3) Calcular el nivel crítico corregido para el conjunto de categorías
de X y las categorías de Y, mediante la corrección de Bonferroni (opcio-
nal).
4) Seleccionar la variable X cuyo nivel crítico corregido sea el me-
nor, es decir el predictor más significativo. Comparar este nivel crítico con
el nivel crítico establecido (B split) y se tomará alguna de las siguientes de-
cisiones:
a) Si el nivel crítico es menor o igual a B split, dividir el nodo según el
conjunto de categorías de X.
b) Si el nivel crítico es mayor que B split no se dividirá el nodo y además
ese nodo será un nodo terminal
5) Continuar con el proceso de desarrollo del árbol hasta que se cum-
pla una de las reglas de parada.
En el punto 4) Escobar (1992, p. 8) apunta un procedimiento sistemático
para seleccionar las variables independientes. Se trata de formar todas las
agrupaciones binarias de categorías de los predictores y seleccionar aquella
cuyo nivel crítico corregido sea menor (naturalmente menor que B split).
La corrección de Bonferroni consiste en la aplicación de la desigualdad
del mismo autor, utilizada en el caso de que se hagan B pruebas de signifi-
cación, entonces la significación total:
B
Bt ≤ ∑ Bi
i=1
donde B representa las posibles combinaciones formadas a partir del núme-

ro de categorías del predictor (c) y del número de grupos formados tras la
agrupación de las categorías (k). En concreto en el caso de que todas las

categorías se puedan combinar para la reducción, tomará la expresión:
k−1
( k − i)c
B = ∑ (−1)i
i=0 i !( k − i)!
Por lo cual, en la práctica la significación corregida será igual al valor de

B multiplicado por B. Así, por ejemplo, si una variable tiene c=4 categorías
y se forman k=2 grupos, entonces B=7, por tanto B t=7B .
Criterios de parada
Los criterios de parada del algoritmo CHAID se basan en el tamaño

de los segmentos y en los p-valores correspondientes a la variable (y
agrupaciones) candidatas para cada nueva estratificación, y se impon-
drán sobre cada segmento, es decir, el procedimiento de estratificación
continuará sobre aquellos segmentos que no verifiquen los criterios de
parada. Un nodo no se dividirá si cumple alguna de las siguientes condi-
ciones:
— El número de niveles del árbol (profundidad) ha alcanzado el valor
máximo preestablecido. Se procurará poner un número suficiente de
niveles para evitar cercenar la capacidad predictiva que pueda tener el
modelo al anular la entrada de otras variables predictoras o agrupa-
ción de categorías de las existentes en el problema.
— El número de casos en el nodo parental (padre) o en el nodo filial (hijo)
es inferior a los valores preestablecidos. Conviene poner limitaciones al
número de casos para evitar nodos de poca entidad. Los tamaños lími-
tes se fijan por el investigador; no obstante, el tamaño medio de los
grupos da una idea de los límites aconsejables, así por ejemplo, si hay 4
predictores de 3 categorías cada uno, habrá 34 posibilidades y por tanto
en una muestra de 1000 casos el tamaño medio será: 1000/ 34≈12.
— Todos los casos de un nodo tienen valores idénticos en todos los predic-
tores.
— En un nodo todos sus casos tienen el mismo valor en la variable criterio.
3.2.6. Un ejemplo de aplicación del procedimiento Chaid
Con las rejillas de datos simulados, que se muestran en las tablas 4.7 al
4.10, supóngase que se quiere realizar un análisis de segmentación para
estudiar las características de los alumnos de mayor factor g en función de
las variables predictoras: sexo, comunidad, zona y curso. Por lo farragoso
de los cálculos se va a realizar sólo la selección del primer predictor y se
mostrará el dendrograma final.
Tabla 4.7. Frecuencias del cruce del factor g con el predictor sexo
FACTOR g
BAJO ALTO
— —
RECUENTO RECUENTO
Hombre. 218 247
Mujer. 175 202
Tabla 4.8. Frecuencias del cruce del factor g con el predictor comunidad
FACTOR g
BAJO ALTO
— —
COMUNIDAD COMUNIDAD
— —
RECUENTO RECUENTO
Andalucía. 231 281
Cantabria. 60 98
Galicia. 102 70
Tabla 4.9. Frecuencias del cruce del factor g con el predictor zona
FACTOR g
BAJO ALTO
— —
ZONA ZONA
— —
RECUENTO RECUENTO
Urbana. 155 157
Semiurbana. 60 81
Rural. 178 211
Tabla 4.10. Frecuencias del cruce del factor g con el predictor curso
FACTOR g
BAJO ALTO
— —
CURSO CURSO
— —
RECUENTO RECUENTO
Sexto. 207 112
Séptimo. 97 147
Octavo. 89 190
Según el algoritmo CHAID, si se utiliza la propuesta de Escobar (sólo

genera agrupaciones binarias), en primer lugar, se calculará el estadístico
ji-cuadrado para cada una de las distintas agrupaciones binarias de catego-
rías de cada predictor.
La variable sexo da: D2=0,02 g.l=1 p=0,89
Las tres agrupaciones de la variable comunidad da: D2 =1,27 g.l=1

p=0,26 (A nda lucía, Cantabria- Ga licia); D 2 =13,85 g.l=1 p=0,0002
(Andalucía-Cantabria, Galicia); D2=5,91 g.l=1 p=0,015 (Andalucía-Galicia,

Cantabria).
Las tres agrupaciones de la variable zona da: D2=1,80 g.l=1 p=0,18 (urba-
na, semiurbana-rural); D2=0,24 g.l=1 p=0,62 (urbana-semiurbana, rural);
D2=1,16 g.l=1 p=0,28 (urbana-rural, semiurbana).
Las tres agrupaciones de la variable curso da: D2=68,47 g.l=1 p=0,0000

(sexto, séptimo-octavo); D2=36,60 g.l=1 p=0,0000 (sexto-séptimo, octavo);
D2=6,61 g.l=1 p=0,010 (sexto-octavo, séptimo).
Al ordenar los predictores en orden decreciente de significación –del

más significativo (menor p-valor) al menos significativo (mayor p-valor)- se
obtienen los resultados que muestra la tabla 4.11.
Tabla 4.11. Resumen de valores de ji-cuadrado y significación,

por variables y agrupación de categorías
AGRUPACIÓN
JI-CUADRADO P-VALOR VARIABLE
DE CATEGORÍAS
68,47 0,000001 Curso. Sexto, séptimo-octavo.

36,60 0,00001 Curso. Sexto-séptimo, octavo.
13,85 0,0002 Comunidad. Andalucía-Cantabria, Galicia.
6,61 0,010 Curso. Sexto-octavo, séptimo.
5,91 0,015 Comunidad. Andalucía-Galicia, Cantabria.
1,80 0,18 Zona. Urbana, semiurbana-rural.
1,27 0,26 Comunidad. Andalucía, Cantabria-Galicia.
1,16 0,28 Zona. Urbana-rural, semiurbana.
0,24 0,62 Zona. Urbana-semiurbana, rural.
0,02 0,89 Sexo. —
Se puede observar que la variable que segmentará será curso por tener
el predictor más significativo (mayor ji-cuadrado (68,47) que con 1 g.l. dará
muy significativo y menor que B split=0,05) y la agrupación de las categorías
de esta variable será: sexto, séptimo-octavo.
Ya con esta segmentación el dendrograma será:
Fig. 4.2. Primer nivel del dendrograma
De forma similar se calculará los valores de ji-cuadrado, para las cate-

gorías sexto y séptimo-octavo de la variable curso, como columnas, y como
fila se seguirá la segmentación con las agrupaciones de las categorías en
las variables zona y comunidad, llegando finalmente al siguiente dendro-
grama:
Fig. 4.3. Dendrograma con tres niveles
3.2.7. Supuestos y limitaciones
No existe ninguna limitación expresa para utilizar este método de análi-

sis. En el procedimiento CHAID es aconsejable utilizar variables categóri-
cas o categorizadas, a ser posible con pocas categorías, como predictoras
para facilitar la capacidad explicativa del modelo.
Cuando se utilice como criterio una variable continua, para realizar el
procedimiento CHAID se precisará el empleo del estadístico F. En conse-
cuencia, las limitaciones del procedimiento vendrán dadas por las condicio-
nes que presenta tal estadístico (fundamentalmente homocedasticidad).
La capacidad de generalizar los resultados, está mediatizada, como en
la mayoría de métodos, por el tamaño de la muestra y por la presencia de
casos aislados.
3.2.8. Interpretación de resultados
A la hora de interpretar los resultados será necesario tener en cuenta:
La ganancia de los nodos
— Si la variable criterio es continua, la ganancia de un nodo terminal vie-

ne dada por la media de dicha variable en el nodo.
— Si la variable criterio es categórica (nominal u ordinal), la ganancia de
un nodo vendrá dada por el porcentaje de casos de la categoría criterio
seleccionada.
— Una forma de comparar nodos para su selección o eliminación es cal-
cular el índice. Este valor se define como la tasa del valor de la ganan-
cia para cada nodo en relación con el valor de la ganancia para toda la
muestra. Cuanto más elevado sea su valor mayor importancia tendrá el
nodo.
La precisión del árbol
— La precisión indica de qué modo el comportamiento del árbol se aproxi-

ma al resultado o clasificación deseada. Recíprocamente la impreci-
sión de un árbol se denomina riesgo.
— La observación de posibles relaciones entre los predictores, cuyo indi-
cador vendrá dado por la presencia, en un mismo nivel de segmenta-
ción, de distintas variables.
4. EJEMPLOS DE ANÁLISIS DISCRIMINANTE, REGRESIÓN

Y DE SEGMENTACIÓN
4.1. Análisis discriminante
Se está construyendo una prueba de competencia en Tecnología. Se de-

sea encontrar las variables con mayor incidencia para clasificar a los estu-
diantes en relación a sus habilidades tecnológicas. Para conseguir estos ob-
jetivos se utiliza los resultados de una prueba criterio de tecnología (rc) que
expresa los resultados en tres categorías (malos, regulares y buenos) respec-
to a dichas habilidades. Las variables que desea utilizar son 7 nombradas

por p1 a p7 respectivamente. La base de datos se ha generado de forma
aleatoria mediante un programa preparado «ex profeso», se puede descar-
gar en: http://www.uned.es/personal/jgil/
Con SPSS
Se utilizó para analizar los datos el programa SPSS. Su fichero de sin-

taxis se muestra a continuación:
DISCRIMINANT
/GROUPS=rc(1 3)
/VARIABLES=p1 p2 p3 p4 p5 p6 p7 p8
/ANALYSIS ALL
/METHOD=WILKS
/FIN= 3.84
/FOUT= 2.71
/PRIORS SIZE
/HISTORY
/STATISTICS=UNIVF BOXM COEFF TABLE
/PLOT=MAP
/CLASSIFY=NONMISSING POOLED.
Los resultados se muestran a continuación:
Tabla 4.12. Pruebas de igualdad de las medias de los grupos
LAMBDA
F DF1 DF2 SIG.
DE WILKS
p1 ,938 9,595 2 291 ,000
p2 ,931 10,796 2 291 ,000
p3 ,928 11,358 2 291 ,000
p4 ,981 2,771 2 291 ,064
p5 ,977 3,370 2 291 ,036
p6 ,953 7,173 2 291 ,001
p7 ,666 72,900 2 291 ,000
p8 ,694 64,246 2 291 ,000
Tabla 4.13. Logaritmo de los determinantes
DETERMINANTE
R (AGRUPADA) RANGO
DE LOGARITMO
1 5 14,346
2 5 15,253
3 5 14,365
Dentro de grupos combinados 5 14,911
Los logaritmos naturales y los rangos de determinantes impresos son los de
las matrices de covarianzas de grupo.
Prueba de Box sobre la igualdad de las matrices de covarianza
Tabla 4.14. Resultados de la prueba
M de Box 35,183
F Aprox. 1,141
df1 30
df2 154556,091
Sig. ,272
Prueba la hipótesis nula de las matrices
de covarianzas de población iguales.
Resumen de las funciones canónicas discriminantes:
Tabla 4.15. Autovalores
CORRELACIÓN
FUNCIÓN AUTOVALOR % DE VARIANZA % ACUMULADO
CANÓNICA
1 1,272a 99,3 99,3 ,748
2 ,009a ,7 100,0 ,092
a
Se utilizaron las primeras 2 funciones discriminantes canónicas en el análisis.
Tabla 4.16. Lambda de Wilks
PRUEBA LAMBDA
CHI-CUADRADO GL SIG.
DE FUNCIONES DE WILKS
1a2 ,436 239,696 10 ,000

2 ,991 2,483 4 ,648
Tabla 4.17. Coeficientes estandarizados de las funciones

discriminantes canónicas
FUNCIÓN
1 2
p2 ,742 -1,380
p4 -1,060 1,017
p6 -,588 ,500
p7 ,821 -,017
p8 ,934 ,206
Tabla 4.18. Matriz de estructura
FUNCIÓN
1 2
p7 ,627* ,396
p8 ,588* ,399
b
p3 ,158* -,114
p4 ,122* -,013
p6 ,189 ,649*
p5b ,255 ,456*
p2 ,239 -,444*
p1b ,170 -,221*
Correlaciones dentro de grupos combinados
entre las variables discriminantes y las funciones
discriminantes canónicas estandarizadas.
Variables ordenadas por el tamaño absoluto
de la correlación dentro de la función.
*
La mayor correlación absoluta entre cada
variable y cualquier función discriminante.
b
Esta variable no se utiliza en el análisis.
Tabla 4.19. Funciones en los centroides de los grupos
FUNCIÓN
R (AGRUPADA)
1 2
1 -1,529 -,074
2 ,145 ,095
3 1,585 -,107
Las funciones discriminantes canónicas
sin estandarizar se han evaluado en medias
de grupos.
Tabla 4.20. Coeficientes de la función de clasificación de Fisher
R (AGRUPADA)
1 2 3
p2 -,087 ,079 ,301

p4 ,223 -,038 -,319
p6 ,137 -,014 -,173
p7 -,153 ,129 ,372
p8 -,206 ,129 ,401
(Constante) -1,753 -1,231 -4,164
Funciones discriminantes lineales de Fisher.
Tabla 4.21. Resultados de la clasificacióna
PERTENENCIA A GRUPOS
R PRONOSTICADA
TOTAL
(AGRUPADA)
1 2 3
Original Recuento 1 57 27 0 84
2 16 113 13 142
3 0 23 45 68
% 1 67,9 32,1 ,0 100,0
2 11,3 79,6 9,2 100,0
3 ,0 33,8 66,2 100,0
a. 73,1% de casos agrupados originales clasificados correctamente.
Como se puede ver por los resultados se cumplen las condiciones de aplica-
ción del modelo, hay dos funciones discriminantes que clasifican al 73,1% de
los casos. Las funciones están formadas por las variables p2, p4, p6, p7 y p8
que participan en el modelo. La primera función explica el 55,9% de la varian-
za y la segunda el 0,8% de la varianza no explicada por la primera función.
Con R
Se ejecuta el siguiente programa:
setwd(“C:/Mis libros/metodología de la inv_cuantitativa/revisión 2015/cap4”)

library(foreign, pos=4)
Datos1 <- read.spss(“discri1.sav”, use.value.labels=FALSE,
max.value.labels=10, to.data.frame=TRUE)
datdis<-subset(Datos1[, c(10:17,19)]) # se selecciona las variables necesarias
#####
datdis<-na.omit(datdis) #para quitar casos missing
datdis$rc<-as.factor(datdis$rc) #convertir en factor
############################################################
#### Condiciones de aplicación #####
############################################################
# Descriptivos
library(RcmdrMisc)
numSummary(datdis[,1:8], groups=datdis$rc, statistics=c(“mean”, “sd”))
#Prueba de igualdad de medias de los grupos. (Test de Wilks)
Y<-as.matrix(datdis[,1:8])
resul<-manova(Y~datdis$rc)
summary(resul, test=”Wilks”)
summary.aov(resul)
#### Prueba de normalidad #################
library(normtest) #univariante
for (i in 1:8) {print (i); print(shapiro.test(datdis[, i]))}
##### Prueba de M de Box #############
library(biotools)
boxM(datdis[,1:8], datdis$rc) # M de Box
#
########
# Análisis discriminante lineal
attach(datdis)
library(MASS)
dis.pr1<-lda(rc ~p1+p2+p3+p4+p5+p6+p7+p8, data = datdis,
prior=c(84/294,142/294,68/294)) # discriminante
dis.pr1
P <- predict(dis.pr1, datdis[,1:8]) # cálculo de los valores inferidos
table(P$class, rc) # matriz de confusión
sum(P$class==rc)/294 #indice de clasificados correctamente
#############################################################
############ Análisis discriminante por pasos #######
#############################################################
dis.pr2<-glm(rc ~., family=binomial, data = datdis) # función lineal general
dis.pr2
pr2.step <- stepwise(dis.pr2, direction=”forward/backward”, trace = FALSE)
pr2.step$anova
################
dis.pr3<-lda(rc ~p2+p4+p6+p7+p8, data = datdis, prior=c(84/294,142/294,68/294))
# discriminante
dis.pr3
s <- predict(dis.pr3, datdis[, c(2,4,6,7,8)]) # cálculo de los valores inferidos
table(s$class, rc) # matriz de confusión
sum(s$class==rc)/294 #indice de clasificados correctamente
Resultados descriptivos en función de la variable de clasificación:

Variable: p1
mean sd n
1 1.182171 5.445443 84
2 3.339007 5.874322 142
3 5.315753 6.127464 68
Variable: p2
mean sd n
1 1.269792 5.920222 84
2 3.239700 6.258955 142
3 5.868120 5.838278 68
Variable: p3
mean sd n
1 0.9497928 5.391320 84
2 3.3793171 6.006240 142
3 5.5312932 6.396989 68
Variable: p4
mean sd n
1 2.199746 5.914325 84
2 3.447307 6.156187 142
3 4.547788 6.443438 68
Variable: p5
mean sd n
1 1.568471 6.779922 84
2 3.157847 5.880687 142
3 4.099857 5.944405 68
Variable: p6
mean sd n
1 0.3763795 6.046620 84
2 2.9258057 6.338399 142
3 3.7740288 5.005926 68
Variable: p7
mean sd n
1 -2.063988 4.689374 84
2 3.375513 5.102971 142
3 7.383712 4.592997 68
Variable: p8
mean sd n
1 -1.238771 4.778846 84
2 3.790729 5.053981 142
3 7.453814 4.143075 68
Para ver la procedencia del análisis discriminante R utiliza varias pruebas:

1) El test de Wilks para ver la igualdad de medias en los distintos gru-
pos (3 en este caso).
Df Wilks approx F num Df den Df Pr(>F)
datdis$rc 2 0.42233 19.126 16 568 >2.2e-16 ***
Residuals 291
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Como el resultado es significativo procede realizar el análisis, hay dife-

rencia entre las medias de los grupos. También nos podemos preguntar qué
variable tiene mayor poder discriminante:
Response p1:
Df Sum Sq Mean Sq F value Pr(>F)
datdis$rc 2 649.0 324.52 9.5948 9.219e-05 ***
Residuals 291 9842.3 33.82
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Response p2:
datdis$rc 2 795.2 397.58 10.796 3e-05 ***
Residuals 291 10716.4 36.83
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Response p3:
datdis$rc 2 799.4 399.69 11.357 1.78e-05 ***
Residuals 291 10240.8 35.19
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Response p4:
datdis$rc 2 210 105.018 2.771 0.06425.
Residuals 291 11029 37.899
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Response p5:
datdis$rc 2 256.1 128.065 3.3698 0.03574 *
Residuals 291 11058.9 38.003
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Response p6:
datdis$rc 2 511.6 255.806 7.1726 0.0009106 ***
Residuals 291 10378.3 35.664
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Response p7:
datdis$rc 2 3462.3 1731.13 72.9 ‘2.2e-16 ***
Residuals 291 6910.3 23.75
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Response p8:
datdis$rc 2 2935.0 1467.52 64.246 ‘2.2e-16 ***
Residuals 291 6647.1 22.84
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Los valores de F nos indican que las variables más discriminantes son
p7 y p8. Luego cuando hagamos el procedimiento por pasos lo veremos de
nuevo.
2) Otra de las condiciones que se le exige al modelo es la normalidad
multivariante y por tanto será necesario comprobar la normalidad univa-
riante
[1] 1
data: datdis[, i]
W = 0.9895, p-value = 0.03264
[1] 2
data: datdis[, i]
W = 0.9936, p-value = 0.2453
[1] 3
data: datdis[, i]
W = 0.9971, p-value = 0.8864
[1] 4
data: datdis[, i]
W = 0.9961, p-value = 0.6747
[1] 5
data: datdis[, i]
W = 0.9962, p-value = 0.6984
[1] 6
data: datdis[, i]
W = 0.9894, p-value = 0.0306
[1] 7
data: datdis[, i]
W = 0.9965, p-value = 0.771
[1] 8
data: datdis[, i]
W = 0.9966, p-value = 0.789
Según el test de Shapiro-Wilk las variables p1 y p6 se apartan de la nor-

malidad; no obstante, el procedimiento discriminante es bastante robusto
ante la violación de este supuesto.
3) Prueba M de box
Esta prueba valora la igualdad de la matriz de varianzas-covarianzas de
cada grupo
Box’s M-test for Homogeneity of Covariance Matrices
data: datdis[, 1:8]
Chi-Sq (approx.) = 73.1801, df = 72, p-value = 0.4391
Como se puede observar por el p-valor se acepta la hipótesis de igualdad

de varianzas-covarianzas.
Ahora se calcula las funciones discriminantes:
Call:
lda(rc ~ p1 + p2 + p3 + p4 + p5 + p6 + p7 + p8, data = datdis,
prior = c(84/294, 142/294, 68/294))
Prior probabilities of groups:

1 2 3
0.2857143 0.4829932 0.2312925
Group means:
p1 p2 p3 p4 p5 p6 p7 p8
1 1.182171 1.269792 0.9497928 2.199746 1.568471 0.3763795 -2.063988 -1.238771
2 3.339007 3.239700 3.3793171 3.447307 3.157847 2.9258057 3.375513 3.790729
3 5.315753 5.868120 5.5312932 4.547788 4.099857 3.7740288 7.383712 7.453814
Coefficients of linear discriminants:
LD1 LD2
p1 0.01680767 -0.092312893
p2 0.10354735 0.253697980
p3 0.04302532 -0.000658707
p4 -0.20811533 -0.108629744
p5 -0.03455984 0.066802634
p6 -0.07348940 -0.125538281
p7 0.16462075 0.017365247
p8 0.19839322 -0.045534820
Proportion of trace:
LD1 LD2
0.9923 0.0077
> table(P$class, rc) # matriz de confusión

rc
1 2 3
1 60 16 0
2 24 111 23
3 0 15 45
>sum(P$class==rc)/294 #indice de clasificados correctamente
[1] 0.7346939
Con la intervención de todas las variables explicativas las funciones dis-

criminantes, calculadas mediante R, clasifican un 73,4% de los casos co-
rrectamente.
Finalmente se plantea el análisis discriminante por pasos. Los resulta-
dos se muestran a continuación:
Call: glm(formula = rc ~ ., family = binomial, data = datdis
&RHI¿FLHQWV p1 p2 p3 p4 p5 p6 p7 p8
(Intercept)
0.65773 0.04588 0.14801 0.07407 -0.33787 -0.05594 -0.11961 0.26365 0.32846
Degrees of Freedom: 293 Total (i.e. Null); 285 Residual
Null Deviance: 351.8
Residual Deviance: 194.2 AIC: 212.2
>
>
> pr2.step <- stepwise(dis.pr2, direction="forward/
backward",trace = FALSE)
Direction: forward/backward
Criterion: BIC
> pr2.step$anova
Stepwise Model Path
Analysis of Deviance Table
Initial Model:
rc ~ 1
Final Model:
rc ~ p7 + p8 + p6 + p4 + p2
Step Df Deviance Resid. Df Resid. Dev AIC

1 293 351.7825 357.4661
2 + p7 1 88.340798 292 263.4417 274.8089
3 + p8 1 27.962935 291 235.4788 252.5295
4 + p6 1 14.369552 290 221.1092 243.8436
5 + p4 1 12.163904 289 208.9453 237.3632
6 + p2 1 9.701325 288 199.2440 233.3455
> ################
>
Entran en el modelo las variables p7, p8, p6, p4 y p2 en este orden. El
modelo final será:
> dis.pr3
Call:
lda(rc ~ p2 + p4 + p6 + p7 + p8, data = datdis, prior = c(84/294,
142/294, 68/294))
Prior probabilities of groups:

1 2 3
0.2857143 0.4829932 0.2312925
Group means:
p2 p4 p6 p7 p8
1 1.269792 2.199746 0.3763795 -2.063988 -1.238771
2 3.239700 3.447307 2.9258057 3.375513 3.790729
3 5.868120 4.547788 3.7740288 7.383712 7.453814
&RHI¿FLHQWVRIOLQHDUGLVFULPLQDQWV
LD1 LD2
p2 0.12233541 0.227465731
p4 -0.17225325 -0.165122581
p6 -0.09845008 -0.083713696
p7 0.16850480 0.003563968
p8 0.19540721 -0.043152952
Proportion of trace:
LD1 LD2
0.9933 0.0067
>
> s <- predict(dis.pr3, datdis[, c(2,4,6,7,8)]) # calculo de los valores
inferidos
>
>
>table(s$class, rc) # matriz de confusión
rc
1 2 3
1 57 16 0
2 27 113 23
3 0 13 45
> sum(s$class==rc)/294 #indice de clasificados correctamente
[1] 0.7312925
Como en el ejemplo preferente, se está construyendo una prueba de

competencia en Tecnología. Se desea encontrar las variables con mayor in-
cidencia sobre una variable de habilidad tecnológica (r). Las variables que
desea utilizar son 8 nombradas por p1 a p8 respectivamente. La base de
datos se ha generado de forma aleatoria mediante un programa preparado

“ex profeso”, se puede descargar en: http://www.uned.es/personal/jgil/
Con SPSS
Su fichero de sintaxis se muestra a continuación:

Los resultados fueron los siguientes:
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA COLLIN TOL
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT r
/METHOD=STEPWISE p1 p2 p3 p4 p5 p6 p7 p8
/SCATTERPLOT=(*ZRESID,*ZPRED )
/RESIDUALS DURBIN HIST(ZRESID) NORM(ZRESID).
Tabla 4.22. Resumen del modelo(g)
ERROR TÍP.
R CUADRADO DURBIN-
MODELO R R CUADRADO DE LA
CORREGIDA WATSON
ESTIMACIÓN
1 ,672(a) ,452 ,450 4,20434

2 ,758(b) ,575 ,572 3,71069
3 ,789(c) ,622 ,618 3,50344
4 ,811(d) ,658 ,654 3,33708
5 ,834(e) ,696 ,691 3,15323
6 ,840(f) ,705 ,699 3,11163 2,108
a. Variables predictoras: (Constante), p8.

b. Variables predictoras: (Constante), p8, p7.
c. Variables predictoras: (Constante), p8, p7, p6.
d. Variables predictoras: (Constante), p8, p7, p6, p4.
e. Variables predictoras: (Constante), p8, p7, p6, p4, p2.
f. Variables predictoras: (Constante), p8, p7, p6, p4, p2, p5.
g. Variable dependiente: r.
Tabla 4.23. ANOVA(g)
SUMA MEDIA
MODELO GL F SIG.
DE CUADRADOS CUADRÁTICA
1 Regresión. 4346,528 1 4346,528 245,893 ,000(a)
Residual. 5267,589 298 17,676
Total. 9614,118 299
2 Regresión. 5524,649 2 2762,324 200,615 ,000(b)
Residual. 4089,469 297 13,769
Total. 9614,118 299
3 Regresión. 5980,983 3 1993,661 162,428 ,000(c)
Residual. 3633,135 296 12,274
Total. 9614,118 299
4 Regresión. 6328,975 4 1582,244 142,083 ,000(d)
Residual. 3285,143 295 11,136
Total. 9614,118 299
5 Regresión. 6690,924 5 1338,185 134,588 ,000(e)
Residual. 2923,194 294 9,943
Total. 9614,118 299
6 Regresión. 6777,221 6 1129,537 116,661 ,000(f)
Residual. 2836,897 293 9,682
Total. 9614,118 299
a. Variables predictoras: (Constante), p8.

b. Variables predictoras: (Constante), p8, p7.
c. Variables predictoras: (Constante), p8, p7, p6.
d. Variables predictoras: (Constante), p8, p7, p6, p4.
e. Variables predictoras: (Constante), p8, p7, p6, p4, p2.
f. Variables predictoras: (Constante), p8, p7, p6, p4, p2, p5.
g. Variable dependiente: r.
Tabla 4.24. Coeficientes(a)
COEFICIENTES NO COEFICIENTES ESTADÍSTICOS

T SIG.
ESTANDARIZADOS ESTANDARIZADOS DE COLINEALIDAD
MODELO
ERROR TOLE ERROR
B BETA FIV B
TÍP. RANCIA TÍP.
1 (Constante) 1,260 ,281 4,485 ,000

p8 ,651 ,042 ,672 15,681 ,000 1,000 1,000
2 (Constante) ,808 ,253 3,197 ,002
p8 ,462 ,042 ,477 11,022 ,000 ,763 1,310
p7 ,379 ,041 ,401 9,250 ,000 ,763 1,310
3 (Constante) ,871 ,239 3,645 ,000
p8 ,548 ,042 ,566 13,044 ,000 ,677 1,477
p7 ,461 ,041 ,488 11,258 ,000 ,681 1,469
p6 -,246 ,040 -,265 -6,097 ,000 ,674 1,484
4 (Constante) 1,243 ,237 5,244 ,000
p8 ,689 ,047 ,712 14,568 ,000 ,485 2,062
p7 ,458 ,039 ,484 11,743 ,000 ,681 1,469
p6 -,299 ,040 -,323 -7,557 ,000 ,635 1,575
p4 -,210 ,038 -,228 -5,590 ,000 ,694 1,440
5 (Constante) 1,103 ,225 4,899 ,000
p8 ,641 ,045 ,662 14,108 ,000 ,470 2,128
p7 ,460 ,037 ,486 12,462 ,000 ,681 1,469
p6 -,271 ,038 -,293 -7,197 ,000 ,625 1,599
p4 -,468 ,056 -,509 -8,420 ,000 ,282 3,540
p2 ,326 ,054 ,363 6,033 ,000 ,286 3,499
6 (Constante) 1,266 ,229 5,533 ,000
p8 ,674 ,046 ,696 14,595 ,000 ,443 2,259
p7 ,453 ,036 ,479 12,430 ,000 ,678 1,475
p6 -,204 ,043 -,220 -4,683 ,000 ,457 2,190
p4 -,485 ,055 -,528 -8,799 ,000 ,279 3,580
p2 ,322 ,053 ,359 6,047 ,000 ,286 3,501
p5 -,119 ,040 -,130 -2,985 ,003 ,533 1,876
a. Variable dependiente: r.
Tabla 4.25. Diagnósticos de colinealidad(a)
PROPORCIONES DE VARIANZA
AUTO- ÍNDICE DE
MODELO DIMENSIÓN
VALOR CONDICIÓN p7 p6 p4 p2 p5 (CONSTANTE) p8
1 1 1,503 1,000 ,25 ,25

2 ,497 1,740 ,75 ,75
2 1 2,026 1,000 ,10 ,10 ,10
2 ,581 1,868 ,83 ,05 ,30
3 ,393 2,271 ,07 ,85 ,59
3 1 2,538 1,000 ,06 ,06 ,06 ,06
2 ,658 1,964 ,78 ,00 ,04 ,20
3 ,422 2,452 ,03 ,01 ,79 ,52
4 ,382 2,577 ,13 ,94 ,11 ,22
4 1 2,914 1,000 ,04 ,03 ,04 ,03 ,03 ,03
2 ,872 1,828 ,07 ,00 ,08 ,22 ,26 ,26
3 ,548 2,306 ,86 ,09 ,00 ,00 ,15 ,15
4 ,422 2,629 ,01 ,02 ,84 ,43 ,00 ,00
5 ,244 3,458 ,02 ,86 ,04 ,32 ,56 ,56
5 1 3,442 1,000 ,03 ,02 ,02 ,02 ,01 ,01
2 1,175 1,711 ,00 ,00 ,09 ,16 ,04 ,04
3 ,577 2,442 ,95 ,04 ,00 ,03 ,01 ,01
4 ,422 2,857 ,01 ,02 ,84 ,42 ,00 ,00
5 ,260 3,638 ,01 ,91 ,05 ,37 ,05 ,05
6 ,123 5,282 ,00 ,00 ,00 ,00 ,89 ,89
6 1 3,811 1,000 ,02 ,02 ,02 ,01 ,01 ,01 ,01
2 1,435 1,629 ,00 ,00 ,02 ,06 ,04 ,04 ,06
3 ,584 2,555 ,77 ,04 ,11 ,02 ,01 ,01 ,03
4 ,535 2,669 ,11 ,01 ,61 ,03 ,01 ,01 ,18
5 ,267 3,779 ,01 ,38 ,01 ,76 ,03 ,03 ,20
6 ,246 3,938 ,09 ,56 ,23 ,12 ,02 ,02 ,50
7 ,123 5,570 ,00 ,00 ,00 ,01 ,89 ,89 ,01
a Variable dependiente: r.
Tabla 4.26. Estadísticos sobre los residuos(a)
DESVIACIÓN
MÍNIMO MÁXIMO MEDIA N
TÍP.
Valor pronosticado -10,6147 17,0871 3,4767 4,76091 300

Residuo bruto -7,53523 6,59192 ,00000 3,08025 300
Valor pronosticado tip. -2,960 2,859 ,000 1,000 300
Residuo tip. -2,422 2,118 ,000 ,990 300
a Variable dependiente: r.
Fig. 4.4. Histograma de la variable r

Fig. 4.5. Gráfico P_P residuo tipificado
Fig. 4.6. Diagrama de dispersión

Por los resultados en primer lugar se puede comprobar que los datos
cumplen los condicionantes del modelo respecto a normalidad y homoce-
dasticidad según muestran los gráficos. La colinealidad presenta unos índi-
ces de condición por debajo de 15 y los residuos son independientes según el
estadístico de Durbin-Watson y de distribución normal (0,1). Las variables
que participan del modelo son: p8, p7, p6, p4, p2, p5 y lo explican en un 70%.
Los coeficientes del modelo lineal se muestran en la tabla «coeficientes».
Con R
Se ejecuta la sintaxis expresada en el cuadro siguiente:
setwd(“C:/Mis libros/metodología de la inv _ cuantitativa/revisión 2015/cap4”)

Datos1 <- read.spss(“regre1.sav”, use.value.labels=FALSE,
max.value.labels=10, to.data.frame=TRUE)
datreg<-subset(Datos1[, c(10:18)]) # se selecciona las variables necesarias
#####
datreg<-na.omit(datreg) #para quitar casos missing
#############################################################
############ Análisis regresión por pasos #######
#############################################################
attach(datreg)
fit.reg2<-glm(r ~., data = datreg) # función lineal general
¿WUHJ
pr2.step <- RcmdrMisc:: stepwise(fit.reg2, direction=”forward/backward”, trace =
FALSE)
pr2.step$anova
################
fit.pr3<-lm(r ~p5+p2+p4+p6+p7+p8, data = datreg) # regresión
VXPPDU\¿WSU
s <- predict(fit.pr3, datreg[, c(2,4,5,6,7,8)]) # cálculo de los valores inferidos
##############################################################################
###### Estudios de los residuos ##############################################
##############################################################################
################### normalidad ###############################################
rstint<-rstandard(fit.pr3) # residuos estándares del modelo ajustado (completo)
win.graph() # abre una ventana para los gráficos
par(mfrow=c(2,2)) # divide la ventana en dos filas y dos columnas
plot(rstint, ylab=”Residuos estandarizados”, main=”Mapa de los residuos estandari-
zados”)
hist(rstint, main=”Histograma de los residuos”, xlab=”residuos”, ylab=”frec.”) #

histograma de los residuos estandarizados
boxplot(rstint, main=”Diagrama de caja residuos”) # diagrama de cajas de los resi-
duos estandarizados
qqnorm(rstint) # gráfico de cuantiles de los residuos estandarizados
qqline(rstint)
dev.off()
###### Independencia entre los residuos- test Durbin-Watson ################
lmtest:: dwtest(fit.pr3)
################ Varianza de los errores constante- homocedasticidad #######
fiter<-fitted.values(fit.pr3)# valores ajustados
plot(fiter, rstint, xlab=”Valores ajustados”, ylab=”Residuos estandarizados”) #
gráfico 2D de los valores ajustados vs. los residuos estandarizados
abline(h=0) # dibuja la recta en cero
################ Colinealidad de las variables #############################
round(cor(datreg[, c(-1,-3,-9)]),2)
car:: vif(fit.pr3)
x <- model.matrix(fit.pr3)
det(cov(x[,-1])) # 0 colinealidad; 1 no-colinealidad
eigen(cov(x[,-1])) # la presencia de uno o más valores próximos a 0 indican coli
################ Casos influyentes ########################################
cook <- cooks.distance(fit.pr3)# debe ser menor que F(k; n-k; alpha)
#k predictores; n casos
qf(c(0.05), df1=7, df2=300, lower.tail=FALSE) # Valor de F
plot(cook, ylab=”Cooks distancia”)
#La distancia de cook indica que no hay ningún valor influyente
Los resultados son:

> fit.reg2
Call: glm(formula = r ~., data = datreg)
&RHI¿FLHQWV
(Intercept) p1 p2 p3 p4 p5 p6 p7 p8
1.245673 0.003858 0.301460 0.081474-0.530858-0.115337 -0.197409 0.450191 0.659279
Degrees of Freedom: 299 Total (i.e. Null); 291 Residual

Null Deviance: 9614
Residual Deviance: 2816 AIC: 1543
> pr2.step$anova
Stepwise Model Path
Analysis of Deviance Table
Initial Model:
r ~ 1
Final Model:
r ~ p8 + p7 + p6 + p4 + p2 + p5
Deviance Resid.
Step Df Df AIC
Resid. Dev
1 299 9614.118 1899.229
2 + p8 1 4346.52841 298 5267.589 1724.434
3 + p7 1 1178.12054 297 4089.469 1654.191
4 + p6 1 456.33356 296 3633.135 1624.399
5 + p4 1 347.99221 295 3285.143 1599.897
6 + p2 1 361.94941 294 2923.194 1570.581
7 + p5 1 86.29668 293 2836.897 1567.295
Las variables entran en el modelo con el siguiente orden: p8, p7,

p6, p4, p2 y p5
> summary(fit.pr3)
Call:
lm(formula = r ~ p5 + p2 + p4 + p6 + p7 + p8, data = datreg)
Residuals:
Min 1Q Median 3Q Max

-7.5352 -2.0810 -0.1258 2.2578 6.5919
&RHI¿FLHQWV
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.26573 0.22876 5.533 6.99e-08 ***
p5 -0.11894 0.03984 -2.985 0.00307 **
p2 0.32239 0.05332 6.047 4.49e-09 ***
p4 -0.48519 0.05514 -8.799 < 2e-16 ***
p6 -0.20353 0.04346 -4.683 4.33e-06 ***
p7 0.45306 0.03645 12.430 < 2e-16 ***
p8 0.67395 0.04618 14.595 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 3.112 on 293 degrees of freedom
Multiple R-squared: 0.7049, Adjusted R-squared: 0.6989
F-statistic: 116.7 on 6 and 293 DF, p-value: <2.2e-16
El modelo explica el 70,5 % de la varianza dependiente r. También se

presentan los coeficientes del modelo y la significación de los mismos.
A continuación se estudia la pertinencia del modelo de regresión, co-
menzando por la normalidad de los residuos. Según se muestra en el gráfi-
co siguiente los residuos tienen una distribución normal.
Fig. 4.7.- Estudio normalidad de los residuos
Después se estudia la independencia de los residuos mediante la prueba

de Durbin-Watson. Los resultados son los mismos de SPSS.
> lmtest:: dwtest(fit.pr3)
Durbin-Watson test
data: fit.pr3
DW = 2.1081, p-value = 0.8259
alternative hypothesis: true autocorrelation is greater than 0
A continuación la varianza de los errores, donde se debe cumplir la ho-

mocedasticidad. Aquí la distribución aleatoria de los puntos del gráfico in-
dica la existencia de la misma.
Fig. 4.8. Estudio de la homocedasticidad de los residuos
También se estudia la colinealidad de las variables independientes:

> round(cor(datreg[, c(-1,-3,-9)]),2)
p2 p4 p5 p6 p7 p8
p2 1.00 0.84 -0.02 0.03 0.16 0.49
p4 0.84 1.00 -0.01 0.06 0.17 0.51
p5 -0.02 -0.01 1.00 0.66 0.32 0.43
p6 0.03 0.06 0.66 1.00 0.49 0.49
p7 0.16 0.17 0.32 0.49 1.00 0.49
p8 0.49 0.51 0.43 0.49 0.49 1.00
> car:: vif(fit.pr3)

p5 p2 p4 p6 p7 p8
1.875801 3.500914 3.579587 2.189820 1.474630 2.258678
> x <- model.matrix(fit.pr3)

> det(cov(x[,-1])) # 0 colinealidad; 1 no-colinealidad
[1] 146459928
> eigen(cov(x[,-1])) # la presencia de uno o más valores próximos
a 0 indican coli
$values
[1] 101.346693 68.516146 24.380156 12.021788 11.575539 6.216838
$vectors
[,1] [,2] [,3] [,4] [,5] [,6]
[1,] 0.3463610 0.465251949 -0.529660766 0.224558185 0.57392579 0.05671837
[2,] 0.4010665 -0.532888142 -0.122970493 -0.167215591 0.20950460 -0.68425206
[3,] 0.4020231 -0.508073617 -0.099748663 -0.199312696 0.08367179 0.72357603
[4,] 0.4021917 0.441920190 -0.106873045 -0.662770709 -0.43432000 -0.06023016
[5,] 0.3805268 0.214735618 0.826412995 0.007046952 0.35479331 0.01419735
[6,] 0.5009973 -0.005216501 0.002765659 0.665261110 -0.55245261 -0.03450545
Aunque hay relación importante entre las variables, por ejemplo p4 y p2,
no obstante tanto el determinante de la matriz de covarianzas, como los valo-
res propios de dicha matriz son indicadores de la ausencia de colinealidad.
Finalmente se estudia si hay algún valor influente mediante la distancia
de Cook.
> cook <- cooks.distance(fit.pr3)# debe ser menor que F(k; n-k; alpha)
> #k predictores; n casos
> qf(c(0.05), df1=7, df2=300, lower.tail=FALSE) # Valor de F
[1] 2.040159
> plot(cook, ylab=”Cooks distancia”)
> #La distancia de cook indica que no hay ningún valor influyente
En esta ocasión la base de datos es el resultado de una investigación so-

bre comprensión lectora realizada en diferentes comunidades autónomas.
Se trata de ver la clasificación del factor g en función de otras variables
como: comunidad, grupo, zona, curso, edad y sexo. La muestra estuvo for-
mada por un total de 842 estudiantes.
Con SPSS
En este caso se ha utilizado en primer lugar el algoritmo Chaid dentro

del apartado clasificación>árbol, cuya sintaxis se acompaña:
ÈUEROGHFODVL¿FDFLyQ
TREE rfg [o] BY com [o] gr [o] zo [o] cu [o] edad [o] sexo [o]
/TREE
DISPLAY=TOPDOWN
NODES=STATISTICS
BRANCHSTATISTICS=YES
NODEDEFS=YES
SCALE=AUTO
/DEPCATEGORIES
USEVALUES=[12]
/PRINT
MODELSUMMARY
CLASSIFICATION
RISK
/METHOD
TYPE=CHAID
/GROWTHLIMIT
MAXDEPTH=AUTO
MINPARENTSIZE=10
MINCHILDSIZE=5
/VALIDATION
TYPE=NONE
OUTPUT=BOTHSAMPLES
/CHAID
ALPHASPLIT=0.05
ALPHAMERGE=0.05
SPLITMERGED=NO
CONVERGE=0.001
MAXITERATIONS=100
ADJUST=BONFERRONI
/COSTSEQUAL
/SCORESEQUALINCREMENTS.
Tabla 4.27. Riesgo
ESTIMACIÓN ERROR TÍPICO
,348 ,016
Método de crecimiento: CHAID.

Variable dependiente: factor g.
Tabla 4.28. Clasificación
PRONOSTICADO
OBSERVADO
PORCENTAJE
BAJO ALTO
CORRECTO
bajo. 184 209 46,8%

alto. 84 365 81,3%
Porcentaje global. 31,8% 68,2% 65,2%
Método de crecimiento: CHAID.

Variable dependiente: factor g.
Fig. 4.9. Árbol de segmentación

Con R
También se ha utilizado el algoritmo de clasificación el J48 por estar

implementado en R a través del paquete RWeka y ser por tanto de libre dis-
tribución. La sintaxis se muestra a continuación:
setwd(“C:/Mis libros/metodología de la inv _ cuantitativa/revisión 2015/

cap4”)
Datos1 <- read.spss(“segme1.sav”,
use.value.labels=TRUE, max.value.labels=Inf, to.data.frame=TRUE)
library(RWeka)
m1 <- J48(rfg ~., data = Datos1)

m1
summary(m1) # calls evaluate _ Weka _ classifier()
> m1
J48 pruned tree
------------------
cu = SEXTO
| zo = URBANA
| | com = ANDALUCIA: bajo (53.0/9.0)
| | com = CANTABRIA
| | | gr = EXPERIMENTAL: alto (32.0/12.0)
| | | gr = CONTROL: bajo (37.0/13.0)
| | com = GALICIA: bajo (0.0)
| zo = SEMIURBANA
| | edad = DIEZ AÂ¥OS: bajo (2.0)
| | edad = ONCE AÂ¥OS: alto (29.0/10.0)
| | edad = DOCE AÂ¥OS: alto (17.0/8.0)
| | edad = TRECE AÂ¥OS: bajo (2.0)
| | edad = CATORCE AÂ¥OS: bajo (1.0)
| | edad = QUINCE AÂ¥OS: alto (0.0)
| zo = RURAL: bajo (146.0/42.0)
cu = SEPTIMO
| gr = EXPERIMENTAL
| | zo = URBANA: bajo (44.0/18.0)
| | zo = SEMIURBANA: bajo (23.0/8.0)
| | zo = RURAL: alto (59.0/21.0)
| gr = CONTROL: alto (118.0/35.0)
cu = OCTAVO
| com = ANDALUCIA: alto (157.0/42.0)
| com = CANTABRIA: alto (59.0/14.0)
| com = GALICIA
| | edad = DIEZ AÂ¥OS: bajo (0.0)
| | edad = ONCE AÂ¥OS: bajo (0.0)
| | edad = DOCE AÂ¥OS: bajo (0.0)
| | edad = TRECE AÂ¥OS
| | | sexo = HOMBRE: bajo (28.0/13.0)
| | | sexo = MUJER: alto (22.0/7.0)
| | edad = CATORCE AÂ¥OS: bajo (10.0/2.0)
| | edad = QUINCE AÂ¥OS: bajo (3.0)
Number of Leaves : 24
Size of the tree: 34
> summary(m1) # calls evaluate _ Weka _ classifier()

=== Summary ===
Correctly Classified Instances 588 69.8337 %

Incorrectly Classified Instances 254 30.1663 %
Kappa statistic 0.3897
Mean absolute error 0.4107
Root mean squared error 0.4531
Relative absolute error 82.4952 %
Root relative squared error 90.8273 %
Coverage of cases (0.95 level) 100 %
Mean rel. region size (0.95 level) 99.5249 %
Total Number of Instances 842
=== Confusion Matrix ===
a b <-- classified as
244 149 | a = bajo
105 344 | b = alto
Como se puede observar el algoritmo Chaid es capaz de clasificar al

65,2% de los casos en tanto que el J48 implementación en Weka del C4.5 de
Quinlan, como muestran los resultados, clasifica al 69,83% de los casos,
resulta por tanto más eficiente. La variable de mayor poder de segmenta-
ción en ambos casos es el curso.
BIGSS, D., DE VILLE, B., y SUEN E. (1991). A method of choosing multiway partitions
for classification and decision trees. Journal of Applied Statistics, 18:48-62.
BISQUERRA, R. (1989). Introducción Conceptual al Análisis Multivariable. Barcelona:
PPU.
BREIMAN, L., FRIEDMANN, J. H, OLSHEN, R. A. y STONE, C. J. (1984). Classification and
regression trees. Wadsworth: Belmont. Calif
BRIONES, G. (1982). Clasificación y tipologías. En Métodos y técnicas de investiga-
ción para las ciencias sociales, (250-258), México: Trillas.
CEA, M. A. (2002). Análisis multivariable. Teoría y práctica en la investigación
social. Madrid: Síntesis.
CUADRAS, C. M. (1991). Métodos de Análisis Multivariante. Barcelona: Eunibar.
ESCOBAR, M. (1992). El análisis de segmentación: concepto y aplicaciones. Madrid:
Fundación Juan March.
ETXEBERRIA, J. (1999). Regresión múltiple. Madrid: La muralla.
GIL PASCUAL, J. A. (1993). Relación entre factores sociales y valores ocupacionales
en alumnos de educación secundaria. Tesis doctoral (inedita). Madrid: UNED.
GIL PASCUAL, J. A. (2000). El diagnóstico y la orientación de los recursos humanos en
las organizaciones: estudio de Clima Laboral en la Empresa, Actas del XII
Congreso Nacional y I Iberoamericano de Pedagogía. Tomo II. Resúmenes de
Comunicaciones. Madrid, septiembre 2000, pp. 516-517.
GIL PASCUAL, J. A. (2008). Métodos de investigación en Educación (Análisis
Multivariante). Madrid: UNED.
GNANADESIKAN, R. (1977). Methods for statistical data analysis of multivariate
observations. New York: John Wiley & Sons, Inc.
GOODMAN, L. A. (1979). Simple models for the analysis of association in cross-
classifications having ordered categories. Journal of the American Statistical
Association, 74: 537-552.
HAIR, ANDERSON, TATHAM, BLACK (1999). Análisis multivariante. 5/e. Madrid:
Prentice Hall.
HARRISON, D., Y RUBINFELD, D. L. (1978). Hedonic prices and the demand for clean
air. Journal Environmental Economics & Management, 5: 81-102.
KASS, G. (1980). An exploratory tecmique for investigating large quantities of cate-
gorical data. Applied Statistics, 292, 119-127.
KINNEAR, T. C y TAYLOR, J. R. (1989). Análisis de conglomerados y clasificación
multimiensional. En Investigación de mercados (552-558), Bogotá: MacGraw
Hill.
LAMBERT, A.; y SALAZAR, J. (1997). La segmentación jerárquica y el posicionamiento

mediante el uso conjunto del algorítmo CHAID y el análisis de corresponden-
cias: una aplicación metodológica. ESIC MARKET (julio-septiembre 1997).
MAGIDSON, J. (1987). Weighted Log-Linear Modeling. American Statistical
Association, 1987 Proceedings of the Social Statistics Section, pp. 175-181
MAGIDSON, J. (1989). CHAID, LOGIT, and log-linear Modeling. Marketing Information
System, Report 11-130, Delran, NJ: Datapro Research Corporation
MAGIDSON, J. (1992). Chi-squared analysis of a sealable dependent variable. In
Proceedings of the 1992 Annual Meeting of the American Statistical Association,
Educational Statisties Section
MAGIDSON, J., y SPSS INC. (1993). SPSS for Windows CHAID Release 6.0. Chicago:
SPSS Inc.
QUINLAN, J. R. (1986). Introduction of Decision Tree. Machine Learning, 1, 81-106.
QUINLAN, J. R. (1993). C4.5. Programs for Machina Learning. San Francisco:
Morgan Kaufmann
QUINLAN, J. R. (1983). «Learning efficient classification procedures and their appli-
cation to chess end games» in Michalski, R.; Carbonell, J.; Mitchell, T. (Eds)
Machine Learning: An Artificial Intelligence Approach. Morgan Kaufmann,
San Mateo, CA.
REPETTO, E., y GIL PASCUAL, J. A. (1993). Agrupación de alumnos de Enseñanza
Secundaria en razón de sus factores sociales y valores ocupacionales. En
Revista de Orientación Escolar y Vocacional. Vol. 4, n.º 5, pp. 194-209.
REPETTO, E. y GIL PASCUAL, J. A. (1994). Últimas aportaciones en la evaluación del
programa de orientación metacognitiva de comprensión lectora. En Revista de
Investigación Educativa. N.º 23, pp. 314-323.
SONQUIST, J. A., y MORGAN, J. N. (1964). The Detection of Interaction Effects. Ann
Arbor: Institute for Social Research. University of Michigan.
Capítulo 5
Técnicas relacionadas con la medida. Validación de
instrumentos de medida. Teoría de respuesta al ítem.
Diseños de caso único
1. Técnicas relacionadas con la medida

2. Análisis de los ítems
2.1. Teoría clásica de los test (TCT)
3. Diseños de caso único
Cuando utilizar los diseños de caso único
4. Un ejemplo de análisis de un instrumento de medida desde la TCT
5. Un ejemplo de análisis de un instrumento de medida desde la TRI
1. TÉCNICAS RELACIONADAS CON LA MEDIDA
El proceso de medición opera sobre un objeto, según unas reglas –que de-
finen el isomorfismo entre el objeto y la unidad de medida–, y con una unidad
de medida. Este proceso nos lleva a construir unos instrumentos, que se pasan
al objeto en el acto de medición, teniendo como resultado unos datos sobre los
que se realiza un tratamiento estadístico para obtener unos resultados.
En educación se utilizan fundamentalmente cuatro técnicas de recogida
de datos: tests o pruebas objetivas, cuestionarios, entrevistas y observación.
Además hay otras técnicas de menor uso: inventarios, listas de control, es-
calas, registros anecdóticos, etc.
Por ser los más utilizados nos vamos a centrar en las características técni-
cas de cuestionarios y tests o pruebas objetivas. Ambos instrumentos de medi-
da operan con ítems, por tanto, serán éstos elementos nuestro foco de interés.
Sin entrar en la construcción de los ítems de cuestionarios o test, por
estar fuera de los objetivos de la obra, a continuación se abordará el análisis
de ítems desde el enfoque clásico, cuyos resultados dependen de la muestra
elegida, sobre todo en el aspecto de variabilidad de la misma y son expresa-
dos en relación al «grupo normativo», y de la teoría de respuesta al ítem o
del rasgo latente, cuyos resultados son invariantes a la muestra elegida aun-
que exige un importante tamaño de la misma.
2. ANÁLISIS DE LOS ÍTEMS
2.1. Teoría clásica de los test (TCT)

Son muchas las características observables en los ítems, no obstante se
verán aquellos aspectos relacionados con las propiedades de los test. Para
evaluar la calidad de los ítems los indicadores más utilizados son:
— Dificultad.
— Discriminación.
— Análisis de los distractores.
— Fiabilidad.
— Validez.
— Dimensionalidad.
2.1.1. Dificultad
El grado de dificultad de un ítem está en función del número de perso-

nas que contesten de forma correcta al mismo. El índice de dificultad es un
indicador de la misma.
A
ID
N
donde:
A= número de personas que aciertan el ítem.

N=número total de personas que responden al ítem.
En ítems de elección múltiple, para corregir los efectos del azar, se suele
utilizar el llamado índice de dificultad corregido:
E
A−
q k −1
ID ’ = p − =
k −1 N
donde:
p= proporción de aciertos (índice de dificultad sin corregir).

q= proporción de fallos.
k= número de alternativas del ítem.
TÉCNICAS RELACIONADAS CON LA MEDIDA. VALIDACIÓN DE INSTRUMENTOS DE MEDIDA...
o también:
A=aciertos.
E=errores.
N=total.
El ID no es una propiedad intrínseca del ítem, su valor depende de la

muestra de sujetos a la que se aplique.
Naturalmente el índice de dificultad tiene sentido en test o pruebas obje-
tivas de medida de aptitudes o rendimiento donde es relevante decir si una
respuesta es correcta o no.
Los valores del índice de dificultad de un ítem se suelen clasificar en
cinco categorías:
Muy fáciles ID por encima de 0,75

Fáciles ID comprendido entre 0,55 y 0,75
Normales ID comprendido entre 0,45 y 0,54
Difíciles ID comprendido entre 0,25 y 0,44
Muy difíciles ID por debajo de 0,25
En la construcción de test es aconsejable poner mayor cantidad de ítems

con una dificultad media (aquellos con histograma simétrico) y una peque-
ña cantidad de ítems con dificultad alta y otra con dificultad baja.
Entiéndase que el índice de dificultad (en realidad se debería llamar índice
de facilidad) es una función creciente que va desde valores bajos, cuando la
dificultad es mayor, hasta valores altos (por ejemplo 0,9 cuando responden
acertadamente el 90% de las personas).
2.1.2. Discriminación
Este índice determina la selectividad de la pregunta para distinguir o

diferenciar el grupo que tiene mayor cantidad de aciertos en la misma, fren-
te al de menos aciertos. Es decir, un ítem discrimina cuando existe correla-
ción positiva entre la puntuación obtenida en el ítem con la puntuación ob-

tenida en el test, desde este punto de vista el índice de discriminación da
una idea de la homogeneidad del ítem en relación al test. Este índice va de
-1 a +1, considerándose un buen índice de discriminación el comprendido
entre 0,25 y 0,35 o mayor.
D = p+ − p−
donde:
Dividida la muestra en dos grupos extremos: a) una parte donde está
el 27% de personas con mayor puntuación en el test (extremo superior) y b)
otra parte con el 27% de menor puntuación (extremo inferior).
p+ representa la proporción de individuos del extremo superior que
aciertan el ítem.
p - representa la proporción de individuos del extremo inferior que acier-
tan el ítem.
Otra manera de valorar la discriminación de un ítem es mediante el
cálculo de la correlación obtenida entre las puntuaciones del grupo en el
ítem y en el test, cuando este ítem no es valorado.
Esta correlación se denomina índice de discriminación o de homoge-
neidad al ser un indicador del grado de relación del ítem con el resto. Si la
correlación es elevada las personas que puntúan alto en el test acertarán
también en el ítem. Si no se quita el ítem, a la hora de realizar los cálculos,
la fórmula a utilizar es la siguiente:
rix Sx − Si
IH =
S + Si2 − 2 rix Sx Si
2
x
donde: IH índice de discriminación o de homogeneidad->( ri,(xi) )

rix es la correlación ítem-test sin descontar el ítem.
Sx es la desviación típica del test.

Si es la desviación típica del ítem.
La correlación ítem-test se calculará con diferente coeficiente de corre-

lación en función del tipo de distribución conjunta de las variables que se
correlacionan: a) si son dicotómicas el coeficiente G (correlación de Pearson
de dos variables dicotómicas), b) si están dicotomizadas y se suponen pro-
vienen de distribuciones normales, la correlación tetracórica; c) una varia-
ble continua y otra dicotomizada, correlación biserial; d) una variable con-
tinua y otra dicotómica, correlación biserial puntual (aplicación de la
correlación de Pearson entre una variable dicotómica y otra cuantitativa); y
f) dos variables continuas, correlación de Pearson.
Algunos autores fijan los siguientes valores a la hora de calificar el gra-
do de homogeneidad:
El ítem discrimina muy bien IH igual o mayor de 0,4

El ítem discrimina bien IH comprendido entre 0,3 y 0,39
El ítem discrimina poco IH comprendido entre 0,20 y 0,29
Ítem límite. Se debe mejorar IH comprendido entre 0,10 y 0,19
El ítem carece de utilidad para discriminar IH menor de 0,10
Variabilidad y discriminación.
La variabilidad en el test está relacionada con el índice de discrimina-

ción:
n
Sx = ∑ Sj rj( x− j )
j=1
donde:
Sx= desviación típica del test.
Sj= desviación típica del ítem.
rj(x-j)= índice de discriminación del ítem j (correlación ítem-test corregida).
Si Sx 0 no hay discriminación alguna, porque todos los individuos

tienen la misma puntuación, y por tanto el test no permite distinguir entre
los estudiantes.
2.1.3. Análisis de distractores
Distractores son las diferentes alternativas falsas o respuestas incorrec-

tas que tiene un ítem. Todas las alternativas de un ítem deberían tener la
misma probabilidad de ser elegidas, es decir, se debería dar la equiprobabi-
lidad entre las diferentes alternativas de respuesta. Para comprobar tal cir-
cunstancia se puede plantear una tabla donde figuren las frecuencias de
elección de cada alternativa y luego utilizar la prueba de ji-cuadrado y así
comprobar la independencia de las elecciones.
2.1.4. Coeficiente de fiabilidad
Supongamos el modelo lineal clásico de medida (Muñiz, 2000 p. 28):

Modelo: X=V+e
Supuestos:
1. E(X)=V, la media de las puntuaciones empíricas es igual a la puntua-
ción verdadera.
2. ȡ(v, e)=0, la correlación entre la puntuación verdadera y el error de me-
dida es 0.
3. ȡ(ej, ek)=0, la correlación entre los errores de medida es 0.
donde X es la puntuación empírica, V la puntuación verdadera y e el error

de medida cometido en la medición.
Un instrumento de medida es fiable si está libre de error de medida.
Aunque un instrumento de medida no es bueno por el hecho de ser fiable, es
decir, de ofrecer unos números merecedores de confianza, o sea, libres de
errores de medida, sin tal propiedad la medición no es aceptable en la inves-
tigación; esto es, podemos afirmar que la fiabilidad es una condición nece-
saria, aunque no suficiente, de un instrumento de medida de calidad.
La fiabilidad de un instrumento de medida se cuantifica mediante el
coeficiente de fiabilidad (fiabilidad relativa) y con el error típico de medida
(fiabilidad absoluta).
El coeficiente de fiabilidad ȡXX’ se define como la correlación entre las

puntuaciones obtenidas por los sujetos en dos formas paralelas de un test,
X y X’ (Muñiz 2000, p. 35).
La fiabilidad es un indicador de la probabilidad de fallo que tiene nues-

tro instrumento en la reproducción de la medida o en la utilización de un
instrumento paralelo, complementado por el grado de discrepancia que tie-
ne respecto al verdadero valor.
Cuando se repite el proceso de medición es independiente la fiabilidad

del test de la variabilidad producida por la estabilidad del constructo de
medida. Existen razones como: variaciones en la madurez de los individuos
del grupo medido, cambios ambientales u otros ajenos al propio proceso de
medida, que afecta a la variabilidad del constructo. Por lo cual, se debe dis-
tinguir esta variación de aquella producida por errores del instrumento de
medida (pensar en el símil de la fiabilidad de una balanza al repetir el pro-
ceso de medición).
Con los supuestos del modelo lineal, el coeficiente de fiabilidad de un

test X con una forma paralela X’, se puede expresar como:
σV2
ρ XX ’ (1)
σ 2X
y como se supone la independencia de V y e, entonces: var(X)=var(V)+var(e),

por lo cual:
σ e2
ρ XX ’ = 1− (2)
σ 2X
Error típico de medida
Si nos fijamos en el segundo aspecto de la fiabilidad la precisión, ten-

dremos que hablar de la fiabilidad absoluta definida en términos del error
típico de medida.
Si repetimos indefinidamente un test a un individuo, la media de las

puntuaciones nos indicará el verdadero valor de la puntuación, de igual for-
ma la desviación típica de las puntuaciones respecto de la media verdadera
es el error típico.
Como es impensable repetir el test a una persona indefinidamente ten-
dremos que encontrar una estimación. Operando en la fórmula (2) tenemos
la expresión del error típico de medida:
σ e = σ x 1 - ρ xx ’
Las aplicaciones del error típico de medida son:

— Estimación de los límites entre los que se encuentra la verdadera me-
dida.
— Comparar las puntuaciones de varios sujetos en el mismo instrumento
o del mismo sujeto en diferentes instrumentos.
Como los valores de la varianza del error y la varianza de la puntuación
verdadera son desconocidos será necesario realizar estimaciones.
Estimaciones empíricas del coeficiente de fiabilidad
Fiabilidad como equivalencia-Formas Paralelas
Un instrumento es equivalente a cualquier otro que mida el mismo as-

pecto que pretendemos medir, es decir, suponemos que «el instrumento es
una muestra suficiente y representativa de la población de conductas que
integran el rasgo o característica a medir» (Pérez Juste, 1986)
Los errores de medida que se puedan producir son debidos a falta de
equivalencia entre los elementos muestreados o a experiencias de los sujetos
anteriores a la realización de la prueba.
Este aspecto de la fiabilidad se mide con el llamado coeficiente de equi-
valencia. El procedimiento para su obtención es el siguiente: se toman dos
muestras de una misma población, es decir dos conjuntos de ítem (dos for-
mas paralelas) que, según Pérez Juste (1986), deben reunir las siguientes
características:
1. Deben tener el mismo número de elementos.
2. La redacción y la estructura de cada elemento paralelo debe ser la misma.
3. El contenido y el objetivo apreciado debe ser el mismo.

4. Los índices de dificultad deben ser iguales.
5. No debe existir diferencia significativa entre medias, varianzas y cova-
rianzas.
6. Las consignas que se den en la presentación deben ser las mismas, para
que ninguno resulte más atrayente que el contrario.
7. Presentación idéntica.
Con estas sub-muestras o instrumentos equivalentes se hacen, como en
el caso anterior, dos aplicaciones, una con cada una de las formas, viniendo
determinado el coeficiente de equivalencia por el coeficiente de correlación
obtenido con las puntuaciones de ambas aplicaciones.
En el planteamiento de las pruebas de referencia criterial, uno de los
coeficientes de fiabilidad más utilizado en formas paralelas es el coeficiente
k (kappa):
Fc Fa
K=
N Fa
donde Fc es la frecuencia para los elementos que coinciden y Fa es la fre-

cuencia de azar para los elementos que coinciden y N, número de casos. El
cálculo de este coeficiente es similar al coeficiente de correlación de Pearson
para datos dicotómicos. Indudablemente este coeficiente tendrá como valor
máximo 1 y como mínimo 0.
Fiabilidad como estabilidad
Nos fijamos en la constancia de las puntuaciones en un sentido tempo-

ral. Dos aplicaciones del mismo instrumento separadas por un tiempo va-
riable.
Este tipo de fiabilidad se ve influido por las condiciones cambiantes de
carácter de los individuos sometidos a la prueba.
Se mide con el llamado coeficiente de estabilidad, cuyo procedimiento

de obtención es el siguiente: se realizan dos aplicaciones espaciadas (test,
retest) del instrumento de medida y luego se calcula el coeficiente de corre-
lación entre las puntuaciones obtenidas en las mismas.
Existen dos problemas que pueden influir claramente en los resultados:

la memoria de los individuos ante la repetición de la prueba y la motivación
de los mismos (desgana o desinterés ante la reproducción del evento). El
tiempo fijado por diversos autores entre las dos aplicaciones del instrumen-
to está entre 20 a 25 días. Debe controlarse esta variabilidad para no en-
mascarar la medida de fiabilidad del test.
Fiabilidad como consistencia interna
El índice de fiabilidad (IF) de un ítem es función del índice de discrimi-

nación y de la desviación típica del ítem
IF Si Di
donde:
Si es la desviación típica en el ítem i.
Di índice de discriminación del ítem i.
Cabe pensar que todos los elementos del instrumento de medida miden
una porción de la característica o rasgo, de forma que debe darse una cohe-
rencia interna, es decir una sub-muestra de ítems mide lo mismo que otra
sub-muestra, y representan ambas lo que mide el instrumento en su totalidad.
El grado de correlación entre ambas sub-muestras determina el coefi-

ciente de consistencia interna. Para formar estas sub-muestras se agrupan
en una los ítem pares y en otra los impares, o bien la primera mitad y la
segunda, aunque esta segunda opción tiene el inconveniente de la distribu-
ción uniforme en dificultad del test.
Este procedimiento de cálculo de la fiabilidad tiene la ventaja de necesi-

tar sólo una aplicación del test, y por tanto no verse influido por las varia-
ciones producidos en los sujetos durante la variación temporal de las aplica-
ciones.
Al utilizar sub-muestra, el coeficiente de correlación será necesario co-

rregirlo para obtener la fiabilidad de todo el test.
Para calcular la fiabilidad del test completo, como consistencia interna

de la escala, se utiliza el estadístico B de Cronbach, estimador por defecto
del coeficiente de fiabilidad, es decir ρ XX ’ p α .
⎛ n ⎞
⎜⎜ ∑ S2j ⎟⎟⎟
n ⎜ ⎜ ⎟
B= ⎜⎜1− j=1 2 ⎟⎟⎟
n − 1 ⎜⎜ Sx ⎟⎟
⎜⎜ ⎟⎟
⎝ ⎟⎠
Resulta del cociente entre las suma de las varianzas de los ítems, dividi-
da por la varianza total, ponderada por el número de ítems de la escala.
Como vemos, la fiabilidad de un test está relacionada directamente con
el número de ítems del mismo: a mayor cantidad de ítems más fiabilidad;
por eso, de alguna forma, esta fórmula nos sirve de elemento predictor de la
fiabilidad cuando se aumenta la cantidad de ítems.
Según apunta Muñiz (2000 p. 55) un elevado valor de alfa no es un indi-
cador de la unidimensionalidad de la escala de medida, sino que debe com-
pletarse con otras técnicas.
Si el cuestionario o test es multidimensional o multifacético no es co-
rrecto medir la consistencia interna de todos, sino de las diferentes facetas
o sub-escalas por separado.
Factores que afectan a la fiabilidad
a) Fiabilidad y longitud.
El número de ítems de un test afecta a la fiabilidad del mismo. La cues-
tión parece lógica pues conforme tengamos más ítems en un test mejor po-
dremos valorar un determinado aspecto del mismo y por tanto menor error
de medida, en el límite ese error será cero.
La fórmula utilizada para valorar esta variación de la fiabilidad con el
nrxx ’
número de ítems es la fórmula de Spearman-Brown Rxx ’ = con:
1 + ( n − 1)rxx ’
Rxx’ : coeficiente de fiabilidad del test alargado o extendido.

rxx’ : coeficiente de fiabilidad del test original.

n: número de veces que se ha alargado el test.
En el caso particular de n=2 (dos mitades) la fórmula de Spearman-

Brown toma la forma:
2.rxx
Rxx =
1 + rxx
donde rxx es el coeficiente de correlación de Pearson entre las mitades. Así

por ejemplo si rxx = 0,84 el coeficiente de fiabilidad será:
2.0, 84
Rxx = =0,913
1 + 0, 84
b) Fiabilidad y variabilidad.
El aumento en la variabilidad de una muestra produce aumento de la

fiabilidad del test. Esta conclusión emana de la propia definición del coefi-
ciente de fiabilidad, como correlación entre dos formas paralelas de ítems
de un cuestionario o test. Si tenemos la fiabilidad de una población, se pue-
de calcular la fiabilidad de otra población, teniendo como dato las varian-
zas de ambas.
σ12
ρ22 ’ = 1− (1− ρ11’ ) con:
σ22
S11’ : coeficiente de fiabilidad de la población 1.

S22’ : coeficiente de fiabilidad de la población 2.
T12 : varianza de la población 1.
T22 : varianza de la población 2.
Si se quiere calcular el coeficiente de fiabilidad como consistencia inter-

na del conjunto de ítems, es decir, de la escala, el valor del B de Cronbach,
dado el volumen de cálculo, se debe utilizar algún programa estadístico
como R. En el apartado 5 se abordará un ejemplo completo con R.
2.1.5. Validez
Como hemos comentado, la fiabilidad de un instrumento, es condición

necesaria pero no suficiente para una valoración positiva de éste; necesita
el concurso de la validez para completar dicha valoración.
La idea de validez es un concepto relativo. Para Pérez Juste (1986) un

instrumento es válido si mide lo que dice medir. Por su parte Félix Calvo
(1990) nos argumenta que la validez puede ser exigida respecto a:
— La construcción del test; para ello se han de estudiar si las cualidades

o factores que queremos medir están valorados en ese test.
— El contenido: las cuestiones que debe abarcar el contenido de lo que se

quiere medir.
— El criterio, que se logra con otras puntuaciones externas al test, de

modo que con ellas, y a través de la correlación con las puntuaciones
del test, pueda detectarse si éstas son válidas.
Según la American Psychological Associatión, hay cuatro metas de los

instrumentos de medición que representan cuatro tipos de validez: conteni-
do, predictiva, concurrente y de constructo; otros autores incluyen la apa-
rente.
Validez de contenido
Es imprescindible sobre todo en pruebas de rendimiento. De ella nos

dice Pérez Juste (1986, p. 227): «La esencia de la validez de contenido se en-
cuentra en la suficiencia y representatividad de la muestra de conductas
incluidas en el instrumento respecto de la población de la que forma parte».
La suficiencia es un problema de tamaño, ya que necesitamos buscar la

longitud adecuada de nuestro instrumento, para que por una parte incor-
pore todas las facetas que queremos medir y, por otra, no resulte, en modo
alguno, aburrido y penoso para el evaluado. La representatividad es obvio
que resulta imprescindible para los instrumentos de medida.
Validez predictiva
La predicción, de forma genérica, es uno de los objetivos de todo trabajo

científico. Siempre necesitamos saber la capacidad de inferencia que posee
nuestro instrumento de medida.
La forma de obtener un indicador de esta predicción, es determinar la
correlación entre las puntuaciones obtenidas por los sujetos en la prueba
con alguna otra medida.
Se necesitan varias condiciones para realizar con éxito esta comparación:
— Debe mediar algún tiempo entre las aplicaciones.
— Debe existir independencia entre ambas puntuaciones, es decir, los ins-
trumentos no tienen que estar relacionados.
— Se necesitan criterios intermedios, relativos, para realizar las predic-
ciones.
Cuando se desea realizar pronósticos sobre una variable externa (crite-

rio) con el instrumento de medida construido, se necesita valorar el grado
de relación de cada ítem con dicho criterio, esta relación se valorará con el
llamado índice de validez del ítem que no es otra cosa que la correlación
entre el ítem y el criterio.
IV rjy
Debemos tener presente que la validez predictiva no implica validez de

contenido, ya que un instrumento puede, por ejemplo, predecir el éxito en
una determinada profesión sin tener contenidos apropiados.
Validez concurrente
En realidad es una variante de la predictiva. Se diferencia de la misma

en que las medidas se hacen simultáneamente con el fin de tomar decisio-
nes en un plazo breve.
Igual que en el caso anterior, la validez concurrente no implica validez
de contenido, aunque sí es conveniente que se den las dos.
Validez de elaboración o de constructo
Es llamada por algunos de hipótesis de trabajo. Según Pérez Juste (1986,

p. 240) la validez de constructo permite ir a la raíz del problema: «eso que
medimos ¿qué es?».
La cuantificación de esta validez requiere una acumulación progresiva
de información que irá dando más consistencia a la construcción inicial, o
por el contrario ira desechando el planteamiento presentado. El método
utilizado para conseguir estos fines es el análisis factorial de las tareas in-
cluidas en la prueba.
Validez y longitud de una prueba
Como se ha comentado anteriormente existe una relación directa entre

fiabilidad y el número de ítems de la prueba. La validez también se relacio-
na con la longitud y con la fiabilidad de la prueba:
rxy n
Rxy = con:
1 + ( n − 1) rxx ’
Rxy : el nuevo coeficiente de validez.
rxy : el coeficiente de validez primitiva.
rxx’ : el coeficiente de fiabilidad.
n: el número de veces que se aumenta el test.
2.1.6. Dimensionalidad
Los test tienen como objetivo medir una variable de interés. Esta varia-
ble se puede concretar en una o más dimensiones, por tanto uno de los as-
pectos más importante a medir en el test es la dimensionalidad del mismo.
Para realizar dicho estudio la metodología más apropiada es el análisis fac-
torial de los ítems, con objeto de observar la agrupación de los mismos en
uno o más factores.
El análisis factorial es una técnica estadística de reducción de dimen-
sión que trabaja con la matriz de correlaciones o covarianzas como entra-
da. Si los ítems son dicotómicos, y se supone provienen de distribuciones
subyacentes normales, la matriz de correlaciones se construirá con las co-

rrelaciones tetracóricas y si los ítems son categóricos, por ejemplo una esca-
la de likert de 1 a 5 categorías, la matriz de correlaciones más apropiada
será las correlaciones policóricas.
Existen distintas técnicas de factorización para el agrupamiento de
ítems, sin embargo las más utilizadas por su bondad son el método de com-
ponentes principales y el método de ejes factoriales. Este último es utilizado
para maximizar la información de cada factor.
También hay diversos criterios para considerar la unidimensionalidad
cuando se obtienen diversos factores en el análisis factorial, dado por su-
puesto la imposibilidad de explicar el 100% de la varianza común. Quizás el
más utilizado es el criterio de Carmines y Zeller (1979) que consideran la
existencia de unidimensionalidad cuando el primer factor explica más del
40% de la varianza común. También según Lord (1980) se considera un test
unidimensional si el primer factor es, como mínimo, cinco veces mayor que
el segundo, o de otra forma, si M1 / M2 5 siendo M1 y M2 los autovalores de
los dos primeros factores.
La Teoría de Respuesta al Ítem (TRI) intenta brindar una fundamenta-

ción probabilística al problema de medir constructos latentes (no observa-
bles) y considera al ítem como unidad básica de medición. La puntuación
de una prueba en el modelo clásico estima el nivel de un atributo (aptitud,
rasgo de personalidad, interés, etc.) como la sumatoria de respuestas a ítem
individuales, mientras que la TRI se centra exclusivamente en el ítem.
Tanto la teoría clásica de los test (TCT) como la TRI abordan el mismo
problema: tratar de calcular el error cometido al medir variables de natura-
leza psicológica o pedagógica. Ambas teorías consideran que cada indivi-
duo lleva asociado un parámetro individual, que en la teoría de la respuesta
al ítem se denomina aptitud y se simboliza por la letra griega ș (zeta), y en
la teoría clásica se denomina puntaje verdadero (V), que es inobservable.
La diferencia principal entre la TCT y los diversos modelos del rasgo la-
tente o de teoría de la respuesta al ítem, es que la relación entre el valor es-
perado y el rasgo en la TCT es de tipo lineal ( X= V+e) mientras que en los

diversos modelos de la TRI las relaciones pueden ser funciones de tipo ex-
ponencial, tales como los modelos de Poisson, de la ojiva normal, del error
binomial o los modelos logísticos de 1,2 o 3 parámetros.
En la TCT las características métricas del test (tales como confiabilidad

y validez) se definen en términos de un grupo determinado de personas con
los que se ha construido el baremo o normas de interpretación de las pun-
tuaciones (grupo normativo). Resulta, por tanto, muy dificultoso comparar
individuos sometidos a distintos tests. Este problema se resuelve en la TRI
cuyos resultados son independientes del grupo examinado.
2.2.1. Supuestos
La TRI asume fundamentalmente dos supuestos: unidimensionalidad e

independencia local. El primer supuesto exige que la respuesta al ítem esté
determinada exclusivamente por una variable, denominada rasgo latente
(modelos unidimensionales). La independencia local exige que la probabili-
dad de responder correctamente a un ítem sea independiente de la probabi-
lidad de responder a otro cualquiera.
Para comprobar estos supuestos, sólo se mira la unidimensionalidad ya

que el cumplimiento de la misma implica la independencia local.
2.2.2. Modelos
Los postulados básicos de la TRI son los siguientes:
a) El resultado de un individuo en un ítem puede ser explicado por un con-

junto de factores llamados rasgos latentes o aptitudes que se simbolizan
por ș.
b) La relación entre la respuesta de un sujeto a un ítem y el rasgo latente
subyacente puede describirse como una función monótona creciente
que se llama función característica del ítem o curva característica del
ítem (CCI). Se cumple que a medida que la aptitud (ș) aumenta la proba-
bilidad de una respuesta correcta al ítem también aumenta.
c) Las estimaciones de la aptitud (ș ) obtenidas con distintos ítem serían

iguales y las estimaciones de los parámetros de los ítems obtenidos en
distintas muestras de individuos serán iguales.
Existen diversos modelos de TRI, sin embargo nos centraremos en los

más utilizados los modelos donde la CCI obedece a una función logística. El
más difundido es el modelo de Rasch o de un solo parámetro (b) asociado
a la dificultad del ítem:
e D( R−bi )
Pi (R ) =
1 + e D( R−bi )
donde:
Pi (R ) representa la probabilidad de acertar el ítem i para un valor de ș

bi expresa el índice de dificultad del ítem i.
D es una constante que cuando toma el valor de 1,7 la función logística
se aproxima a la normal acumulada.
El parámetro ș es el rasgo latente no observado, por construcción es una
variable continua cuyo rango teórico va desde - infinito a + infinito, no obs-
tante se considera estandarizado con media 0 y desviación 1.
El parámetro b es la dificultad del ítem y viene expresado en la misma
escala que ș y toma el valor de ș cuando la probabilidad es (1+c)/2 donde c
es el parámetro de pseudoazar del ítem. En el modelo de un solo parámetro
c=0. Cuanto más elevado sea el valor de b más difícil será el ítem.
El modelo de dos parámetros toma la expresión:
e Dai ( R−bi )
Pi (R ) =
1 + e Dai ( R−bi )
En este caso además de los parámetros anteriores hay uno nuevo a que
representa el índice de discriminación del ítem. A mayor valor de a más po-
der discriminativo tendrá el ítem. Su valor es proporcional a la pendiente de
la CCI en el punto ș=b.
El modelo de tres parámetros toma la expresión:
e Dai ( R−bi )
Pi (R ) = ci + (1− ci )
1 + e Dai ( R−bi )
El parámetro c, nuevo en este modelo, representa la probabilidad de acer-

tar el ítem las personas sin conocimiento alguno del tema. Matemáticamente
representa la probabilidad de acertar el ítem cuando R → −∞.
Desde la TRI resulta complicada la estimación de los parámetros de

los modelos, dicho proceso se denomina calibración. Es evidente la nece-
saria ayuda de los programas de cómputo. Actualmente existen varios
programas tales como LOGIST y BILOG-MG3, entre otros, además el pro-
grama R tiene comandos al respecto. Por último, es necesario puntualizar
que para emplear modelos TRI se requieren muestras grandes (n>300)
que hacen posible el ajuste a cualquier modelo de uno, dos o tres paráme-
tros. Para muestras más pequeñas el mejor modelo es el de Rasch y de ahí
su popularidad.
2.2.3. Curva característica del test
A la hora de dar resultados de la puntuación de un individuo en una

prueba, se necesita expresar la misma en función del número de ítems del
test. La curva característica del test (CCT) permite transformar los valores
ș en puntuaciones verdaderas:
n
PVj = ∑ Pi (R j )
i=1
donde:
PVj representa la puntuación verdadera que corresponde a individuos

con un nivel en el rasgo latente de șj.
n el número de ítems del test.
Pi(șj) el valor de cada CCI para ș= șj.
2.2.4. Funciones de información
Atendiendo a Fisher se define la información como el recíproco de la

precisión en la estimación de un parámetro. En el caso de la TRI nuestro
foco de atención es la estimación de ș, pero naturalmente se cometerá un
error de medida (e) que será: e = R̂ − R cuya precisión se puede expresar por
la varianza del error de media, de ahí que la información suministrada por
un ítem sobre el parámetro ș será:
1
I (R )
var(Rˆ / R )
En el modelo de un parámetro la función de información de un ítem

tomará la expresión:
Ii (R ) D2 Pi (R )Qi (R )
donde:
Ii(ș) cantidad de información del ítem i en el nivel ș
D constante de escala: 1,7.
Pi(ș) probabilidad de acierto en el ítem i.
Qi(ș)=1- Pi(ș).
En el modelo de dos parámetros toma la forma:
Ii (R ) D2 ai2 Pi (R )Qi (R )
donde ai es el índice de discriminación.

En el modelo de tres parámetros será:
D2 ai2Qi (R ) [ Pi (R ) − ci ]
2
Ii (R ) =
Pi (R )(1− ci )2
donde ci representa el índice de pseudoazar.

En los modelos de uno y dos parámetros la información será máxima
para ș=b.
La función de información de un test será el sumatorio de las funciones

de información de cada ítem del mismo:
n
IT (R ) = ∑ Ii (R )
i=1
Las funciones de información de un test es invariante ante el cambio de

escala de ș por tanto se podrá comparar dos test mediante la llamada efica-
cia relativa (ER):
IT (Rx )
ER(R )
IT (R y )
donde:
IT(șx): información del test X para el valor ș
IT(șy): información del test Y para el valor ș
2.2.5. Aplicaciones de la TRI
2.2.5.1. Banco de ítems
Una de las aplicaciones más utilizadas de los modelos TRI es la cons-

trucción de conjuntos de ítems de propiedades métricas conocidas.
Dos son las facetas a controlar en la conformación del banco: la construc-
ción de los ítems donde se debe respetar la unidimensionalidad de los ítems
del banco y la elaboración de los tests con unas determinadas características.
2.2.5.2. Equiparación de puntuaciones
Consiste en establecer una correspondencia entre las puntuaciones de

los test, y por tanto ambos deben medir la misma variable y con la misma
fiabilidad.
Dentro de la TRI el establecimiento de equivalencia entre los test es in-
necesario, otra cuestión es establecer relación entre las puntuaciones esti-
madas de cada test o entre las empíricas. Para este último caso el procedi-
miento que se sigue es utilizar unos ítems de anclaje los mismos en cada
test y proceder en uno de los test a transformar sus puntuaciones en fun-
ción de los valores obtenidos en el otro.
2.2.5.3. Funcionamiento diferencial de los ítems
Se pretende estudiar si existe distinto comportamiento de los ítems en

función de diferentes grupos. Para realizar tal estudio el procedimiento es
utilizar la curva característica del ítem para los dos (o más) grupos analiza-
dos y ver si existe diferencia entre las mismas. Para tal fin se puede utilizar
distintos métodos uno de los más utilizados es el cálculo de las diferencias
de probabilidades correspondientes a ambas curvas:
nf
Pr (R j ) − Pf (R j )
DP = ∑
j=1 nf
donde:
Pr (R j ) : es la probabilidad que los individuos del grupo de referencia tie-
nen de superar el ítem R j . Este valor se obtiene de la curva característica del
ítem del grupo de referencia.
Pf (R j ) : es la probabilidad que los individuos del grupo focal tienen de
superar el ítem R j . Este valor se obtiene de la curva característica del ítem
del grupo de focal.
nf : número de individuos del grupo focal.
El valor ideal de DP es 0 toda cantidad que se aleje de tal valor denotará

funcionamiento diferencial.
2.2.5.4. Test adaptativos
Un Test Adaptativo Informatizado (o TAI) presenta los ítems y recoge las

respuestas de la persona utilizando un ordenador, pero el uso del ordenador
no es su rasgo más característico. Lo más genuino es su capacidad para
adaptarse al rendimiento de la persona que está siendo medida, de ahí el
«Adaptativo» de TAI. La idea básica es presentar exclusivamente a cada per-
sona los ítems que nos informan de su nivel de rasgo. A una persona con
mucho nivel de vocabulario inglés no tiene mucho sentido pedirle la traduc-
ción de «DOG» (perro), pues es seguro que la sabrá. Análogamente, a una
persona con muy bajo nivel, tampoco se le debería preguntar por la traduc-
ción de «SLED» (trineo), pues es muy poco probable que la sepa. Un TAI
evitaría ambas preguntas a personas de alto y bajo nivel de vocabulario in-
glés, respectivamente. Una consecuencia de sólo administrar los ítems real-
mente útiles es que se puede conseguir la misma precisión en la medida del
rasgo con muchos menos ítems.
3. DISEÑOS DE CASO ÚNICO
Los métodos experimentales se caracterizan por:

— Una covariación entre la variable dependiente(VD) y la/s variable/es
independiente/s (VI).
— La aplicación y medición a de las condiciones de la VI anteceden a la
VD.
— Otras variables, distintas de la VI, son descartadas como posibles expli-
caciones de los cambios observados en la VD.
Se debe distinguir entre el método del estudio de caso del diseño experi-
mental de un solo sujeto donde existe mayor control experimental.
Un estudio de caso es el análisis y descripción de un solo sujeto. Los es-

tudios de caso carecen del control experimental detallado anteriormente.
Los diseños de un solo sujeto suelen utilizarse como aproximación a dise-
ños experimentales más complejos y rigurosos con grupos.
Los diseños experimentales de caso único tienen sus orígenes en los es-
tudios desarrollados por BF. Skinner en los años 30. El experimento de un
solo sujeto está pensado en la observación del cambio de comportamiento
de uno o pocos individuos. En este caso la variable independiente (el trata-
miento) se manipula sistemáticamente.
En un experimento de caso único, en primer lugar, se procede a obser-

var al sujeto registrando el comportamiento del mismo antes de someterle a
tratamiento es lo que se llama fase de observación o de línea base. Por
ejemplo, si en una clase se observa las veces que habla un niño tímido en un
estudio sobre esta temática.
Cuándo utilizar los diseños de caso único
a) En Psicología en entornos clínicos, donde es muy difícil conseguir gru-

pos de sujetos con similares diagnósticos para poder realizar seguimien-
tos conjuntos.
b) El propio individuo es el control (logra comprobar su conducta con y sin
tratamiento).
c) La persona en concreto pide intervención, y por lo tanto, establece un
compromiso con el terapeuta de alcanzar un objetivo concreto.
d) Comprobar la eficacia de una intervención en un individuo.
1. Establecer la línea base. Como se ha comentado una línea base es

una serie de registros sin intervención. Se recomienda tomar una serie
lo suficientemente grande para poder asegurar su estabilidad/tenden-
cia. Conviene tener presente un conjunto de definiciones:
Serie. Es un conjunto de observaciones dentro de una condición.
Línea base. Es la serie registrada antes de la intervención.
Tendencia. Es el patrón común en la evolución de los registros de una
serie.
Intervención. Aplicación de un tratamiento, considerado como un ni-
vel de una determinada VI.
2. Aplicar la intervención. Intervenir en un sentido literal y registrar la
serie correspondiente a la propia fase de intervención. La VD debe ser
medida de la misma manera y con la misma escala de representación

para que la comprobación visual no sea sesgada.
3. Interpretar los resultados. Es uno de los puntos más discutidos sobre
estos métodos.
Aunque hay muchos tipos de diseños con un solo sujeto los más comu-
nes son el diseño ABAB y el diseño de líneas múltiples.
Diseño ABAB
Plan de investigación experimental de caso único en el que la secuencia

es: línea base-tratamiento- retirada del tratamiento-tratamiento.
Se denominan de vuelta atrás, debido a que después de una fase de trata-
miento se vuelve a la situación anterior, es decir, una fase sin tratamiento.
Como ventaja de la vuelta atrás es que con la retirada del tratamiento pode-
mos poner en manifiesto la influencia de otras variables que han actuado
simultáneamente.
Este diseño permite al investigador confirmar la efectividad de un trata-
miento mostrando los cambios sistemáticos de la conducta en condiciones
de no tratamiento (línea base) y de tratamiento.
Un problema metodológico que puede surgir es que al dejar de aplicar
el tratamiento (B), la línea base no regrese a la condiciones iniciales mar-
cadas por la línea base (A). En este caso resulta complicado afirmar que
las variaciones han sido producidas por la intervención del tratamiento u
otras causas.
Ejemplo del diseño (Murphy, Hutchinson y Bailey, 1983)
En este estudio se pretende comprobar que la aplicación de juegos orga-

nizados a niños escolarizados reduce el número de actos agresivos, en los
períodos de descanso. Un total de 300 niños de jardín de infancia, de pri-
mer y segundo grado, sirvieron de sujetos. Se registró la cantidad de con-
ductas inapropiadas en períodos de juego de 20 minutos. La figura 1 mues-

tra los resultados de este estudio.
Figura 1. Frecuencia de incidentes no deseados, registrados durante periodos oservacio-

nales de recreo de 20 minutos diarios (Murphy, Hutchinson y Bailey, 1983)
Diseños de la línea base múltiple
Es un diseño que demuestra la efectividad de un tratamiento a través de

los cambios de conducta que ocurren en más de una línea base después de
introducir el tratamiento. Las líneas bases se establecen al comienzo entre
diferentes individuos, o entre diferentes conductas o situaciones para un
mismo individuo.
Los problemas metodológicos de este tipo de diseño surgen cuando la

conducta no cambia de forma inmediata después de la introducción del tra-
tamiento o cuando el efecto del tratamiento se da en otros individuos, otras
conductas u otras situaciones.
Ejemplo del diseño (Domash et al., 1980, citado por Arnau, 1984)
Un ejemplo de diseño de línea base múltiple, en el ámbito de la delin-

cuencia, es la evaluación de un programa de ayuda, para la preparación
de informes casos, a los oficiales de policía. En este estudio, los oficiales
de policía fueron asignados aleatoriamente a dos grupos Después de una

fase inicial de línea base en que se controlaron los informes realizados
por cada grupo, los oficiales de un grupo pasaron a la sala especial de
Preparación de Casos. En esta sala especial los oficiales recibieron ins-
trucciones para realizar informes de investigación criminal. Mientras
tanto, el resto de oficiales realizando los informes sin ayuda alguna espe-
cial. Los informes fueron controlados en ambos grupos. Al cabo de un
tiempo, los oficiales del segundo grupo acudieron, también, a la sala espe-
cial de Preparación de Casos.
Los resultados de este estudio muestran que tras pasar por la sala de
preparación, los informes fueron más documentados, se realizaron en un
tiempo menor después del arresto, fueron más satisfactorios y mejor eva-
luados por el Ayudante del Fiscal del Distrito.
Resultados:
Grupo I Intervención
100
Porcentaje de elementos de casos
Línea base
75
50
25
0
Grupo II Intervención
100
Línea base
75
50
25
0
Intervención de tres meses
Figura 2. Porcentaje medio de elementos de casos documentados en los informes

de los policías (Domash, et al., 1980)
Ventajas.–Suponen un instrumento factible y aplicable en el campo de

intervenciones, en donde la investigación experimental resulta más difícil
de conseguir dado el carácter individualizado de la misma.
Los diseños n=1 eliminan la dificultad que para la investigación aplica-

da tiene la homogeneización de la muestra objeto de estudio. El trato con
individuos a intervenir supone diferentes comportamientos y múltiples for-
mas de expresión, sentimientos y estados emocionales variables, elementos
que están presentes y que no pueden ser aislados del contexto del estudio.
La ausencia de grupo control, un solo sujeto ejerce como sujeto experi-
mental y a la vez como sujeto control.
Inconvenientes.–La generalización: se apunta que esta se puede efectuar
con mayor seguridad si el número de observaciones es mayor. Este aspecto
es discutido, ya que otros autores (Castro, 1975) afirma que no importa que
la generalización se obtenga a través de una observación en múltiples suje-
tos o mediante múltiples observaciones a un solo sujeto.
La variabilidad: el ser humano al ser individualizado en sus característi-
cas bio-psicosociales-espirituales, son muchos y muy diversos los factores
que influyen en el comportamiento de cada persona, dando lugar a varia-
ciones individuales múltiples.
4. UN EJEMPLO DE ANÁLISIS DE UN INSTRUMENTO

DE MEDIDA DESDE LA TCT
Se supone una prueba de 10 ítems dicotómicos realizada por 1000 indi-

viduos. Se quiere calcular los índices de dificultad, discriminación, fiabili-
dad para el alfa de Cronbach y estudiar la unidimensionalidad de la escala.
El fichero de sintaxis realizado mediante R se muestra a continuación:
# Import Data
tri1 <- read.table(“C:/Mis libros/metodología de la inv_cuantitativa/
revisión 2015/cap5/ejemplo2.dat”, sep=””)
tri2<-tri1[2:11]
##########################
# TCT Descriptive Statistics #
##########################
.Table<-matrix(nrow=10, ncol=2)
.Sum<-matrix(nrow=10, ncol=2)
for (i in 1:10)
{
. Table[i,] <- table(tri2[, i])
. Sum[i,]<-100*. Table[i,]/sum(. Table[i,])
}
.Table # distribución frecuencias para i. Sum # porcentaje para i.

Sum[,2] # indice de dificultad
##########################
# Descriptive Statistics #
##########################
library(car)
re1<-RcmdrMisc:: reliability(cov(tri2))
print(re1, digits=3)
# correlación (item, total)->indice de discriminación.
PC<- princomp(~., data = tri2, cor = TRUE) # Análisis de componentes
principales
unclass(loadings(. PC)) # component loadings. PC$sd^2 # component
variances
screeplot(. PC)
remove(. PC)
Y el fichero de resultados será el siguiente:

> .Table # distribución frecuencias para i
[,1] [,2]
[1,] 488 512
[2,] 657 343
[3,] 362 638
[4,] 648 352
[5,] 527 473
[6,] 505 495
[7,] 458 542
[8,] 237 763
[9,] 671 329
[10,] 137 863
> .Sum # porcentaje para i
[,1] [,2]
[1,] 48.8 51.2
[2,] 65.7 34.3
[3,] 36.2 63.8
[4,] 64.8 35.2
[5,] 52.7 47.3
[6,] 50.5 49.5
[7,] 45.8 54.2
[8,] 23.7 76.3
[9,] 67.1 32.9
[10,] 13.7 86.3
> .Sum[,2] # indice de dificultad
[1] 51.2 34.3 63.8 35.2 47.3 49.5 54.2 76.3 32.9 86.3
Como se puede observar los índices de dificultad van desde 32,9% has-
ta 86,3%, es decir, el ítem más sencillo es el número 10 y el más complejo
es el 9.
> print(re1, digits=3)
Alpha reliability = 0.597
Standardized alpha = 0.598
Reliability deleting each item in turn:
Alpha Std.Alpha r(item,total)
V2 0.589 0.588 0.202
V3 0.601 0.601 0.149
V4 0.547 0.549 0.366
V5 0.595 0.596 0.175
V6 0.529 0.532 0.429
V7 0.588 0.588 0.208
V8 0.542 0.544 0.380
V9 0.568 0.568 0.286
V10 0.565 0.566 0.297
V11 0.578 0.578 0.248
Los índices de discriminación indicados por la correlación ítem-total,

son valores normales que van desde 0,149 hasta 0,429.
Respecto a la fiabilidad de la escala es baja 0,597 o 0,601 si se elimina el
ítem 2 (variable V3).
En relación con la unidimensionalidad el análisis de componentes prin-
cipales tiene un primer componente que explica la mayoría de la varianza,
pero con valor reducido, inferior al 40%.
Fig. 3. Proporción de la varianza explicada por cada componente

5. UN EJEMPLO DE ANÁLISIS DE UN INSTRUMENTO

DE MEDIDA DESDE LA TRI
El ejemplo propuesto tiene los mismos datos de partida del apartado pre-
cedente. Se persigue los siguientes objetivos: realizar un análisis de ítems y
obtener el mejor modelo que se ajuste a los datos y estimar las puntuaciones q
de los encuestados. Para conseguir los objetivos anteriores se realizarán los
siguientes pasos: a) un estudio descriptivo de los ítems y ver el cumplimiento
del modelo TRI (básicamente la unidimensionalidad), b) ajuste de los datos
a un modelo y c) cálculo de las puntuaciones q de los encuestados.
El fichero de sintaxis para realizar el estudio descriptivo se muestra a
continuación:
# Import Data
tri1 <- read.table(“C:/Mis libros/metodología de la inv_cuantita-
tiva/revisión 2015/cap5/ejemplo2.dat”, sep=””)
tri2<-tri1[2:11]
# load `ltm’ package
library(ltm)
##########################
# Descriptive Statistics #
##########################
dsc <- descript(tri2)
dsc
Los resultados son:

> dsc
Descriptive statistics for the ‘tri2’ data-set
Sample:
10 items and 1000 sample units; 0 missing values
Proportions for each level of response:
0 1 logit
V2 0.488 0.512 0.0480
V3 0.657 0.343 -0.6500
V4 0.362 0.638 0.5667
V5 0.648 0.352 -0.6103
V6 0.527 0.473 -0.1081
V7 0.505 0.495 -0.0200
V8 0.458 0.542 0.1684
V9 0.237 0.763 1.1692
V10 0.671 0.329 -0.7127

V11 0.137 0.863 1.8404
Frequencies of total scores:
0 1 2 3 4 5 6 7 8 9 10
Freq 6 33 58 134 131 181 139 140 106 52 20
Point Biserial correlation with Total Score:

Included Excluded
V2 0.4165 0.2019
V3 0.3579 0.1486
V4 0.5486 0.3656
V5 0.3828 0.1747
V6 0.6062 0.4288
V7 0.4222 0.2083
V8 0.5666 0.3798
V9 0.4596 0.2857
V10 0.4868 0.2968
V11 0.3925 0.2475
Cronbach’s alpha:
value
All Items 0.5968
Excluding V2 0.5891
Excluding V3 0.6006
Excluding V4 0.5471
Excluding V5 0.5947
Excluding V6 0.5289
Excluding V7 0.5875
Excluding V8 0.5424
Excluding V9 0.5683
Excluding V10 0.5649
Excluding V11 0.5781
Pairwise Associations:
Item i Item j p. value
1 2 4 0.806
2 1 2 0.802
3 4 10 0.600
4 2 6 0.530
5 6 8 0.190
6 1 4 0.173
7 6 9 0.025
8 4 5 0.024
9 4 8 0.020
10 2 10 0.016
Después de calculados los estadísticos principales y visto en el apartado

anterior la posible unidimensionalidad del conjunto de ítems, se intenta
ajustar los datos al modelo de 1, 2 o 3 parámetros. El fichero de sintaxis se
muestra a continuación:
##############################################
# Ajuste de modelo 1PL o Rasch Models #
##############################################
# Ajuste con discriminación igual a 1
fit.rasch1 <- rasch(tri2, constraint = cbind(ncol(tri2) + 1, 1))
summary(fit.rasch1)
# items ordenados por dificultad, y
# probabilidad de respuesta positiva por media individual
coef(fit.rasch1, prob = TRUE, order = FALSE)
# Ajuste por modelo de Rasch con discriminación distinto de 1

fit.rasch2 <- rasch(tri2)
summary(fit.rasch2)
# probabilidad de respuesta positiva por media individual
coef(fit.rasch2, prob = TRUE, order = FALSE)
# para observar si hay diferencia significativa en Likelihood Ratio
Test entre los modeloseen the two models
anova(fit.rasch1, fit.rasch2)
# si no hay diferencia significativa no se mejora con el ajuste
########################
# Ajuste modelo de 2PL #
########################
fit.2pl <- ltm(tri2 ~ z1)
summary(fit.2pl)
coef(fit.2pl, standardized = TRUE, prob = TRUE, order = FALSE)
anova(fit.rasch2, fit.2pl)
########################
# Ajuste modelo de 3PL #
########################
fit.tpm1 <- tpm(tri2, control = list(optimizer = “nlminb”))
summary(fit.tpm1)
coef(fit.tpm1, standardized = TRUE, prob = TRUE)
anova(fit.2pl, fit.tpm1)
##########################################
## Test de unidimensionalidad
#########################################
out <- unidimTest(fit.2pl)
out
Los resultados expresados a continuación inclinan la balanza por un

modelo de dos parámetros (sólo se muestra este último caso) y cómo resulta
no significativo el modelo de tres parámetros (fit.tpm1):
> coef(fit.2pl, standardized = TRUE, prob = TRUE, order = FALSE)

Dffclt Dscrmn std.z1 P(x=1|z=0)
V2 -0.09311374 0.5612359 0.4894236 0.5130617
V3 1.41322119 0.4845297 0.4360412 0.3352025
V4 -0.58684207 1.2763530 0.7871711 0.6789646
V5 1.30029696 0.4956145 0.4440673 0.3442422
V6 0.08834037 1.7477577 0.8679689 0.4614771
V7 0.03573519 0.5815746 0.5027363 0.4948045
V8 -0.17115037 1.3774784 0.8092395 0.5586675
V9 -1.37296562 1.0266017 0.7163267 0.8036853
V10 0.85861416 0.9959092 0.7056560 0.2983638
V11 -1.97220343 1.1427636 0.7525500 0.9049746
> anova(fit.2pl, fit.tpm1)
Likelihood Ratio Table

AIC BIC log.Lik LRT df p.value
fit.2pl 12042.11 12140.27 -6001.06
fit.tpm1 12048.16 12195.40 -5994.08 13.95 10 0.175
También se realiza una comprobación de la unidimensionalidad del

modelo de TRI de dos parámetros con la hipótesis alternativa de suponer
que el segundo valor propio de los datos observados es sustancialmente
mayor que el segundo valor propio bajo el modelo asumido de dos pará-
metros.
Alternative hypothesis: the second eigenvalue of the observed data is

substantially larger than the second eigenvalue of data under the assumed
IRT model
Second eigenvalue in the observed data: 0.5533

Average of second eigenvalues in Monte Carlo samples: 0.5212
Monte Carlo samples: 100
p-value: 0.2574
Los resultados muestran el rechazo de la hipótesis alternativa.
A continuación se realiza unas comprobaciones respecto al ajuste de los

ítems al modelo.
#####################
### Comprobaciones ##
#####################
# chequea los residuos para todas las respuestas observadas
# patrones; por defecto los patrones de respuesta se ordenan
# de acuerdo con sus valores residuales
residuals(fit.2pl, resp. patterns = NULL, order = TRUE)
# chequeo de residuos para respuestas específicas
# patrones
patterns <- rbind(“all.zeros” = rep(0,10),
“mix1” = rep(0:1, length = 10),
“mix2” = rep(1:0, length = 10),
“all.ones” = rep(1, 10))
residuals(fit.2pl, resp. patterns = patterns, order = FALSE)
# chequeo del modelo para dos marginales
margins(fit.2pl, nprint=2)
# chequeo del modelo para tres marginales
margins(fit.2pl, type = “three-way”, nprint=2)
Los resultados son los siguientes:
> residuals(fit.2pl, resp. patterns = patterns, order = FALSE)

V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 Obs Exp Resid
all.zeros 0 0 0 0 0 0 0 0 0 0 6 8.91734282 -0.9769441
mix1 0 1 0 1 0 1 0 1 0 1 0 0.97633502 -0.9880967
mix2 1 0 1 0 1 0 1 0 1 0 0 0.06373648 -0.2524608
all.ones 1 1 1 1 1 1 1 1 1 1 20 14.61325644 1.4091356
> margins(fit.2pl, nprint=2)
Call:
ltm(formula = tri2 ~ z1)
Fit on the Two-Way Margins

Response: (0,0)
Item i Item j Obs Exp (O-E)^2/E
1 1 8 149 136.23 1.2
2 6 8 129 140.84 1.0
Response: (1,0)
1 4 10 45 36.39 2.04
2 1 8 88 100.60 1.58
Response: (0,1)
1 3 4 91 103.19 1.44
2 1 2 165 153.78 0.82
Response: (1,1)
1 4 5 184 198.09 1.00
2 1 2 178 189.29 0.67
> # chequeo del modelo para tres marginales

> margins(fit.2pl, type = “three-way”, nprint=2)
Call:
Fit on the Three-Way Margins
Response: (0,0,0)
Item i Item j Item k Obs Exp (O-E)^2/E
1 6 7 8 79 95.02 2.70
2 1 8 9 125 111.06 1.75
Response: (1,0,0)
1 4 5 10 36 25.02 4.82 ***
2 2 4 6 123 102.78 3.98 ***
Response: (0,1,0)
1 1 2 6 96 77.05 4.66 ***
2 1 6 8 67 51.84 4.43 ***
Response: (1,1,0)
1 4 5 6 59 78.81 4.98 ***
2 4 8 10 35 24.39 4.61 ***
Response: (0,0,1)
1 6 8 9 15 26.06 4.69 ***
2 3 4 5 80 68.03 2.11
Response: (1,0,1)
1 2 5 6 51 67.82 4.17 ***
2 5 8 9 15 22.47 2.48
Response: (0,1,1)
1 1 6 8 147 172.07 3.65 ***
2 3 4 5 26 37.27 3.41
Response: (1,1,1)
1 3 4 6 159 142.95 1.8
2 3 4 9 123 109.73 1.6
‘***’ denotes a chi-squared residual greater than 3.5
En general se observa buen ajuste al modelo para patrones de respuesta

en los 10 ítems y para combinaciones de marginales.
Finalmente, para terminar calculan las puntuaciones theta de los en-
cuestados.
#####################
### Salidas ##
#####################
# Curva característica para el modelo 2PL
plot(fit.2pl, legend = TRUE, pch = rep(1:2, each = 5), xlab =
“Aptitud”,
col = rep(1:5, 2), lwd = 2, cex = 1.2, sub = paste(“Modelo: “,
deparse(fit.2pl$call)))
# Curva de información del ítem para el modelo 2PL

plot(fit.2pl, type = “IIC”, legend = TRUE, pch = rep(1:2, each =
5), xlab = “Aptitud”,
col = rep(1:5, 2), lwd = 2, cex = 1.2, sub = paste(“Modelo: “,
deparse(fit.2pl$call)))
#########################################################
# Posterior modes as ability estimates under each model #
#########################################################
##################################################
# Kernel Density Estimation of Ability Estimates #
##################################################
# Extraer frecuencia observada para cada patrón de respuesta
Obs <- factor.scores(fit.2pl)$score.dat$Obs
# Compute Kernel Density Estimates

bw <- 0.25 # you can play with various choices for the bandwidth
d.2pl <- density(rep(theta.2pl$score.dat$z1, Obs), bw = bw)
d.2pl
################################
# Expected A Posteriori Scores #
################################
factor.scores(fit.2pl, method = “EAP”)
Fig. 4. Curvas características de los diferentes ítems
Fig. 5. Curvas de información de los diferentes ítems

En primer lugar las curvas características y de información de cada

ítem, luego las puntuaciones para patrones de respuesta (se incluye sólo las
primeras y las últimas) y se dibuja la distribución de dichos patrones res-
pecto a la habilidad y se incluye la dificultad del ítem.
Fig. 6. Curvas de distribución de la habilidad y la dificultad de los ítems
> d.2pl
Call:
density.default(x = rep(theta.2pl$score.dat$z1, Obs), bw = bw)
Data: rep(theta.2pl$score.dat$z1, Obs) (1000 obs.); Bandwidth ‘bw’ = 0.25
x y
Min. : -2.6324 Min. : 0.0001179
1st Qu.: -1.4030 1st Qu.: 0.0278654
Median : -0.1736 Median : 0.1886296
Mean : -0.1736 Mean : 0.2031424
3rd Qu.: 1.0558 3rd Qu.: 0.3648452
Max. : 2.2853 Max. : 0.4580372
> ################################
># Expected A Posteriori Scores #
>################################
>factor.scores(fit.2pl, method = “EAP”)
Call:
Scoring Method: Expected A Posteriori
Factor-Scores for observed response patterns:

V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 Obs Exp z1 se.z1
1 0 0 0 0 0 0 0 0 0 0 6 8.917 -1.946 0.669
2 0 0 0 0 0 0 0 0 0 1 14 12.150 -1.468 0.626
3 0 0 0 0 0 0 0 0 1 1 1 1.446 -1.095 0.598
4 0 0 0 0 0 0 0 1 0 0 4 6.210 -1.514 0.630
5 0 0 0 0 0 0 0 1 0 1 13 13.465 -1.084 0.597
6 0 0 0 0 0 0 0 1 1 0 1 0.708 -1.137 0.601
7 0 0 0 0 0 0 0 1 1 1 1 2.311 -0.742 0.577
.........
.........
.........
381 1 1 1 1 1 0 1 0 1 1 1 0.487 0.910 0.628
382 1 1 1 1 1 0 1 1 0 1 3 4.817 0.922 0.629
383 1 1 1 1 1 0 1 1 1 1 5 6.301 1.345 0.676
384 1 1 1 1 1 1 0 0 1 1 1 0.206 0.610 0.600
385 1 1 1 1 1 1 0 1 0 1 1 2.021 0.621 0.601
386 1 1 1 1 1 1 0 1 1 1 2 1.921 1.002 0.638
387 1 1 1 1 1 1 1 0 1 1 1 0.866 1.148 0.654
388 1 1 1 1 1 1 1 1 0 1 12 8.638 1.161 0.655
389 1 1 1 1 1 1 1 1 1 1 20 14.613 1.624 0.709
ARNAU GRAS, J. (1984). Diseños experimentales en psicología y educación. Vol 2.

Trillas: México.
CARMINES, E. G., y ZELLER, R. A. (1979). Reliability and validity assessment. Londres:
Sage.
MURPHY, H. ALLEN, HUTCHISON, J. MICHAEL, y BAILEY, JON S. (1983). «Behavioral
school psychology goes outdoors: the effect of organized games on playgound
aggression». Journal of applied behavior analysis. n.º 16, pp. 29-35.
MUÑIZ, J. (1999). Teoría clásica de los tests. Pirámide: Madrid.
MUÑIZ, J. (1997). Introducción a la Teoría de respuesta a los ítems. Pirámide: Madrid.
PÉREZ JUSTE, R. (1986). Pedagogía experimental. La medida en educación. Madrid: UNED.
Juan del Rosal, 14
28040 MADRID
Tel. Dirección Editorial: 913 987 521

Gil, J (2017) - Metodología Cuantitativa en Educación. Madrid, ESPAÑA UNED - Universidad Nacional de Educación A Distancia, 2015. ProQuest Ebrary. Web. 22

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Gil, J (2017) - Metodología Cuantitativa en Educación. Madrid, ESPAÑA UNED - Universidad Nacional de Educación A Distancia, 2015. ProQuest Ebrary. Web. 22

Încărcat de

Drepturi de autor:

Formate disponibile

Metodología cuantitativa

JUAN ANTONIO GIL PASCUAL

UNIVERSIDAD NACIONAL DE EDUCACIÓN A DISTANCIA

Quedan rigurosamente prohibidas, sin la

© Universidad Nacional de Educación a Distancia

© Juan Antonio Gil Pascual

&diciónEJHJUBM: PDUVCSF de 2015

Capítulo 1. PROGRAMAS INFORMÁTICO-ESTADÍSTICOS: S P S S Y R

Capítulo 2. INTRODUCCIÓN A LA SELECCIÓN DE MUESTRAS EN EL ÁMBITO EDU-

Capítulo 3. TÉCNICAS DESCRIPTIVAS MULTIVARIANTES: ANÁLISIS FACTORIAL

2.4.2. Métodos no jerárquicos

Capítulo 4 TÉCNICAS EXPLICATIVAS MULTIVARIANTES: ANÁLISIS DISCRIMINAN-

Capítulo 5. TÉCNICAS RELACIONADAS CON LA MEDIDA. VALIDACIÓN DE INSTRU-

3. Diseños de caso único

1. El análisis de datos con ordenador

El análisis de datos con la ayuda del ordenador resulta en la actualidad

Hoy en día la proliferación de dichos paquetes, para realizar tareas con-

Para realizar el análisis estadístico de los datos de una investigación, en

a) Introducir los datos en el programa estadístico o grabar los datos en

b) Filtrado y depuración de los datos eliminando los casos anómalos, don-

c) Imputación o eliminación de casos ausentes bien por falta de respues-

— Modelos mixtos (Lineales, Lineales generalizados).

2.1. Ventanas de SPSS

SPSS utiliza diferentes ventanas:

Los menús más importantes del SPSS son los siguientes:

Ver Se utiliza para visualizar la barra de estado, visualizar los iconos de la

Utilidades Se utiliza para visualizar información sobre el contenido del fichero de

2.3. Barra de herramientas y barra de estado

Statistics tiene una barra de herramientas donde se reflejan mediante

2.4. Entrada y ejecución del SPSS

Como cualquier programa Windows, SPSS tiene dos procedimientos de

Figura 1.1 Pantalla principal de SPSS.

2.5. Pasos básicos para realizar un análisis de datos con SPSS

Introducir los datos en SPSS. Se puede abrir un archivo de datos pre-

2.6. Matriz de datos

Para realizar un análisis estadístico es necesario disponer de una ma-

VARIABLE 1 VARIABLE 2 ............... VARIABLE m

Es decir, es una matriz rectangular de dimensión n x m, donde n (núme-

El proceso de construcción de esta matriz de datos se compone de:

1. Introducir o importar los datos. Para realizar esta labor se puede

Como se ha comentado, los datos se pueden introducir directamente en

La ventana de datos tiene dos visiones: a) vista de datos, donde se mues-

2. Definir variables. Para crear un archivo de datos de SPSS (.sav), se

3. Salvar el fichero de datos. Una vez que se ha introducido la matriz de

R es un software estadístico-matemático orientado al proceso de datos,

2. Dar Instalar paquete(s) y escribir Rcmdr

Figura 1.2 Pantalla de R-Commander.

Mediante los menús de R-Commander se podrá realizar la mayoría de

3.1. Lectura y escritura de datos

allowEscapes = FALSE, flush = FALSE,

c) Leer datos de librerías

d) Acceder a datos de una biblioteca

Si la biblioteca ya ha sido conectada mediante la función library, sus

3.1.2. Exportar datos

Pero para exportar un data.frame es mejor:

Para escribir un fichero CSV importable desde Excel

3.1.3. Guardar y leer datos

los leeremos con

Podemos salvar todos los objetos con

4. ANÁLISIS DESCRIPTIVO DE DATOS

4.1. Con SPSS

4.2.1. La exploración de los datos

The decimal point is 1 digit(s) to the left of the |