Documente Academic
Documente Profesional
Documente Cultură
en educación
XXXVOFEFTQVCMJDBDJPOFT
ISBNFMFDUSØOJDP: 978-84-362-
8. El m o d o lineal
8.1. Regresión lineal
8.1.1. Con SPSS
8.2. Análisis de la varianza
8.2.1. Con SPSS
9. Un ejemplo de investigación con SPSS y R
referencias bibliográficas
3.1. Introducción
3.2. El análisis de segmentación. el modelo Chaid
3.2.1. Definiciones
3.2.2. Objetivos y aplicaciones del método
3.2.3. Relación con otros métodos multivariantes
3.2.4. El estadístico ji-cuadrado en la segmentación
3.2.5. El procedimiento Chaid
3.2.6. Un ejemplo de aplicación del procedimiento Chaid
3.2.7. Supuestos y limitaciones
3.2.8. Interpretación de resultados
4. Ejemplos de análisis discriminante, de regresión y de segmentación
4 . 1 . Análisis discriminante
4.2. Análisis de regresión
4.3. Análisis de segmentación
5. Referencias bibliográficas
2. INTRODUCCIÓN AL SPSS
La investigación en ciencias sociales, y en especial la investigación cuan-
titativa, necesita el uso de paquetes informático-estadístico para su desa-
rrollo. En este apartado se fijará los rudimentos mínimos para utilizar uno
de los programas estadísticos más populares, el SPSS.
Statistics de SPSS es un paquete estadístico de análisis de datos utiliza-
do en la investigación en ciencias sociales, económicas y de la salud.
Contiene programas capaces de realizar desde unos simples análisis des-
criptivos hasta diferentes tipos de análisis multivariante. Está formado por
un conjunto de módulos que conforman el paquete básico llamado SPSS
Statistics donde en la pestaña de Análisis permite realizar:
— Informes (libro de códigos, cubos OLAP, informes por filas o columnas).
— Estadísticos descriptivos ( Frecuencias, Descriptivos, Explorar, Tablas
cruzadas, Gráficos P-P y Q-Q).
— Tablas (Personalizadas y Respuestas múltiples).
— Comparar medias (Medias, Prueba T para una muestra, Prueba T para
muestras independientes, Prueba T para muestras relacionadas, ANOVA
de un factor).
— Modelo lineal general (Univariante, Multivariante, Medidas repetidas,
Componentes de la Varianza).
— Modelos lineales generalizados (Modelos lineales generalizados,
Ecuaciones de estimación generalizadas).
PROGRAMAS INFORMÁTICO-ESTADÍSTICOS: SPSS Y R
Datos Contiene el fichero de datos. Con este editor se puede crear un fichero de
datos o modificar uno ya existente. Esta ventana se abre automáticamente
cuando se ejecuta el SPSS. El fichero de datos tiene extensión.sav
METODOLOGÍA CUANTITATIVA EN EDUCACIÓN
Resultados Contiene los resultados de la ejecución de los comandos del SPSS, tanto de
lectura de datos, transformación de datos, etc., como de análisis de datos.
Esta ventana se abre automáticamente cuando se ejecuta el SPSS. Se pue-
den abrir varias ventanas de salida. Los ficheros de resultados aparecen en
el visor del mismo nombre y tienen extensión.spv
Sintaxis Esta ventana se utiliza para ejecutar comandos del SPSS. Estos comandos
pueden pertenecer a un fichero que ha sido creado con el SPSS, o pueden
escribirse directamente, o pueden proceder de ejecutar la opción Pegar de
alguna de las ventanas de diálogo. Los mencionados comandos se pueden
grabar en un fichero para utilizarlos en otro momento de la sesión de
SPSS. Se pueden abrir varias ventanas de sintaxis. Para ejecutar los
comandos SPSS de una ventana de sintaxis, se marca con el ratón los
comandos que se desean ejecutar y se pincha en el icono (ejecutar).
Los ficheros de sintaxis tienen extensión.sps
Script Ejecuta programas en Sax Basic sobre un objeto de SPSS, por ejemplo una
tabla pivote. Hay programas que contienen procesos standard almacenados
en el subdirectorio SPSS y con extensión sbs. En Windows necesita tener
instalado WinHlp32.exe. También puede ejecutar script en Python, siempre
que esté instalado IBM® SPSS Statistics - Essentials for Python.
En todas las ventanas del SPSS están disponibles unos menús, una ba-
rra de herramientas, una barra de estado, y unos botones, algunos de los
cuales son comunes a todas las ventanas y otros son específicos de cada
una de ellas.
2.2. Menús
Archivo Se utiliza para nuevo (datos, sintaxis, resultados, script), abrir, abrir base
de datos, leer datos de texto, cerrar, guardar, guardar como, mostrar infor-
mación de datos, hacer caché de datos, imprimir, presentación preliminar,
cambiar servidor, detener procesador, datos usados recientemente, archi-
vos usados recientemente, salir de SPSS.
Edición Se utiliza para deshacer, rehacer, cortar, copiar, pegar, pegar variables, eliminar
en los ficheros de datos y procedimientos y buscar en el fichero de datos y
opciones para definir las condiciones de entorno para tablas y datos.
PROGRAMAS INFORMÁTICO-ESTADÍSTICOS: SPSS Y R
Datos Se utiliza para realizar cambios en el fichero de datos, tales como: definir
propiedades de variables, copiar propiedades de datos, definir fechas,
insertar variable, insertar caso, ir a caso, ordenar casos, transponer, rees-
tructurar, fundir archivos (añadir casos, añadir variables), agregar- es
decir, crear grupos de casos para un análisis-, diseño ortogonal, segmentar
archivos, seleccionar casos y ponderar casos. Estos cambios, excepto el
caso de agregar que crea un archivo independiente, son temporales a no
ser que se graben antes de salir del programa.
Transformar Se utiliza para realizar cambios en las variables seleccionadas del fichero
de datos y crear nuevas variables basadas en valores de otras variables que
ya existen. Estos cambios son temporales y se guardan al salvar el fichero
de datos. Las opciones del menú transformar son las siguientes: calcular,
semilla de aleatorización, contar apariciones, recodificar (en las mismas
variables, en distintas variables), categorizar variables, asignar rango a casos,
recodificación automática, crear serie temporal, reemplazar valores perdidos.
Generar valores aleatorios.
Analizar Se utiliza para realizar el análisis estadístico deseado. Las opciones son:
Informes, Estadísticos descriptivos, Tablas, Comparar medias, Modelo
lineal general, Modelos lineales generalizados, Modelos mixtos,
Correlaciones, Regresión, Loglineal, Clasificar, Reducción de dimensiones,
Escala, Pruebas no paramétricas, Previsiones, Supervivencia, Respuesta
múltiple, Muestras complejas, Simulación, Control de Calidad, Curva
COR.
Gráficos Se utiliza para crear gráficos: Generar gráficos, de Barras, Barras 3D,
Líneas, Áreas, Circular, Máximos y mínimos, Diagramas de caja y Barras
de error, Pirámide de población, Dispersión, Histograma.
Ventana Para minimizar las ventanas y donde van apareciendo los distintos fiche-
ros que se ejecutan.
? Este menú abre una ventana de ayuda que contiene información sobre el
uso de cualquiera de las características del SPSS.
METODOLOGÍA CUANTITATIVA EN EDUCACIÓN
3. EL PROGRAMA R Y R-COMMANDER
a) De un fichero
read.table lee un fichero con datos separados por espacios en blanco,
tabuladores o saltos de línea.
read.table(file, header = FALSE, sep = "", quote = "\"",
dec = ".", numerals = c("allow.loss", "warn.loss", "no.loss"),
row.names, col.names, as.is = !stringsAsFactors,
na.strings = "NA", colClasses = NA, nrows = -1,
skip = 0, check.names = TRUE, fill = !blank.lines.skip,
strip.white = FALSE, blank.lines.skip = TRUE,
comment.char = "#",
METODOLOGÍA CUANTITATIVA EN EDUCACIÓN
Para poder leer una hoja de datos directamente, el archivo externo debe
reunir las condiciones adecuadas. La forma más sencilla es:
— La primera línea del archivo debe contener el nombre de cada variable
de la hoja de datos.
— En cada una de las siguientes líneas, el primer elemento es la etiqueta de
la fila, y a continuación deben aparecer los valores de cada variable.
— >tabla.datos <- read.table("c:/R/mis.datos", header = TRUE, sep = "",
comment.char = "")
Para referirnos a las variables de tabla.datos será necesario escribir ta-
bla.datos$nombre de la variable, entonces resulta más sencillo utilizar el
comando attach, que pone temporalmente en un primer nivel el archivo de
datos. De esta manera se evita arrastrar su nombre cada vez que se haga
uso de una de sus variables. La función attach actúa hasta ejecutar la orden
detach para el mismo fichero.
b) La función scan()
Lee datos de un fichero o de la consola de trabajo. Su formato es:
scan(file = "", what = double(), nmax = -1, n = -1, sep = "",
quote = if(identical(sep, "\n")) "" else "’\"", dec = ".",
skip = 0, nlines = 0, na.strings = "NA",
flush = FALSE, fill = FALSE, strip.white = FALSE,
quiet = FALSE, blank.lines.skip = TRUE, multi.line = TRUE,
comment.char = "", allowEscapes = FALSE,
fileEncoding = "", encoding = "unknown", text, skipNul = FALSE)
data(package="nls")
data(Puromycin, package="nls")
> library(nls)
> data()
> data(Puromycin)
Para exportar datos lo más sencillo es exportar una matriz (es necesario
transponer la matriz).
> write(t(x), file = "c:/R/data.txt", ncolumns = n, append = FALSE)
Resulta muy importante poder guardar datos, funciones, etc., para ser
usados en otras sesiones de R. Esos datos así guardados pueden compartir-
se con otros usuarios e incluso utilizarse en distintos sistemas operativos:
> x <- runif(30)
> y <- list(a = 1, b = TRUE, c = "salida")
> save(x, y, file = "xy. RData")
METODOLOGÍA CUANTITATIVA EN EDUCACIÓN
4.2. Con R
Para estudiar la distribución de los datos se puede realizar con las fun-
ciones summary o fivenum; y también puede realizar un diagrama de tallo
y hojas con la función stem
> data(faithful)
> attach(faithful)
> summary(eruptions)
> summary(eruptions)
Min. 1st Qu. Median Mean rd Qu. Max.
1.600 2.163 4.000 3.488 4.454 5.100
> stem(eruptions)
> stem(eruptions)
5.2. Con R
Tablas:
attach(mydata)
mytable<-table(A, B)#A fila, B columna
mytable #resultado
margin.table(mytable,1)#A marginal
margin.table(mytable,2)#B marginal
prop.table(mytable)#
prop.table(mytable,1)# porcentaje fila
prop.table(mytable,2)# porcentaje columna
Cross-tabla parecida a la salida de SPSS:
library(gmodels)
CrossTable(mydata$myrowvar, mydata$mycolvar)
METODOLOGÍA CUANTITATIVA EN EDUCACIÓN
Correlaciones y covarianzas:
cor(mtcars, use="complete.obs", method="kendall")
cov(mtcars, use="complete.obs")
Otras correlaciones:
# correlación policórica
# x es una tabla de contingencia
library(polycor)
polychor(x)
# pearson (var.numérica-numérica),
# polyserial (numérica-ordinal),
# y polychoric (ordinal-ordinal)
# x es un data frame
library(polycor)
hetcor(x)
# correlación parcial
library(ggm)
data(mydata)
pcor(c("a", "b", "x", "y", "z"), var(mydata))
# correlación parcial entre a y b controlado por x, y, z
6. GRÁFICOS
la forma y relación entre variables. Gráfico P-P y Q-Q crea un gráfico de las
proporciones acumuladas o de los cuantiles, de una variable respecto a las/
los de una distribución cualquiera de prueba. Estos tipos de gráficos suelen
emplearse para determinar si la distribución de una variable coincide con
una distribución dada. Si los valores empíricos de la variable seleccionada
coinciden con los valores teóricos de la distribución de prueba, los puntos
formarán una línea recta.
También se puede probar los valores empíricos de distribuciones transfor-
madas. SPSS tiene las siguientes opciones de transformación: el logaritmo
natural, tipificar valores, diferencia y diferencia estacional. Además, se puede
especificar el método utilizado para calcular las distribuciones esperadas, así
como para resolver «empates», u observaciones múltiples con el mismo valor.
6.2. Con R
Introducción:
Se puede ver diferentes posibilidades gráficas dando:
> demo(graphics)
> plot(runif(15))
> plot(rnorm(10), rnorm(10))
7. LA DECISIÓN ESTADÍSTICA
Con el fin de dar una idea del tipo de prueba estadística que se debe apli-
car cuando se realiza un contraste de hipótesis a continuación se presentan
dos mapas conceptuales para un grupo o una muestra y para dos o más
grupos.
PROGRAMAS INFORMÁTICO-ESTADÍSTICOS: SPSS Y R
7.2.2. Con R
t.test(x, y=NULL,
Realiza el contraste de hipótesis de la media de x o
alternative="two.sided",
de la diferencia de medias (x-y) de una población
mu=0, paired=F, var.equal=T,
normal.
conf.level=.95)
var.test(x, y,
Contraste del cociente de varianzas x e y
alternative="two.sided")
cor.test(x, y,
alternative = c("two.sided", "less", "greater"), Test de correlación según las características de los
method = c("pearson", "kendall", "spearman"), datos
exact = NULL, conf.level = 0.95,...)
8. EL MODELO LINEAL
donde:
4. Estudio en un lugar donde no hay ruidos y tengo a mano todo lo que pue-
do necesitar:
Nada Poco Bastante Mucho
12.1 Sexo:
a) Chico
b) Chica
12.2. Estudios que está realizando:
a) Enseñanza Primaria ..................
b) Enseñanza Secundaria ...................
c) Bachillerato .....................
— Relación entre los estudios que está realizando y, por ejemplo, el ítem 9.
FREQUENCIES
VARIABLES=it1 it2 it3 it4 it5 it6 it7 it8 it9 it10 it11 sexo estudios
/NTILES= 4
/STATISTICS=MODE
/BARCHART FREQ
/ORDER= ANALYSIS.
CROSSTABS
/TABLES=it9 BY estudios
/FORMAT= AVALUE TABLES
/STATISTIC=CHISQ
/CELLS= COUNT COLUMN
/COUNT ROUND CELL.
CROSSTABS
/TABLES=it10 BY sexo
/FORMAT= AVALUE TABLES
/STATISTIC=CHISQ
/CELLS= COUNT COLUMN
/COUNT ROUND CELL.
it1
PORCENTAJE PORCENTAJE
FRECUENCIA PORCENTAJE
VÁLIDO ACUMULADO
Válidos 1 54 27,0 27,0 27,0
2 44 22,0 22,0 49,0
3 56 28,0 28,0 77,0
4 46 23,0 23,0 100,0
Total 200 100,0 100,0
it2
PORCENTAJE PORCENTAJE
FRECUENCIA PORCENTAJE
VÁLIDO ACUMULADO
it3
PORCENTAJE PORCENTAJE
FRECUENCIA PORCENTAJE
VÁLIDO ACUMULADO
it4
PORCENTAJE PORCENTAJE
FRECUENCIA PORCENTAJE
VÁLIDO ACUMULADO
it5
PORCENTAJE PORCENTAJE
FRECUENCIA PORCENTAJE
VÁLIDO ACUMULADO
it6
PORCENTAJE PORCENTAJE
FRECUENCIA PORCENTAJE
VÁLIDO ACUMULADO
it7
PORCENTAJE PORCENTAJE
FRECUENCIA PORCENTAJE
VÁLIDO ACUMULADO
it8
PORCENTAJE PORCENTAJE
FRECUENCIA PORCENTAJE
VÁLIDO ACUMULADO
it9
PORCENTAJE PORCENTAJE
FRECUENCIA PORCENTAJE
VÁLIDO ACUMULADO
it10
PORCENTAJE PORCENTAJE
FRECUENCIA PORCENTAJE
VÁLIDO ACUMULADO
it11
PORCENTAJE PORCENTAJE
FRECUENCIA PORCENTAJE
VÁLIDO ACUMULADO
Sexo
PORCENTAJE PORCENTAJE
FRECUENCIA PORCENTAJE
VÁLIDO ACUMULADO
Estudios
PORCENTAJE PORCENTAJE
FRECUENCIA PORCENTAJE
VÁLIDO ACUMULADO
Los cruces de las variables según los objetivos segundo y tercero son:
ESTUDIOS
it9 1 Recuento 17 8 18 43
% de estudios 26,2% 11,9% 26,5% 21,5%
2 Recuento 22 19 20 61
% de estudios 33,8% 28,4% 29,4% 30,5%
3 Recuento 12 20 13 45
% de estudios 18,5% 29,9% 19,1% 22,5%
4 Recuento 14 20 17 51
% de estudios 21,5% 29,9% 25,0% 25,5%
Total Recuento 65 67 68 200
% de estudios 100,0% 100,0% 100,0% 100,0%
PROGRAMAS INFORMÁTICO-ESTADÍSTICOS: SPSS Y R
Pruebas de chi-cuadrado
SIG. ASINTÓTICA
VALOR gl
(BILATERAL)
SEXO
CHICO TOTAL
CHICA CHICO
it10 1 Recuento 25 27 52
% de sexo 23,8% 28,4% 26,0%
2 Recuento 28 23 51
% de sexo 26,7% 24,2% 25,5%
3 Recuento 28 24 52
% de sexo 26,7% 25,3% 26,0%
4 Recuento 24 21 45
% de sexo 22,9% 22,1% 22,5%
Total Recuento 105 95 200
% de sexo 100,0% 100,0% 100,0%
Pruebas de chi-cuadrado
SIG. ASINTÓTICA
VALOR gl
(BILATERAL)
Chi-cuadrado de Pearson ,576(a) 3 ,902
Razón de verosimilitudes ,576 3 ,902
Asociación lineal por lineal ,230 1 ,631
N de casos válidos 200
Como se puede observar por las tablas anteriores entre el it9 y estudios
no hay diferencias significativas y tampoco las hay entre el it10 y sexo.
Los resultados al realizar los análisis con R resultan similares. El fiche-
ro de sintaxis que se incluye a continuación muestra además la generación
aleatoria de las variables it1 a it11 y sexo y estudios, en un primer cuadro y
la sintaxis de los cálculos en un segundo cuadro:
it1<-sample(c(1:4),200, replace=TRUE)
it2<-sample(c(1:4),200, replace=TRUE)
it3<-sample(c(1:4),200, replace=TRUE)
it4<-sample(c(1:4),200, replace=TRUE)
it5<-sample(c(1:4),200, replace=TRUE)
it6<-sample(c(1:4),200, replace=TRUE)
it7<-sample(c(1:4),200, replace=TRUE)
it8<-sample(c(1:4),200, replace=TRUE)
it9<-sample(c(1:4),200, replace=TRUE)
it10<-sample(c(1:4),200, replace=TRUE)
it11<-sample(c(1:4),200, replace=TRUE)
sexo<-sample(c(1:2),200, replace=TRUE)
estudios<-sample(c(1:3),200, replace=TRUE)
master1<-data.frame(it1, it2, it3, it4, it5, it6, it7, it8, it9, it10, it11, sexo, estudios)
remove(. Test)
remove(. Table)
. Table <- xtabs(~it10+sexo, data=gen.datos)
. Table
. Test <- chisq.test(. Table, correct=FALSE)
. Test
remove(. Test)
remove(. Table)
>. Table
Estudios
it9 Estudios Primarios Estudios Secundarios Bachillerato
nada 17 8 18
poco 22 19 20
bastante 12 20 13
mucho 14 20 17
METODOLOGÍA CUANTITATIVA EN EDUCACIÓN
>. Test
Pearson’s Chi-squared test
data: .Table
X-squared = 7.9799, df = 6, p-value = 0.2396
>. Table
Sexo
it Chico Chica
nada 25 27
poco 28 23
bastante 28 24
mucho 24 21
>. Test
Pearson’s Chi-squared test
data: . Table
X-squared = 0.5763, df = 3, p-value = 0.9018
PROGRAMAS INFORMÁTICO-ESTADÍSTICOS: SPSS Y R
REFERENCIAS BIBLIOGRÁFICAS
EGUZKITZA, J. M.; Bayo, I (2007). Prácticas de estadística con R. Bilbao: Arte Kopi.
GARCÍA PÉREZ, A. (2008). Estadística aplicada con R. Madrid: UNED.
GIL PASCUAL, J. A. 2.ª ed. (2006). Estadística e Informática (SPSS) para el tratamien-
to descriptivo e inferencial de datos. Madrid: UNED.
NICOLÁS, M. J. (2006). Estadística aplicada con R. Murcia: Nausícaä
STEFAN TH. GRIES (2009). Quantitative Corpus Linguistics with R. A Practical
Introduction. London: Routledge.
UGARTE, M. D.; MILITINO, A. F. 2.ª ed. (2002). Estadística Aplicada con S-PLUS.
Pamplona: Universidad Pública de Navarra.
Referencias de R:
«R para Principiantes», the Spanish version of «R for Beginners», translated by
Jorge A. Ahumada (PDF).
A Spanish translation of «An Introduction to R» by Andrés González and Silvia
González (PDF, Texinfo sources).
«Gráficos Estadísticos con R» by Juan Carlos Correa and Nelfi González (PDF).
«Cartas sobre Estadística de la Revista Argentina de Bioingeniería» by Marcelo R.
Risk (PDF).
«Introducción al uso y programación del sistema estadístico R» by Ramón Díaz-
Uriarte, transparencies prepared for a 16-hours course on R, addressed mainly
to biologists and bioinformaticians (PDF).
«Generacion automatica de reportes con R y LaTeX» by Mario Alfonso Morales
Rivera (PDF).
«Métodos Estadísticos con R y R Commander» by Antonio Jose Saez Castillo (PDF,
ZIP, 2010-07-08).
«Optimización Matemática con R: Volumen I» by Enrique Gabriel Baquela and Andrés
Redchuk (PDF, 161 pages). Data sets and complementary information are available at
https://cran.r-project.org/doc/contrib/Optimizacion_Matematica_con_R_
Volumen_I.pdf.
«Introducción al uso de R y R Commander para el análisis estadístico de datos en
ciencias sociales» by Rosario Collatón Chicana (PDF, 128 pages, 2014-05-11).
«El arte de programar en R» by Julio Sergio Santana and Efraín Mateos Farfán
(PDF, 197 pages, 2014-12-15; online).
Capítulo 2
Introducción a la selección de muestras
en el ámbito educativo
1. Introducción
1.1. Diseños muestrales
1.2. Selección de la muestra en diseños probabilísticos
3. Muestreo estratificado
3.1. Estimadores de la media y la proporción poblacional
3.2. Cálculo del tamaño muestral para la estimación de la
media y proporción poblacional
5. Muestreo sistemático
6. Muestreo por cuotas
7. Muestreo para contraste de hipótesis estadística
7.1. Comparación de dos medias
7.2. Comparación de dos proporciones
Referencias bibliográficas
1. INTRODUCCIÓN
El marco puede ser una lista de todos los hogares de la ciudad obtenida
del censo de la misma.
habrá:
COMPUTE X = UNIFORM(10).
EXECUTE.
1 0 4 2 2
2 0 4 2 2
3 0 5 3 2
4 0 6 2 4
5 1 6 3 3
6 1 3 1 2
7 0 7 3 4
8 0 5 2 3
9 1 5 2 3
10 1 4 2 2
Total 4 49 22 27
E( y )=μ n
y i
49
En el ejemplo 1: y i1
= 4,9
n 10
Además debemos estudiar la bondad del estimador que vendrá dado por
la varianza:
T 2 N n ¬
V( y )= [1]
n N 1 ® N
( y N)
i
2
Donde:
N n
( yi N)2 ( y y)
i
2
S2 i1
es la cuasi-varianza poblacional y s i1 2
la
N 1 n 1
cuasi-varianza muestral (recuérdese la equivalencia, para abreviar las nota-
ciones, entre ŝ2 s2 ).
s2 N n ¬ s2 n ¬ s2
Vˆ ( y ) 1 1 f
[2]
n N ® n N ® n
n Nn
donde f= se llama fracción de muestreo y corrección por pobla-
N N
ciones finitas.
En el ejemplo 1:
s2 10 ¬ s2
Vˆ ( y ) 1 0,9
= 0,129;
10 100 ® 10
n n
( yi y)2 y 2
i
ny 2
253 240,1
s2 i1
i1
= 1,43
n 1 n 1 9
y o k Vˆ ( y )
N n PQ ˆ N n pq
V(p)= ; V ( p)
N 1 n N n 1
N n PQ
Para A será: V ( Aˆ ) V ( Np) N 2V ( p) N 2
N 1 n
N n ¬ pq
Donde su estimación será: Vˆ ( Aˆ ) N 2Vˆ ( p) N 2
N ® n 1
INTRODUCCIÓN A LA SELECCIÓN DE MUESTRAS EN EL ÁMBITO EDUCATIVO
Aˆ o k Vˆ ( Aˆ )
En el ejemplo 1:
a 4
A=4 cuando sexo=1 y n–a=10–4=6 por tanto p= =0,4
n 10
100 10 0,4.0,6
Y por tanto Vˆ ( p) =0,024; Â =100.0,4=40
100 10 1
100 10 0,4.0,6
y su estimación de varianza será: Vˆ ( Aˆ ) 1002 240
100 10 1
En resumen se puede plantear la siguiente tabla:
Media n
S2 2
y i V ( y) 1 f
Vˆ ( y ) s 1 f
y o k Vˆ ( y )
y= i1 n
n
Proporción a N n PQ ˆ N n pq p o k Vˆ ( p)
p=
n V(p)= V ( p)
N 1 n N n 1
 Np V ( Aˆ ) N 2V ( p) Vˆ ( Aˆ ) N Vˆ ( p) Aˆ o k Vˆ ( Aˆ )
2
Media poblacional
T 2 N n ¬ e2
Como k V ( y ) = e, entonces,
n N 1 ® k2
Como en la mayoría de los casos se desconoce T 2 (varianza poblacio-
ˆ s2 N n
y
nal) y debe reemplazarse V( ) por su estimador V ( y ) enton-
n N
s Nn e
2 2
ces: 2 que nos lleva a:
n N k
s2
n
s2
D
N
e2 e2
Con D cuando k=2
k2 4
1,43
n x 97
0,052 1,43
22 100
Media
s2
n s2
s2 n
D D
N
Proporción N
PQ
n N 1
1 PQ
D PQ n
N 1 D
N
1
1 N 1 n
Caso P=Q= , n 4D
2 1
4D
N 1
Nota: En el caso de un muestreo aleatorio simple, una unidad muestral contiene solamente un elemento.
3. MUESTREO ESTRATIFICADO
Para obtener mayor precisión en las estimaciones, con este tipo de mues-
treo, se debe perseguir que los estratos cumplan la condición de que la va-
rianza intra-estrato sea mínima y la varianza entre-estrato máxima, con
este ideal reduciremos el error muestral o conseguiremos reducir el tama-
ño muestral si deseamos mantener el mismo error muestral, es decir, logra-
remos mayor eficacia.
N1 ¦²
¦¦
N2 ¦¦
¦
... ¦¦¦ L
N j ¦¦
» L estratos N j tamaño del estrato N
j 1
j N
¦
... ¦¦
¦¦
NL ¦¦¼
Nj
Llamaremos Wj el peso del estrato j dentro de la población Wj
L N
siendo W
j 1
j 1
METODOLOGÍA CUANTITATIVA EN EDUCACIÓN
Se cumplirá:
L
1 N N N
yst [ N1 y1 N2 y2 ........ NL yL ] 1 y1 2 y2 ........ L yL Wj yj
N N N N j 1
1 N2 N2 N2 L
Vˆ ( yst ) 2 [ N12Vˆ ( y1 ) N22Vˆ ( y2 ) ...... NL2Vˆ ( yL )] 12 Vˆ ( y1 ) 22 Vˆ ( y2 ) ...... L2 Vˆ ( yL ) Wj2Vˆ ( yj )
N N N N j 1
ˆ N j nj s2j
Como V ( y j ) , sustituyendo:
N j nj
L N j nj s2j
Vˆ ( yst ) Wj2
j 1 N j nj
2
nótese que sj es la cuasi-varianza muestral.
El intervalo de confianza de la media poblacional será:
yst o k Vˆ ( yst )
N=N1+N2+N3=160+72+98=330
INTRODUCCIÓN A LA SELECCIÓN DE MUESTRAS EN EL ÁMBITO EDUCATIVO
3 3 N j − nj s2j
yst = ∑ wj yj V ( yst ) = ∑ wj
ˆ 2
j =1 j =1 N j nj
160 16 72 12 98 49
w1 w2 w3
330 33 330 55 330 165
16 12 49
yst = .34 + .25, 2 + .18, 5 =27,477
33 55 165
2 2 2
⎛16 ⎞ 160 − 18 35, 4 ⎛12 ⎞⎟ 72 − 10 210, 2 ⎛ 49 ⎞⎟ 98 − 12 86, 8
Vˆ ( yst ) = ⎜⎜ ⎟⎟⎟ + ⎜⎜ ⎟⎟ + ⎜⎜ =1,8318
⎜⎝ 33 ⎠ 160 18 ⎜⎝ 55 ⎠ 72 10 ⎜⎝165 ⎟⎟⎠ 98 12
Proporción poblacional p
L
1 N N N
pˆ st = ( N1 pˆ 1 + N2 pˆ 2 + ......... + NL pˆ L ) = 1 pˆ 1 + 2 pˆ 2 + ......... + L pˆ L = ∑ wj pˆ j
N N N N j =1
1 L L N j − nj pˆ j qˆ j
Vˆ ( pˆ st ) = 2 [ N12Vˆ ( pˆ 1 ) + N22Vˆ ( pˆ 2 ) + ......... + NL2Vˆ ( pˆ L )] = ∑ w2j Vˆ ( pˆ j ) = ∑ w2j
N j =1 j =1 N j nj − 1
pˆ st o k Vˆ ( pˆ st )
METODOLOGÍA CUANTITATIVA EN EDUCACIÓN
NÚM. DE HOGARES
^
ESTRATO TAMAÑO DE LA MUESTRA DONDE SE LEE ALGÚN pj
LIBRO DE AVENTURAS
A 18 8 0,44
B 10 4 0,4
C 12 6 0,5
L
Vˆ ( pˆ st ) = ∑ w2j Vˆ ( pˆ j ) pero:
j =1
N − n2 pˆ 2 qˆ 2 72 10 0, 4.0, 6
Vˆ ( pˆ 2 ) = 2 = . =0,022963
N2 n2 − 1 72 10 1
N − n3 pˆ 3 qˆ 3 98 12 0, 5.0, 5
Vˆ ( pˆ 3 ) = 3 = . =0,019944
N3 n3 − 1 98 12 1
En consecuencia
2 2 2
⎛16 ⎞ ⎛12 ⎞ ⎛ 49 ⎞⎟
Vˆ ( pˆ st ) = ⎜⎜ ⎟⎟⎟ .0, 012864 + ⎜⎜ ⎟⎟⎟ .0, 022963 + ⎜⎜
⎜⎝165 ⎟⎟⎠
.0, 019944 = 0,005876
⎜⎝ 33 ⎠ ⎜⎝ 55 ⎠
INTRODUCCIÓN A LA SELECCIÓN DE MUESTRAS EN EL ÁMBITO EDUCATIVO
3.2.1. Afijación
n
Afijación uniforme, donde se reparte por igual entre todos los estratos nj
L
Afijación proporcional, la que se hace en proporción al tamaño del estra-
n
to j cte.
Nj
Teniendo, en este caso, todas las unidades muestrales la misma probabi-
lidad de ser seleccionadas en la muestra.
Afijación óptima o de mínima varianza, donde se eligen los nj de forma
NS
que minimicen la varianza para un n fijo: nj = L j j n
∑ N j Sj j =1
o también
1
( c − c0 )Wj Sj
cj
nj = L
n
∑W S
j =1
j j cj
METODOLOGÍA CUANTITATIVA EN EDUCACIÓN
L Wj2 Sj2
∑
j =1 wj
n= 2
e 1 L
2
+ ∑ Wj Sj2
k N j=1
2
En general se cumple: V ( yst ) e D suponiendo como en la mayoría
4
de los casos k=2. Pero como la expresión de la varianza cambia según el tipo
de afijación, en consecuencia el tamaño muestral toma distintas expresio-
nes según el tipo de afijación.
Para el caso de la afijación proporcional, y para la estimación de la me-
dia, se cumple:
L L
∑ Wj Sj2
j =1
∑W S j
2
j
j =1
wj Wj por tanto n = y si llamamos n0 =
1 L D
D + ∑ Wj Sj2
N j=1
n0
entonces n =
n
1+ 0
N
En la afijación óptima, y para la estimación de la media, se cumple:
2
⎛ L ⎞
⎜⎜ W S ⎟⎟
nj
= L
Wj Sj
⎜⎜ ∑ j j ⎟⎟
n por tanto n = ⎝ j=1 ⎠
∑j =1
W S
j j 1 L
D + ∑ Wj Sj2
N j=1
INTRODUCCIÓN A LA SELECCIÓN DE MUESTRAS EN EL ÁMBITO EDUCATIVO
3 0,1 80 8 640
14 692,8
692, 8 n0 138, 56
n0 luego n = = ≈ 122 si la asignación es propor-
5 n0 138, 56
1+ 1+
cional N 1000
(14)
2
Si la afijación es óptima n = ≈ 35
692, 8
5+
1000
Luego el reparto por estrato será:
Wj Sj 2, 4.35 3, 6.35 8.35
nj = L
n , n1 6 , n2 9 , n3 20
14 14 14
∑W S
j =1
j j
METODOLOGÍA CUANTITATIVA EN EDUCACIÓN
N j − 1 wj
n=
e2 1 L N j2
k 2
+ 2
N
∑N
j =1 −1
Pj Qj
j
nj
donde wj y S2 es la cuasi-varianza poblacional.
n
Nj
Recordar que Sj2 = Pj Qj
Nj −1
∑W p q
j =1
j j j
n0
Para afijación proporcional: n0 = , n=
D n
1+ 0
2
N
⎛ L ⎞
⎜⎜ W p q ⎟⎟
⎜⎜∑ j j j ⎟⎟
⎝ j=1 ⎠ n0
Para afijación óptima: n0 = , n=
D 1 L
1+ ∑ Wj pj qj
ND j=1
W p q j j j
con afijación proporcional será: V ( Pˆst ) j 1
n
pq
En el muestreo aleatorio simple será: V ( Pˆ )
n' L
n ’ ∑ Wj pj qj
j =1
Igualando las dos expresiones y despejando n tenemos: n =
L p(1 − p)
donde p = ∑ Wj pj
j =1
0,5 0,2448
600.0, 2448
Por tanto: n 588 y los tamaños en los estratos serán:
0, 5.0, 5
n1 = 588.0,5 = 294; n2 = 588.0,3 = 176; n3 = 588.0,2 = 118
Media
∑y i
y= i=1
n
∑m
i=1
i
N−n
∑ ( y − m y)i i
2
Vˆ ( y ) = . i=1
NnM2 n −1
y o k Vˆ ( y )
1 4 120
2 6 72
3 8 320
4 10 240
5 4 82
6 6 76
7 7 94
8 5 72
9 3 60
10 2 42
METODOLOGÍA CUANTITATIVA EN EDUCACIÓN
∑y i
1178
y= i=1
n
= =21,418
55
∑m
i=1
i
N−n
∑ ( y − m y)
i i
2
400 − 10 34285
Vˆ ( y ) = ⋅ i=1
= ⋅ =19645
NnM2 n −1 ⎛ 55 ⎞⎟
2
9
400.10.⎜⎜⎜ ⎟
⎝ 400 ⎠⎟
Proporción poblacional p
∑a i
p̂ = i=1
n
∑m
i=1
i
El estimador de la varianza de p̂ :
n
N−n
∑ ( a − pm
ˆ ) i i
2
Vˆ ( pˆ ) = . i=1
NnM2 n −1
y su intervalo de confianza:
pˆ o k Vˆ ( pˆ )
INTRODUCCIÓN A LA SELECCIÓN DE MUESTRAS EN EL ÁMBITO EDUCATIVO
1 4 2 120
2 6 2 72
3 8 3 320
4 10 4 240
5 4 1 82
6 6 2 76
7 7 2 94
8 5 3 72
9 3 1 60
10 2 1 42
∑a i
21
pˆ = i=1
n
= = 0, 3818
55
∑m i=1
i
N−n
∑ ( a − pm
i
ˆ ) i
2
400 − 10 2, 4264
Vˆ ( pˆ ) = . i=1
= . = 1, 3903
NnM2 n −1 ⎛ 55 ⎞⎟ 10 − 1
2
400.10.⎜⎜⎜ ⎟
⎝ 400 ⎟⎠
e2 N−n 2 2
2
= 2
.T c donde T c2 es la cantidad estimada por sc
k NnM
n
∑ ( y − m y)
i i
2
donde s = i=1
2
c que se obtiene de una muestra previa.
n −1
Nsc2
Y por tanto n =
e2
2
NM2 + sc2
k
3267553
400 ⋅
n= 9 ≈ 93 será necesario entrevistar a 93 hogares.
2
20 3267553
.400.5, 5 +
2
4 9
( a Sˆ m )
i i
2
Nsc2
n=
e2
NM2 + sc2
k2
NÚMERO INTERVALO
INSTITUTO
DE ALUMNOS ACUMULADO
1 420 1- 420
3 620 781-1400
4 480 1401-1880
5 510 1881-2390
6 210 2391-2600
1 42 20
3 62 32
5 51 22
1 20 32 22 ¬
Nˆ = 0,4745
3 42 62 51 ®
INTRODUCCIÓN A LA SELECCIÓN DE MUESTRAS EN EL ÁMBITO EDUCATIVO
5. MUESTREO SISTEMÁTICO
Semi-urbana. 10 46-60 16
— Se conoce B 0, 05 y C = 1 − 0, 9 = 0,1
Se supone una población normal con p1=p2 y de ahí se toma como esti-
p + p2
mador de p = 1
2
— Se trata de un contraste unilateral
— Se conoce B 0, 05 y C = 1 − 0, 9 = 0,1
(Z )
2
α * 2 p(1 − p) + Zβ * p1 (1 − p1 ) + p2 (1 − p2 )
n=
( p1 − p2 )
2
p=0,75; n= ≈ 79
(0, 65 − 0, 85)
2
REFERENCIAS BIBLIOGRÁFICAS
1. Análisis factorial
1.1. Introducción
1.2. Diseño y método
1.3. Supuestos y limitaciones
1.4. Procedimiento
2. Análisis de conglomerados
2.1. Definición y objetivos
2.2. Diseño y método
2.3. Supuestos y limitaciones
2.4. Procedimiento
2.5. Interpretación de resultados
rían ser de esta naturaleza, sino saturar sólo en el factor que pretenden
medir. No deben seleccionarse variables que estén altamente correlacio-
nadas de tal manera que sean capaces de crear factores con poca va-
rianza, es decir, de baja jerarquía. Así por ejemplo, si dos variables expli-
can un factor y este representa poca cantidad de varianza común, será
preferible suprimir una de las variables o elegir menos factores.
— Se deben elegir variables medidas en escala continua o cuando me-
nos de muchas categorías. Comrey (1985) recomienda de 12 o más
categorías.
— Es conveniente tomar un tamaño muestral de 100 o más casos, y míni-
mo 5 veces el número de variables (Hair, 1999).
X Af I [1]
E( f k , I i ) 0 E ( I i , f k ) 0
De forma matricial estas condiciones del modelo se pueden poner como:
— f ~ (0, I)
— Ș~ (0, y) donde ȥ=diag(ȥ1,.......,ȥn)
— f y Ș son independientes
1.2.3. Propiedades
R=AA´+ȥ=AIA’+ȥ=AKK’A’+ȥ=(AK)(AK)’+ȥ
Por lo cual si A es una matriz de cargas factoriales, entonces AK
también lo es, para toda matriz ortogonal K. En consecuencia, la matriz
de cargas factoriales no es única, y por tanto los factores tampoco son
únicos.
Una de las formas de lograr una solución única será conseguir una ma-
triz: R*=R–ȥ=AA´ matriz de correlaciones reducida, donde podemos rela-
cionar a ésta con el producto de AA’.
TÉCNICAS DESCRIPTIVAS MULTIVARIANTES: ANÁLISIS FACTORIAL Y ANÁLISIS DE CLÚSTER
2 ... r1k ¬
h1 r12
r h22 ... r2 k
La matriz R* será de la forma: R 21
*
... ... ... ...
rn1 rn2 ... hn2 ®
Tenemos que hacer que la matriz A sea de rango m para que tenga solu-
ción el sistema [1]. Se demuestra que AA´ tiene rango m y es semidefinida
positiva. Recíprocamente si la matriz es semidefinida positiva se puede des-
componer de la forma AA´.
El número de cantidades desconocidas de A y ȥ es nm+n=n(m+1); el nú-
mero de cantidades desconocidas en R es n(n+1)/2 al ser R simétrica. En
consecuencia, el sistema R=AA´+ȥ dará lugar a n(n+1)/2 ecuaciones en
n(m+1) incógnitas que deben resolverse. Así, por ejemplo, para n=10 y m=4,
se tendrá 55 ecuaciones con 50 incógnitas. Estas cantidades dan una idea
de lo complejo que puede resultar su solución manual y la necesidad de uti-
lizar el ordenador en este proceso.
También los cálculos del párrafo anterior nos pueden dar una idea del
número máximo de factores (m) que podemos extraer de (n) variables.
Para que el sistema [4] tenga solución única se necesita que el número de
ecuaciones n(n+1)/2 sea mayor que el número de incógnitas n(m+1) menos el
número de restricciones m(m-1)/2 para solución única:
Por ejemplo para extraer m=2 factores necesitamos como mínimo n=5
variables, o de otra forma con 5 variable como máximo habrá 2 factores.
Para que se pueda realizar el análisis factorial, las variables tienen que
estar muy correlacionadas, esto implica, coeficientes de correlación gran-
des en valor absoluto lo que nos lleva a que el determinante de la matriz de
correlación sea distinto de 1.
Como sabemos la matriz de correlación R contiene la varianza de todas
las variables incluidas en el análisis. La varianza de cada variable, al ser nor-
malizada, es igual a 1 y viene expresada por la correlación de la variable con-
sigo misma, esto es, por los valores de la diagonal principal. Así pues, la va-
rianza total explicada por la matriz R, es igual a la suma de los valores de los
elementos de la diagonal principal, o lo que es lo mismo, al número de varia-
bles incluidas en el análisis. Como lo que se pretende al factorizar es encon-
trar factores independientes, es decir no correlacionados, si partimos de una
matriz de correlación con valores bajos no será necesario su factorización.
Para ver si una matriz R se puede factorizar, se emplea la prueba de es-
fericidad de Bartlett.
El test de esfericidad de Bartlett, bajo la hipótesis de normalidad multi-
variante, exige que: H0: |R|=1 frente a H1: |R|≠1
Habrá que calcular el estadístico:
1
D 2 [( n 1) ](2m 5) Ln | R |
6
1.3.2. Limitaciones
1.4. Procedimiento
1.4.1. Pasos para la realización del análisis factorial exploratorio
M1 0 ... 0 ¯
¡ ° a ¯
¡ 0 M2 ... 0 ° ¡ 1 °
S A(A ' [ a1.....an ] ¡¡ ° ¡ ° = M1a1a '1 ....... Mn an a 'n
°¡ # °
¡ # # # °¡ °
¡ 0 0 ... M ° ¢ an ±
¢ n±
1 1
gl ( n m)2 ( n m)
2 2
1. Cuando las comunalidades son altas (mayores que 0.6) todos los proce-
dimientos tienden a dar la misma solución.
METODOLOGÍA CUANTITATIVA EN EDUCACIÓN
Cuando varios factores tienen una carga grande respecto a varias varia-
bles, resulta muy difícil determinar la forma en cómo difieren los factores.
b. el producto interno de una fila por otra y de una columna por otra
debe ser igual a cero para todo par de filas o columnas distintas;
METODOLOGÍA CUANTITATIVA EN EDUCACIÓN
Además, para evitar que las variables con mayores comunalidades ten-
gan más peso en la solución final, suele efectuarse la normalización de
Kaiser consistente en dividir cada carga factorial al cuadrado por la
comunalidad de la variable correspondiente.
1. Método de regresión
2. Método de Barlett
3. Método de Anderson-Rubin
pero como V(zh)=1 por ser reducida, y V(f k)=1 por las condiciones del mode-
m
lo, entonces cor(zh, f k)=cov(zh, f k)= ahj cov( f j fk ) =ahk para todo h, h=1,…, n
j1
y todo k, k=1,…, m, si los factores son ortogonales.
Para una mejor interpretación de los factores existe dos primeras estra-
tegias: a) agrupar las variables que tienen una mayor carga respecto al mis-
mo factor; para esto se puede requerir cuando se realiza los cálculos me-
diante un programa estadístico, que se organice las variables de modo que
aparezcan juntas aquellas con mayor carga en un factor, y b) omitir las
cargas pequeñas (la idea de carga grande o pequeña siempre estará en fun-
ción de cada estudio y contexto teórico), e incluso que se suprima aquella
variable cuyo peso factorial sea inferior a un determinado valor (por ejem-
plo inferior a 0,3). Además, a efectos prácticos, en la interpretación de los
factores se aconseja los dos pasos siguientes:
a) Identificar las variables cuyas correlaciones con el factor son las más
elevadas en valor absoluto.
b) Intentar dar un nombre a los factores. El nombre debe asignarse de
acuerdo con la estructura de sus correlaciones con las variables, tenien-
do en cuenta si dicha correlación es positiva o negativa. De esta forma,
analizando con qué variables tiene una relación fuerte es posible, en la
mayoría de los casos, hacerse una idea más o menos clara de cuál es el
significado de un factor.
2. ANÁLISIS DE CONGLOMERADOS
2.1. Definición y objetivos
2.1.1. Definición
2.1.2. Objetivos
1. dij ≥ 0
2. dii=0
3. dij=dji (simetría)
4. dij≤dik+dkj (desigualdad triangular)
5. d(i, j)=0 iŁj
6. d(i, j)≤máx. {d(i, t), d(j, t)} (desigualdad ultramétrica)
m
7. d( i, j) = ∑(x
k=1
ik − xjk )2 (euclídea)
Coeficientes de similaridades
cov( x, y)
S( x, y)
var( x) var( y)
∑x y i i
cos( x, y) = i
∑ ( x )∑ ( y )
i
2
i
i
2
i
Variable y
Presencia Ausencia
Variable x Presencia a b
Ausencia c d
n=a+b+c+d
Salvo que se diga lo contrario, todos estos coeficientes varían de 0 a 1,
donde 1 será indicador de máxima similaridad y 0 de mínima.
1. Medidas de similaridad:
a) Russel y Rao:
a
RRxy
n
b) Concordancia simple:
a d
PSxy
n
c) Jaccard:
a
J xy
a b c
e) Sokal y Sneath:
2( a d)
SSxy
2( a d) b c
f) Rogers y Tanimoto:
a d
RTxy
a d 2( b c)
METODOLOGÍA CUANTITATIVA EN EDUCACIÓN
Su rango de valores va de –1 a 1
m) Dispersión:
ad bc
Dxy
n2
Su rango de valores va de –1 a 1
TÉCNICAS DESCRIPTIVAS MULTIVARIANTES: ANÁLISIS FACTORIAL Y ANÁLISIS DE CLÚSTER
⎛ .... .. .. .. .. .. .. .. ..⎞⎟
⎜⎜ ⎟
⎜⎜ individuo i 1 0 1 1 0 1 0 1⎟⎟⎟
⎜⎜ ⎟⎟
⎜⎜ .... .. .. .. .. .. .. .. ..⎟⎟
⎜⎜ ⎟⎟
⎝ individuo j 0 1 1 1 0 0 1 1⎟⎠
Individuo j
Presencia (1) Ausencia(0)
Presencia (1) 3 2
Individuo i
Ausencia (0) 2 1
a) Kulczynski (medida 2)
a a
( a b) ( a c)
K 2 xy
2
METODOLOGÍA CUANTITATIVA EN EDUCACIÓN
Su valor va de –1 a 1
Ejemplo: Utilizando los datos anteriores los valores que tomarán los
coeficientes de similaridad entre el individuo i y el j serán:
— Kulczynsk 2 ..................... 0,6
— Sokal y Sneath 4 ......... 0,467
— Hamann ............................ 0
3. Medidas de predicción:
a) D de Anderberg
max( a, b) max( c, d) max( a, c) max( b, d) max( a c, b d) max( a b, c d)
Dxy
2n
c) Y de Yule
ad bc
Yxy
ad bc
Varía de –1 a 1
d) Q de Yule
ad bc
Qxy
ad bc
Varía de –1 a 1
TÉCNICAS DESCRIPTIVAS MULTIVARIANTES: ANÁLISIS FACTORIAL Y ANÁLISIS DE CLÚSTER
Ejemplo: Con los datos anteriores los valores que tomarán los coeficien-
tes de similaridad entre el individuo i y el j serán:
— D de Anderberg.................................. 2,5
— Lambda de Goodman y Kruskal.... 0
— Y de Yule........................................... –0,072
— Q de Yule........................................... –0,143
Sí No
X1 (soltero) 1 0
X2 (casado) 1 0
X3 (separado) 1 0
X4 (viudo) 1 0
asi un inidviduo soltero tomara los valores x1=1, x2=0, x3=0, x4=0; c) también
se puede formar grupos de variables con el mismo nivel de medida y estu-
diar los mismos por separado. Y d) finalmente analizar las variables de
forma conjunta con diferentes niveles de medición. Esta última estrategia
nos llevaría a utilizar como coeficiente de similaridad el de Gower:
s ijk wijk
sij k1
p
w
k1
ijk
no es válida, por ejemplo porque uno de los ellos falte o el investigador deci-
da que no procede la comparación.
— Cuando k es una variable categórica sijk vale 1 cuando para los indivi-
duos i y j tienen el mismo valor y 0 cuando tienen valores distintos.
— Cuando k es una variable no categórica entonces:
sijk 1 | xik xjk | / Rk
Estudiante Peso (kg) Grado de estrés ¿Es agresivo? ¿Es tolerante? Altura
1 55,2 Medio No No Pequeño
2 69 Bajo Si No Mediano
3 50,6 Alto Si Si Alto
4 66,7 Medio No Si Alto
5 55,2 Medio No Si Pequeño
13,8
1* (1 ) 1* 0 1* 0 0 *1 1* 0
18, 4
s12 0,0625
1 1 1 0 1
d12 X 2 X1
+ Y2 Y1
2 2
TÉCNICAS DESCRIPTIVAS MULTIVARIANTES: ANÁLISIS FACTORIAL Y ANÁLISIS DE CLÚSTER
dij2=(xi-xj)´S -1(xi-xj)
siendo S la matriz de covarianza.
La ventaja de la distancia de Mahalanobis sobre la distancia euclídea es
que permite que las variables estén correlacionadas. En el caso que las co-
rrelaciones sean cero la distancia de Mahalanobis es igual a la euclídea
medida con variables estandarizadas.
d( x, y) = ∑ ( xi − yi )2
i
x y
60,00 75,00
100,00 124,00
130,00 162,00
87,00 98,00
75,00 87,00
112,00 120,00
Distancia euclídea
1 2 3 4 5 6
1 ,000 63,253 111,665 35,468 19,209 68,768
2 63,253 ,000 48,415 29,069 44,654 12,649
3 111,665 48,415 ,000 77,104 93,005 45,695
4 35,468 29,069 77,104 ,000 16,279 33,302
5 19,209 44,654 93,005 16,279 ,000 49,578
6 68,768 12,649 45,695 33,302 49,578 ,000
Esta es una matriz de disimilaridades.
Distancia de Chebychev
1 2 3 4 5 6
1 ,000 49,000 87,000 27,000 15,000 52,000
2 49,000 ,000 38,000 26,000 37,000 12,000
3 87,000 38,000 ,000 64,000 75,000 42,000
4 27,000 26,000 64,000 ,000 12,000 25,000
5 15,000 37,000 75,000 12,000 ,000 37,000
6 52,000 12,000 42,000 25,000 37,000 ,000
Esta es una matriz de disimilaridades.
Distancia de Mahalanobis
1 2 3 4 5 6
1 0.000 1.584 2.793 1.600 0.966 3.014
2 1.584 0.000 1.215 1.449 1.351 2.418
3 2.793 1.215 0.000 2.356 2.480 2.746
4 1.600 1.449 2.356 0.000 0.639 1.415
5 0.966 1.351 2.480 0.639 0.000 2.053
6 3.014 2.418 2.746 1.415 2.053 0.000
Esta es una matriz de disimilaridades.
dD
2
xy E( xi )
E( yi )
TÉCNICAS DESCRIPTIVAS MULTIVARIANTES: ANÁLISIS FACTORIAL Y ANÁLISIS DE CLÚSTER
dDxy
2
d'2xy
n
Item2
Item1 1 2 3 4
1 8 4 4 3 19
2 5 6 5 4 20
3 3 3 10 2 18
4 4 2 6 2 14
20 15 25 11 71
Variable y
Presencia Ausencia
Presencia a b
Variable x
Ausencia c d
c.5) Varianza
b c
Vxy
4n
c.6) Forma
n( b c) ( b c)2
DBFxy
n2
b c
LWxy
2a b c
⎛ .... .. .. .. .. .. .. .. ..⎞⎟
⎜⎜ ⎟
⎜⎜ individuo i 1 0 1 1 0 1 0 1⎟⎟⎟
⎜⎜ ⎟⎟
⎜⎜ .... .. .. .. .. .. .. .. ..⎟⎟
⎜⎜ ⎟⎟
⎝ individuo j 0 1 1 1 0 0 1 1⎟⎠
METODOLOGÍA CUANTITATIVA EN EDUCACIÓN
Individuo j
Presencia (1) 3 2
Individuo i
Ausencia (0) 2 1
Transformar valores
La transformación de valores, a la hora de calcular las proximidades,
son necesarios para:
— Datos cuantitativos en una escala aproximadamente lineal: cuando las
medidas están en diferentes escalas, la variable con medidas mayores
contribuye más, al calcular las distancias, que la variable con medidas
menores. La forma recomendada para superar estas desventajas consiste
en transformar las medidas de las variables en medidas estandarizadas.
— Datos que sean rangos de observaciones (escala ordinal). Se suelen tipi-
ficar en una escala de [0,1] (rango 0 a 1 de SPSS).
— Datos cuantitativos en una escala no lineal se transforman en una es-
cala lineal, por ejemplo mediante una transformación logarítmica.
Transformar medidas
Además de transformar los valores se puede transformar la medida de
distancia una vez calculada esta. Las opciones disponibles son: Valores ab-
solutos, Cambiar el signo y Cambiar la escala al rango 01. En este último
caso para obtener los nuevos valores se resta a los primitivos la distancia
más pequeña y cada nueva distancia se divide por el rango o amplitud de
todas las distancias.
TÉCNICAS DESCRIPTIVAS MULTIVARIANTES: ANÁLISIS FACTORIAL Y ANÁLISIS DE CLÚSTER
2.4. Procedimiento
FACTOR
/VARIABLES v1 v2 v3 v4 v5 v6 v7 v8 v9 /MISSING LISTWISE /ANALYSIS v1 v2
v3 v4 v5 v6 v7 v8 v9
/PRINT INITIAL DET KMO REPR EXTRACTION ROTATION
/FORMAT SORT BLANK(.40)
/CRITERIA MINEIGEN(1) ITERATE(25)
/EXTRACTION PC
/CRITERIA ITERATE(25)
/ROTATION VARIMAX
/METHOD=CORRELATION.
gl 36
Sig. ,000
TÉCNICAS DESCRIPTIVAS MULTIVARIANTES: ANÁLISIS FACTORIAL Y ANÁLISIS DE CLÚSTER
Inicial Extracción
v1 1,000 ,800
v2 1,000 ,853
v3 1,000 ,892
v4 1,000 ,876
v5 1,000 ,887
v6 1,000 ,754
v7 1,000 ,830
v8 1,000 ,860
v9 1,000 ,872
Componente
1 2
v3 ,938
v5 ,934
v4 ,928
v2 ,917
v1 ,888
v9 ,921
v8 ,914
v7 ,894
v6 ,862
Correlaciones reproducidas
v1 v2 v3 v4 v5 v6 v7 v8 v9
Correlación v1 ,800(b) ,826 ,845 ,837 ,842 ,004 -,058 -,038 -,035
reproducida v2 ,826 ,853(b) ,872 ,864 ,870 ,002 -,061 -,041 -,037
v3 ,845 ,872 ,892(b) ,884 ,889 -,002 -,067 -,047 -,044
v4 ,837 ,864 ,884 ,876(b) ,881 ,011 -,053 -,032 -,029
v5 ,842 ,870 ,889 ,881 ,887(b) ,009 -,055 -,034 -,031
v6 ,004 ,002 -,002 ,011 ,009 ,754(b) ,789 ,804 ,810
v7 -,058 -,061 -,067 -,053 -,055 ,789 ,830(b) ,845 ,851
v8 -,038 -,041 -,047 -,032 -,034 ,804 ,845 ,860(b) ,866
v9 -,035 -,037 -,044 -,029 -,031 ,810 ,851 ,866 ,872(b)
Residual(a) v1 -,029 -,016 -,066 -,080 ,008 ,002 ,000 -,009
v2 -,029 -,015 -,030 -,072 -,006 ,003 ,002 ,002
v3 -,016 -,015 -,072 -,007 -,006 ,003 ,000 ,004
v4 -,066 -,030 -,072 ,041 -,001 ,001 ,000 -,001
v5 -,080 -,072 -,007 ,041 -,010 ,003 ,001 ,004
v6 ,008 -,006 -,006 -,001 -,010 -,152 -,056 -,024
v7 ,002 ,003 ,003 ,001 ,003 -,152 -,002 -,022
v8 ,000 ,002 ,000 ,000 ,001 -,056 -,002 -,084
v9 -,009 ,002 ,004 -,001 ,004 -,024 -,022 -,084
Método de extracción: Análisis de Componentes principales.
(a) Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 7 (19,0%) resi-
duales no redundantes con valores absolutos mayores que 0,05.
(b) Comunalidades reproducidas.
TÉCNICAS DESCRIPTIVAS MULTIVARIANTES: ANÁLISIS FACTORIAL Y ANÁLISIS DE CLÚSTER
Componente 1 2
1 ,990 -,142
2 ,142 ,990
Componente
1 2
v3 ,944
v5 ,942
v4 ,936
v2 ,923
v1 ,894
v9 ,934
v8 ,927
v7 ,910
v6 ,868
library(foreign)
Datos <- read.spss(“C:/Mis libros/metodología de la inv _ cuantita-
tiva/revisión 2015/cap3/factor1.sav”, use.value.labels=TRUE, max.
value.labels=Inf, to.data.frame=TRUE)
x<-as.matrix(Datos[,1:9]).z <- scale(x) # normalizar las variables
METODOLOGÍA CUANTITATIVA EN EDUCACIÓN
library(GPArotation)
fit <- principal(.z, nfactors=mo, rotate=”varimax”)
fit # print results
#####
#Análisis factorial de máxima verosimilitud
fit2<-factanal(.z, factors=5, rotation=”varimax”)
fit2 #resultados máxima verosimilitud
v7 v8 v9
v1 -0.05599911 -0.03798241 -0.04386818
v2 -0.05841461 -0.03878035 -0.03587741
v3 -0.06449437 -0.04659781 -0.03980475
v4 -0.05223413 -0.03259473 -0.03016228
v5 -0.05208466 -0.03362223 -0.02677018
v6 0.63657682 0.74793014 0.78566916
v7 1.00000000 0.84314020 0.82902672
v8 0.84314020 1.00000000 0.78216031
v9 0.82902672 0.78216031 1.00000000
v1 v2 v3 v4 v5 v6 v7 v8 v9
0.910.83 0.76 0.74 0.72 0.72 0.70 0.77 0.75
RC1 RC2 h2 u2
v1 0.89 0.01 0.80 0.20
v2 0.92 0.01 0.85 0.15
v3 0.94 0.00 0.89 0.11
v4 0.94 0.02 0.88 0.12
v5 0.94 0.02 0.89 0.11
v6 0.00 0.87 0.75 0.25
v7 -0.07 0.91 0.83 0.17
v8 -0.05 0.93 0.86 0.14
v9 -0.05 0.93 0.87 0.13
TÉCNICAS DESCRIPTIVAS MULTIVARIANTES: ANÁLISIS FACTORIAL Y ANÁLISIS DE CLÚSTER
RC1 RC2
SS loadings 4.32 3.31
Proportion Var 0.48 0.37
Cumulative Var 0.48 0.85
Proportion Explained 0.57 0.43
Cumulative Proportion 0.57 1.00
The degrees of freedom for the null model are 36 and the objective
function was 10.07
The degrees of freedom for the model are 19 and the objective
function was 1.26
The total num ber of observations was 803 with MLE Chi Square =
1003.95 with prob < 7.6e-201
Loadings:
Factor1 Factor2 Factor3 Factor4 Factor5
v1 0.862 -0.106
v2 0.908 -0.143
v3 0.953 -0.208
v4 0.927 0.358
v5 0.932 0.346
v6 0.783 0.618
v7 0.975 -0.205
v8 0.883
v9 0.882 0.154
METODOLOGÍA CUANTITATIVA EN EDUCACIÓN
Los datos son los mismos utilizados en el análisis factorial. En esta oca-
sión se utiliza un método aglomerativo, k-medias, dado el número elevado
de individuos para agrupar y según las variables V1 a V9. Se utiliza como
medida de proximidad la distancia euclídea.
Con SPSS
El procedimiento será:
QUICK CLUSTER v1 v2 v3 v4 v5 v6 v7 v8 v9
/MISSING=LISTWISE
/CRITERIA=CLUSTER(2) MXITER(25) CONVERGE(0)
/METHOD=KMEANS(NOUPDATE)
/SAVE CLUSTER
/PRINT INITIAL ANOVA.
Y los resultados:
Centros de clústeres iniciales
Clúster
1 2
v1 2,58 2,66
v2 8,81 8,22
v3 8,77 5,90
v4 3,25 3,60
v5 10,07 6,53
v6 -5,95 29,05
v7 -6,46 13,47
v8 -4,16 23,75
v9 -8,93 25,96
TÉCNICAS DESCRIPTIVAS MULTIVARIANTES: ANÁLISIS FACTORIAL Y ANÁLISIS DE CLÚSTER
Historial de iteracionesa
Clúster
1 2
v1 5,87 3,94
v2 11,34 8,40
v3 11,87 7,90
v4 5,99 3,80
v5 11,51 8,44
v6 7,13 13,29
v7 3,27 7,07
v8 7,67 12,74
v9 6,87 13,72
METODOLOGÍA CUANTITATIVA EN EDUCACIÓN
ANOVA
Clúster Error
F Sig.
Media cuadrática gl Media cuadrática gl
v1 745,114 1 7,266 801 102,546 ,000
v2 1733,457 1 13,091 801 132,411 ,000
v3 3161,442 1 19,256 801 164,181 ,000
v4 967,815 1 7,179 801 134,805 ,000
v5 1892,846 1 12,630 801 149,874 ,000
v6 7615,571 1 15,673 801 485,913 ,000
v7 2891,287 1 5,680 801 508,989 ,000
v8 5160,046 1 10,381 801 497,052 ,000
v9 9398,356 1 13,976 801 672,477 ,000
Las pruebas F sólo se deben utilizar con fines descriptivos porque los clústeres se han elegido para
maximizar las diferencias entre los casos de distintos clústeres. Los niveles de significación observados
no están corregidos para esto y, por lo tanto, no se pueden interpretar como pruebas de la hipótesis de
que los medias de clúster son iguales.
De los resultados se puede decir que hay dos clúster que clasifican a los
803 encuestados, cuyo reparto se muestra en la tabla anterior. La tabla de
anova muestra que todas las variables son significativas con respecto a la
variable de clasificación a uno u otro clúster. Además se presenta los valores
de las medias finales de cada variable en los dos clúster.
Con R
library(foreign)
Datos <- read.spss(“C:/Mis libros/metodología de la inv_cuantitativa/
revisión 2015/cap3/factor1.sav”, use.value.labels=TRUE, max.value.
labels=Inf, to.data.frame=TRUE)
## Preparación de los datos
x<-as.matrix(Datos[,1:9]).
z <- scale(x) # normalizar las variables
TÉCNICAS DESCRIPTIVAS MULTIVARIANTES: ANÁLISIS FACTORIAL Y ANÁLISIS DE CLÚSTER
####
# Determinar número de cluster
wss <- (nrow(.z)-1)*sum(apply(.z,2, var))
for (i in 2:15) wss[i] <- sum(kmeans(.z, centers=i)$withinss)
plot(1:15, wss, type=”b”, xlab=”Número de Cluster”,
ylab=”Suma de cuadrados intra-grupos”)
####
library(vegan)
cc1<- cascadeKM(.z,2,10, iter=25, criterion=’calinski’)
plot(cc1, sortq = TRUE) #criterio de calinski ver número de cluster
###
# K-Means Cluster Análisis
fit <- kmeans(.z, 2) # solución de 2 cluster
# Medias de las variables en cada grupo
aggregate(x, by=list(fit$cluster), FUN=mean)
# añadir el cluster asignado a cada individuo
Datos2 <- data.frame(Datos, cluserP=fit$cluster)
Tomará la forma:
Group.1 v1 v2 v3 v4 v5 v6 v7
1 1 6.973993 12.749915 13.515783 7.043191 12.885335 9.222426 4.327047
2 2 2.943021 7.158638 6.483202 2.872603 7.245267 10.900860 5.824157
v8 v9
1 9.116804 8.956242
2 11.044420 11.304487
REFERENCIAS BIBLIOGRÁFICAS
1. Análisis discriminante
1.1. Definición y objetos
1.2. Diseño y método
1.3. Supuestos y limitaciones
1.4. Procedimiento
1.5. Interpretación de resultados
2. Análisis de regresión
2.1. Objetivos
2.2. Diseño y método
2.3. Supuestos y limitaciones
2.4. Procedimiento
2.5. Interpretación de resultados
Referencias bibliográficas
1. ANÁLISIS DISCRIMINANTE
— Identificar las variables que son importantes para distinguir entre los
grupos a fin de desarrollar un procedimiento para predecir la ubica-
ción de aquellos casos que no han sido estudiados. Como puede ser el
caso de responder a una solicitud de empleo por parte de un estudiante
de una universidad.
X1........... XP GRUPO
1 1
...
n1
1 2
...
n2
... ...
...
...
1 g
...
nk
1.4. Procedimiento
En general:
Autovalores
m
La suma de los autovalores ∑M
i=1
i
, es la proporción de la varianza que
queda explicada, que se conserva, al reducir todo el sistema a los ejes discri-
minantes.
TÉCNICAS EXPLICATIVAS MULTIVARIANTES: ANÁLISIS DISCRIMINANTE, ANÁLISIS DE REGRESIÓN Y...
M
i=1
i
Correlación canónica
Toma valores entre 0 y 1, de tal manera que, cuanto más próximo este
a 1 su valor, mayor es la potencia discriminante de la i-ésima función.
Coeficientes tipificados
D1 ....... Dm
Matriz de estructura
D1 ....... Dm
Son las relaciones binarias de cada variable independiente con cada fun-
ción discriminante y por tanto no le afecta la colinealidad. Conforme el
valor se aproxima a ± 1 mayor será la relación entre variable y función dis-
criminante.
Regla de Bayes
P( D / Gi )P(Gi )
P(Gi / D) = g
P( D / G )P(G )
i=1
i i
donde:
P(Gi) es la probabilidad a priori: es una estimación de la probabilidad de
que el caso pertenezca al grupo i.
P(D/Gi) es la probabilidad condicional de D en el grupo i: se supone que
el individuo pertenece al grupo i y se estima la probabilidad de
la puntuación observada D para los miembros del grupo i.
P(Gi/D) es la probabilidad a posteriori: se estima a partir de P(Gi) y
de P(D/Gi) utilizando la regla de Bayes.
METODOLOGÍA CUANTITATIVA EN EDUCACIÓN
A cada individuo, del que se sabe a qué grupo pertenece, es posible clasi-
ficarlo mediante la regla de Bayes en uno de los grupos en función de las
puntuaciones discriminantes. El porcentaje de casos correctamente clasifi-
cados será un índice de la efectividad de la función discriminante.
Al evaluar este índice deberá tenerse en cuenta la tasa de clasificaciones
incorrectas esperadas según las probabilidades a priori (triángulo superior
e inferior de la llamada matriz de confusión).
Hair (1999, p. 274) comenta otro procedimiento de evaluar la capacidad
discriminatoria de la función/es discriminante/s de la matriz de confusión.
Utiliza el estadístico Q de Press.
[ N − ( ng )]
2
Q de Press=
N( g − 1)
Con:
N = tamaño muestra total
n = número de observaciones correctamente clasificadas
g = número de grupos
Q se distribuye como una D2 con un grado de libertad. Cuando este es-
tadístico es significativo denota que el porcentaje de clasificación de la fun-
ción/es discriminante/s es mayor que el esperado por azar. No obstante el
propio Hair (1999, p. 274) advierte que cuando el tamaño muestral aumen-
ta pueda dar el estadístico significativo aunque exista un porcentaje de
clasificación bajo.
Bisquerra (1989, pp. 254-255) tomado de Tatsuoka, apunta otro criterio
de validez de la función/es discriminante/s, el llamado “criterio discrimi-
nante”. Según este criterio, una buena función discriminante es aquella que
TÉCNICAS EXPLICATIVAS MULTIVARIANTES: ANÁLISIS DISCRIMINANTE, ANÁLISIS DE REGRESIÓN Y...
SCint ergrupos
CD
SCint ragrupos
2. ANÁLISIS DE REGRESIÓN
donde:
Tamaño de la muestra
Tipo de variables
Xi I1 I2 I3
A 1 0 0
B 0 1 0
C 0 0 1
D 0 0 0
Hair (1999, p. 177) las clasifica en tres grupos: datos atípicos, puntos de
apalancamiento e influyentes.
Estos puntos «distintos» se basan en alguna de las siguientes condicio-
nes (Hair 1999, p. 178):
— Un error en la entrada de observaciones o datos
— Una observación válida aunque excepcional que es explicable por una
situación extraordinaria
— Una observación excepcional sin una explicación plausible
— Una observación ordinaria en sus características individuales pero ex-
cepcionales en su combinación de características
Estas observaciones influyentes resultan muy importantes que sean ais-
ladas antes de comenzar la aplicación del método, para evitar defectos en
las predicciones realizadas con el mismo.
Los casos atípicos han sido muy estudiados, de forma que se han desa-
rrollado métodos de regresión robustos que minimizan su impacto.
TÉCNICAS EXPLICATIVAS MULTIVARIANTES: ANÁLISIS DISCRIMINANTE, ANÁLISIS DE REGRESIÓN Y...
Linealidad
Homocedasticidad
Independencia
Normalidad
Multicolinealidad
2.4. Procedimiento
Según hemos expresado anteriormente la consecución del modelo de re-
gresión exige el siguiente procedimiento:
a) Elegir un método de selección de variables.
b) Evaluar la significación del modelo de regresión.
c) Determinar si hay observaciones que desvirtúen el modelo, analizar
las condiciones de aplicación, y evaluar el modelo.
d) Interpretar los resultados, efectuando una valoración del proceso y
del ajuste final obtenido.
Como el punto c) se ha visto en el apartado precedente y el apartado d)
se verá en el posterior, en este punto se hablará de los apartados a) y b).
b=[X’X]-1X’y
Se2=1/n [yy’-b’X’y]
1 1 1
∑ ( ej − e ) = ∑ e2j = ∑ ( yj − y*j )2 donde y*j es el valor de
2
ya que Se =
2
n j n j n j
yj calculado por el modelo de regresión. También:
SR 2=1/n [b’X’y-n y 2]
1 1
SR2 = ∑
n j
( y*j − y * )2 = ∑ ( y*j − y )2
n j
Sy2=1/n [y’y-n y 2]
TÉCNICAS EXPLICATIVAS MULTIVARIANTES: ANÁLISIS DISCRIMINANTE, ANÁLISIS DE REGRESIÓN Y...
dado que
1 1 1 1
Sy2 = ∑ ( yj − y)2 = n ∑j y2j − y 2 = n y ’ y − y 2 = n ⎡⎢⎣ y ’ y − ny 2 ⎤⎥⎦
n j
Sy2=Se2+SR 2
SUMA
FUENTE DE VARIACIÓN VARIANZA CORRELACIÓN
DE CUADRADOS
2
SR
Debida a la regresión. b ’ X ay - n y
2
SR2 R2 2
Sy
2
Se
Debida al error. ya y - b ’ X ay Se2 1 − R2 = 2
Sy
2
Total. ya y - n y Sy2 ------
2
Se ya y - b ’ X ay
R= 1 - = 1- 2
ya y - n y
2
Sy
adj T 12
r212.3,4,..., k= -
adj T 22 . adj T 11
TÉCNICAS EXPLICATIVAS MULTIVARIANTES: ANÁLISIS DISCRIMINANTE, ANÁLISIS DE REGRESIÓN Y...
Donde adj T12 representa el adjunto del elemento T12 en la matriz de cova-
rianzas.
Regresión. SCreg k
SC reg MC reg
MC reg =
k MC res
Residual. SCres n-k-1
SC res
MC res =
n - k -1
Total. SCtotal n-1
METODOLOGÍA CUANTITATIVA EN EDUCACIÓN
Recordemos que:
SCreg es la variabilidad explicada por la regresión:
SCreg= ∑( y*j − y )2
j
SCreg= ∑( y
j
j − y*j )2
SCtot= ∑( y j − y )2 ,
j
2 SC reg MC reg
R = y F= se pueden relacionar F y R mediante:
SC tot MC res
R2 / k
F=
(1 R2 ) / ( n k 1)
Evaluación de la multicolinealidad
Validación de resultados
3.1. Introducción
Los árboles de clasificación son útiles siempre que los datos se puedan
representar mediante un conjunto prefijado de atributos y valores, ya sean
éstos discretos o continuos. Sin embargo, no resultan demasiado conve-
nientes cuando la estructura de los ejemplos es variable. Tampoco están
especialmente indicados para tratar con información incompleta (cuando
aparecen valores desconocidos en algunos atributos de los casos de entre-
namiento) y pueden resultar problemáticos cuando existen dependencias
funcionales en los datos del conjunto de entrenamiento (cuando unos atri-
butos son función de otros).
TÉCNICAS EXPLICATIVAS MULTIVARIANTES: ANÁLISIS DISCRIMINANTE, ANÁLISIS DE REGRESIÓN Y...
3.2.1. Definiciones
Por otra parte, aunque presente cierto parecido con el análisis discrimi-
nante en la explicación de una variable categórica, incluso con el cálculo de
una matriz de confusión (sólo para el caso de variable criterio categórica);
la segmentación mediante el algoritmo CHAID se diferencia del análisis
discriminante, en que el segundo sólo puede tratar variables predictoras
continuas y el primero cualquier tipo de variable y por tanto mayor flexibi-
lidad para el tratamiento en la clasificación de datos.
En el análisis de la varianza/covarianza (ANCOVA) como diseño del pre-
dictor con efectos principales o efectos de interacción, para variables crite-
rio continuas.
y1 ...... yj ...... yc
donde:
f ij es la frecuencia de observaciones en el segmento i de la categoría j de
la variable dependiente Y, i=1,...., r j=1,...., c
f i. es la frecuencia marginal en el segmento i, i=1,...., r
f.j es la frecuencia marginal que presenten el valor yj en la variable de-
pendiente Y
METODOLOGÍA CUANTITATIVA EN EDUCACIÓN
fi. f. j
r c ( fij − )2
D = ∑∑
2 N
i=1 j =1
fi. f. j
N
seguirá una distribución ji-cuadrado con (r-1)(c-1) grados de libertad. Para
determinar la mejor agrupación será necesario comparar los p-valores aso-
ciados: cuanto menor sea el p-valor asociado al valor del estadístico ji-cua-
drado para una agrupación, más heterogéneos serán los segmentos deter-
minados.
B
Bt ≤ ∑ Bi
i=1
k−1
( k − i)c
B = ∑ (−1)i
i=0 i !( k − i)!
Criterios de parada
Con las rejillas de datos simulados, que se muestran en las tablas 4.7 al
4.10, supóngase que se quiere realizar un análisis de segmentación para
estudiar las características de los alumnos de mayor factor g en función de
las variables predictoras: sexo, comunidad, zona y curso. Por lo farragoso
de los cálculos se va a realizar sólo la selección del primer predictor y se
mostrará el dendrograma final.
Tabla 4.7. Frecuencias del cruce del factor g con el predictor sexo
FACTOR g
BAJO ALTO
— —
RECUENTO RECUENTO
Tabla 4.8. Frecuencias del cruce del factor g con el predictor comunidad
FACTOR g
BAJO ALTO
— —
COMUNIDAD COMUNIDAD
— —
RECUENTO RECUENTO
Cantabria. 60 98
Galicia. 102 70
METODOLOGÍA CUANTITATIVA EN EDUCACIÓN
Tabla 4.9. Frecuencias del cruce del factor g con el predictor zona
FACTOR g
BAJO ALTO
— —
ZONA ZONA
— —
RECUENTO RECUENTO
Semiurbana. 60 81
Tabla 4.10. Frecuencias del cruce del factor g con el predictor curso
FACTOR g
BAJO ALTO
— —
CURSO CURSO
— —
RECUENTO RECUENTO
Séptimo. 97 147
Octavo. 89 190
Las tres agrupaciones de la variable zona da: D2=1,80 g.l=1 p=0,18 (urba-
na, semiurbana-rural); D2=0,24 g.l=1 p=0,62 (urbana-semiurbana, rural);
D2=1,16 g.l=1 p=0,28 (urbana-rural, semiurbana).
AGRUPACIÓN
JI-CUADRADO P-VALOR VARIABLE
DE CATEGORÍAS
Se puede observar que la variable que segmentará será curso por tener
el predictor más significativo (mayor ji-cuadrado (68,47) que con 1 g.l. dará
muy significativo y menor que B split=0,05) y la agrupación de las categorías
de esta variable será: sexto, séptimo-octavo.
METODOLOGÍA CUANTITATIVA EN EDUCACIÓN
Con SPSS
DISCRIMINANT
/GROUPS=rc(1 3)
/VARIABLES=p1 p2 p3 p4 p5 p6 p7 p8
/ANALYSIS ALL
/METHOD=WILKS
/FIN= 3.84
/FOUT= 2.71
/PRIORS SIZE
/HISTORY
/STATISTICS=UNIVF BOXM COEFF TABLE
/PLOT=MAP
/CLASSIFY=NONMISSING POOLED.
LAMBDA
F DF1 DF2 SIG.
DE WILKS
p1 ,938 9,595 2 291 ,000
p2 ,931 10,796 2 291 ,000
p3 ,928 11,358 2 291 ,000
p4 ,981 2,771 2 291 ,064
p5 ,977 3,370 2 291 ,036
p6 ,953 7,173 2 291 ,001
p7 ,666 72,900 2 291 ,000
p8 ,694 64,246 2 291 ,000
METODOLOGÍA CUANTITATIVA EN EDUCACIÓN
DETERMINANTE
R (AGRUPADA) RANGO
DE LOGARITMO
1 5 14,346
2 5 15,253
3 5 14,365
Dentro de grupos combinados 5 14,911
Los logaritmos naturales y los rangos de determinantes impresos son los de
las matrices de covarianzas de grupo.
M de Box 35,183
F Aprox. 1,141
df1 30
df2 154556,091
Sig. ,272
Prueba la hipótesis nula de las matrices
de covarianzas de población iguales.
CORRELACIÓN
FUNCIÓN AUTOVALOR % DE VARIANZA % ACUMULADO
CANÓNICA
1 1,272a 99,3 99,3 ,748
2 ,009a ,7 100,0 ,092
a
Se utilizaron las primeras 2 funciones discriminantes canónicas en el análisis.
PRUEBA LAMBDA
CHI-CUADRADO GL SIG.
DE FUNCIONES DE WILKS
FUNCIÓN
1 2
p2 ,742 -1,380
p4 -1,060 1,017
p6 -,588 ,500
p7 ,821 -,017
p8 ,934 ,206
FUNCIÓN
1 2
p7 ,627* ,396
p8 ,588* ,399
b
p3 ,158* -,114
p4 ,122* -,013
p6 ,189 ,649*
p5b ,255 ,456*
p2 ,239 -,444*
p1b ,170 -,221*
Correlaciones dentro de grupos combinados
entre las variables discriminantes y las funciones
discriminantes canónicas estandarizadas.
Variables ordenadas por el tamaño absoluto
de la correlación dentro de la función.
*
La mayor correlación absoluta entre cada
variable y cualquier función discriminante.
b
Esta variable no se utiliza en el análisis.
METODOLOGÍA CUANTITATIVA EN EDUCACIÓN
FUNCIÓN
R (AGRUPADA)
1 2
1 -1,529 -,074
2 ,145 ,095
3 1,585 -,107
Las funciones discriminantes canónicas
sin estandarizar se han evaluado en medias
de grupos.
R (AGRUPADA)
1 2 3
PERTENENCIA A GRUPOS
R PRONOSTICADA
TOTAL
(AGRUPADA)
1 2 3
Original Recuento 1 57 27 0 84
2 16 113 13 142
3 0 23 45 68
% 1 67,9 32,1 ,0 100,0
2 11,3 79,6 9,2 100,0
3 ,0 33,8 66,2 100,0
a. 73,1% de casos agrupados originales clasificados correctamente.
TÉCNICAS EXPLICATIVAS MULTIVARIANTES: ANÁLISIS DISCRIMINANTE, ANÁLISIS DE REGRESIÓN Y...
Como se puede ver por los resultados se cumplen las condiciones de aplica-
ción del modelo, hay dos funciones discriminantes que clasifican al 73,1% de
los casos. Las funciones están formadas por las variables p2, p4, p6, p7 y p8
que participan en el modelo. La primera función explica el 55,9% de la varian-
za y la segunda el 0,8% de la varianza no explicada por la primera función.
Con R
# Descriptivos
library(RcmdrMisc)
numSummary(datdis[,1:8], groups=datdis$rc, statistics=c(“mean”, “sd”))
#Prueba de igualdad de medias de los grupos. (Test de Wilks)
Y<-as.matrix(datdis[,1:8])
resul<-manova(Y~datdis$rc)
summary(resul, test=”Wilks”)
summary.aov(resul)
#### Prueba de normalidad #################
library(normtest) #univariante
for (i in 1:8) {print (i); print(shapiro.test(datdis[, i]))}
##### Prueba de M de Box #############
library(biotools)
boxM(datdis[,1:8], datdis$rc) # M de Box
METODOLOGÍA CUANTITATIVA EN EDUCACIÓN
#
########
# Análisis discriminante lineal
attach(datdis)
library(MASS)
dis.pr1<-lda(rc ~p1+p2+p3+p4+p5+p6+p7+p8, data = datdis,
prior=c(84/294,142/294,68/294)) # discriminante
dis.pr1
P <- predict(dis.pr1, datdis[,1:8]) # cálculo de los valores inferidos
table(P$class, rc) # matriz de confusión
sum(P$class==rc)/294 #indice de clasificados correctamente
#############################################################
############ Análisis discriminante por pasos #######
#############################################################
dis.pr2<-glm(rc ~., family=binomial, data = datdis) # función lineal general
dis.pr2
pr2.step <- stepwise(dis.pr2, direction=”forward/backward”, trace = FALSE)
pr2.step$anova
################
dis.pr3<-lda(rc ~p2+p4+p6+p7+p8, data = datdis, prior=c(84/294,142/294,68/294))
# discriminante
dis.pr3
s <- predict(dis.pr3, datdis[, c(2,4,6,7,8)]) # cálculo de los valores inferidos
table(s$class, rc) # matriz de confusión
sum(s$class==rc)/294 #indice de clasificados correctamente
Variable: p2
mean sd n
1 1.269792 5.920222 84
2 3.239700 6.258955 142
3 5.868120 5.838278 68
TÉCNICAS EXPLICATIVAS MULTIVARIANTES: ANÁLISIS DISCRIMINANTE, ANÁLISIS DE REGRESIÓN Y...
Variable: p3
mean sd n
1 0.9497928 5.391320 84
2 3.3793171 6.006240 142
3 5.5312932 6.396989 68
Variable: p4
mean sd n
1 2.199746 5.914325 84
2 3.447307 6.156187 142
3 4.547788 6.443438 68
Variable: p5
mean sd n
1 1.568471 6.779922 84
2 3.157847 5.880687 142
3 4.099857 5.944405 68
Variable: p6
mean sd n
1 0.3763795 6.046620 84
2 2.9258057 6.338399 142
3 3.7740288 5.005926 68
Variable: p7
mean sd n
1 -2.063988 4.689374 84
2 3.375513 5.102971 142
3 7.383712 4.592997 68
Variable: p8
mean sd n
1 -1.238771 4.778846 84
2 3.790729 5.053981 142
3 7.453814 4.143075 68
METODOLOGÍA CUANTITATIVA EN EDUCACIÓN
Response p3:
Df Sum Sq Mean Sq F value Pr(>F)
datdis$rc 2 799.4 399.69 11.357 1.78e-05 ***
Residuals 291 10240.8 35.19
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Response p4:
Df Sum Sq Mean Sq F value Pr(>F)
datdis$rc 2 210 105.018 2.771 0.06425.
Residuals 291 11029 37.899
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Response p5:
Df Sum Sq Mean Sq F value Pr(>F)
datdis$rc 2 256.1 128.065 3.3698 0.03574 *
Residuals 291 11058.9 38.003
---
TÉCNICAS EXPLICATIVAS MULTIVARIANTES: ANÁLISIS DISCRIMINANTE, ANÁLISIS DE REGRESIÓN Y...
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Response p6:
Df Sum Sq Mean Sq F value Pr(>F)
datdis$rc 2 511.6 255.806 7.1726 0.0009106 ***
Residuals 291 10378.3 35.664
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Response p7:
Df Sum Sq Mean Sq F value Pr(>F)
datdis$rc 2 3462.3 1731.13 72.9 ‘2.2e-16 ***
Residuals 291 6910.3 23.75
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Response p8:
Df Sum Sq Mean Sq F value Pr(>F)
datdis$rc 2 2935.0 1467.52 64.246 ‘2.2e-16 ***
Residuals 291 6647.1 22.84
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Los valores de F nos indican que las variables más discriminantes son
p7 y p8. Luego cuando hagamos el procedimiento por pasos lo veremos de
nuevo.
2) Otra de las condiciones que se le exige al modelo es la normalidad
multivariante y por tanto será necesario comprobar la normalidad univa-
riante
[1] 1
Shapiro-Wilk normality test
data: datdis[, i]
W = 0.9895, p-value = 0.03264
[1] 2
Shapiro-Wilk normality test
data: datdis[, i]
W = 0.9936, p-value = 0.2453
[1] 3
Shapiro-Wilk normality test
data: datdis[, i]
W = 0.9971, p-value = 0.8864
METODOLOGÍA CUANTITATIVA EN EDUCACIÓN
[1] 4
Shapiro-Wilk normality test
data: datdis[, i]
W = 0.9961, p-value = 0.6747
[1] 5
Shapiro-Wilk normality test
data: datdis[, i]
W = 0.9962, p-value = 0.6984
[1] 6
Shapiro-Wilk normality test
data: datdis[, i]
W = 0.9894, p-value = 0.0306
[1] 7
Shapiro-Wilk normality test
data: datdis[, i]
W = 0.9965, p-value = 0.771
[1] 8
Shapiro-Wilk normality test
data: datdis[, i]
W = 0.9966, p-value = 0.789
Group means:
p1 p2 p3 p4 p5 p6 p7 p8
1 1.182171 1.269792 0.9497928 2.199746 1.568471 0.3763795 -2.063988 -1.238771
2 3.339007 3.239700 3.3793171 3.447307 3.157847 2.9258057 3.375513 3.790729
3 5.315753 5.868120 5.5312932 4.547788 4.099857 3.7740288 7.383712 7.453814
LD1 LD2
p1 0.01680767 -0.092312893
p2 0.10354735 0.253697980
p3 0.04302532 -0.000658707
p4 -0.20811533 -0.108629744
p5 -0.03455984 0.066802634
p6 -0.07348940 -0.125538281
p7 0.16462075 0.017365247
p8 0.19839322 -0.045534820
Proportion of trace:
LD1 LD2
0.9923 0.0077
1 2 3
1 60 16 0
2 24 111 23
3 0 15 45
>sum(P$class==rc)/294 #indice de clasificados correctamente
[1] 0.7346939
METODOLOGÍA CUANTITATIVA EN EDUCACIÓN
Group means:
p2 p4 p6 p7 p8
1 1.269792 2.199746 0.3763795 -2.063988 -1.238771
2 3.239700 3.447307 2.9258057 3.375513 3.790729
3 5.868120 4.547788 3.7740288 7.383712 7.453814
&RHI¿FLHQWVRIOLQHDUGLVFULPLQDQWV
LD1 LD2
p2 0.12233541 0.227465731
p4 -0.17225325 -0.165122581
p6 -0.09845008 -0.083713696
p7 0.16850480 0.003563968
p8 0.19540721 -0.043152952
Proportion of trace:
LD1 LD2
0.9933 0.0067
>
> s <- predict(dis.pr3, datdis[, c(2,4,6,7,8)]) # calculo de los valores
inferidos
>
>
>table(s$class, rc) # matriz de confusión
rc
1 2 3
1 57 16 0
2 27 113 23
3 0 13 45
> sum(s$class==rc)/294 #indice de clasificados correctamente
[1] 0.7312925
Con SPSS
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA COLLIN TOL
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT r
/METHOD=STEPWISE p1 p2 p3 p4 p5 p6 p7 p8
/SCATTERPLOT=(*ZRESID,*ZPRED )
/RESIDUALS DURBIN HIST(ZRESID) NORM(ZRESID).
ERROR TÍP.
R CUADRADO DURBIN-
MODELO R R CUADRADO DE LA
CORREGIDA WATSON
ESTIMACIÓN
SUMA MEDIA
MODELO GL F SIG.
DE CUADRADOS CUADRÁTICA
1 Regresión. 4346,528 1 4346,528 245,893 ,000(a)
Residual. 5267,589 298 17,676
Total. 9614,118 299
2 Regresión. 5524,649 2 2762,324 200,615 ,000(b)
Residual. 4089,469 297 13,769
Total. 9614,118 299
3 Regresión. 5980,983 3 1993,661 162,428 ,000(c)
Residual. 3633,135 296 12,274
Total. 9614,118 299
4 Regresión. 6328,975 4 1582,244 142,083 ,000(d)
Residual. 3285,143 295 11,136
Total. 9614,118 299
5 Regresión. 6690,924 5 1338,185 134,588 ,000(e)
Residual. 2923,194 294 9,943
Total. 9614,118 299
6 Regresión. 6777,221 6 1129,537 116,661 ,000(f)
Residual. 2836,897 293 9,682
Total. 9614,118 299
a. Variable dependiente: r.
TÉCNICAS EXPLICATIVAS MULTIVARIANTES: ANÁLISIS DISCRIMINANTE, ANÁLISIS DE REGRESIÓN Y...
PROPORCIONES DE VARIANZA
AUTO- ÍNDICE DE
MODELO DIMENSIÓN
VALOR CONDICIÓN p7 p6 p4 p2 p5 (CONSTANTE) p8
a Variable dependiente: r.
METODOLOGÍA CUANTITATIVA EN EDUCACIÓN
DESVIACIÓN
MÍNIMO MÁXIMO MEDIA N
TÍP.
Por los resultados en primer lugar se puede comprobar que los datos
cumplen los condicionantes del modelo respecto a normalidad y homoce-
dasticidad según muestran los gráficos. La colinealidad presenta unos índi-
ces de condición por debajo de 15 y los residuos son independientes según el
estadístico de Durbin-Watson y de distribución normal (0,1). Las variables
que participan del modelo son: p8, p7, p6, p4, p2, p5 y lo explican en un 70%.
Los coeficientes del modelo lineal se muestran en la tabla «coeficientes».
Con R
&RHI¿FLHQWV
(Intercept) p1 p2 p3 p4 p5 p6 p7 p8
1.245673 0.003858 0.301460 0.081474-0.530858-0.115337 -0.197409 0.450191 0.659279
> pr2.step$anova
Stepwise Model Path
Analysis of Deviance Table
Initial Model:
r ~ 1
METODOLOGÍA CUANTITATIVA EN EDUCACIÓN
Final Model:
r ~ p8 + p7 + p6 + p4 + p2 + p5
Deviance Resid.
Step Df Df AIC
Resid. Dev
1 299 9614.118 1899.229
2 + p8 1 4346.52841 298 5267.589 1724.434
3 + p7 1 1178.12054 297 4089.469 1654.191
4 + p6 1 456.33356 296 3633.135 1624.399
5 + p4 1 347.99221 295 3285.143 1599.897
6 + p2 1 361.94941 294 2923.194 1570.581
7 + p5 1 86.29668 293 2836.897 1567.295
> summary(fit.pr3)
Call:
lm(formula = r ~ p5 + p2 + p4 + p6 + p7 + p8, data = datreg)
Residuals:
&RHI¿FLHQWV
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.26573 0.22876 5.533 6.99e-08 ***
p5 -0.11894 0.03984 -2.985 0.00307 **
p2 0.32239 0.05332 6.047 4.49e-09 ***
p4 -0.48519 0.05514 -8.799 < 2e-16 ***
p6 -0.20353 0.04346 -4.683 4.33e-06 ***
p7 0.45306 0.03645 12.430 < 2e-16 ***
p8 0.67395 0.04618 14.595 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 3.112 on 293 degrees of freedom
Multiple R-squared: 0.7049, Adjusted R-squared: 0.6989
F-statistic: 116.7 on 6 and 293 DF, p-value: <2.2e-16
$values
$vectors
[,1] [,2] [,3] [,4] [,5] [,6]
[1,] 0.3463610 0.465251949 -0.529660766 0.224558185 0.57392579 0.05671837
[2,] 0.4010665 -0.532888142 -0.122970493 -0.167215591 0.20950460 -0.68425206
[3,] 0.4020231 -0.508073617 -0.099748663 -0.199312696 0.08367179 0.72357603
[4,] 0.4021917 0.441920190 -0.106873045 -0.662770709 -0.43432000 -0.06023016
[5,] 0.3805268 0.214735618 0.826412995 0.007046952 0.35479331 0.01419735
[6,] 0.5009973 -0.005216501 0.002765659 0.665261110 -0.55245261 -0.03450545
Aunque hay relación importante entre las variables, por ejemplo p4 y p2,
no obstante tanto el determinante de la matriz de covarianzas, como los valo-
res propios de dicha matriz son indicadores de la ausencia de colinealidad.
Finalmente se estudia si hay algún valor influente mediante la distancia
de Cook.
> cook <- cooks.distance(fit.pr3)# debe ser menor que F(k; n-k; alpha)
> #k predictores; n casos
> qf(c(0.05), df1=7, df2=300, lower.tail=FALSE) # Valor de F
[1] 2.040159
> plot(cook, ylab=”Cooks distancia”)
> #La distancia de cook indica que no hay ningún valor influyente
Con SPSS
ÈUEROGHFODVL¿FDFLyQ
TREE rfg [o] BY com [o] gr [o] zo [o] cu [o] edad [o] sexo [o]
/TREE
DISPLAY=TOPDOWN
NODES=STATISTICS
BRANCHSTATISTICS=YES
NODEDEFS=YES
SCALE=AUTO
/DEPCATEGORIES
USEVALUES=[12]
/PRINT
MODELSUMMARY
CLASSIFICATION
RISK
/METHOD
TYPE=CHAID
/GROWTHLIMIT
MAXDEPTH=AUTO
MINPARENTSIZE=10
MINCHILDSIZE=5
/VALIDATION
TYPE=NONE
OUTPUT=BOTHSAMPLES
/CHAID
ALPHASPLIT=0.05
ALPHAMERGE=0.05
SPLITMERGED=NO
CONVERGE=0.001
MAXITERATIONS=100
ADJUST=BONFERRONI
/COSTSEQUAL
/SCORESEQUALINCREMENTS.
,348 ,016
PRONOSTICADO
OBSERVADO
PORCENTAJE
BAJO ALTO
CORRECTO
Con R
> m1
J48 pruned tree
------------------
cu = SEXTO
| zo = URBANA
| | com = ANDALUCIA: bajo (53.0/9.0)
| | com = CANTABRIA
| | | gr = EXPERIMENTAL: alto (32.0/12.0)
| | | gr = CONTROL: bajo (37.0/13.0)
| | com = GALICIA: bajo (0.0)
| zo = SEMIURBANA
| | edad = DIEZ AÂ¥OS: bajo (2.0)
| | edad = ONCE AÂ¥OS: alto (29.0/10.0)
| | edad = DOCE AÂ¥OS: alto (17.0/8.0)
| | edad = TRECE AÂ¥OS: bajo (2.0)
| | edad = CATORCE AÂ¥OS: bajo (1.0)
| | edad = QUINCE AÂ¥OS: alto (0.0)
| zo = RURAL: bajo (146.0/42.0)
cu = SEPTIMO
| gr = EXPERIMENTAL
| | zo = URBANA: bajo (44.0/18.0)
| | zo = SEMIURBANA: bajo (23.0/8.0)
| | zo = RURAL: alto (59.0/21.0)
| gr = CONTROL: alto (118.0/35.0)
TÉCNICAS EXPLICATIVAS MULTIVARIANTES: ANÁLISIS DISCRIMINANTE, ANÁLISIS DE REGRESIÓN Y...
cu = OCTAVO
| com = ANDALUCIA: alto (157.0/42.0)
| com = CANTABRIA: alto (59.0/14.0)
| com = GALICIA
| | edad = DIEZ AÂ¥OS: bajo (0.0)
| | edad = ONCE AÂ¥OS: bajo (0.0)
| | edad = DOCE AÂ¥OS: bajo (0.0)
| | edad = TRECE AÂ¥OS
| | | sexo = HOMBRE: bajo (28.0/13.0)
| | | sexo = MUJER: alto (22.0/7.0)
| | edad = CATORCE AÂ¥OS: bajo (10.0/2.0)
| | edad = QUINCE AÂ¥OS: bajo (3.0)
Number of Leaves : 24
REFERENCIAS BIBLIOGRÁFICAS
BIGSS, D., DE VILLE, B., y SUEN E. (1991). A method of choosing multiway partitions
for classification and decision trees. Journal of Applied Statistics, 18:48-62.
BISQUERRA, R. (1989). Introducción Conceptual al Análisis Multivariable. Barcelona:
PPU.
BREIMAN, L., FRIEDMANN, J. H, OLSHEN, R. A. y STONE, C. J. (1984). Classification and
regression trees. Wadsworth: Belmont. Calif
BRIONES, G. (1982). Clasificación y tipologías. En Métodos y técnicas de investiga-
ción para las ciencias sociales, (250-258), México: Trillas.
CEA, M. A. (2002). Análisis multivariable. Teoría y práctica en la investigación
social. Madrid: Síntesis.
CUADRAS, C. M. (1991). Métodos de Análisis Multivariante. Barcelona: Eunibar.
ESCOBAR, M. (1992). El análisis de segmentación: concepto y aplicaciones. Madrid:
Fundación Juan March.
ETXEBERRIA, J. (1999). Regresión múltiple. Madrid: La muralla.
GIL PASCUAL, J. A. (1993). Relación entre factores sociales y valores ocupacionales
en alumnos de educación secundaria. Tesis doctoral (inedita). Madrid: UNED.
GIL PASCUAL, J. A. (2000). El diagnóstico y la orientación de los recursos humanos en
las organizaciones: estudio de Clima Laboral en la Empresa, Actas del XII
Congreso Nacional y I Iberoamericano de Pedagogía. Tomo II. Resúmenes de
Comunicaciones. Madrid, septiembre 2000, pp. 516-517.
GIL PASCUAL, J. A. (2008). Métodos de investigación en Educación (Análisis
Multivariante). Madrid: UNED.
GNANADESIKAN, R. (1977). Methods for statistical data analysis of multivariate
observations. New York: John Wiley & Sons, Inc.
GOODMAN, L. A. (1979). Simple models for the analysis of association in cross-
classifications having ordered categories. Journal of the American Statistical
Association, 74: 537-552.
HAIR, ANDERSON, TATHAM, BLACK (1999). Análisis multivariante. 5/e. Madrid:
Prentice Hall.
HARRISON, D., Y RUBINFELD, D. L. (1978). Hedonic prices and the demand for clean
air. Journal Environmental Economics & Management, 5: 81-102.
KASS, G. (1980). An exploratory tecmique for investigating large quantities of cate-
gorical data. Applied Statistics, 292, 119-127.
KINNEAR, T. C y TAYLOR, J. R. (1989). Análisis de conglomerados y clasificación
multimiensional. En Investigación de mercados (552-558), Bogotá: MacGraw
Hill.
TÉCNICAS EXPLICATIVAS MULTIVARIANTES: ANÁLISIS DISCRIMINANTE, ANÁLISIS DE REGRESIÓN Y...
El proceso de medición opera sobre un objeto, según unas reglas –que de-
finen el isomorfismo entre el objeto y la unidad de medida–, y con una unidad
de medida. Este proceso nos lleva a construir unos instrumentos, que se pasan
al objeto en el acto de medición, teniendo como resultado unos datos sobre los
que se realiza un tratamiento estadístico para obtener unos resultados.
En educación se utilizan fundamentalmente cuatro técnicas de recogida
de datos: tests o pruebas objetivas, cuestionarios, entrevistas y observación.
Además hay otras técnicas de menor uso: inventarios, listas de control, es-
calas, registros anecdóticos, etc.
Por ser los más utilizados nos vamos a centrar en las características técni-
cas de cuestionarios y tests o pruebas objetivas. Ambos instrumentos de medi-
da operan con ítems, por tanto, serán éstos elementos nuestro foco de interés.
Sin entrar en la construcción de los ítems de cuestionarios o test, por
estar fuera de los objetivos de la obra, a continuación se abordará el análisis
de ítems desde el enfoque clásico, cuyos resultados dependen de la muestra
elegida, sobre todo en el aspecto de variabilidad de la misma y son expresa-
dos en relación al «grupo normativo», y de la teoría de respuesta al ítem o
del rasgo latente, cuyos resultados son invariantes a la muestra elegida aun-
que exige un importante tamaño de la misma.
— Discriminación.
— Análisis de los distractores.
— Fiabilidad.
— Validez.
— Dimensionalidad.
2.1.1. Dificultad
A
ID
N
donde:
En ítems de elección múltiple, para corregir los efectos del azar, se suele
utilizar el llamado índice de dificultad corregido:
E
A−
q k −1
ID ’ = p − =
k −1 N
donde:
o también:
A=aciertos.
E=errores.
N=total.
2.1.2. Discriminación
D = p+ − p−
donde:
Dividida la muestra en dos grupos extremos: a) una parte donde está
el 27% de personas con mayor puntuación en el test (extremo superior) y b)
otra parte con el 27% de menor puntuación (extremo inferior).
p+ representa la proporción de individuos del extremo superior que
aciertan el ítem.
p - representa la proporción de individuos del extremo inferior que acier-
tan el ítem.
Otra manera de valorar la discriminación de un ítem es mediante el
cálculo de la correlación obtenida entre las puntuaciones del grupo en el
ítem y en el test, cuando este ítem no es valorado.
Esta correlación se denomina índice de discriminación o de homoge-
neidad al ser un indicador del grado de relación del ítem con el resto. Si la
correlación es elevada las personas que puntúan alto en el test acertarán
también en el ítem. Si no se quita el ítem, a la hora de realizar los cálculos,
la fórmula a utilizar es la siguiente:
rix Sx − Si
IH =
S + Si2 − 2 rix Sx Si
2
x
Variabilidad y discriminación.
n
Sx = ∑ Sj rj( x− j )
j=1
donde:
Sx= desviación típica del test.
Sj= desviación típica del ítem.
rj(x-j)= índice de discriminación del ítem j (correlación ítem-test corregida).
σV2
ρ XX ’ (1)
σ 2X
σ e2
ρ XX ’ = 1− (2)
σ 2X
σ e = σ x 1 - ρ xx ’
Fc Fa
K=
N Fa
IF Si Di
donde:
Cabe pensar que todos los elementos del instrumento de medida miden
una porción de la característica o rasgo, de forma que debe darse una cohe-
rencia interna, es decir una sub-muestra de ítems mide lo mismo que otra
sub-muestra, y representan ambas lo que mide el instrumento en su totalidad.
⎛ n ⎞
⎜⎜ ∑ S2j ⎟⎟⎟
n ⎜ ⎜ ⎟
B= ⎜⎜1− j=1 2 ⎟⎟⎟
n − 1 ⎜⎜ Sx ⎟⎟
⎜⎜ ⎟⎟
⎝ ⎟⎠
Resulta del cociente entre las suma de las varianzas de los ítems, dividi-
da por la varianza total, ponderada por el número de ítems de la escala.
Como vemos, la fiabilidad de un test está relacionada directamente con
el número de ítems del mismo: a mayor cantidad de ítems más fiabilidad;
por eso, de alguna forma, esta fórmula nos sirve de elemento predictor de la
fiabilidad cuando se aumenta la cantidad de ítems.
Según apunta Muñiz (2000 p. 55) un elevado valor de alfa no es un indi-
cador de la unidimensionalidad de la escala de medida, sino que debe com-
pletarse con otras técnicas.
Si el cuestionario o test es multidimensional o multifacético no es co-
rrecto medir la consistencia interna de todos, sino de las diferentes facetas
o sub-escalas por separado.
a) Fiabilidad y longitud.
El número de ítems de un test afecta a la fiabilidad del mismo. La cues-
tión parece lógica pues conforme tengamos más ítems en un test mejor po-
dremos valorar un determinado aspecto del mismo y por tanto menor error
de medida, en el límite ese error será cero.
La fórmula utilizada para valorar esta variación de la fiabilidad con el
nrxx ’
número de ítems es la fórmula de Spearman-Brown Rxx ’ = con:
1 + ( n − 1)rxx ’
2.0, 84
Rxx = =0,913
1 + 0, 84
b) Fiabilidad y variabilidad.
σ12
ρ22 ’ = 1− (1− ρ11’ ) con:
σ22
2.1.5. Validez
Validez de contenido
Validez predictiva
IV rjy
Validez concurrente
2.1.6. Dimensionalidad
Los test tienen como objetivo medir una variable de interés. Esta varia-
ble se puede concretar en una o más dimensiones, por tanto uno de los as-
pectos más importante a medir en el test es la dimensionalidad del mismo.
Para realizar dicho estudio la metodología más apropiada es el análisis fac-
torial de los ítems, con objeto de observar la agrupación de los mismos en
uno o más factores.
El análisis factorial es una técnica estadística de reducción de dimen-
sión que trabaja con la matriz de correlaciones o covarianzas como entra-
da. Si los ítems son dicotómicos, y se supone provienen de distribuciones
METODOLOGÍA CUANTITATIVA EN EDUCACIÓN
2.2.1. Supuestos
2.2.2. Modelos
e D( R−bi )
Pi (R ) =
1 + e D( R−bi )
donde:
e Dai ( R−bi )
Pi (R ) =
1 + e Dai ( R−bi )
En este caso además de los parámetros anteriores hay uno nuevo a que
representa el índice de discriminación del ítem. A mayor valor de a más po-
der discriminativo tendrá el ítem. Su valor es proporcional a la pendiente de
la CCI en el punto ș=b.
TÉCNICAS RELACIONADAS CON LA MEDIDA. VALIDACIÓN DE INSTRUMENTOS DE MEDIDA...
e Dai ( R−bi )
Pi (R ) = ci + (1− ci )
1 + e Dai ( R−bi )
donde:
1
I (R )
var(Rˆ / R )
Ii (R ) D2 ai2 Pi (R )Qi (R )
D2 ai2Qi (R ) [ Pi (R ) − ci ]
2
Ii (R ) =
Pi (R )(1− ci )2
n
IT (R ) = ∑ Ii (R )
i=1
IT (Rx )
ER(R )
IT (R y )
donde:
IT(șx): información del test X para el valor ș
IT(șy): información del test Y para el valor ș
miento que se sigue es utilizar unos ítems de anclaje los mismos en cada
test y proceder en uno de los test a transformar sus puntuaciones en fun-
ción de los valores obtenidos en el otro.
nf
Pr (R j ) − Pf (R j )
DP = ∑
j=1 nf
donde:
Pr (R j ) : es la probabilidad que los individuos del grupo de referencia tie-
nen de superar el ítem R j . Este valor se obtiene de la curva característica del
ítem del grupo de referencia.
Pf (R j ) : es la probabilidad que los individuos del grupo focal tienen de
superar el ítem R j . Este valor se obtiene de la curva característica del ítem
del grupo de focal.
nf : número de individuos del grupo focal.
sona los ítems que nos informan de su nivel de rasgo. A una persona con
mucho nivel de vocabulario inglés no tiene mucho sentido pedirle la traduc-
ción de «DOG» (perro), pues es seguro que la sabrá. Análogamente, a una
persona con muy bajo nivel, tampoco se le debería preguntar por la traduc-
ción de «SLED» (trineo), pues es muy poco probable que la sepa. Un TAI
evitaría ambas preguntas a personas de alto y bajo nivel de vocabulario in-
glés, respectivamente. Una consecuencia de sólo administrar los ítems real-
mente útiles es que se puede conseguir la misma precisión en la medida del
rasgo con muchos menos ítems.
Se debe distinguir entre el método del estudio de caso del diseño experi-
mental de un solo sujeto donde existe mayor control experimental.
Los diseños experimentales de caso único tienen sus orígenes en los es-
tudios desarrollados por BF. Skinner en los años 30. El experimento de un
solo sujeto está pensado en la observación del cambio de comportamiento
de uno o pocos individuos. En este caso la variable independiente (el trata-
miento) se manipula sistemáticamente.
METODOLOGÍA CUANTITATIVA EN EDUCACIÓN
Aunque hay muchos tipos de diseños con un solo sujeto los más comu-
nes son el diseño ABAB y el diseño de líneas múltiples.
Diseño ABAB
Ejemplo del diseño (Domash et al., 1980, citado por Arnau, 1984)
Los resultados de este estudio muestran que tras pasar por la sala de
preparación, los informes fueron más documentados, se realizaron en un
tiempo menor después del arresto, fueron más satisfactorios y mejor eva-
luados por el Ayudante del Fiscal del Distrito.
Resultados:
Grupo I Intervención
100
Porcentaje de elementos de casos
Línea base
75
50
25
0
Grupo II Intervención
100
Línea base
75
50
25
0
Intervención de tres meses
Como se puede observar los índices de dificultad van desde 32,9% has-
ta 86,3%, es decir, el ítem más sencillo es el número 10 y el más complejo
es el 9.
> print(re1, digits=3)
Alpha reliability = 0.597
Standardized alpha = 0.598
Reliability deleting each item in turn:
Alpha Std.Alpha r(item,total)
V2 0.589 0.588 0.202
V3 0.601 0.601 0.149
V4 0.547 0.549 0.366
V5 0.595 0.596 0.175
V6 0.529 0.532 0.429
V7 0.588 0.588 0.208
V8 0.542 0.544 0.380
V9 0.568 0.568 0.286
V10 0.565 0.566 0.297
V11 0.578 0.578 0.248
El ejemplo propuesto tiene los mismos datos de partida del apartado pre-
cedente. Se persigue los siguientes objetivos: realizar un análisis de ítems y
obtener el mejor modelo que se ajuste a los datos y estimar las puntuaciones q
de los encuestados. Para conseguir los objetivos anteriores se realizarán los
siguientes pasos: a) un estudio descriptivo de los ítems y ver el cumplimiento
del modelo TRI (básicamente la unidimensionalidad), b) ajuste de los datos
a un modelo y c) cálculo de las puntuaciones q de los encuestados.
El fichero de sintaxis para realizar el estudio descriptivo se muestra a
continuación:
# Import Data
tri1 <- read.table(“C:/Mis libros/metodología de la inv_cuantita-
tiva/revisión 2015/cap5/ejemplo2.dat”, sep=””)
tri2<-tri1[2:11]
# load `ltm’ package
library(ltm)
##########################
# Descriptive Statistics #
##########################
dsc <- descript(tri2)
dsc
Cronbach’s alpha:
value
All Items 0.5968
Excluding V2 0.5891
Excluding V3 0.6006
Excluding V4 0.5471
Excluding V5 0.5947
Excluding V6 0.5289
Excluding V7 0.5875
Excluding V8 0.5424
Excluding V9 0.5683
Excluding V10 0.5649
Excluding V11 0.5781
Pairwise Associations:
Item i Item j p. value
1 2 4 0.806
2 1 2 0.802
3 4 10 0.600
4 2 6 0.530
5 6 8 0.190
6 1 4 0.173
7 6 9 0.025
8 4 5 0.024
9 4 8 0.020
10 2 10 0.016
TÉCNICAS RELACIONADAS CON LA MEDIDA. VALIDACIÓN DE INSTRUMENTOS DE MEDIDA...
##############################################
# Ajuste de modelo 1PL o Rasch Models #
##############################################
# Ajuste con discriminación igual a 1
fit.rasch1 <- rasch(tri2, constraint = cbind(ncol(tri2) + 1, 1))
summary(fit.rasch1)
# items ordenados por dificultad, y
# probabilidad de respuesta positiva por media individual
coef(fit.rasch1, prob = TRUE, order = FALSE)
########################
# Ajuste modelo de 2PL #
########################
fit.2pl <- ltm(tri2 ~ z1)
summary(fit.2pl)
coef(fit.2pl, standardized = TRUE, prob = TRUE, order = FALSE)
# para observar si hay diferencia significativa en Likelihood Ratio
Test entre los modeloseen the two models
anova(fit.rasch2, fit.2pl)
# si no hay diferencia significativa no se mejora con el ajuste
METODOLOGÍA CUANTITATIVA EN EDUCACIÓN
########################
# Ajuste modelo de 3PL #
########################
fit.tpm1 <- tpm(tri2, control = list(optimizer = “nlminb”))
summary(fit.tpm1)
coef(fit.tpm1, standardized = TRUE, prob = TRUE)
# para observar si hay diferencia significativa en Likelihood Ratio
Test entre los modeloseen the two models
anova(fit.2pl, fit.tpm1)
# si no hay diferencia significativa no se mejora con el ajuste
##########################################
## Test de unidimensionalidad
#########################################
out <- unidimTest(fit.2pl)
out
#####################
### Comprobaciones ##
#####################
# chequea los residuos para todas las respuestas observadas
# patrones; por defecto los patrones de respuesta se ordenan
# de acuerdo con sus valores residuales
residuals(fit.2pl, resp. patterns = NULL, order = TRUE)
# chequeo de residuos para respuestas específicas
# patrones
patterns <- rbind(“all.zeros” = rep(0,10),
“mix1” = rep(0:1, length = 10),
“mix2” = rep(1:0, length = 10),
“all.ones” = rep(1, 10))
residuals(fit.2pl, resp. patterns = patterns, order = FALSE)
# chequeo del modelo para dos marginales
margins(fit.2pl, nprint=2)
# chequeo del modelo para tres marginales
margins(fit.2pl, type = “three-way”, nprint=2)
METODOLOGÍA CUANTITATIVA EN EDUCACIÓN
Call:
ltm(formula = tri2 ~ z1)
Response: (1,0)
Item i Item j Obs Exp (O-E)^2/E
1 4 10 45 36.39 2.04
2 1 8 88 100.60 1.58
Response: (0,1)
Item i Item j Obs Exp (O-E)^2/E
1 3 4 91 103.19 1.44
2 1 2 165 153.78 0.82
Response: (1,1)
Item i Item j Obs Exp (O-E)^2/E
1 4 5 184 198.09 1.00
2 1 2 178 189.29 0.67
Call:
ltm(formula = tri2 ~ z1)
Response: (0,0,0)
Item i Item j Item k Obs Exp (O-E)^2/E
1 6 7 8 79 95.02 2.70
2 1 8 9 125 111.06 1.75
TÉCNICAS RELACIONADAS CON LA MEDIDA. VALIDACIÓN DE INSTRUMENTOS DE MEDIDA...
Response: (1,0,0)
Item i Item j Item k Obs Exp (O-E)^2/E
1 4 5 10 36 25.02 4.82 ***
2 2 4 6 123 102.78 3.98 ***
Response: (0,1,0)
Item i Item j Item k Obs Exp (O-E)^2/E
1 1 2 6 96 77.05 4.66 ***
2 1 6 8 67 51.84 4.43 ***
Response: (1,1,0)
Item i Item j Item k Obs Exp (O-E)^2/E
1 4 5 6 59 78.81 4.98 ***
2 4 8 10 35 24.39 4.61 ***
Response: (0,0,1)
Item i Item j Item k Obs Exp (O-E)^2/E
1 6 8 9 15 26.06 4.69 ***
2 3 4 5 80 68.03 2.11
Response: (1,0,1)
Item i Item j Item k Obs Exp (O-E)^2/E
1 2 5 6 51 67.82 4.17 ***
2 5 8 9 15 22.47 2.48
Response: (0,1,1)
Item i Item j Item k Obs Exp (O-E)^2/E
1 1 6 8 147 172.07 3.65 ***
2 3 4 5 26 37.27 3.41
Response: (1,1,1)
Item i Item j Item k Obs Exp (O-E)^2/E
1 3 4 6 159 142.95 1.8
2 3 4 9 123 109.73 1.6
#####################
### Salidas ##
#####################
# Curva característica para el modelo 2PL
plot(fit.2pl, legend = TRUE, pch = rep(1:2, each = 5), xlab =
“Aptitud”,
col = rep(1:5, 2), lwd = 2, cex = 1.2, sub = paste(“Modelo: “,
deparse(fit.2pl$call)))
#########################################################
# Posterior modes as ability estimates under each model #
#########################################################
##################################################
# Kernel Density Estimation of Ability Estimates #
##################################################
# Extraer frecuencia observada para cada patrón de respuesta
Obs <- factor.scores(fit.2pl)$score.dat$Obs
> d.2pl
Call:
density.default(x = rep(theta.2pl$score.dat$z1, Obs), bw = bw)
x y
Min. : -2.6324 Min. : 0.0001179
1st Qu.: -1.4030 1st Qu.: 0.0278654
Median : -0.1736 Median : 0.1886296
Mean : -0.1736 Mean : 0.2031424
3rd Qu.: 1.0558 3rd Qu.: 0.3648452
Max. : 2.2853 Max. : 0.4580372
TÉCNICAS RELACIONADAS CON LA MEDIDA. VALIDACIÓN DE INSTRUMENTOS DE MEDIDA...
> ################################
># Expected A Posteriori Scores #
>################################
>factor.scores(fit.2pl, method = “EAP”)
Call:
ltm(formula = tri2 ~ z1)
REFERENCIAS BIBLIOGRÁFICAS