Documente Academic
Documente Profesional
Documente Cultură
T 2 DE HOTELLING
1.1. Descriptivos
El procedimiento Descriptivos calcula estadı́sticos de resumen univariantes para
varias variables en una única tabla y calcula sus valores tipificados (puntuaciones z).
Las variables se pueden ordenar por el tamaño de sus medias (en orden ascendente o
descendente), alfabéticamente o por el orden en el que se seleccionen las variables (el
valor por defecto).
Cuando guardamos las puntuaciones z, éstas se añaden a los datos del Editor de
datos, quedando disponibles para los gráficos, el listado de los datos y los análisis.
Cuando las variables están tomadas en unidades diferentes (por ejemplo, producto
interno bruto per capita y porcentaje de alfabetización), una transformación de pun-
tuación z pondrá las variables en una escala común para una comparación visual más
fácil.
Este menú proporciona el tamaño de muestra, la media, el mı́nimo, el máximo, la
desviación tı́pica, la varianza, el rango, la suma, el error tı́pico de la media, la cyrtosis
y la asimetrı́a y sus errores tı́picos.
1.2. Correlaciones
El procedimiento Correlaciones bivariadas calcula el coeficiente de correlación de
Pearson, la rho de Spearman y la tau-b de Kendall con sus niveles de significación.
Las correlaciones las utilizaremos para medir cómo están relacionadas las variables o
los órdenes de los rangos. Antes de calcular un coeficiente de correlación, hemos de
inspeccionar los datos para detectar valores atı́picos (que pueden producir resultados
equı́vocos) y evidencias de una relación lineal. El coeficiente de correlación de Pearson
es una medida de asociación lineal, de tal manera que dos variables pueden estar
1
2 Contrastes de la T 2 de Hotelling
Analizar
Correlaciones
Bivariadas.
* Excluir casos según pareja. Con esta opción se excluyen del análisis
los casos con valores perdidos para una o ambas variables de la
pareja que forma un coeficiente de correlación. Debido a que cada
coeficiente está basado en todos los casos que tienen códigos válidos
para esa pareja concreta de variables, en cada cálculo se utiliza la
mayor cantidad de información disponible. Esto puede dar como
resultado un grupo de coeficientes basados en un número de casos
variable .
* Excluir casos según lista. Excluye de todas las correlaciones los casos
con valores perdidos para cualquier variable.
1.3. Pruebas t
1. El procedimiento Prueba T para una muestra contrasta si la media de una sola
variable difiere de una constante especificada.
Para cada variable a contrastar tenemos la media, la desviación tı́pica y el error
tı́pico de la media. También devuelve la diferencia promedio entre cada valor de
los datos y el valor del contraste de hipótesis, una prueba t que contrasta que
esta diferencia es 0 y un intervalo de confianza para la diferencia promedio (para
el que puede especificarse el nivel de confianza).
Analizar
Modelo Lineal General
Multivariante
1) Valores pronosticados. Son los valores que predice el modelo para ca-
da caso. Están disponibles los valores pronosticados no tipificados y
los errores tipificados de los valores pronosticados. Si hemos seleccio-
nado una variable MCP (WLS), dispondremos de la opción de valores
pronosticados no tipificados ponderados.
2) Diagnósticos. Son medidas para identificar casos con combinaciones po-
co usuales de valores para las variables independientes y casos que pue-
dan tener un gran impacto en el modelo. Las opciones disponibles in-
cluyen la distancia de Cook y los valores de influencia no centrados.
También proporcionará los Residuos, un residuo no tipificado es el va-
lor real de la variable dependiente menos el valor pronosticado por el
modelo, dentro de los residuos también obtenemos los residuos elimi-
nados, estudentizados y tipificados. Si hemos seleccionado una variable
MCP, contaremos además con residuos no tipificados ponderados.
d ) Opciones. Este cuadro de diálogo contiene estadı́sticos adicionales. Los
estadı́sticos se calculan utilizando un modelo de efectos fijos.
1) Medias marginales estimadas. Seleccionaremos los factores e interaccio-
nes para los que deseemos obtener estimaciones de las medias marginales
de la población en las casillas. Estas medias se corrigen respecto a las
covariables, si las hay. Las interacciones sólo están disponibles si hemos
especificado un modelo personalizado.
* Comparar los efectos principales. Proporciona comparaciones por
parejas no corregidas entre las medias marginales estimadas para
cualquier efecto principal del modelo, tanto para los factores inter-
sujetos como para los intra-sujetos. Estos elementos sólo se encuen-
tra disponibles si los efectos principales están seleccionados en la
lista Mostrar las medias para.
* Ajuste del intervalo de confianza. Seleccionaremos un ajuste de dife-
rencia menor significativa (DMS), Bonferroni o Sidak para los inter-
valos de confianza y la significación. Este elemento sólo estará dis-
ponible si se selecciona Comparar los efectos principales.
2) Mostrar.
* Estadı́sticos descriptivos. Para obtener las medias observadas, des-
viaciones tı́picas y frecuencias para cada variable dependiente en
todas las celdas.
* Estimaciones del tamaño del efecto. Ofrece un valor parcial de eta-
cuadrado para cada efecto y cada estimación de parámetros. El
estadı́stico eta cuadrado describe la proporción de variabilidad total
atribuible a un factor.
* Potencia observada. Obtiene la potencia de la prueba cuando la
hipótesis alternativa se ha establecido basándose en el valor obser-
vado.
* Estimaciones de los parámetros. Genera las estimaciones de los
parámetros, los errores tı́picos, las pruebas t, los intervalos de con-
fianza y la potencia observada para cada prueba. Se pueden mostrar
Matrices SCPC de error y de hipótesis y la Matriz SCPC residual
más la prueba de esfericidad de Bartlett de la matriz de covarianza
residual.
* Pruebas de homogeneidad. Calcula la prueba de homogeneidad de
varianzas de Levene para cada variable dependiente en todas las
combinaciones de nivel de los factores inter-sujetos sólo para facto-
res inter-sujetos. Asimismo, las pruebas de homogeneidad incluyen
la prueba M de Box sobre la homogeneidad de las matrices de co-
varianzas de las variables dependientes a lo largo de todas las com-
binaciones de niveles de los factores inter-sujetos. Las opciones de
diagramas de dispersión por nivel y gráfico de los residuos son útiles
para comprobar los supuestos sobre los datos. Estos elementos no
estarán activado si no hay factores.
* Gráficos de los residuos. Producen un gráfico de los residuos obser-
vados respecto a los pronosticados respecto a los tipificados para
cada variable dependiente. Estos gráficos son útiles para investigar
el supuesto de varianzas iguales.
* Prueba de falta de ajuste Utilizada para comprobar si el mode-
lo puede describir de forma adecuada la relación entre la variable
dependiente y las variables independientes. La Función estimable
general permite construir pruebas de hipótesis personales basadas
en la función estimable general.
3) Nivel de significación. Para corregir el nivel de significación usado en
las pruebas post hoc y el nivel de confianza empleado para construir
intervalos de confianza. El valor especificado también se utiliza para
calcular la potencia observada para la prueba. Si especificamos un nivel
de significación, el cuadro de diálogo mostrará el nivel asociado de los
intervalos de confianza.
T2 n − p + 1
Fp;n−p+1 (δ) δ = N µ′ Σ−1 µ.
n p
T2 n − p + 1
Fp;n−p+1 (δ) δ = µ′ Σ−1 µ
n p
H 0 : µ = µ0
H1 : µ 6= µ0
Sabiendo que: √
Σ
X Np (µ; N ) → N (X −µ) Np (0; Σ) y que A Wp (n, Σ), ambas independientes.
2
Aplicando el teorema anterior; para T = N (X − µ0 )′ S −1 (X − µ0 ) se cumple:
T2 n − p + 1
Fp;n−p+1 (δ) δ = N (µ − µ0 )′ Σ−1 (µ − µ0 )
n p
y bajo la hipótesis nula δ = 0, podemos realizar los contrastes unidimensionales.
(X − µ)′ S −1 (X − µ) ≤ F1−α
∗
np
siendo F1−α
∗
= F
N (n−p+1) p,n−p+1;1−α
.
H 0 : µ1 = µ2
H1 : µ1 6= µ2
N1 N2
T2 = (X − Y )′ S −1 (X − Y )
N 1 + N2
T 2 n1 + n2 − p + 1 N1 N2
Fp;n1 +n2 −p+1 (δ) δ = (µ1 − µ2 )′ Σ−1 (µ1 − µ2 )
n1 + n2 p N 1 + N2
(X 1 − Y 2 − µ)′ S −1 (X 1 − Y 2 − µ) ≤ F1−α
∗
con
∗ N1 + N2 (n1 + n2 )p
F1−α = Fp,n1 +n2 −p+1;1−α
N1 N2 (n1 + n2 − p + 1)
1.6. Ejemplo
LS1 AS1 LP1 AS1 LS2 AS2 LP2 AS2 LS3 AS3 LP3 AS3
5.1 3.5 1.4 0.2 7 3.2 4.7 1.4 6.3 3.3 6 2.5
4.9 3 1.4 0.2 6.4 3.2 4.5 1.5 5.8 2.7 5.1 1.9
4.7 3.2 1.3 0.2 6.9 3.1 4.9 1.5 7.1 3 5.9 2.1
4.6 3.1 1.5 0.2 5.5 2.3 4 1.3 6.3 2.9 5.6 1.8
5 3.6 1.4 0.2 6.5 2.8 4.6 1.5 6.5 3 5.8 2.2
5.4 3.9 1.7 0.4 5.7 2.8 4.5 1.3 7.6 3 6.6 2.1
4.6 3.4 1.4 0.3 6.3 3.3 4.7 1.6 4.9 2.5 4.5 1.7
5 3.4 1.5 0.2 4.9 2.4 3.3 1 7.3 2.9 6.3 1.8
4.4 2.9 1.4 0.2 6.6 2.9 4.6 1.3 6.7 2.5 5.8 1.8
4.9 3.1 1.5 0.1 5.2 2.7 3.9 1.4 7.2 3.6 6.1 2.5
5.4 3.7 1.5 0.2 5 2 3.5 1 6.5 3.2 5.1 2
4.8 3.4 1.6 0.2 5.9 3 4.2 1.5 6.4 2.7 5.3 1.9
4.8 3 1.4 0.1 6 2.2 4 1 5.8 3 5.5 2.1
4.3 3 1.1 0.1 6.1 2.9 4.7 1.4 5.7 2.5 5 2
5.8 4 1.2 0.2 5.6 2.9 3.6 1.3 5.8 2.8 5.1 2.4
5.7 4.4 1.5 0.4 6.7 3.1 4.4 1.4 6.4 3.2 5.3 2.3
5.4 3.9 1.3 0.4 5.6 3 4.5 1.5 6.5 3 5.5 1.8
5.1 3.5 1.4 0.3 5.8 2.7 4.1 1 7.7 3.8 6.7 2.2
5.7 3.8 1.7 0.3 6.2 2.2 4.5 1.5 7.7 2.6 6.9 2.3
5.1 3.8 1.5 0.3 5.6 2.5 3.9 1.1 6 2.2 5 1.5
5.4 3.4 1.7 0.2 5.9 3.2 4.8 1.8 6.9 3.2 5.7 2.3
5.1 3.7 1.5 0.4 6.1 2.8 4 1.3 5.6 2.8 4.9 2
4.6 3.6 1 0.2 6.3 2.5 4.9 1.5 7.7 2.8 6.7 2
5.1 3.3 1.7 0.5 6.1 2.8 4.7 1.2 6.3 2.7 4.9 1.8
4.8 3.5 1.9 0.2 6.4 2.9 4.3 1.3 6.7 3.3 5.7 2.1
5 3 1.6 0.2 6.6 3 4.4 1.4 7.2 3.2 6 1.8
5 3.4 1.6 0.4 6.8 2.8 4.8 1.4 6.2 2.8 4.8 1.8
5.2 3.5 1.5 0.2 6.7 3 5 1.7 6.1 3 4.9 1.8
5.2 3.4 1.4 0.2 6 2.9 4.5 1.5 6.4 2.8 5.6 2.1
4.7 3.2 1.6 0.2 5.7 2.6 3.5 1 7.2 3 5.8 1.6
4.8 3.1 1.6 0.2 5.5 2.4 3.8 1.1 7.4 2.8 6.1 1.9
5.4 3.4 1.5 0.4 5.5 2.4 3.7 1 7.9 3.8 6.4 2
5.2 4.1 1.5 0.1 5.8 2.7 3.9 1.2 6.4 2.8 5.6 2.2
5.5 4.2 1.4 0.2 6 2.7 5.1 1.6 6.3 2.8 5.1 1.5
4.9 3.1 1.5 0.2 5.4 3 4.5 1.5 6.1 2.6 5.6 1.4
5 3.2 1.2 0.2 6 3.4 4.5 1.6 7.7 3 6.1 2.3
5.5 3.5 1.3 0.2 6.7 3.1 4.7 1.5 6.3 3.4 5.6 2.4
4.9 3.6 1.4 0.1 6.3 2.3 4.4 1.3 6.4 3.1 5.5 1.8
4.4 3 1.3 0.2 5.6 3 4.1 1.3 6 3 4.8 1.8
5.1 3.4 1.5 0.2 5.5 2.5 4 1.3 6.9 3.1 5.4 2.1
sigue en la página siguiente
5 3.5 1.3 0.3 5.5 2.6 4.4 1.2 6.7 3.1 5.6 2.4
4.5 2.3 1.3 0.3 6.1 3 4.6 1.4 6.9 3.1 5.1 2.3
4.4 3.2 1.3 0.2 5.8 2.6 4 1.2 5.8 2.7 5.1 1.9
5 3.5 1.6 0.6 5 2.3 3.3 1 6.8 3.2 5.9 2.3
5.1 3.8 1.9 0.4 5.6 2.7 4.2 1.3 6.7 3.3 5.7 2.5
4.8 3 1.4 0.3 5.7 3 4.2 1.2 6.7 3 5.2 2.3
5.1 3.8 1.6 0.2 5.7 2.9 4.2 1.3 6.3 2.5 5 1.9
4.6 3.2 1.4 0.2 6.2 2.9 4.3 1.3 6.5 3 5.2 2
5.3 3.7 1.5 0.2 5.1 2.5 3 1.1 6.2 3.4 5.4 2.3
5 3.3 1.4 0.2 5.7 2.8 4.1 1.3 5.9 3 5.1 1.8
Para introducir los datos, crearemos las cuatro variables que se miden (LS, AS, LP
y AP) y otra variable que identifique la variedad (1, 2 o 3).
Datos
Seleccionar casos
Si satisface la condición
No tenemos más que en condición ir seleccionando cada una de las diferentes modali-
dades de variedad, en primer lugar haremos variedad=1, es decir, que la variedad sea
la Iris Setosa. Una vez seleccionada una variedad en el editor de datos se marcarán los
términos, también hay que tener en cuenta que hay que transformar las variables de
la forma:
LS1 = LS - 5.75
AS1 = AS - 3
LP1 = LP - 4
AP1 = AP - 2
Debido a que la única hipótesis que podemos plantear es la nulidad del vector de
medias.
Analizar
Modelo General Lineal
Multivariante
En los resultados podemos ver que existen varios criterios distintos para resolver el
problema (criterios asociados a las raı́ces caracterı́sticas de ciertas matrices) pero que
en el caso de dos poblaciones coinciden, aunque el valor del estadı́stico de contraste no
lo hace, si lo hace en la significación alcanzada por los mismos.
1,199 − µ4
donde F0,95
∗
= 0,066231.
En este caso habrı́amos contrastando que la media de cada variable para el caso de
Iris Setosa sea igual a la media para la variedad Iris Versicolor. Sin embargo podemos
contrastar que el vector de medias de las cuatro variables para Iris Setosa, sea igual
al vector de medias para Iris Versicolor. Para realizar este contraste tendrı́amos que
seleccionar las dos variedades en el editor de datos y luego realizar el MLG.
Realizando ambos métodos resulta:
F p-valor
LS 8.435 0.005
AS 0.578 0.449
LP 35.42 < 10−3
AP 15.385 < 10−3
t gl p-valor intervalo
LS var.iguales -10.521 98 < 10−3 (-1.105;-0.755)
var. distintas -10.521 86.538 < 10−3 (-1.106;-0.754)
AS var.igual 9.455 98 < 10−3 (0.520;0.796)
var.distintas 9.455 84.698 < 10−3 (0.520;0.796)
LP var.iguales -39.493 98 < 10−3 (-2.939;-2.657)
var.distintas -39.393 62.140 < 10−3 (-2.940;-2.656)
AP var.iguales -34.080 98 < 10−3 (-1.143;-1.017)
var.distintas -34.080 14.755 < 10−3 (-1.143;-1.017)
A partir de los estadı́sticos descriptivos para cada una de las variedades, tenemos:
Donde además X 1 − X 2 = (−0,93; 0,658; −2,798; −1,08)′ , con lo que
N1 N 2
T2 = (X 1 − X 2 )′ S −1 (X 1 − X 2 ) = 26,35
N 1 + N2
El elipsoide de confianza de nivel 95 % para el vector diferencia de medias (con
F4,95;0,95 ) viene dado por:
(−0,93 − m1
0,658 − m2
(−0,93 − m1 ; 0,658 − m2 ; −2,798 − m3 ; −1,08 − m4 )S −1
−2,798 − m3 ≤ 0,40729
−1,08 − m4