Tcuadrado PDF

Capı́tulo 1
T 2 DE HOTELLING
El estudio multivariante de la t2 de Hotelling, mediante SPSS, requiere del estudio

previo de algunos menús.
1.1. Descriptivos
El procedimiento Descriptivos calcula estadı́sticos de resumen univariantes para
varias variables en una única tabla y calcula sus valores tipificados (puntuaciones z).
Las variables se pueden ordenar por el tamaño de sus medias (en orden ascendente o
descendente), alfabéticamente o por el orden en el que se seleccionen las variables (el
valor por defecto).
Cuando guardamos las puntuaciones z, éstas se añaden a los datos del Editor de
datos, quedando disponibles para los gráficos, el listado de los datos y los análisis.
Cuando las variables están tomadas en unidades diferentes (por ejemplo, producto
interno bruto per capita y porcentaje de alfabetización), una transformación de pun-
tuación z pondrá las variables en una escala común para una comparación visual más
fácil.
Este menú proporciona el tamaño de muestra, la media, el mı́nimo, el máximo, la
desviación tı́pica, la varianza, el rango, la suma, el error tı́pico de la media, la cyrtosis
y la asimetrı́a y sus errores tı́picos.
1.2. Correlaciones
El procedimiento Correlaciones bivariadas calcula el coeficiente de correlación de
Pearson, la rho de Spearman y la tau-b de Kendall con sus niveles de significación.
Las correlaciones las utilizaremos para medir cómo están relacionadas las variables o
los órdenes de los rangos. Antes de calcular un coeficiente de correlación, hemos de
inspeccionar los datos para detectar valores atı́picos (que pueden producir resultados
equı́vocos) y evidencias de una relación lineal. El coeficiente de correlación de Pearson
es una medida de asociación lineal, de tal manera que dos variables pueden estar
1
2 Contrastes de la T 2 de Hotelling
perfectamente relacionadas, pero si la relación no es lineal, el coeficiente de correlación

de Pearson no será un estadı́stico adecuado para medir su asociación.
Este procedimiento será utilizado para calcular las matrices de varianzas-covarianzas
y la matriz de correlaciones.
1.2.1. Para obtener Correlaciones

- Elegir en los menús:
Analizar
Correlaciones
Bivariadas.
Figura 1.1: correlaciones
- Seleccionar dos o más variables numéricas.
Figura 1.2: menú correlaciones
- También se encuentran disponibles las siguientes opciones:
a) Coeficientes de correlación. Para las variables cuantitativas normales,

seleccionaremos el coeficiente de correlación de Pearson. Si los datos no
ANÁLISIS ESTADÍSTICO MULTIVARIANTE CON SPSS. Curso Básico.

Prácticas de Análisis Multivariante con SPSS 3
están distribuidos según una normal o tienen categorı́as ordenadas, selec-

cionaremos la tau-b de Kendall o de Spearman, que miden la asociación
entre órdenes de rangos. Los coeficientes de correlación pueden estar entre
1 (una relación negativa perfecta) y +1 (una relación positiva perfecta). Un
valor 0 indica que no existe una relación lineal. Al interpretar los resulta-
dos, debemos evitar extraer conclusiones de causa-efecto a partir de una
correlación significativa.
b) Prueba de significación. Podemos seleccionar las probabilidades bilatera-
les o las unilaterales. Si conocemos de antemano la dirección de la asociación,
seleccionaremos Unilateral, si no es ası́, Bilateral.
c) Marcar las correlaciones significativas. Los coeficientes de correlación
significativos al nivel 0,05 se identifican por medio de un solo asterisco y los
significativos al nivel 0,01 se identifican con dos asteriscos.
d ) En opciones, podemos obtener:
1) Estadı́sticos. Para las correlaciones de Pearson, podemos elegir una o
ambas de estas opciones:
* Medias y desviaciones tı́picas. Las calcula para cada variable ; tam-
bién nos proporciona el número de casos que no tienen valores per-
didos. Los valores perdidos se consideran según cada variable indi-
vidual, sin tener en cuenta la opción elegida para la manipulación
de los valores perdidos.
* Productos cruzados diferenciales y covarianzas. Los muestra para
cada pareja de variables. Cada producto cruzado de las desviacio-
nes es igual a la suma de los productos de las variables corregidas
respecto a la media. Éste es el numerador del coeficiente de corre-
lación de Pearson. La covarianza es una medida no tipificada de la
relación entre dos variables, igual al producto cruzado diferencial
dividido por N-1.
Figura 1.3: estadı́sticos de correlaciones
2) Valores perdidos. Podemos elegir uno de los siguientes:

* Excluir casos según pareja. Con esta opción se excluyen del análisis
los casos con valores perdidos para una o ambas variables de la
pareja que forma un coeficiente de correlación. Debido a que cada
coeficiente está basado en todos los casos que tienen códigos válidos
para esa pareja concreta de variables, en cada cálculo se utiliza la
mayor cantidad de información disponible. Esto puede dar como
resultado un grupo de coeficientes basados en un número de casos
variable .
* Excluir casos según lista. Excluye de todas las correlaciones los casos
con valores perdidos para cualquier variable.
1.3. Pruebas t
1. El procedimiento Prueba T para una muestra contrasta si la media de una sola
variable difiere de una constante especificada.
Para cada variable a contrastar tenemos la media, la desviación tı́pica y el error
tı́pico de la media. También devuelve la diferencia promedio entre cada valor de
los datos y el valor del contraste de hipótesis, una prueba t que contrasta que
esta diferencia es 0 y un intervalo de confianza para la diferencia promedio (para
el que puede especificarse el nivel de confianza).
2. El procedimiento Prueba T para muestras independientes compara las medias

de dos grupos de casos. Para esta prueba, idealmente los sujetos deben asignarse
aleatoriamente a dos grupos, de forma que cualquier diferencia en la respuesta sea
debida al tratamiento (o falta de tratamiento) y no a otros factores. Este caso no
ocurre si se comparan los ingresos medios para hombres y mujeres. El sexo de una
persona no se asigna aleatoriamente. En estas situaciones, debemos asegurarnos
de que las diferencias en otros factores no enmascaren o resalten una diferencia
significativa entre las medias. Las diferencias de ingresos medios pueden estar
sometidas a la influencia de factores como los estudios y no solamente el sexo.
Para cada variable el procedimiento proporcionará el tamaño de la muestra, la
media, la desviación tı́pica y el error tı́pico de la media. Para la diferencia entre
las medias calcula la media, el error tı́pico y el intervalo de confianza (puede
especificar el nivel de confianza). También realiza la prueba de Levene sobre la
igualdad de varianzas y las pruebas t de varianzas combinadas y separadas sobre
la igualdad de las medias.
3. El procedimiento Prueba T para muestras relacionadas compara las medias de

dos variables de un solo grupo. Calcula las diferencias entre los valores de las dos
variables de cada caso y contrasta si la media difiere de 0.
Para cada variable dará la media, el tamaño de la muestra, la desviación tı́pica
y el error tı́pico de la media. Para cada pareja de variables la correlación, la

diferencia promedio entre las medias, la prueba t y el intervalo de confianza para

la diferencia entre las medias (puede especificarse el nivel de confianza), ası́ como
la desviación tı́pica y el error tı́pico de la diferencia entre las medias.
1.4. Modelo lineal general

El procedimiento MLG Multivariante proporciona un análisis de regresión y un
análisis de varianza para variables dependientes múltiples por una o más covariables o
variables de factor (las variables de factor dividen la población en grupos). Utilizando
este procedimiento del modelo lineal general, es posible contrastar hipótesis nulas sobre
los efectos de las variables de factor sobre las medias de varias agrupaciones de una
distribución conjunta de variables dependientes. Asimismo podemos investigar las inte-
racciones entre los factores y también los efectos individuales de los factores . Además,
se pueden incluir los efectos de las covariables y las interacciones de covariables con
los factores. Para el análisis de regresión, las variables independientes (predictoras) se
especifican como covariables.
1.4.1. Para obtener un modelo lineal general

- Elegir en los menús:
Analizar
Modelo Lineal General
Multivariante
Figura 1.4: modelo lineal general multivariante
- Seleccionar al menos dos variables dependientes. Las opciones disponibles son:
a) Modelo. Si se especifica más de una variable dependiente, se proporciona

el análisis multivariante de varianzas usando la traza de Pillai, la lambda
de Wilks, la traza de Hotelling y el criterio de mayor raı́z de Roy con el

estadı́stico F aproximado, ası́ como el análisis univariado de varianza para

cada variable dependiente. Además de contratar hipótesis, MLG Multiva-
riante genera estimaciones de los parámetros.
Figura 1.5: menú MLG
b) Comparaciones múltiples post hoc. Una vez que se ha determinado que

existen diferencias entre las medias, las pruebas de rango post hoc y las com-
paraciones múltiples por parejas permiten determinar qué medias difieren.
Las comparaciones las realiza sobre valores sin corregir. Estas pruebas sólo
se utilizan para los factores inter-sujetos fijos. Para MLG Multivariante, las
pruebas post hoc se realizan por separado para cada variable dependiente.
Las pruebas que se muestran son: comparaciones por parejas para DMS,
Sidak, Bonferroni, Games y Howell, T2 y T3 de Tamhane, C y T3 de Dun-
nett. También se facilitan subconjuntos homogéneos para las pruebas de
rango para S-N-K, Tukey-b, Duncan, R-E-G-W F, R-E-G-W Q y Waller.
La prueba de la diferencia honestamente significativamente de Tukey, GT2
de Hochberg, la prueba de Gabriel y la prueba de Scheffé son tanto pruebas
de comparaciones múltiples como de rango.
c) Guardar. Es posible almacenar los valores pronosticados por el modelo, los

residuos y las medidas relacionadas como variables nuevas en el Editor de
datos. Muchas de estas variables se pueden utilizar para examinar supuestos
sobre los datos.
Figura 1.6: guardar MLG

1) Valores pronosticados. Son los valores que predice el modelo para ca-
da caso. Están disponibles los valores pronosticados no tipificados y
los errores tipificados de los valores pronosticados. Si hemos seleccio-
nado una variable MCP (WLS), dispondremos de la opción de valores
pronosticados no tipificados ponderados.
2) Diagnósticos. Son medidas para identificar casos con combinaciones po-
co usuales de valores para las variables independientes y casos que pue-
dan tener un gran impacto en el modelo. Las opciones disponibles in-
cluyen la distancia de Cook y los valores de influencia no centrados.
También proporcionará los Residuos, un residuo no tipificado es el va-
lor real de la variable dependiente menos el valor pronosticado por el
modelo, dentro de los residuos también obtenemos los residuos elimi-
nados, estudentizados y tipificados. Si hemos seleccionado una variable
MCP, contaremos además con residuos no tipificados ponderados.
d ) Opciones. Este cuadro de diálogo contiene estadı́sticos adicionales. Los
estadı́sticos se calculan utilizando un modelo de efectos fijos.
1) Medias marginales estimadas. Seleccionaremos los factores e interaccio-
nes para los que deseemos obtener estimaciones de las medias marginales
de la población en las casillas. Estas medias se corrigen respecto a las
covariables, si las hay. Las interacciones sólo están disponibles si hemos
especificado un modelo personalizado.
* Comparar los efectos principales. Proporciona comparaciones por
parejas no corregidas entre las medias marginales estimadas para
cualquier efecto principal del modelo, tanto para los factores inter-
sujetos como para los intra-sujetos. Estos elementos sólo se encuen-
tra disponibles si los efectos principales están seleccionados en la
lista Mostrar las medias para.
* Ajuste del intervalo de confianza. Seleccionaremos un ajuste de dife-
rencia menor significativa (DMS), Bonferroni o Sidak para los inter-
valos de confianza y la significación. Este elemento sólo estará dis-
ponible si se selecciona Comparar los efectos principales.
Figura 1.7: opciones MLG

2) Mostrar.
* Estadı́sticos descriptivos. Para obtener las medias observadas, des-
viaciones tı́picas y frecuencias para cada variable dependiente en
todas las celdas.
* Estimaciones del tamaño del efecto. Ofrece un valor parcial de eta-
cuadrado para cada efecto y cada estimación de parámetros. El
estadı́stico eta cuadrado describe la proporción de variabilidad total
atribuible a un factor.
* Potencia observada. Obtiene la potencia de la prueba cuando la
hipótesis alternativa se ha establecido basándose en el valor obser-
vado.
* Estimaciones de los parámetros. Genera las estimaciones de los
parámetros, los errores tı́picos, las pruebas t, los intervalos de con-
fianza y la potencia observada para cada prueba. Se pueden mostrar
Matrices SCPC de error y de hipótesis y la Matriz SCPC residual
más la prueba de esfericidad de Bartlett de la matriz de covarianza
residual.
* Pruebas de homogeneidad. Calcula la prueba de homogeneidad de
varianzas de Levene para cada variable dependiente en todas las
combinaciones de nivel de los factores inter-sujetos sólo para facto-
res inter-sujetos. Asimismo, las pruebas de homogeneidad incluyen
la prueba M de Box sobre la homogeneidad de las matrices de co-
varianzas de las variables dependientes a lo largo de todas las com-
binaciones de niveles de los factores inter-sujetos. Las opciones de
diagramas de dispersión por nivel y gráfico de los residuos son útiles
para comprobar los supuestos sobre los datos. Estos elementos no
estarán activado si no hay factores.
* Gráficos de los residuos. Producen un gráfico de los residuos obser-
vados respecto a los pronosticados respecto a los tipificados para
cada variable dependiente. Estos gráficos son útiles para investigar
el supuesto de varianzas iguales.
* Prueba de falta de ajuste Utilizada para comprobar si el mode-
lo puede describir de forma adecuada la relación entre la variable
dependiente y las variables independientes. La Función estimable
general permite construir pruebas de hipótesis personales basadas
en la función estimable general.
3) Nivel de significación. Para corregir el nivel de significación usado en
las pruebas post hoc y el nivel de confianza empleado para construir
intervalos de confianza. El valor especificado también se utiliza para
calcular la potencia observada para la prueba. Si especificamos un nivel
de significación, el cuadro de diálogo mostrará el nivel asociado de los
intervalos de confianza.

1.5. Contrastes basados T 2 de Hotelling

Los contrastes de la T 2 son utilizados para el contraste de vectores media en po-
blaciones normales Np (µ; Σ). Para ello tendremos en cuenta que:
Sea X y S = An (con n=N-1) los estimadores máximoverosimiles de µ y Σ de una

′
Np (µ; Σ) y sean T 2 = N X S −1 X, entonces, para N>p:
T2 n − p + 1
Fp;n−p+1 (δ) δ = N µ′ Σ−1 µ.
n p
En general, se dice que si X Np (µ; Σ), A = nS y A Wp (n; Σ) independientes

y n≥p, entonces, siendo T 2 = X ′ A−1 X tal que:
T2 n − p + 1
Fp;n−p+1 (δ) δ = µ′ Σ−1 µ
n p
1.5.1. Contrastes para una muestra

Sea X Np (µ; Σ) y X1 , . . . , XN m.a.s. Si deseáramos realizar el contraste:
H 0 : µ = µ0
H1 : µ 6= µ0
Sabiendo que: √
Σ
X Np (µ; N ) → N (X −µ) Np (0; Σ) y que A Wp (n, Σ), ambas independientes.
2
Aplicando el teorema anterior; para T = N (X − µ0 )′ S −1 (X − µ0 ) se cumple:
T2 n − p + 1
Fp;n−p+1 (δ) δ = N (µ − µ0 )′ Σ−1 (µ − µ0 )
n p
y bajo la hipótesis nula δ = 0, podemos realizar los contrastes unidimensionales.
También se puede calcular el elipsoide de confianza de la forma:
(X − µ)′ S −1 (X − µ) ≤ F1−α
∗
np
siendo F1−α
∗
= F
N (n−p+1) p,n−p+1;1−α
.
1.5.2. Contrastes para dos muestras independientes

Sea X Np (µ1 ; Σ) e Y Np (µ2 ; Σ) y X1 , . . . , XN1 y Y1 , . . . , YN2 muestras inde-
pendientes. Realizamos el siguiente contraste:
H 0 : µ1 = µ2

H1 : µ1 6= µ2
Para ello partimos de X Np (µ1 ; NΣ2 ) y Y Np (µ2 ; NΣ1 ); AX W (n1 ; Σ);

AY W (n2 ; Σ) todas ellas independientes, quedando:
A = AX + A Y W (n1 + n2 ; Σ) y X − Y Np [µ1 − µ2 ; (NN

1 +N2 )Σ
1 N2
]
1/2 " 1/2 #

N1 N2 N1 N2
(X − Y ) Np (µ1 − µ2 ); Σ
N 1 + N2 N1 + N2
N1 N2
T2 = (X − Y )′ S −1 (X − Y )
N 1 + N2
T 2 n1 + n2 − p + 1 N1 N2
Fp;n1 +n2 −p+1 (δ) δ = (µ1 − µ2 )′ Σ−1 (µ1 − µ2 )
n1 + n2 p N 1 + N2
Bajo la hipótesis nula δ = 0

Siendo el elipsoide de confianza al 95 %
(X 1 − Y 2 − µ)′ S −1 (X 1 − Y 2 − µ) ≤ F1−α
∗
con
∗ N1 + N2 (n1 + n2 )p
F1−α = Fp,n1 +n2 −p+1;1−α
N1 N2 (n1 + n2 − p + 1)
1.6. Ejemplo
Como ejemplo de T 2 de Hotelling realizaremos el ejemplo clásico de Fisher sobre

tres variedades de flores.

LS1 AS1 LP1 AS1 LS2 AS2 LP2 AS2 LS3 AS3 LP3 AS3
5.1 3.5 1.4 0.2 7 3.2 4.7 1.4 6.3 3.3 6 2.5
4.9 3 1.4 0.2 6.4 3.2 4.5 1.5 5.8 2.7 5.1 1.9
4.7 3.2 1.3 0.2 6.9 3.1 4.9 1.5 7.1 3 5.9 2.1
4.6 3.1 1.5 0.2 5.5 2.3 4 1.3 6.3 2.9 5.6 1.8
5 3.6 1.4 0.2 6.5 2.8 4.6 1.5 6.5 3 5.8 2.2
5.4 3.9 1.7 0.4 5.7 2.8 4.5 1.3 7.6 3 6.6 2.1
4.6 3.4 1.4 0.3 6.3 3.3 4.7 1.6 4.9 2.5 4.5 1.7
5 3.4 1.5 0.2 4.9 2.4 3.3 1 7.3 2.9 6.3 1.8
4.4 2.9 1.4 0.2 6.6 2.9 4.6 1.3 6.7 2.5 5.8 1.8
4.9 3.1 1.5 0.1 5.2 2.7 3.9 1.4 7.2 3.6 6.1 2.5
5.4 3.7 1.5 0.2 5 2 3.5 1 6.5 3.2 5.1 2
4.8 3.4 1.6 0.2 5.9 3 4.2 1.5 6.4 2.7 5.3 1.9
4.8 3 1.4 0.1 6 2.2 4 1 5.8 3 5.5 2.1
4.3 3 1.1 0.1 6.1 2.9 4.7 1.4 5.7 2.5 5 2
5.8 4 1.2 0.2 5.6 2.9 3.6 1.3 5.8 2.8 5.1 2.4
5.7 4.4 1.5 0.4 6.7 3.1 4.4 1.4 6.4 3.2 5.3 2.3
5.4 3.9 1.3 0.4 5.6 3 4.5 1.5 6.5 3 5.5 1.8
5.1 3.5 1.4 0.3 5.8 2.7 4.1 1 7.7 3.8 6.7 2.2
5.7 3.8 1.7 0.3 6.2 2.2 4.5 1.5 7.7 2.6 6.9 2.3
5.1 3.8 1.5 0.3 5.6 2.5 3.9 1.1 6 2.2 5 1.5
5.4 3.4 1.7 0.2 5.9 3.2 4.8 1.8 6.9 3.2 5.7 2.3
5.1 3.7 1.5 0.4 6.1 2.8 4 1.3 5.6 2.8 4.9 2
4.6 3.6 1 0.2 6.3 2.5 4.9 1.5 7.7 2.8 6.7 2
5.1 3.3 1.7 0.5 6.1 2.8 4.7 1.2 6.3 2.7 4.9 1.8
4.8 3.5 1.9 0.2 6.4 2.9 4.3 1.3 6.7 3.3 5.7 2.1
5 3 1.6 0.2 6.6 3 4.4 1.4 7.2 3.2 6 1.8
5 3.4 1.6 0.4 6.8 2.8 4.8 1.4 6.2 2.8 4.8 1.8
5.2 3.5 1.5 0.2 6.7 3 5 1.7 6.1 3 4.9 1.8
5.2 3.4 1.4 0.2 6 2.9 4.5 1.5 6.4 2.8 5.6 2.1
4.7 3.2 1.6 0.2 5.7 2.6 3.5 1 7.2 3 5.8 1.6
4.8 3.1 1.6 0.2 5.5 2.4 3.8 1.1 7.4 2.8 6.1 1.9
5.4 3.4 1.5 0.4 5.5 2.4 3.7 1 7.9 3.8 6.4 2
5.2 4.1 1.5 0.1 5.8 2.7 3.9 1.2 6.4 2.8 5.6 2.2
5.5 4.2 1.4 0.2 6 2.7 5.1 1.6 6.3 2.8 5.1 1.5
4.9 3.1 1.5 0.2 5.4 3 4.5 1.5 6.1 2.6 5.6 1.4
5 3.2 1.2 0.2 6 3.4 4.5 1.6 7.7 3 6.1 2.3
5.5 3.5 1.3 0.2 6.7 3.1 4.7 1.5 6.3 3.4 5.6 2.4
4.9 3.6 1.4 0.1 6.3 2.3 4.4 1.3 6.4 3.1 5.5 1.8
4.4 3 1.3 0.2 5.6 3 4.1 1.3 6 3 4.8 1.8
5.1 3.4 1.5 0.2 5.5 2.5 4 1.3 6.9 3.1 5.4 2.1
sigue en la página siguiente

5 3.5 1.3 0.3 5.5 2.6 4.4 1.2 6.7 3.1 5.6 2.4
4.5 2.3 1.3 0.3 6.1 3 4.6 1.4 6.9 3.1 5.1 2.3
4.4 3.2 1.3 0.2 5.8 2.6 4 1.2 5.8 2.7 5.1 1.9
5 3.5 1.6 0.6 5 2.3 3.3 1 6.8 3.2 5.9 2.3
5.1 3.8 1.9 0.4 5.6 2.7 4.2 1.3 6.7 3.3 5.7 2.5
4.8 3 1.4 0.3 5.7 3 4.2 1.2 6.7 3 5.2 2.3
5.1 3.8 1.6 0.2 5.7 2.9 4.2 1.3 6.3 2.5 5 1.9
4.6 3.2 1.4 0.2 6.2 2.9 4.3 1.3 6.5 3 5.2 2
5.3 3.7 1.5 0.2 5.1 2.5 3 1.1 6.2 3.4 5.4 2.3
5 3.3 1.4 0.2 5.7 2.8 4.1 1.3 5.9 3 5.1 1.8
Donde el tamaño muestral es 50 y las variedades son:
1. Iris Setosa (1)
2. Iris Versicolor (2)
3. Iris Virgı́nica (3)
y las variables medidas son:
1. Longitud de sépalos (LS)
2. Anchura de sépalos (AS)
3. Longitud de pétalos (LP)
4. Anchura de pétalos (AP)
Para introducir los datos, crearemos las cuatro variables que se miden (LS, AS, LP
y AP) y otra variable que identifique la variedad (1, 2 o 3).
1.6.1. Resumen descriptivo

En primer lugar vamos a realizar un resumen descriptivo de la muestra conjunta
de las cuatro variables. Obtendremos estadı́sticos descriptivos unidimensionales para
cada variable (rango, mı́nimo, máximo, media, error tı́pico, varianza y coeficientes de
curtosis y asimetrı́a) y además el centroide, la matriz de varianzas-covarianzas y la
de correlaciones. Utilizaremos los menús de DESCRIPTIVOS y CORRELACIONES
BIVARIADAS.
Estos mismos resultados se pueden obtener para cada variedad sin más que ir
seleccionado cada una de los distintos valores de la variable variedad. Para ello selec-
cionaremos los menús:
Datos
Seleccionar casos
Si satisface la condición

No tenemos más que en condición ir seleccionando cada una de las diferentes modali-
dades de variedad, en primer lugar haremos variedad=1, es decir, que la variedad sea
la Iris Setosa. Una vez seleccionada una variedad en el editor de datos se marcarán los
Figura 1.8: selección de variedad
casos no validos y repetiremos el procedimiento anterior para el cálculo de descriptivos

y matrices. Por ejemplo, para el caso de Iris Setosa, quedará:
1.6.2. Contrastes multivariantes

Resolvemos ahora el problema de una muestra multivariante,es decir, sea µ0 =
(5,75, 3, 4, 2)′ nos planteamos:
H 0 : µ = µ0
H1 : µ 6= µ0
Este tipo de contrastes hay que realizarlo mediante el módulo del Modelo Lineal
General (sin factores). Lo que hacemos es una reformulación del problema en tales

términos, también hay que tener en cuenta que hay que transformar las variables de
la forma:
LS1 = LS - 5.75
AS1 = AS - 3
LP1 = LP - 4
AP1 = AP - 2
Debido a que la única hipótesis que podemos plantear es la nulidad del vector de
medias.
Seleccionaremos los menús:
Analizar
Modelo General Lineal
Multivariante
Introduciendo como variables dependientes las cuatro variables que acabamos de

crear.
Figura 1.9: MLG
En los resultados podemos ver que existen varios criterios distintos para resolver el
problema (criterios asociados a las raı́ces caracterı́sticas de ciertas matrices) pero que
en el caso de dos poblaciones coinciden, aunque el valor del estadı́stico de contraste no
lo hace, si lo hace en la significación alcanzada por los mismos.
El valor de estadı́stico de contraste es 12.715, que en este caso equivale a T 2 /N ,

con un valor transformado en términos de F de 464.095 y un p-valor asociado inferior
a 10−3 lo cual nos hace rechazar la hipótesis nula.
En la tabla de pruebas de los efectos inter-sujetos, el programa proporciona tam-

bién los contrastes individuales para cada una de las variables, resultando todas con
un p-valor superior a nuestro nivel de significación (0.170,0.104 y 0.095) salvo para

la cuarta variable (inferior a 10−3 ), de donde podrı́amos concluir que el rechazo de

la hipótesis nula puede ser debido a la cuarta variable. Se deberı́a repetir el estudio
eliminando esta variable, si resultará que se aceptara la hipótesis nula llegarı́amos a la
conclusión de que ese era el motivo del rechazo.
El elipsoide de confianza al 95 % será:
(X − µ)′ S −1 (X − µ)F ′ ∗0,95 =

 
10,321 −6,733 −7,369 5,584
 −6,733 11,081 6,527 −6,256 
= (5,55843−µ1 ; 3,057−µ2 ; 3,3758−µ3 ; 1,199−µ4 )  ∗
 −7,369 5,527 10,147 −14,719 
5,859 −6,253 −14,719 25,037
 
5,55843 − µ1
 3,057 − µ2  ∗
 3,3758 − µ3  ≤ F0,95
 
1,199 − µ4
donde F0,95
∗
= 0,066231.
1.6.3. Contrastes sobre dos muestras

Tratamos ahora el problema de comparar, para cada dos grupos, las medias de
las variables. Hay que tener muy en cuenta que el verificarse la igualdad dos a dos,
no implica necesariamente la igualdad entre los tres grupos, para lo cual habrı́a que
estudiarse le técnica MANOVA. Para este análisis utilizaremos las pruebas T para
muestras relacionadas y en variable de agrupación definirá los grupos que queremos
comparar, que en este primer caso será Iris Setosa con Iris Versicolor
Figura 1.10: contrates sobre dos muestras
El contraste lo resuelve mediante el estadı́stico t de Student en el caso de homoce-

dasticidad y por el contraste de Welch si existe heterocedasticidad. Aparece ası́ mismo
el intervalo de confianza para la diferencia de medias.

Vemos que antes de realizar el contraste deseado realiza un contraste de igualdad

de varianzas (Levene) robusto a la ausencia de normalidad.
En este caso habrı́amos contrastando que la media de cada variable para el caso de
Iris Setosa sea igual a la media para la variedad Iris Versicolor. Sin embargo podemos
contrastar que el vector de medias de las cuatro variables para Iris Setosa, sea igual
al vector de medias para Iris Versicolor. Para realizar este contraste tendrı́amos que
seleccionar las dos variedades en el editor de datos y luego realizar el MLG.
Realizando ambos métodos resulta:
1. Contraste de homogeneidad de varianzas: el contraste de Levene proporciona los

siguientes resultados:
F p-valor
LS 8.435 0.005
AS 0.578 0.449
LP 35.42 < 10−3
AP 15.385 < 10−3
Concluyendo que la hipótesis de homedasticidad en la varianza solo puede ser asu-

mida en las dos primeras variables. Esto conlleva que en los contrastes de medias
posteriores habrá que ver los contrastes homocedásticos y el Welch dependiendo
del caso.
2. Contrastes individuales: en los contrastes de medias habrá que ver los contrastes
homocedásticos y el Welch dependiendo del caso.
t gl p-valor intervalo
LS var.iguales -10.521 98 < 10−3 (-1.105;-0.755)
var. distintas -10.521 86.538 < 10−3 (-1.106;-0.754)
AS var.igual 9.455 98 < 10−3 (0.520;0.796)
var.distintas 9.455 84.698 < 10−3 (0.520;0.796)
LP var.iguales -39.493 98 < 10−3 (-2.939;-2.657)
var.distintas -39.393 62.140 < 10−3 (-2.940;-2.656)
AP var.iguales -34.080 98 < 10−3 (-1.143;-1.017)
var.distintas -34.080 14.755 < 10−3 (-1.143;-1.017)
Para cualquiera de las variables seleccionadas (independientemente de la hipótesis

homocedasticidad) no puede admitirse la hipótesis de igualdad de medias.
3. Contraste multivariante: realizamos el Modelo Lineal General Multivariante (un
factor con dos niveles). Si usamos el estadı́stico T 2 de hotelling en la forma
T2
N1 +N2 −2
El valor del estadı́stico de contraste es 26.335 y en términos de la F de
Sneedecor 625.458, con un p-valor asociado inferior a 10−3 lo que conlleva la no
aceptación conjunta de la igualdad de medias.

A partir de los estadı́sticos descriptivos para cada una de las variedades, tenemos:
Donde además X 1 − X 2 = (−0,93; 0,658; −2,798; −1,08)′ , con lo que
N1 N 2
T2 = (X 1 − X 2 )′ S −1 (X 1 − X 2 ) = 26,35
N 1 + N2
El elipsoide de confianza de nivel 95 % para el vector diferencia de medias (con
F4,95;0,95 ) viene dado por:
 
(−0,93 − m1
 0,658 − m2 
(−0,93 − m1 ; 0,658 − m2 ; −2,798 − m3 ; −1,08 − m4 )S −1 
 −2,798 − m3  ≤ 0,40729

−1,08 − m4
Los contrastes individuales mediante el estadı́stico F de Sneedecor son:

Sum. Cuadra. GL Med. Cuadra. F Sig
LS contraste 21.623 1 21.623 110.691 < 10−3
error 19.143 98 0.195
AS contraste 10.824 1 10.824 89.397 < 10−3
error 11.866 98 0.121
LP contraste 195.72 1 195.72 1559.675 < 10−3
error 12.298 98 0.125
AP contraste 29.160 1 29.160 1661.470 < 10−3
error 2.460 98 0.02511

Tcuadrado PDF

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Tcuadrado PDF

Încărcat de

Drepturi de autor:

Formate disponibile

Capı́tulo 1

El estudio multivariante de la t2 de Hotelling, mediante SPSS, requiere del estudio

perfectamente relacionadas, pero si la relación no es lineal, el coeficiente de correlación

1.2.1. Para obtener Correlaciones

Figura 1.1: correlaciones

- Seleccionar dos o más variables numéricas.

Figura 1.2: menú correlaciones

- También se encuentran disponibles las siguientes opciones:

a) Coeficientes de correlación. Para las variables cuantitativas normales,

ANÁLISIS ESTADÍSTICO MULTIVARIANTE CON SPSS. Curso Básico.

están distribuidos según una normal o tienen categorı́as ordenadas, selec-

Figura 1.3: estadı́sticos de correlaciones

2) Valores perdidos. Podemos elegir uno de los siguientes:

ANÁLISIS ESTADÍSTICO MULTIVARIANTE CON SPSS. Curso Básico.

2. El procedimiento Prueba T para muestras independientes compara las medias

3. El procedimiento Prueba T para muestras relacionadas compara las medias de

ANÁLISIS ESTADÍSTICO MULTIVARIANTE CON SPSS. Curso Básico.

diferencia promedio entre las medias, la prueba t y el intervalo de confianza para

1.4. Modelo lineal general

1.4.1. Para obtener un modelo lineal general

Figura 1.4: modelo lineal general multivariante

- Seleccionar al menos dos variables dependientes. Las opciones disponibles son:

a) Modelo. Si se especifica más de una variable dependiente, se proporciona

ANÁLISIS ESTADÍSTICO MULTIVARIANTE CON SPSS. Curso Básico.

estadı́stico F aproximado, ası́ como el análisis univariado de varianza para

Figura 1.5: menú MLG

b) Comparaciones múltiples post hoc. Una vez que se ha determinado que

c) Guardar. Es posible almacenar los valores pronosticados por el modelo, los

Figura 1.6: guardar MLG

ANÁLISIS ESTADÍSTICO MULTIVARIANTE CON SPSS. Curso Básico.

Figura 1.7: opciones MLG

ANÁLISIS ESTADÍSTICO MULTIVARIANTE CON SPSS. Curso Básico.

ANÁLISIS ESTADÍSTICO MULTIVARIANTE CON SPSS. Curso Básico.

1.5. Contrastes basados T 2 de Hotelling

Sea X y S = An (con n=N-1) los estimadores máximoverosimiles de µ y Σ de una

En general, se dice que si X Np (µ; Σ), A = nS y A Wp (n; Σ) independientes

1.5.1. Contrastes para una muestra

También se puede calcular el elipsoide de confianza de la forma:

1.5.2. Contrastes para dos muestras independientes

ANÁLISIS ESTADÍSTICO MULTIVARIANTE CON SPSS. Curso Básico.

Para ello partimos de X Np (µ1 ; NΣ2 ) y Y Np (µ2 ; NΣ1 ); AX W (n1 ; Σ);

A = AX + A Y W (n1 + n2 ; Σ) y X − Y Np [µ1 − µ2 ; (NN

 1/2 " 1/2 #

Bajo la hipótesis nula δ = 0

Como ejemplo de T 2 de Hotelling realizaremos el ejemplo clásico de Fisher sobre

ANÁLISIS ESTADÍSTICO MULTIVARIANTE CON SPSS. Curso Básico.

ANÁLISIS ESTADÍSTICO MULTIVARIANTE CON SPSS. Curso Básico.

Donde el tamaño muestral es 50 y las variedades son:

1. Iris Setosa (1)

2. Iris Versicolor (2)

3. Iris Virgı́nica (3)

y las variables medidas son:

1. Longitud de sépalos (LS)

2. Anchura de sépalos (AS)

3. Longitud de pétalos (LP)

4. Anchura de pétalos (AP)

1.6.1. Resumen descriptivo

ANÁLISIS ESTADÍSTICO MULTIVARIANTE CON SPSS. Curso Básico.

Figura 1.8: selección de variedad

casos no validos y repetiremos el procedimiento anterior para el cálculo de descriptivos

1.6.2. Contrastes multivariantes

ANÁLISIS ESTADÍSTICO MULTIVARIANTE CON SPSS. Curso Básico.

Seleccionaremos los menús:

1/2 " 1/2 #