Sunteți pe pagina 1din 5

Estadstica II

Unidad II Pruebas de la bondad del ajuste y anlisis de varianza

UNIDAD 2. PRUEBAS DE LA BONDAD DEL AJUSTE Y ANLISIS


DE VARIANZA.
2.1 ANLISIS JI-CUADRADA.
(X es la minscula de la letra griega ji).

Propiedades de las distribuciones ji-cuadrada


1. Los valores de X2 son mayores o iguales que 0.
2. La forma de una distribucin X 2 depende del grado de libertad=n-1. En consecuencia,
hay un nmero infinito de distribuciones X2.
3. El rea bajo una curva ji-cuadrada y sobre el eje horizontal es 1.
4. Las distribuciones X2 no son simtricas. Tienen colas estrechas que se extienden a la
derecha; esto es, estn sesgadas a la derecha.
5. Cuando n>2, la media de una distribucin X2 es n-1 y la varianza es 2(n-1).
6. El valor modal de una distribucin X2 se da en el valor (n-3).

2.1.1 PRUEBA DE INDEPENDENCIA.

Una aplicacin importante de la distribucin Ji cuadrada se relaciona con el uso de datos de


muestras para indicar la independencia entre dos variables. La prueba de independencia utiliza
el formato de la tabla de contingencias, y por esta razn a veces se le llama prueba de tabla de
contingencia o prueba con tabla de contingencia.

Pasos para realizar una prueba de independencia:


1. Plantear las hiptesis nula y alternativa.
H0: La variable de columna es independiente de la variable de rengln.
H1: La variable de columna no es independiente de la variable de rengln.
2. Tomar una muestra aleatoria y anotar las frecuencias observadas para cada celda de la tabla
de contingencias.

3. Aplicar la ecuacin para calcular la frecuencia


esperada para cada celda. Sea eij la frecuencia esperada en la categora del rengln i y la
columna j de la tabla de contingencias, suponiendo independencias.

4. Aplicar la ecuacin X i j
2
f e
ij ij
2

para calcular un valor de X 2 como


e
ij
estadstico.
Donde
fij= frecuencia observada para la categora en el rengln i y la columna j.
eij=frecuencia esperada para la categora en el rengln i y la columna j de la tabla de
contingencias, basadas en las hiptesis de independencia.

En la ecuacin se usa la doble sumatoria para indicar que se deben hacer los clculos para
todas las celdas de la tabla de contingencia.

5. Regla de rechazo

Con el estadstico de prueba: Rechazar H0 si X2 > X2


Con el valor p: Rechazar H0 si el valor p <

Siendo el nivel de significancia para la prueba; si hay n renglones y m columnas en la tabla


de contingencias, el estadstico de prueba tiene una distribucin ji cuadrada con (n-1)(m-1)

ITESCO
Estadstica II
Unidad II Pruebas de la bondad del ajuste y anlisis de varianza

grados de libertad, siempre y cuando las frecuencias esperadas sean 5 o ms para todas las
categoras.

2.1.2 PRUEBA DE LA BONDAD DE AJUSTE.

La prueba de bondad de ajuste se basa en una comparacin entre la muestra de los resultados
observados y los resultados esperados suponiendo que la hiptesis nula es verdadera.

La prueba de bondad de ajuste se enfoca hacia las diferencias entre las frecuencias
observadas y las frecuencias esperadas. Una diferencia grande entre las frecuencias
observadas y esperadas hace dudar que las proporciones supuestas sean correctas. El que las
diferencias entre las frecuencias observadas y las esperadas sean grandes o pequeas es un
asunto que se define con ayuda del siguiente estadstico de prueba.

Estadstico de prueba para bondad de ajuste


X i 1
2 k f e
i i
2

e
i
Donde
fi= frecuencia observada para la categora i
ei= frecuencia esperada para la categora i
k= cantidad de categoras

Nota. El estadstico de prueba tiene distribucin ji cuadrada con k-1 grados de libertad,
siempre que las frecuencias esperadas sean 5 o ms para todas las categoras.

Resumen de la prueba de bondad de ajuste para la distribucin multinomial.


1. Enunciar las hiptesis nula y alternativa.
H0: La poblacin se apega a una distribucin de probabilidad multinomial con probabilidades
especificadas para cada una de las k categoras.
H1: La poblacin no se apega a una distribucin de probabilidad multinomial con
probabilidades especificadas para cada una de las k categoras.
2. Tomar una muestra aleatoria y anotar las frecuencias observadas, f i, para cada categora.
3. Suponiendo que la hiptesis nula es cierta, determinar la frecuencia esperada, e j, en cada
categora, multiplicando la probabilidad de la categora por el tamao de la muestra.
4. Calcular el valor del estadstico de prueba.
5. Regla de rechazo:
Con el estadstico de prueba: Rechazar H0 si x2 > x2
Con el valor p: Rechazar H0 si el valor p <
Donde es el nivel de significancia para la prueba, y los grados de libertad son k-1

Resumen de la prueba de bondad de ajuste para la distribucin de Poisson.


1. Plantear las hiptesis nula y alternativa.
H0: La poblacin tiene una distribucin de probabilidad Poisson.
H1: La poblacin no tiene una distribucin de probabilidad Poisson.
2. Tomar una muestra aleatoria y
a) anotar las frecuencias observadas, fi, para cada valor de la variable aleatoria de Poisson.
b) calcular la media del nmero de ocurrencias .
3. Calcular las frecuencias esperadas de ocurrencias, e i, para cada valor de la variable
aleatoria de Poisson. Multiplicar el tamao de la muestra mediante la probabilidad de Poisson
de ocurrencia para cada valor de la variable aleatoria de Poisson. Si hay menos de 5
ocurrencias esperadas para ciertos valores, combinar esos valores con los adyacentes y
reducir la cantidad de categoras que sea necesario.

4. Calcular el valor del estadstico de prueba.


X i 1
2 k f e
i
2
i

e i

ITESCO
Estadstica II
Unidad II Pruebas de la bondad del ajuste y anlisis de varianza

5. Regla de rechazo:
Con el estadstico de prueba: Rechazar H0 si x2 > x2
Con el valor p: Rechazar H0 si el valor p <
Donde es el nivel de significancia para la prueba, y los grados de libertad son k-2

2.1.3 TABLAS DE CONTINGENCIA.

En estadstica las tablas de contingencia se emplean para registrar y analizar la relacin entre
dos o ms variables, habitualmente de naturaleza cualitativa, nominales u ordinales.

Supngase que se dispone de dos variables, la primera el sexo (hombre o


mujer) y la segunda que recoge si el individuo es zurdo o diestro. Se ha
observado esta pareja de variables en una muestra aleatoria de 100
individuos. Se puede emplear una tabla de contingencia para expresar la
relacin entre estas dos variables, del siguiente modo:
Diestro Zurdo TOTAL
Hombre 43 9 52
Mujer 44 4 48
TOTAL 87 13 100

Las cifras en la columna de la derecha y en la fila inferior reciben el nombre de frecuencias


marginales y la cifra situada en la esquina inferior derecha es el gran total.

La tabla nos permite ver de un vistazo que la proporcin de hombres diestros es


aproximadamente igual a la proporcin de mujeres diestras. Sin embargo, ambas proporciones
no son idnticas y la significacin estadstica de la diferencia entre ellas puede ser evaluada
con el test Chi Cuadrado de Pearson, supuesto que las cifras de la tabla son una muestra
aleatoria de una poblacin. Si la proporcin de individuos en cada columna vara entre las
diversas filas y viceversa, se dice que existe asociacin entre las dos variables. Si no existe
asociacin se dice que ambas variables son independientes.

El grado de asociacin entre dos variables se puede evaluar empleando distintos coeficientes:
el ms simple es el coeficiente phi que se define por = (2 / N)
donde 2 se deriva del test de Pearson, y N es el total de observaciones -el gran total-. puede
oscilar entre 0 (que indica que no existe asociacin entre las variables) e infinito. A diferencia de
otras medidas de asociacin, el coeficiente de Cramer no est acotado.

2.2 ANLISIS DE VARIANZA.


En estadstica, anlisis de varianza (ANOVA, segn terminologa inglesa) es una coleccin de
modelos estadsticos y sus procedimientos asociados. El anlisis de varianza sirve para
comparar si los valores de un conjunto de datos numricos son significativamente distintos a
los valores de otro o ms conjuntos de datos. El procedimiento para comparar estos valores
est basado en la varianza global observada en los grupos de datos numricos a comparar.
Tpicamente, el anlisis de varianza se utiliza para asociar una probabilidad a la conclusin de
que la media de un grupo de puntuaciones es distinta de la media de otro grupo de
puntuaciones.

2.2.1 INFERENCIA SOBRE UNA VARIANZA DE POBLACIN (ANOVA).

El procedimiento del anlisis de varianza en una direccin se ocupa de la prueba para


diferencias entre k medias muestrales cuando los sujetos son asignados de manera aleatoria a
cada uno de los diferentes grupos de tratamiento. La ecuacin lineal, o modelo, que representa
el diseo completamente aleatorizado de un factor es: X ij= + k + ik

Donde:

ITESCO
Estadstica II
Unidad II Pruebas de la bondad del ajuste y anlisis de varianza

Xij = Valor de la observacin i para el tratamiento j


= La media general de todas las k poblaciones en tratamiento
k= Efecto del tratamiento en el grupo k del cual se tom la muestra
ik= Error aleatorio debido al proceso de muestreo ( es la letra griega psilon)

En el anlisis de varianza en una direccin, las hiptesis nula y alternativa se plantean como
sigue:
H0: 1 = 2 = = k
H1: no todas las medias de poblacin son iguales
O lo que es equivalente
H0: k = 0
H1: k 0
Las formulas de la media y la varianza del tratamiento j son las siguientes.

x ij x j
nj nj 2
x ij
2
x j
i 1

nj
s j
i 1

nj 1

La media general de las muestras, representada por x , es la suma de todas las


k nj

observaciones dividida entre el nmero total de observaciones. Esto es


x
j 1 i 1
ij
x
nT
Donde nT= n1 + n2 + + nK
Si el tamao de cada muestra es n, n T = kn, en ese caso, la ecuacin se reduce a
k nj k

x
j 1 i 1
ij x
j 1
j
x
nT k
En otras palabras, cuando los tamaos de las muestras son iguales, la media muestral general
es justamente el promedio de las medias de las k muestras.
nj= nmero de observaciones para el j-simo tratamiento
Media de la muestra del j-simo tratamiento
S2j= Varianza de la muestra del j-simo tratamiento
Sj= Desviacin estndar de la muestra del j-simo tratamiento

SSTR
Cuadrado medio debido a tratamientos MSTR
k 1

Donde SSTR n
k

j 1
j x j x 2

SSTR= Suma de cuadrados debido a tratamientos

SSE
Cuadrado medio debido al error MSE
nT k
k

n 1 s j
2
Donde SSE j
j 1
SSE= Sumas de cuadrados debido al error

MSTR
Estadstico de prueba F
MSE

Regla de rechazo: con el estadstico de prueba: Rechazar H 0 si F>F

Grados de libertad k 1 en el numerador y nT k en el denominador

ITESCO
Estadstica II
Unidad II Pruebas de la bondad del ajuste y anlisis de varianza

ITESCO