INVESTIGACIN: UNIDAD 4 Pruebas de hiptesis con dos muestras datos numricos y varias muestras de datos numricos. UNIDAD 5 Pruebas de hiptesis con dos muestras datos categricos y varias muestras con datos categricos.
INTRODUCCIN
En esta unidad nos concentraremos en la prueba de hiptesis, otro aspecto de la inferencia estadstica que al igual que la estimacin del intervalo de confianza, se basa en la informacin de la muestra. Se desarrolla una metodologa paso a paso que le permita hacer inferencias sobre un parmetro poblacional mediante el anlisis diferencial entre los resultados observados (estadstico de la muestra) y los resultados de la muestra esperados si la hiptesis subyacente es realmente cierta. En el problema de estimacin se trata de elegir el valor de un parmetro de la poblacin, mientras que en las pruebas de hiptesis se trata de decidir entre aceptar o rechazar un valor especificado (por ejemplo, si el nivel de centramiento de un proceso es o no lo es). Prueba de hiptesis: Estadsticamente una prueba de hiptesis es cualquier afirmacin acerca de una poblacin y/o sus parmetros.
4.1 INTRODUCCIN PRUEBAS DE HIPTESIS Una prueba de hiptesis consiste en contrastar dos hiptesis estadsticas. Tal contraste involucra la toma de decisin acerca de las hiptesis. La decisin consiste en rechazar o no una hiptesis en favor de la otra. Una hiptesis estadstica se denota por H y son dos: - Ho: hiptesis nula - H1: hiptesis alternativa Partes de una hiptesis 1-La hiptesis nula Ho 2-La hiptesis alternativa H1 3-El estadstico de prueba 4-Errores tipo I y II 5-La regin de rechazo (crtica) 6-La toma de decisin 1. Definicin de prueba de hiptesis estadstica es que cuantifica el proceso de toma de decisiones. Por cada tipo de prueba de hiptesis se puede calcular una prueba estadstica apropiada. Esta prueba estadstica mide el acercamiento del calor de la muestra (como un promedio) a la hiptesis nula. La prueba estadstica, sigue una distribucin estadstica bien conocida (normal, etc.) o se puede desarrollar una distribucin para la prueba estadstica particular. La distribucin apropiada de la prueba estadstica se divide en dos regiones: una regin de rechazo y una de no rechazo. Si la prueba estadstica cae en esta ltima regin no se puede rechazar la hiptesis nula y se llega a la conclusin de que el proceso funciona correctamente. Al tomar la decisin con respecto a la hiptesis nula, se debe determinar el valor crtico en la distribucin estadstica que divide la regin del rechazo (en la cual la hiptesis nula no se puede rechazar) de la regin de rechazo. A hora bien el valor crtico depende del tamao de la regin de rechazo.
4.2 DISTRIBUCIN NORMAL Y DISTRIBUCIN T DE STUDENT En estadstica y probabilidad se llama distribucin normal, distribucin de Gauss o distribucin gaussiana, a una de las distribuciones de probabilidad de variable continua que con ms frecuencia aparece en fenmenos reales. La grfica de su funcin de densidad tiene una forma acampanada y es simtrica respecto de un determinado parmetro. Esta curva se conoce como campana de Gauss. La importancia de esta distribucin radica en que permite modelar numerosos fenmenos naturales, sociales y psicolgicos. Mientras que los mecanismos que subyacen a gran parte de este tipo de fenmenos son desconocidos, por la enorme cantidad de variables incontrolables que en ellos intervienen, el uso del modelo normal puede justificarse asumiendo que cada observacin se obtiene como la suma de unas pocas causas independientes. En probabilidad y estadstica, la distribucin t (de Student) es una distribucin de probabilidad que surge del problema de estimar la media de una poblacin normalmente distribuida cuando el tamao de la muestra es pequeo. Aparece de manera natural al realizar la prueba t de Student para la determinacin de las diferencias entre dos medias muestrales y para la construccin del intervalo de confianza para la diferencia entre las medias de dos poblaciones cuando se desconoce la desviacin tpica de una poblacin y sta debe ser estimada a partir de los datos de una muestra. La distribucin t de Student es la distribucin de probabilidad del cociente
Donde Z tiene una distribucin normal de media nula y varianza 1 V tiene una distribucin chi-cuadrado con grados de libertad Z y V son independientes Si es una constante no nula, el cociente es una variable aleatoria que sigue la distribucin t de Student no central con parmetro de no-centralidad .
4.3 PRUEBAS DE SIGNIFICANCIA Las pruebas de significancia estadstica son un procedimiento que brinda un criterio objetivo para calificar las diferencias que se presentan al comparar los resultados de dos muestras, con el objetivo de explicar si dichas diferencias se mantienen dentro de los lmites previstos por el diseo estadstico (un error y una confianza esperados) o si, por el contrario, la diferencia entre ellas resulta lo suficientemente grande como para inferir que ha ocurrido un cambio real en el indicador 4.4 COMPARACIN DE DOS MUESTRAS INDEPENDIENTES: PRUEBAS T PARA LAS DIFERENCIAS ENTRE NORMALES. Para comparar las medias de dos muestras aleatorias procedentes de dos poblaciones normales e independientes, se utiliza el procedimiento Prueba T para muestras independientes, y para ello, se selecciona:
A continuacin se abre una ventana con los siguientes campos: Contrastar variables: donde se han de introducir las variables que se van a analizar, es decir, aquellas variables sobre las que se va a contrastar si hay o no, diferencias de grupos. Variable de agrupacin: aqu se debe introducir la variable que se utiliza para definir los grupos de sujetos sobre los que se estudian las diferencias. Entonces el sistema activa el botn definir grupos y al presionarlo aparece una ventana donde se introducen los valores de la variable que definen los dos grupos de sujetos a comparar, o el valor de la variable que har de corte para definir dichos grupos. Si el valor de la variable para un individuo es menor o igual que el valor especificado, el individuo pertenecer al primer grupo, y en caso contrario, al segundo. Opciones: presionando este botn se obtiene una ventana donde se especifica igual que en la seccin anterior el nivel de confianza para el intervalo y la forma de tratar los valores missing.
4.5 PRUEBA DE FISHER PARA VARIANZAS Y DE IGUALDAD DE LAS VARIANZAS DE DOS POBLACIONES NORMALES. La necesidad de disponer de mtodos estadsticos para comparar las varianzas de dos poblaciones es evidente a partir del anlisis de una sola poblacin. Frecuentemente se desea comparar la precisin de un instrumento de medicin con la de otro, la estabilidad de un proceso de manufactura con la de otro o hasta la forma en que vara el procedimiento para calificar de un profesor universitario con la de otro. Intuitivamente, podramos comparar las varianzas de dos poblaciones, y , utilizando la razn de las varianzas muestrales s 2 1 /s 2 2 . Si s 2 1 /s 2 2 es casi igual a 1, se tendr poca evidencia para indicar que y no son iguales. Por otra parte, un valor muy grande o muy pequeo para s 2 1 /s 2 2 , proporcionar evidencia de una diferencia en las varianzas de las poblaciones. La variable aleatoria F se define como el cociente de dos variables aleatorias ji-cuadrada independientes, cada una dividida entre sus respectivos grados de libertad. Esto es,
Donde U y V son variables aleatorias ji-cuadrada independientes con grados de libertad y respectivamente. Sean U y V dos variables aleatorias independientes que tienen distribucin ji cuadradas con grados de libertad, respectivamente. Entonces la distribucin de la variable aleatoria est dada por:
y se dice que sigue la distribucin F con grados de libertad en el numerador y grados de libertad en el denominador. La media y la varianza de la distribucin F son: para para
La variable aleatoria F es no negativa, y la distribucin tiene un sesgo hacia la derecha. La distribucin F tiene una apariencia muy similar a la distribucin ji-cuadrada; sin embargo, se encuentra centrada respecto a 1, y los dos parmetros proporcionan una flexibilidad adicional con respecto a la forma de la distribucin. Si s 1 2 y s 2 2 son las varianzas mustrales independientes de tamao n 1 y n 2 tomadas de poblaciones normales con varianzas
y , respectivamente, entonces:
Ejemplos: Un fabricante de automviles pone a prueba dos nuevos mtodos de ensamblaje de motores respecto al tiempo en minutos. Los resultados se muestran el la tabla: Mtodo 1 Mtodo 2 n 1 = 31 n 2 = 25 s 1 2 = 50 s 2 2 = 24 Construya un intervalo de confianza del 90% para 1 2 / 2 2 . Solucin: Por la recomendacin de que la varianza muestral mayor va en el numerador se tiene la siguiente frmula:
al despejar: . F toma dos valores dependiendo del nivel de confianza y de los grados de libertad. En este caso los grados de libertad uno valen 30 y los grados de libertad dos 24. 1. 2. y
4.6 COMPARACIONES DE DOS MUESTRAS PAREADAS Una de las hiptesis sobre las que habitualmente se fundamentan las pruebas estadsticas de comparacin es que las observaciones pertenecientes a cada una de las muestras son independientes entre s, no guardan relacin; siendo precisamente ese uno de los objetivos de la aleatorizacin (eleccin aleatoria de los sujetos o unidades de observacin). Sin embargo, la falta de independencia entre las observaciones de los grupos puede ser una caracterstica del diseo del estudio para buscar fundamentalmente una mayor eficiencia del contraste estadstico al disminuir la variabilidad. En otras ocasiones con este tipo de diseo pareado lo que se busca es dar una mayor validez a las inferencias obtenidas, controlando o eliminando la influencia de variables extraas cuyo efecto ya es conocido o sospechado, y no se desea que intervenga en el estudio actual pudiendo enmascarar el efecto del tratamiento o de la variable de inters. Las muestras apareadas se obtienen usualmente como distintas observaciones realizadas sobre los mismos individuos. Un ejemplo de observaciones pareadas consiste en considerar a un conjunto de n personas a las que se le aplica un tratamiento mdico y se mide por ejemplo el nivel de insulina en la sangre antes (X) y despus del mismo (Y). En este ejemplo no es posible considerar aX eY como variables independientes ya que va a existir una dependencia clara entre las dos variables.
4.7 MODELO TOTALMENTE ALEATORIO: ANLISIS DE VARIANZA DE UN FACTOR. Hay varias formas en las cuales puede disearse un experimento ANOVA. Quizs el ms comn es el diseo completamente aleatorizado a una va. El trmino proviene del hecho que varios sujetos o unidades experimentales se asignan aleatoriamente a diferentes niveles de un solo factor. Por ejemplo: varios empleados (unidades experimentales) pueden seleccionarse aleatoriamente para participar en diversos tipos (niveles diferentes) de un programa de capacitacin (el factor). El anlisis de varianza se basa en una comparacin de la cantidad de variacin en cada uno de los tratamientos. Si de un tratamiento al otro la variacin es significativamente alta, puede concluirse que los tratamientos tienen efectos diferentes en las poblaciones. a. Esta variacin entre el nmero total de las 14 observaciones. Esto se llama variacin total. b. Existe variacin entre los diferentes tratamientos (muestras). Esto se llama variacin entre muestras. c. Existe variacin dentro de un tratamiento dado (muestra). Esto se denomina variacin dentro de la muestra. 4.8 SELECCIN DEL TAMAO DE MUESTRA PARA ESTIMAR LA DIFERENCIA DE DOS MEDIAS En Estadstica el tamao de la muestra es el nmero de sujetos que componen la muestra extrada de una poblacin, necesarios para que los datos obtenidos sean representativos de la poblacin. 1. Estimar un parmetro determinado con el nivel de confianza deseado. 2. Detectar una determinada diferencia, si realmente existe, entre los grupos de estudio con un mnimo de garanta. 3. Reducir costes o aumentar la rapidez del estudio. Por ejemplo, en un estudio de investigacin epidemiolgico la determinacin de un tamao adecuado de la muestra tendra como objetivo su factibilidad. As: Si el nmero de sujetos es insuficiente habra que modificar los criterios de seleccin, solicitar la colaboracin de otros centros o ampliar el periodo de reclutamiento. Los estudios con tamaos muestrales insuficientes, no son capaces de detectar diferencias entre grupos, llegando a la conclusin errnea de que no existe tal diferencia. Si el nmero de sujetos es excesivo, el estudio se encarece desde el punto de vista econmico y humano. Adems es poco tico al someter a ms individuos a una intervencin que puede ser menos eficaz o incluso perjudicial. El tamao de una muestra es el nmero de individuos que contiene.
Una frmula muy extendida que orienta sobre el clculo del tamao de la muestra para datos globales es la siguiente: n = ( (k^2) * N*p*q) / ( (e^2 * (N-1) )+( (k^2) * p*q)) N: es el tamao de la poblacin o universo (nmero total de posibles encuestados). k: es una constante que depende del nivel de confianza que asignemos. El nivel de confianza indica la probabilidad de que los resultados de nuestra investigacin sean ciertos: un 95,5 % de confianza es lo mismo que decir que nos podemos equivocar con una probabilidad del 4,5%. Los valores k ms utilizados y sus niveles de confianza son: K 1,15 1,28 1,44 1,65 1,96 2 2,58 Nivel de confianza 75% 80% 85% 90% 95% 95,5% 99% (Por tanto si pretendemos obtener un nivel de confianza del 95% necesitamos poner en la frmula k=1,96) e: es el error muestral deseado. El error muestral es la diferencia que puede haber entre el resultado que obtenemos preguntando a una muestra de la poblacin y el que obtendramos si preguntramos al total de ella. Ejemplos: Calcular el tamao de la muestra de una poblacin de 500 elementos con un nivel de confianza del 99% Solucin: Se tiene N=500, para el 99% de confianza Z = 2,58, y como no se tiene los dems valores se tomar =0,5, y e = 0,05. Reemplazando valores en la frmula se obtiene: n=(N^2 Z^2)/((N-1) e^2+^2 Z^2 ) n=(5000,5^2 2,58^2)/((500-1) (0,05)^2+0,5^22,58^2 )=832,05/2,9116=285,77=286 Suponga que se tienen dos poblaciones distintas, la primera con media 1 y desviacin estndar 1 , y la segunda con media 2 y desviacin estndar 2. Ms an, se elige una muestra aleatoria de tamao n 1 de la primera poblacin y una muestra independiente aleatoria de tamao n 2 de la segunda poblacin; se calcula la media muestral para cada muestra y la diferencia entre dichas medias. La coleccin de todas esas diferencias se llama distribucin muestral de las
UNIDAD 5 PRUEBAS DE HIPOTESIS CON DOS MUESTRAS DATOS CATEGORICOS Y VARIAS MUESTRAS CON DATOS CATEGORICOS. 5.1 PRUEBA Z PARA LA DIFERENCIA ENTRE DOS PROPORCIONES. En algunos diseos de investigacin, el plan muestral requiere seleccionar dos muestras independientes, calcular las proporciones muestrales y usar la diferencia de las dos proporciones para estimar o probar una diferencia entre las mismas. Las aplicaciones son similares a la diferencia de medias, por ejemplo si dos empresas consultoras ofrecen datos de proporciones de personas que van a votar por el PRI y al hacer dos estudios diferentes salen resultados ligeramente diferentes pero qu tanta diferencia se requiere para que sea estadsticamente significativo? De eso se pruebas estadsticas de diferencias de proporciones. El estadstico Z para estos casos se calcula de la siguiente manera:
Ejemplo: En un estudio de infeccin de vas urinarias no complicadas, los pacientes fueron asignados para ser tratados con trimetoprim / sulfametoxazol o fosfomicina / trometamol. 92% de los 100 tratados con fosfomicina/ trometamol mostraron curacin bacteriolgica mientras que el 61% de los 100 manejados con trimetoprim / sulfametoxazol se cur la infeccin. Cuando comparamos proporciones de muestras independientes, debemos primero calcular la diferencia en proporciones. El anlisis para comparar dos proporciones independientes es similar al usado para dos medias independientes. Calculamos un intervalo de confianza y una prueba de hiptesis para la diferencia en proporciones. La notacin que usamos para el anlisis de dos proporciones es el mismo que para una proporcin. Los nmeros inferiores son para distinguir los dos grupos. Parmetros Poblacin 1 2 Muestra 1 2 Proporcin 1 2 p1 p2 Desviacin estndar 1(1-2) 2(1- 2) p1(1-p1) p2(1- p2)
El cuadrado del error estndar de una proporcin es conocido como la varianza de la proporcin La varianza de la diferencia entre las dos proporciones independientes es igual a la suma de las varianzas de las dos proporciones de las muestras. Las varianzas son sumadas debido a que cada muestra contribuye al error de muestreo en la distribucin de las diferencias. ES = p(1-p)/n Varianza = p(1-p)/n p1(1- p1) p2(1- p2) Varianza (p1-p2)= varianza de p1 + varianza de p2 = --------- + ---------- n1 n2 El error estndar de la diferencia entre dos proporciones es dado por la raz cuadrada de la varianza. ES (p1-p2)= [p1(1-p1)/n1 + p2(1-p2)/n2] Para calcular el intervalo de confianza necesitamos conocer el error estndar de la diferencia entre dos proporciones. El error estndar de la diferencia entre dos proporciones es la combinacin del error estndar de las dos distribuciones independientes, ES (p1) y ES (p2). Hemos estimado la magnitud de la diferencia de dos proporciones de las muestras; ahora calcularemos el intervalo de confianza para esa estimacin. La frmula general para el intervalo de confianza al 95% es: Estimado 1.96 x ES La frmula para 95% IC de dos proporciones sera: (p1-p2) 1.96 ES(p1-p2) En el estudio de infeccin de vas urinarias, la proporcin en el grupo de fosfomicina/ trometamol fue 0.92 y para trimetoprim/ sulfametoxazol fue 0.61 Diferencia en proporciones = 0.92-0.61=0.31 ES = [(0.92(1-0.92)/100 + 0.61(1-0.61)/100] = 0.056 El intervalo de confianza al 95% sera: 0.31 1.96 (0.056) = 0.310.11 = 0.2 a 0.42 El intervalo de confianza al 95% sera: 1.96 (0.056) = 0.310.11 = 0.2 a 0.42 Tengo 95% de confianza de que la diferencia en las proporciones en la poblacin estara entre 0.2 y 0.42. Como la diferencia no incluye 0, estamos confiados que en la poblacin la proporcin de curados con fosfomicina/trometamol es diferente que con trimetoprim sulfametoxazol. Una prueba de hiptesis usa la diferencia observada y el error estndar de la diferencia. Sin embargo, usamos un error estndar ligeramente diferente para calcular la prueba de hiptesis. Esto se debe a que estamos evaluando la probabilidad de que los datos observados asumen que la hiptesis nula es verdad. La hiptesis nula es que no hay diferencia en las proporciones de las dos poblaciones y ambas grupos tienen una proporcin comn, . El mejor estimado que podemos obtener de es la proporcin comn, p, de las dos proporciones de la muestra. P=r1+r2/n1+n2 Donde: r1 y r2 son los nmeros de respuestas positivas en cada muestra n1 y n2 son los tamaos de muestra en cada muestra. La proporcin comn siempre estar entre las dos proporciones individuales. El error estndar puede ser calculado sustituyendo p, por p1 y p2. ES(p1-p2)=p(1-p)(1/n1 +1/n2) Esto se conoce como error estndar agrupado. En el estudio de infeccin de vas urinarias, la proporcin en el grupo de fosfomicina/ trometamol fue 0.92 y para trimetoprim/ sulfametoxazol fue 0.61 Fueron 100 intregrantes en cada grupo. Proporcin comn, p= 92 + 61/100+100 = 153/200 = 0.765 ES(p1-p2)=0.77(1-0.77)(1/100 +1/100)= 0.1771 x 0.002 = 0.019 Si asumimos una aproximacin a la Normalidad para la distribucin Binomial, calculamos la prueba de z , como antes. Para calcular la prueba de hiptesis, debemos: 1.- Sealar la hiptesis nula Ho 2.- Sealar la hiptesis alternativa H1 3.- Calcular la prueba de hiptesis z. Hiptesis nula: Cuando comparamos dos proporciones de poblaciones independientes es usualmente que las dos proporciones son iguales. Ho: 1 = 2 Es lo mismo que si la diferencia en las proporciones de las dos poblaciones es igual a 0. Ho: 1 - 2 = 0 Hiptesis alternativa: Es usualmente que las dos proporciones no son iguales. H1: 1 2 Es lo mismo que la diferencia en proporciones no es igual a cero. H1: 1 2 0 0.92 de xito para fosfomicina / trometamol y 0.61 para trimetoprim / sulfametoxazol ES = 0.019 (p1-p2) 0 0.31 - 0 z= -------------- = -----------= 16.3 ES(p1-p2) 0.019 P<0.05 Rechazamos la hiptesis nula de que las dos proporciones son iguales y aceptamos la hiptesis alternativa de que son diferentes.
5.2 PRUEBA PARA LA DIFERENCIA ENTRE DOS PROPORCIONES. Las pruebas de hiptesis a partir de proporciones se realizan casi en la misma forma utilizada cuando nos referimos a las medias, cuando se cumplen las suposiciones necesarias para cada caso. Pueden utilizarse pruebas unilaterales o bilaterales dependiendo de la situacin particular. La proporcin de una poblacin Las hiptesis se enuncian de manera similar al caso de la media. Ho: p = p0 H1: p p0 En caso de que la muestra sea grande n>30, el estadgrafo de prueba es: se distribuye normal estndar. Regla de decisin: se determina de acuerdo a la hiptesis alternativa (si es bilateral o unilateral. En el caso de muestras pequeas se utiliza la distribucin Binomial. No lo abordaremos por ser complicado y poco frecuente su uso. Diferencia entre las proporciones de dos poblaciones La situacin ms frecuente es suponer que existen diferencias entre las proporciones de dos poblaciones, para ello suelen enunciarse las hiptesis de forma similar al caso de las medias: Ho: p1 = p2 p1 - p2 = 0 H1: p1 p2 Puede la hiptesis alternativa enunciarse unilateralmente. El estadgrafo de prueba para el caso de muestras independientes: donde Siendo a1 y a2, el nmero de sujetos con la caracterstica objeto de estudio en las muestras 1 y 2 respectivamente, es decir, en vez de calcular la varianza para cada muestra, se calcula una p conjunta para ambas muestras bajo el supuesto que no hay diferencias entre ambas proporciones y as se obtiene la varianza conjunta. Recuerda que q = 1-p. Est de ms que te diga que este estadgrafo se distribuye normal estndar. La regla de decisin se determina de manera similar a los casos ya vistos anteriormente. El objetivo de la prueba es comparar estas dos proporciones, como estimadores H1: p1 p2 Recuerda que la H1 tambin puede plantearse de forma unilateral. En algunos diseos de investigacin, el plan muestral requiere seleccionar dos muestras independientes, calcular las proporciones mustrales y usar la diferencia de las dos proporciones para estimar aprobar una diferencia entre las mismas .Las aplicaciones son similares a la diferencia de medias, por ejemplo si dos empresas consultoras ofrecen datos de proporciones de personas que van a votar por el PRI y al hacer dos estudios diferentes salen resultados ligeramente diferentes pero qu tanta diferencia se requiere para que sea estadsticamente significativo? De eso se tratan las Pruebas estadsticas de diferencias de proporciones. 5.3 PRUEBA PARA LA DIFERENCIA EN n PROPORCIONES Z. Una distribucin poblacional representa la distribucin de valores de una poblacin y una distribucin muestral representa la distribucin de los valores de una muestra. En contraste con las distribuciones de mediciones individuales, una distribucin muestral es una distribucin de probabilidad que se aplica a los valores posibles de una estadstica muestral. As, la distribucin muestral de la media es la distribucin de probabilidad de los valores posibles de la media muestral con base en un determinado tamao de muestra. Para cualquier tamao de muestra dado n, tomado de una poblacin con media , los valores de la media muestralvaran de una muestra a otra. Esta variabilidad sirve de base para la distribucin muestral. La distribucin muestral de la media se describe determinando el valor esperado E () o media, de la distribucin y la desviacin estndar de la distribucin de las medias, . Como esta desviacin estndar indica la precisin de la media muestral como estimador puntual, por lo general se le denomina error estndar de la media. Ejemplo: Un fabricante de reproductores de discos compactos utiliza un conjunto de pruebas amplias para evaluar la funcin elctrica de su producto. Todos los reproductores de discos compactos deben pasar todas las pruebas antes de venderse. Una muestra aleatoria de 500 reproductores tiene como resultado 15 que fallan en una o ms pruebas. Encuentre un intervalo de confianza de 90% para la proporcin de los reproductores de discos compactos de la poblacin que no pasan todas las pruebas. Solucin: n=500 p = 15/500 = 0.03 z(0.90) = 1.645
0.0237<P<0.0376 Se sabe con un nivel de confianza del 90% que la proporcin de discos defectuosos que no pasan la prueba en esa poblacin est entre 0.0237 y 0.0376. 5.4 PRUEBA DE INDEPENDENCIA (ji-CUADRADA). Cuando comparamos dos situaciones podemos esperar que sean ya bien dependientes o independientes esto quiere decir que pueden o no estar relacionados sus datos debido a muchos factores que pueden influir en ellos o bien, un problema no tenga relacin con otro. La prueba de independencia trata sobre esto, ya que su objetivo es determinar si alguna situacin es afectada por otra, basndose en datos estadsticos y valores probabilstico obtenidos de la fabulacin de datos o de pronsticos por medio de frmulas y tablas, para esto se basa en un nivel de significancia en un caso y en el otro a comparar, valindonos de tablas de contingencia para obtener frecuencias esperadas y poder aplicarlas, para as obtener datos comparativos que son determinantes en la decisin de independencia. La estadstica de prueba que ser utilizada en la toma de una decisin acerca de la hiptesis nula es ji cuadrado, X 2 (X
es la letra griega ji minscula. Los valores de ji cuadrado se obtienen con las siguientes formula:
X 2 = (Oi ei) 2
i ei Grados de libertad V = (r-1)*(c-1) Frecuencia Esperada = Total de la columna * Total del rengln Gran total Caractersticas X 2 toma valores no negativos; es decir, puede ser cero o positiva. X 2 no es simtrica; es asimtrica hacia la derecha. Existen muchas distribuciones X 2 como en el caso de la distribucin t, hay una distribucin,
X 2 diferente para cada valor de los grados de libertad. Nos dan una tabla de contingencia.
Una tabla de contingencia es una disposicin de datos en una clasificacin de doble entrada. Los datos se ordenan en celdas y se reporta l nmero de datos en cada una. En la tabla de contingencia estn implicados dos factores (o variables), y la pregunta comn en relacin con tales tablas es si los datos indican que las dos variables son independientes o dependientes. Para ilustrar la utilizacin y anlisis de una tabla de contingencia, considrese la clasificacin por sexo de los estudiantes de una escuela y su rea acadmica favorita. Ejemplo: Cada persona de un grupo de 300 estudiantes fue identificada como hombre o mujer, preguntndosele si prefera recibir cursos en el rea de matemticas, ciencias sociales o humanidades. La siguiente tabla es una de contingencia que indica las frecuencias encontradas para esas categoras. Presenta esta tabla la evidencia suficiente para rechazar la hiptesis nula la preferencia por las matemticas, ciencias sociales o humanidades es independiente del sexo de un alumno, al nivel de significancia del 0.05?
Solucin: Paso 1 Ho: La preferencia por matemticas, ciencias sociales o humanidades es independiente del sexo de los estudiantes de la escuela. Ha: La preferencia por las reas es no independiente del sexo de los estudiantes. Pas 2 Para determinar el valor crtico de la ji cuadrada debe conocerse los grados de libertad, implicado. En el caso de tablas de contingencia, este nmero es exactamente el nmero de celdas en la tabla que puede ser llenadas libremente cuando se conocen los totales. Estos ltimos se indican en la tabla siguiente. 122 178 72 113 115 300 Dados estos totales, solo pueden llenarse dos celdas antes que las restantes queden determinadas. (por supuesto, los totales deben ser los mismos.) Por ejemplo, una vez que se seleccionen dos valores arbitrarios (por ejemplo, 50 y 60) para las dos primeras celdas de la primera fila (vase la tabla siguiente), quedan fijos los otros cuatro valores. 50 60 C 122 D E F 178 72 113 115 300 Dichos valores deben ser C=12, D=22, E=53 y F=103. De otra manera los totales no sern correctos. En consecuencia, para este problema existen dos selecciones libres. Cada una de estas corresponde a un grado de libertad. As, el nmero de grados de libertada en este ejemplo es 2 (v=2). Por esta razn, si se utiliza =0.05, el valor critico es X 2 (2, 0.05) = 6. Vase la siguiente figura.
Pas 3 Antes de poder hallar el valor calculado de ji cuadrada, es necesario examinar los valores esperados E para cada celda. Para tal fin debe recordarse la hiptesis nula, la cual asevera que estos factores son independientes. En consecuencia, se espera que los valores estn distribuidos en proporcin a los totales marginales. Hay 122 hombres; se espera que estn distribuidos entre M, CS y H proporcionalmente a los totales 72, 113 y 115. As, para los hombres las cuentas esperadas de celda son: 72/300 x 122 113/300 x 122 115/300 x 122 Similarmente, se esperan: 72/300 x 178 113/300 x 178 115/300 x 178 Para las mujeres. Entonces los valores esperados son como se indica en la tabla siguiente (siempre verifquense los totales nuevos contra los antiguos.)
M CS H Total 29.28 45.95 46.77 122 42.72 67.05 68.23 178 Total 72.00 113.00 115.00 300.00 Nota El clculo de los valores esperados puede verse de manera alternativa. Recurdese que la hiptesis nula se supone cierta en tanto no haya evidencia para rechazarla. Habiendo hecho este supuesto en el ejemplo, de hecho s est afirmando que son independientes los eventos un estudiante seleccionado aleatoriamente es hombre, y un estudiante elegido al azar prefiere cursos de matemticas. El estimador puntual para la probabilidad de que un estudiante sea hombre es 122/300, y para la probabilidad de que un estudiante prefiera los cursos de matemtica es 72/300. En consecuencia, la probabilidad de que ocurran ambos eventos es el producto de las probabilidades. Para estudiar la dependencia entre la prctica de algn deporte y la depresin, se seleccion una muestra aleatoria simple de 100 jvenes, con los siguientes resultados: Sin depresin Con depresin Deportista 38 9 47 No deportista 31 22 53 69 31 100 L = (38 32,43)2/32,43 + (31 36,57)2/36,57 + (9 14,57)2/14,57 + (22 16,43)2/16,43 = 0,9567 + 0,8484 + 2,1293 + 1,8883 = 5,8227 El valor que alcanza el estadstico L es 5,8227. Buscando en la tabla terica de Chi Cuadrado para 1 grado de libertad se aprecia Lt = 3,84146 < 5,8227 lo que permite rechazar la hiptesis de independencia de caracteres con un nivel de significacin del 5%, admitiendo por tanto que la prctica deportiva disminuye el riesgo de depresin.
5.5 PRUEBAS DE CONTINGENCIA (ji-CUDRADA). La prueba chi-cuadrado de contingencia sirve para comprobar la independencia de frecuencias entre dos variables aleatorias, X e Y. Las hiptesis contrastadas en la prueba son: Hiptesis nula: X e Y son independientes. Hiptesis alternativa: X e Y no son independientes (No importa cul sea la relacin que mantengan ni el grado de esta. La condicin de independencia, tal como fue definida en la pgina anterior era: X e Y son independientes si y slo si para cualquier pareja de valores x e y la probabilidad de que X Gnero Cerveza
6.12710104 o f e f ) ( e o f f 2 ) ( e o f f ij e o e f f / ) ( 2
tome el valor x e Y el valor y, simultneamente, es igual al producto de las probabilidades
de que cada una tome el valor correspondiente.
Por tanto, todo lo que necesitamos sern unas estimas de las funciones de probabilidad de ambas variables por separado (f(x) y f(y)) y de la funcin de probabilidad conjunta (f(x,y)) Empezaremos la prueba tomando una muestra de parejas de valores sobre la que contaremos la frecuencia absoluta con la que aparece cada combinacin de valores (x i ,y j ) o de grupos de valores (i,j) (O ij ) La tabla siguiente, en la que se recogen estos datos, es en realidad nuestra estimacin de la funcin de probabilidad conjunta multiplicada por el nmero total de datos (T).
Para obtener las estimas de las funciones de probabilidad marginales debemos sumar por filas y por columnas los valores de las frecuencias conjuntas. Las sumas de filas (F i ) son, en cada caso, el nmero de veces que hemos obtenido un valor de X (x i ) en cualquier combinacin con distintos valores de Y, es decir, son nuestra estima de la funcin de probabilidad de X multiplicada por el nmero total de observaciones; anlogamente, las sumas de columnas (C j ) son nuestra estima de la funcin de probabilidad de Y multiplicada por el nmero total de observaciones. El nmero total de observaciones lo podemos obtener como la suma de todas las frecuencias observadas o, tambin, como la suma de las sumas de filas o de las sumas de columnas:
As pues, si las variables fueran independientes debera cumplirse que
Naturalmente, nadie espera que esta condicin se cumpla exactamente debido al efecto de los errores de muestreo aleatorio. Por tanto, nuestro problema consiste en distinguir entre las diferencias producidas por efecto del muestreo y diferencias que revelen falta de independencia. Podemos convertir la ecuacin anterior a frecuencias absolutas multiplicando por T: Si X e Y son independientes, O ij debe ser igual a y, por tanto, Bajo la hiptesis de independencia, es el valor esperado de O ij (E ij ) Tal como pasaba en la prueba anterior, si las variables son independientes, es decir, si las frecuencias E ij son realmente los valores esperados de las frecuencias O ij , se puede calcular un parmetro que depende de ambas que tiene distribucin chi-cuadrado,
Por otra parte, si las variables no son independientes, las diferencias entre las series de frecuencias observadas y esperadas sern mayores que las atribuibles al efecto del azar y, al estar elevadas al cuadrado en el numerador de la expresin anterior, sta tender a ser mayor que lo que suele ser el valor de una variable chi-cuadrado.
Por tanto, el parmetro anterior ser el estadstico de la prueba de hiptesis y la regin crtica se encontrar siempre en la cola derecha de la distribucin chi-cuadrado. Nuevamente, esta prueba ser siempre de una sola cola. Estadstico de contraste Se acepta la hiptesis nula si , el percentil 1 de la distribucin chi-cuadrado con grados de libertad. Tal como ocurra en la prueba anterior lo corriente es que queramos demostrar que dos variables son independientes, es decir, que, habitualmente, nos veremos obligados a colocar nuestra hiptesis en la hiptesis nula. El nmero de grados de libertad de la chi- cuadrado que sirve de contraste se calcula de la siguiente forma: A priori tendremos tantos grados de libertad como combinaciones de valores x i , y j
tengamos (I J) A este nmero tendremos que restarle I debido a que, para calcular las frecuencias esperadas, necesitamos calcular las I sumas de filas en la tabla anterior. Conocidas las sumas de filas obtenemos el nmero total de observaciones sin perder ningn grado de libertad. A continuacin, necesitaremos calcular, a partir de las frecuencias observadas J - 1 de las sumas de columnas; la restante podemos obtenerla restando la suma de las anteriores del total de observaciones (T). En resumen, el nmero de grados de libertad de la prueba es el producto del nmero de filas menos uno por el nmero de columnas menos uno.
En cuanto a la magnitud mnima necesaria de las frecuencias observadas y esperadas, rigen las mismas normas que en el caso de la prueba de ajuste. En este caso, si nos viramos obligados a juntar valores para sumar frecuencias, debemos unir columnas o filas completas (y contiguas). Obviamente, los grados de libertad no deben calcularse hasta que no se hayan realizado todas las agrupaciones necesarias y quede claro cul es el nmero de filas y columnas de la tabla definitiva. Como hemos visto, esta prueba no hace ninguna suposicin acerca del tipo de distribucin de ninguna de las variables implicadas y utiliza nicamente informacin de la muestra, es decir, informacin contingente. Esta es la razn por la que, habitualmente, se le llama chi-cuadrado de contingencia. 5.6 PRUEBAS DE BONDAD DE AJUSTE. Las pruebas de bondad de ajuste tienen por objetivo determinar si los datos se ajustan a una determinada distribucin, esta distribucin puede estar completamente especificada (hiptesis simple) o perteneciente a una clase paramtrica (hiptesis compuesta). Una hiptesis estadstica se defini como una afirmacin o conjetura acerca de la distribucin f(x,q) de una o ms variables aleatorias. Igualmente se plante que la distribucin poda tener uno o ms parmetros desconocidos, que denotamos por q y que la hiptesis se relaciona con este parmetro o conjunto de parmetros En otros casos, se desconoce por completo la forma de la distribucin y la hiptesis entonces se relaciona con una distribucin especfica f(x,q) que podamos asignarle al conjunto de datos de la muestra. El primer problema, relacionado con los parmetros de una distribucin conocida o supuesta es el problema que hemos analizado en los prrafos anteriores. Ahora examinaremos el problema de verificar si el conjunto de datos se puede ajustar o afirmar que proviene de una determinada distribucin. Las pruebas estadsticas que tratan este problema reciben el nombre general de Pruebas de Bondad de Ajuste. Se analizarn dos pruebas bsicas que pueden aplicarse: La prueba Chi - Cuadrado y la prueba de Smirnov-Kolmogorov. Ambas pruebas caen en la categora de lo que en estadstica se denominan pruebas de Bondad de Ajuste y miden, como el nombre lo indica, el grado de ajuste que existe entre la distribucin obtenida a partir de la muestra y la distribucin terica que se supone debe seguir esa muestra. Ambas pruebas estn basadas en la hiptesis nula de que no hay diferencias significativas entre la distribucin muestral y la terica. Ambas pruebas estn basadas en las siguientes hiptesis: H0: f(x,q) = f0(x,q) H1: f(x,q) f0(x,q) Donde f0(x, q) es la distribucin que se supone sigue la muestra aleatoria. La hiptesis alternativa siempre se enuncia como que los datos no siguen la distribucin supuesta. Si se desea examinar otra distribucin especfica, deber realizarse de nuevo la otra prueba suponiendo que la hiptesis nula es esta nueva distribucin. Al especificar la hiptesis nula, el conjunto de parmetros definidos por q puede ser conocido o desconocido. En caso de que los parmetros sean desconocidos, es necesario estimarlos mediante alguno de los mtodos de estimacin analizados con anterioridad. Para formular la hiptesis nula debern tenerse en cuenta los siguientes aspectos o criterios: a) La naturaleza de los datos a analizar. Por ejemplo, si tratamos de investigar la distribucin que siguen los tiempos de falla de unos componentes, podramos pensar en una distribucin exponencial, o una distribucin gama o una distribucin Weibull, pero en principio no consideraramos una distribucin normal. Si estamos analizando los caudales de un ro en un determinado sitio, podramos pensar en una distribucin logartmica normal, pero no en una distribucin normal. b) Histograma. La forma que tome el histograma de frecuencia es quizs la mejor indicacin del tipo de distribucin a considerar.
5.7 APLICACIONES. Para la ocurrencia de dos eventos, en la cual se desea observar si son dependientes o independientes. La distribucin ji cuadrada sirve para todas las inferencias sobre la variancia de una poblacin. Existen muchos problemas para los cuales los datos son categorizados y los resultados expuestos en forma de conteos o cuentas. Se pueden aplicar en: un conjunto de calificaciones de un examen final puede ser representado como una distribucin de frecuencias. Estos valores son cuentas: l numera de datos que caen en cada celda. En una encuesta determinada se podra preguntar a unas personas si votaran por los candidatos A, B o C, por lo general, los resultados se indican en una grfica que informa acerca del nmero de votantes para cada categora posible.
Ejercicios de Análisis de Varianza Con Un Solo Factor, Utilidad Proporcionada Por Tres Comisionistas, Promotores Que Rentan Equipos de Revolvedoras, Métodos de Trabajo