Sunteți pe pagina 1din 15

Universidad nacional abierta y a distancia - Unad

ACTIVIDAD 8 TRABAJO COLABORATIVO 2

DIANA MILENA LARA RODRIGUEZ YULY ANDRA HERNNDEZ KAREN YISETH ALARCON HERNANDEZ GERLEIN YESITH GOMEZ BELTRAN

INFERENCIA ESTADSTICA

DANYS BRITO Tutor

GRUPO 100403_99

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD MAYO DE 2011

Universidad nacional abierta y a distancia - Unad

INTRODUCCION

Luego de abordar varios contenidos relacionados con inferencia estadstica, ahora estudiaremos temas como la prueba de hiptesis como una tcnica para analizar diferencias y tomar decisiones evaluando los riesgos que se tendrn al tomar dichas decisiones, el anlisis de varianza como constituyente del primer paso para el estudio de resultados y la estadstica no paramtrica en relacin con todas aquellas pruebas cuyas hiptesis se formulan independientemente de las distribuciones de probabilidad que siguen las variables

Universidad nacional abierta y a distancia - Unad

OBJETIVOS

1. 2. 3. 4. 5. 6.

Distinguir entre hiptesis nula y alternativa. Distinguir entre los riesgos de cometer un error del tipo I y un error del tipo II. Aplicar la metodologa de la prueba de hiptesis. Analizar el alcance de la tcnica del anlisis de varianza (ANOVA). Saber generar los datos necesarios para la aplicacin de pruebas no paramtricas. Conocer los pasos para la aplicacin de las pruebas estadsticas no paramtricas

Universidad nacional abierta y a distancia - Unad

DESARROLLO DE ACTIVIDADES

1. Establezca la diferencia entre: Nivel de significacin y potencia de una prueba; pruebas paramtricas y pruebas No paramtricas La diferencia entre Nivel de significancia y la potencia de una prueba es que el Nivel de Significacin es la probabilidad de error que estamos dispuestos aceptar, mientras en la Potencia est la probabilidad de rechazar la hiptesis nula cuando es falsa. En la potencia de una prueba el complemento de la probabilidad de cometer un error del tipo II se conoce como potencia de una prueba estadstica. La potencia de una prueba es la probabilidad de rechazar la hiptesis nula cuando de hecho esta es falsa y debera ser rechazada. En el nivel de significacin un parmetro, es decir una constante que puede ser determinada con ayuda de los modelos de probabilidad de una o varias poblaciones univariantes o multivariantes, y pretendemos desarrollar el siguiente contraste de hiptesis estadstica Las pruebas no paramtricas son aplicables a casi todos los casos, mientras que las pruebas paramtricas solo son aplicables bajo ciertas condiciones. En las pruebas paramtricas su clculo implica una estimacin de los parmetros de la poblacin con base en muestras estadsticas. Mientras ms grande sea la muestra ms exacta ser la estimacin, mientras ms pequea, ms distorsionada ser la media de las muestras por los valores raros extremos. En las pruebas no paramtrica su distribucin no puede ser definida a priori, pues son los datos observados los que la determinan. La utilizacin de estos mtodos se hace recomendable cuando no se puede asumir que los datos se ajusten a una distribucin conocida, cuando el nivel de medida empleado no sea, como mnimo, de intervalo. 2. El tamao de una muestra para realizar inferencia estadstica depende de unos factores, (la confiabilidad, la varianza y el error de estimacin), que la determinan. Explique los criterios que tiene un investigador para la determinacin de estos factores. Al seleccionar una muestra, si se sabe que sta constituye un subconjunto de la poblacin, debemos tener cuidado que la misma tenga las mismas propiedades de la poblacin y que obedezca a determinados argumentos, desde el punto de vista estadstico, para decir que la misma es una muestra representativa. En este sentido se considera una muestra al subconjunto representativo de la poblacin, que ha sido seleccionada de manera tcnica mediante un procedimiento denominado diseo de muestreo, para garantizar que dicha muestra es representativa de la poblacin, es decir, que las unidades seleccionadas en la muestra mediante un proceso aleatorio, hayan tenido igual probabilidad de haber sido seleccionadas para el anlisis.

Universidad nacional abierta y a distancia - Unad 3. Qu significan el error tipo I y el error tipo II. Explique su interpretacin con un ejemplo Error de tipo I (): Al realizar el test estadstico, podramos correr el riesgo de equivocarnos al rechazar la hiptesis nula. La probabilidad de rechazar la hiptesis nula cuando en realidad es verdadera (error de tipo I) se le denomina nivel de significacin y es la "p". Esta probabilidad de rechazar la hiptesis nula cuando es verdadera se le conoce tambin como error alfa. La "p" no es por tanto un indicador de fuerza de la asociacin ni de su importancia. La significacin estadstica es por tanto una condicin resultante del rechazo de una hiptesis nula mediante la aplicacin de una prueba estadstica de significacin. El nivel de significacin es el riesgo o la probabilidad que voluntariamente asume el investigador de equivocarse al rechazar la hiptesis nula, cuando en realidad es cierta. Este riesgo se establece normalmente en 0.05 0.01. El proceso de poner a prueba una hiptesis involucra una toma de decisiones para rechazar o no la hiptesis nula. Aunque los valores de la "p" son los de una variable continua, se utiliza para forzar una decisin cualitativa, tomando partido por una u otra hiptesis. Si p < 0.05 se considera significativo, en cuyo caso se rechaza la hiptesis nula y no significativo si p> 0.05 en cuyo caso no se rechaza. Una "p" pequea significa que la probabilidad de que los resultados obtenidos se deban al azar es pequea. Los sinnimos de la expresin estadsticamente significativos se muestran en la tabla uno. Recomendaciones para disminuir el error de tipo I: Disponer de una teora que gue la investigacin, evitando el "salir de pesca" con el ordenador buscando asociaciones entre variables. Disminuir el nmero de test estadsticos llevados a cabo en el estudio. Depurar la base de datos para evitar errores de valores extremos que puedan producir hallazgos significativos. Utilizar valores de alfa ms reducidos (0.01 0.001). Reproducir el estudio. Si al reproducir el estudio se obtienen resultados similares, estaremos ms seguros de no estar cometiendo el error de tipo I. Error de tipo II (): El riesgo alfa a ("p") indica la probabilidad de cometer un error de tipo I (falso positivo). El error de tipo I, es por lo tanto rechazar la Ho cuando en realidad es verdadera. Se podra considerar que para evitar este tipo de error deberamos de elegir un nivel de confianza ms elevado, sin embargo al aumentar el nivel de confianza aumenta la probabilidad de cometer el error de tipo II. El error de tipo II consiste en aceptar la hiptesis nula cuando es falsa y esto se conoce como el error de tipo II o Beta (b ) (falso negativo).

Universidad nacional abierta y a distancia - Unad En la ejecucin de un estudio determinado no es posible saber si estamos cometiendo el error de tipo I o error de tipo II, sin embargo hay una serie de recomendaciones que podramos seguir para disminuir dichos errores. Recomendaciones para disminuir el error de tipo II: Incrementar el tamao de la muestra. Estimar el poder estadstico del estudio. Incrementar el tamao del efecto a detectar. Incrementar el valor de alfa. Utilizar test paramtricos (ms potentes) en lugar de test no paramtricos EJEMPLO ERROR TIPO I EROR TIPO II El buen hbito de higiene bucal que deben tener las personas para una dentadura saludable es el tema de tesis que realiza un alumno de la carrera de Odontologa de la Universidad de Talca, y para ello, su estudio se centra en nios de 7 aos de edad que asisten a dos colegios A y B en la zona urbana de Talca, registrando la cantidad de cepillados diarios que realizan los nios:

Pero el alumno cuando completa sus fichas, no siempre registra el nombre del colegio al cual asiste el nio, y con la informacin previa propone el siguiente test de hiptesis: H0: El nio asiste al colegio A. H1: El nio asiste al colegio B. Para concluir, establece la siguiente regla de decisin: Rechazar H0

Universidad nacional abierta y a distancia - Unad Si el nio realiza a lo ms 1 cepillado diario. a. Probabilidad de cometer error tipo 1. Interprete. Respuesta: _ = P(rechazar H0/H0 es verdadera). _ = P(el nio realiza a lo ms 1 cepillado diario y que asiste al colegio A). _ = (2+3)/(2+3+7+9+10+14+16) = 5/61. _ = 0.0820. Existe una probabilidad del 8.20% de afirmar que el nio asiste al colegio B cuando en verdad asiste al colegio A. b. Probabilidad de cometer error tipo 2 Interprete. Respuesta: _ = P(aceptar H0/H1 es verdadera). _ = P(al nio realiza ms de 1 cepillado diario y que asiste al colegio B). _ = (11+8+5+4+1)/(15+13+11+8+5+4+1) = 29/57 4. Explique cules son los supuestos de homogeneidad, homocedasticidad, independencia y Normalidad, que deben cumplirse para validar un anlisis de varianzas. El Supuesto de Homogeneidad: se valida grficamente en un diagrama de dispersin de entre los residuales del eje (y), y si se cumple algn valor entonces no se cumple el supuesto de homogeneidad. El supuesto de homocedasticidad: es una propiedad fundamental del modelo de regresin lineal, y existe cuando la varianza de los errores estocsticos de la regresin es la misma para cada observacin. El Supuesto de independencia: se puede representar mediante un grfico de los residuales contra el orden en que se tomaron las observaciones. El supuesto de Normalidad: ocurre cuando el muestreo se realiza en poblaciones normales, y que exista evidencia de que se realizaron la prueba de Hartley, Cochran y Bartlet y son sensibles a la normalidad.

Universidad nacional abierta y a distancia - Unad 5. Comprueben a partir de dos muestras independientes de igual tamao de hombres y mujeres, la opinin de acuerdo o desacuerdo con algn tema de su inters, a travs del contraste de una hiptesis, en la se establezca si existen diferencias de opinin entre los hombres y mujeres sobre el tema de inters consultado. Interprete los resultados a que diere lugar este caso. Para dar respuesta a este caso utilice los pasos para el contraste de una hiptesis. En una prueba general realizada por todo el pueblo de un nivel de enseanza se han detectado diferencias que parecen significativas entre dos grupos, mujeres y hombres. El primero, de 67 mujeres, ha obtenido una media en la calificacin de 5,23, con una desviacin tpica de 1,78. En los hombres, compuesto de 58 pruebas realizadas, la media ha sido de 4,78 y la desviacin tpica de 1,60. No se tiene informacin sobre las caractersticas de la poblacin, ni de sus parmetros. Puede ser significativa la diferencia de rendimiento entre los dos generos, al 95% de nivel de confianza? Los contrastes de media presentan bastantes variantes, por lo que el mayor problema en ellos es elegir los supuestos y estadsticos ms adecuados. En este caso las muestras no estn relacionadas. Como adems son grandes, se puede suponer la normalidad de la poblacin. No se conoce la varianza de la poblacin y por tanto tampoco sabemos si las varianzas en ambos colectivos se pueden considerar iguales. As, estamos en el caso: Dos muestras independientes con varianzas de la poblacin desconocidas y sin que nos conste su igualdad. Si consultas la teora, el estimador en este caso es

Se supone que las dos desviaciones tpicas de la poblacin se sustituyen por sus estimadores insesgados, las cuasidesviaciones tpicas. En ese caso la distribucin del estadstico es aproximadamente normal. Acudimos a la hoja tmedia.ods y escribimos los datos (El modelo est preparado para aceptar la desviacin tpica, y no la cuasidesviacin) y supuestos en la hoja Dos medias (independientes): Elegimos un contraste bilateral porque no suponemos a priori que un grupo

Universidad nacional abierta y a distancia - Unad deba tener mejor rendimiento que otro. Despus marcamos "Son desconocidas y supuestas distintas"

Y obtenemos este resultado

Por tanto, las diferencias observadas entre los dos grupos no son significativas, pero por poco, porque el p-valor es muy pequeo 0,0699. Estaramos en un caso a revisar si se vuelve a pasar la misma prueba. Bastara que hubiramos decidido un contraste unilateral para que hubiramos rechazado la hiptesis. 6. Establezca las consideraciones que deben hacerse para seleccionar entre un modelo paramtrico o su correspondiente No paramtrico. Consideraciones de las pruebas no paramtricas: Por lo general, son fciles de usar y entender, eliminan la necesidad de suposiciones restrictivas de las pruebas paramtricas, se pueden usar con muestras pequeas y se pueden usar con datos cualitativos.

Universidad nacional abierta y a distancia - Unad Consideraciones de las pruebas paramtricas: A veces ignoran, desperdician o pierden informacin, no son tan eficientes como las paramtricas y llevan a una mayor probabilidad de no rechazar una hiptesis nula falsa (incurriendo en un error de tipo II). 7. Una de las opciones que tiene la estadstica para realizar inferencia sobre los parmetros de una poblacin es la prueba de hiptesis. Explique las ventajas y desventajas con respecto al otro mtodo de estimacin. El problema que presenta la estimacin puntual de un parmetro reside en que no garantiza ni mide la precisin de la estimacin. Slo la bondad de ajuste y el tamao de la muestra pueden proporcionar una mayor o menor confianza en la estimacin obtenida. Por esta razn es necesario dar, junto a la estimacin, una medida del grado de confianza que se merece, la cual se consigue mediante un intervalo de confianza que proporcione unos lmites dentro de los cuales se confa est el valor desconocido del parmetro. Esta confianza de inclusin se mide mediante un porcentaje. En estadstica muchos problemas exigen construir conjuntos (intervalos) que contengan el verdadero valor del parmetro en estudio con una probabilidad dada generalmente alta. Si por ejemplo X representa los grados de grasa de una margarina se puede estar interesado en encontrar los lmites bajos y altos aceptables para este tipo de producto; pero no se puede asegurar con probabilidad de uno que el verdadero valor se encuentre entre estos dos lmites, lo mximo que se puede lograr es elegir un nmero uno menos alfa (1t muy prximo a uno (recuerde que

alfa es el nivel de significacin o error tipo uno) tal que la probabilidad que el verdadero valor se encuentre entre estos dos lmites inferior y superior sea mayor o igual a uno menos alfa. En casos relacionados con situaciones especiales en las cuales se desea comprobar la efectividad de estndares preestablecidos, la tcnica de prueba de hiptesis resultaba bastante apropiada, por cuanto permite comprobar con bastante certeza el grado de acierto en la fijacin de stos. Una hiptesis estadstica se define como un supuesto hecho sobre algn parmetro de la poblacin y consiste en aplicar tcnicas estadsticas que permitan aceptar o rechazar una hiptesis. Este procedimiento se conoce como contraste de hiptesis La prueba de hiptesis consiste en aplicar tcnicas estadsticas que permitan aceptar o rechazar una hiptesis. Este procedimiento se conoce como contraste de hiptesis.

Universidad nacional abierta y a distancia - Unad 8. Los dos mtodos No paramtrico para realizar una bondad de ajuste de los datos de una variable con respecto a una distribucin de probabilidad son: El de Chi-cuadrado y el de Kolmogorov - Smirnov. Explique en qu condiciones debe usarse cada uno de ellos. Chi Cuadrado: Cuando los datos puntualizan a las escalas nominal u ordinal. Se utiliza solo la frecuencia y con poblaciones pequeas. Cuando se desconocen los parmetros media, moda, etc. Cuando los datos son independientes y se requiere contrastar o comparar hiptesis. Investigaciones de tipo social - muestras pequeas no representativas >5. Cuando se requiere de establecer el nivel de confianza o significatividad en las diferencias. Cuando la muestra es seleccionada no probabilsticamente. X2 permite establecer diferencias entre f y se utiliza solo en escala nominal. Kolmogorov Smirnov: Se aplica a distribuciones de tipo ordinal. Se usa para probar hiptesis acerca de distribuciones discretas. Se basa en calcular las diferencias, en valor absoluto, entre las frecuencias acumuladas relativas observadas y las esperadas, en cada clase. 9. El anlisis de varianza es una tcnica estadstica utilizada para medir el efecto que tiene cada uno de los niveles en que se clasifica una variable sobre otra variable que representa las repuestas a las mediciones realizadas una experimentacin. Explique las condiciones que se deben imponer a las dos variables y los supuestos que deben cumplirse para que tenga validez el uso de esta tcnica. ANOVA: Cada conjunto de datos debe ser independiente del resto. Los resultados obtenidos para cada conjunto deben seguir una distribucin normal. Las varianzas de cada conjunto de datos no deben diferir de forma significativa. Las personas de los diversos subgrupos deben seleccionarse mediante el muestreo aleatorio, a partir de poblaciones normalmente distribuidas. La varianza de los subgrupos debe ser homognea. Las muestras que constituyen los grupos deben ser independientes. A menos de que las muestras sean independientes, y que por lo tanto, generen estimaciones de varianza independientes, la razn de las varianzas inter e intra no adoptar la distribucin F 10. Existen dos tipos de modelo de anlisis de varianza: de efectos fijos y de efectos aleatorios. Explique el significado cada uno de ellos en un anlisis de varianza. Como su nombre lo indica, el ANALISIS DE VARIANZA, consiste en comparar tres o ms medias de una muestra para identificar su homogeneidad o variabilidad. Del anlisis de varianza, podemos decir que esta tcnica estadstica, normalmente es utilizada para analizar resultados en la investigacin con diseos experimentales y cuasi-experimentales; muchas veces necesitamos comparar dos o ms distribuciones que corresponden a variaciones de una misma variable dependiente, afectada por una o ms variables independientes. Tericamente es posible dividir la variabilidad del resultado de un experimento en dos partes: la originada por factores o tratamientos que influyen directamente en el resultado del experimento, y

Universidad nacional abierta y a distancia - Unad la producida por el resto de factores desconocidos o no controlables, que se conoce con el nombre de error experimental. Un modelo de anlisis de varianza es de efectos fijos cuando los resultados obtenidos slo son vlidos para esos determinados niveles del factor estudiado y lo que ocurra a otros niveles del factor puede ser diferente. Es decir el Modelo de efectos fijos asume que los datos provienen de poblaciones normales las cuales podran diferir nicamente en sus medias. Un modelo de anlisis de varianza es de efectos aleatorios cuando los resultados obtenidos son vlidos para cualquier nivel del factor estudiado. El Modelo de efectos aleatorios asume que los datos describen una jerarqua de diferentes poblaciones cuyas diferencias quedan restringidas por la jerarqua. Modelos de anlisis de la varianza El anova permite distinguir dos modelos para la hiptesis alternativa:modelo I o de efectos fijos en el que la H1 supone que las k muestras son muestras de k poblaciones distintas y fijas.modelo II o de efectos aleatorios en el que se supone que las k muestras, se hanseleccionado aleatoriamente de un conjunto de m>k poblaciones. Un ejemplo de modelo I de anova es el Ejemplo 1, porque en l se asume que existen cinco poblaciones (sin tratamiento, con poca sal, sin sal, etc.) fijas, de las que se han extrado las muestras. Un ejemplo de modelo II sera: un investigador est interesado en determinar el contenido, y sus variaciones, de grasas en las clulas hepticas de cobayas; toma del animalario 5 cobayas al azar y les realiza, a cada una, 3 biopsias hepticas. La manera ms sencilla de distinguir entre ambos modelos es pensar que, si se repitiera el estudio un tiempo despus, en un modelo I las muestras seran iguales (no los individuos que las forman) es decir corresponderan a la misma situacin, mientras que en un modelo II las muestras seran distintas. Modelo I o de efectos fijos Un valor individual se puede escribir en este modelo como m es la media global, ai es la constante del efecto, o efecto fijo, que diferencia a las k poblaciones. Tambin se puede escribir: representa la desviacin de la observacin j-sima de la muestra i-sima, con respecto a su media. A este trmino se le suele llamar error aleatorio y, teniendo en cuenta las asunciones iniciales del anlisis de la varianza son k variables (una para cada muestra), todas con una distribucin normal de media 0 y varianza s2. La hiptesis nula en este anlisis es que todas las medias son iguales que puede escribirse en trminos del modelo como: Como en H0 se cumplen las condiciones del apartado anterior se tratar de ver como se modifican las estimaciones de la varianza en H1. En H0 MSA y MSE son estimadores centrados de s2, es decir y usando el superndice 0 para indicar el valor de las variables en H0 E[MSA0] = s2 E[MSE0] = s2

Universidad nacional abierta y a distancia - Unad Se puede ver que MSE es igual en la hiptesis nula que en la alternativa. Por lo tanto: E[MSE] = E[MSE0] = s2 Sin embargo al valor esperado de MSA en la hiptesis alternativa se le aade un trmino con respecto a su valor en la hiptesis nula Al segundo sumando dividido por n se le llama componente de la varianza aadida por el tratamiento, ya que tiene forma de varianza, aunque estrictamente no lo sea pues ai no es una variable aleatoria. La situacin, por lo tanto, es la siguiente: en H0, MSA y MSE estiman s2; en H1, MSE estima s2 pero MSA estima . Contrastar la H0 es equivalente a contrastar la existencia de la componente aadida o, lo que es lo mismo, que MSE y MSA estimen, o no, la misma varianza. El estadstico de contraste es F=MSA/MSE que, en la hiptesis nula, se distribuye segn una F con k - 1 y (n - 1)k grados de libertad. En caso de rechazar la H0, MSA - MSE estima Modelo II o de efectos aleatorios En este modelo se asume que las k muestras son muestras aleatorias de k situaciones distintas y aleatorias. De modo que un valor aislado Yij se puede escribir como: donde m es la media global, eij son variables (una para cada muestra) distribuidas normalmente, con media 0 y varianza s2 (como en el modelo I) y Ai es una variable distribuida normalmente, independiente de las eij, con media 0 y varianza. La diferencia con respecto al modelo I es que en lugar de los efectos fijos ai ahora se consideran efectos aleatorios Ai. Igual que en el modelo I se encuentra que MSE no se modifica en la H1 y que al valor esperado de MSA se le aade el trmino de componente aadida (que aqu es una verdadera varianza ya que Ai es una variable aleatoria): Para llegar a este resultado se utiliza la asuncin de independencia entre Ai y eij y es, por tanto, muy importante en el modelo y conviene verificar si es correcta en cada caso. En el ejemplo de las cobayas significara que las variaciones de grasa en el hgado de cada cobaya son independientes de las variaciones entre cobayas. Esta asuncin se violara si, por ejemplo, en el animalario existieran 2 cepas genticas tales que en una de ellas la concentracin de grasa en las clulas hepticas fuera mayor y ms variable que en la otra.

Universidad nacional abierta y a distancia - Unad

CONCLUSIONES

Fuerza al investigador a profundizar en el conocimiento y dominio de las tcnicas de pruebas de hiptesis, instrumento muy utilizado en la actualidad. La ganancia en este respecto es considerable

Se amplan en forma tcnica, los criterios de decisin evitando con ello el utilizar uno solo con el consecuente problema de convertirlo en una norma absoluta que no se analiza ni se discute. Esto reviste singular inters en el momento presente en que se analizan y discuten diferentes temas de actualidad.

Con este trabajo nos Permiti identificar cada uno de los componentes que contiene un trabajo de investigacin y sus diferentes matices en cuanto su utilizacin en el entorno que se utilice.

Los diferentes modelos y su desarrollo nos permite tener una concepcin global de lo que es realmente el tema de la investigacin y su implementacin en cuanto a las hiptesis a manejar ya que es un componente que se puede incluir en cualquier aspecto de la vida cotidiana.

El uso de la estadstica es de gran importancia en la investigacin cientfica.

Casi todas las investigaciones aplicadas requieren algn tipo de anlisis estadstico para que sea posible evaluar sus resultados.

En algunos casos, para resolver un problema de carcter emprico, es preciso llevar a cabo un anlisis bastante complejo, otras veces, basta con efectuar un anlisis muy simple y directo.

La eleccin de uno u otro tipo de anlisis estadstico depende del problema que se plantee en el estudio as como la naturaleza de los datos.

La estadstica constituye un instrumento de investigacin y no un producto final.

Universidad nacional abierta y a distancia - Unad

BIBLIOGRAFA

Modulo de Inferencia Estadstica, UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA- UNAD

Inferencia Estadstica, MIGUEL NGEL GMEZ VILLEGAS Elementos de Inferencia Estadstica, CARLOS QUINTANA

S-ar putea să vă placă și