Sunteți pe pagina 1din 12

TRABAJO COLABORATIVO No.

Presentado por: EDUARDO AGUDELO OROZCO 4514673 JUAN CARLOS VARON QUIROGA MARIO VEGA ARCE. OMAR ANDRES SIERRA CASTRO CODIGO: 7170198

TUTOR: DANYS BRITO GRUPO: 100403_2

CURSO INFERENCIA ESTADISTICA

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD FACULTDAD DE INGENIERIA Y CIENCIAS BASICAS SEPTIEMBRE DE 2011

INTRODUCCION

Este trabajo es elaborado para afianzar los conceptos manejados en el curso de Inferencia Estadstica de la UNAD, la elaboracin del trabajo es de forma colaborativa, participando activamente en el foro, y desarrollando los ejercicios para resolver de la gua.

OBJETIVOS Aplicar los fundamentos tericos en los que se basa la prueba de hiptesis estadstica, considerada como alternativa para toma de decisiones. Explicar los elementos conceptuales esenciales que tiene la inferencia estadstica en las pruebas de hiptesis. Aprender a solucionar problemas de inferencia estadstica.

1. Establezca la diferencia entre: Nivel de significacin y potencia de una prueba; pruebas

paramtricas y pruebas No paramtricas NIVEL DE SIGNIFICACION Es la mxima probabilidad de error que estamos dispuestos aceptar para dar como vlida nuestra hiptesis del investigador POTENCIA DE UNA PRUEBA Es una medida muy descriptiva y concisa de la sensibilidad de una prueba estadstica, donde se entiende por sensibilidad a la capacidad de una prueba para detectar diferencias. Puede interpretarse como la probabilidad de rechazar de manera correcta una hiptesis nula falsa Probabilidad de una hiptesis Nula no sea rechazada cuando de hecho es falsa y debera rechazrsela; es decir una medida de que tan bien funciona la prueba de hiptesis Depende de que tan diferente en realidad es la media verdadera de la poblacin del valor supuesto La potencia de prueba estadstica depende de que tan diferente en realidad es la media verdadera de la verdadera de la poblacin del valor supuesto Depende de la diferencia entre los valores supuestos y real del real de la poblacin

Probabilidad de tomar la decisin de rechazar la hiptesis nula cuando esta es verdadera La decisin de toma a menudo utilizando el valor P ( p_valor) Cuando menor sea el valor de significativita, mas fuerte ser la evidencia de que un hecho no se debe a una mera coincidencia ( al Azar) Test de significacin estadstica que cuantifican hasta qu punto la variabilidad de la muestra puede ser responsable de los resultados de un estudio en particular Cuando ms grande sea la diferencia entre las dos variables , mas fcil es demostrar que la diferencia es significativa Cuando ms grande sea el tamao de la muestral mas fcil es detectar diferencias entre las mismas

La potencia de una prueba aumenta cuando el tamao del efecto aumenta Un aumento del tamao en la muestra escogida tendra como resultado un aumento en la potencia de la prueba , una disminucin en el tamao de la muestra seleccionada tendra como resultado una disminucin en la potencia PRUEBAS NO PARAMENTRICAS Requieren que los datos estn en escala nominal u ordinal. En estas pruebas no se presupone una distribucin de probabilidad para los datos, por ello se conocen tambin como de distribucin libre En la mayor parte

PRUEBAS PARAMENTRICAS Requieren de variables medidas en la escala de razn o intercalar y de anlisis de un parmetro de la poblacin y otros requisitos que dependen de la prueba en especfico.

Estas pruebas comparan los grupos a travs de una medida de tendencia central (parmetro): la media aritmtica.

de ellas los resultados estadsticos se derivan nicamente a partir de procedimientos de ordenacin y recuento, por lo que su base lgica es de fcil comprensin

2. Para tomar la decisin en un contraste de hiptesis se puede comparar el P-Valor con el nivel de significacin. Explique cules son las condiciones en trminos de magnitud de estos factores para rechazar una hiptesis unilateral derecha o unilateral izquierda.

Tomar la decisin de aceptar la hiptesis nula Ho si el valor experimental cae en la regin de aceptacin y rechazarla si dicho valor cae en la regin crtica o de rechazo. Opcional: Si se rechaza la hiptesis nula H0, se puede hallar un intervalo de confianza para el parmetro de inters.

2. EL TAMAO DE UNA MUESTRA PARA REALIZAR INFERENCIA ESTADSTICA DEPENDE DE UNOS FACTORES, (LA CONFIABILIDAD, LA VARIANZA Y EL ERROR DE ESTIMACIN), QUE LA DETERMINAN. EXPLIQUE LOS CRITERIOS QUE TIENE UN INVESTIGADOR PARA LA DETERMINACIN DE ESTOS FACTORES. El nivel de confianza que queramos que alcancen nuestros resultados tambin influye en el tamao que debamos dar a la muestra. Entre +2 y -2 sigmas de la curva de distribucin normal de Gauss, a partir de la media, est incluido el 95.5% de la poblacin. Esto quiere decir que tenemos una probabilidad de que 955/1000 coincidan con los de la poblacin total. Si queremos alcanzar una mayor certidumbre hemos de abarcar entre +3 y -3 sigmas, en cuyo caso el riesgo de que exista diferencia entre los estadsticos de la muestra y los parmetros de la poblacin sean distintos ser de 997/100, pero naturalmente tendremos que elevar el nmero de elementos de la muestra. Para determinar el volumen de la muestra, de acuerdo con el nivel de confianza, existen tablas. Bugeda (1974) recoge tablas que permiten determinar el volumen de la muestra y el nivel de estimacin para los niveles de confianza del 99.7% y del 95%. La varianza es la desviacin estndar al cuadrado. La variancia y la desviacin estndar te dan una idea de tu muestra y de su distribucin (teniendo en cuenta que sea normal) (en caso de no ser normal estaramos hablando de Mediana y Espacio intercuartil IQR). Lo puedes usar para detectar outliers (valores fuera de lo normal). Por ejemplo, un valor que sea mayor a la Media + 3 SD ya empieza a considerase un outlier. Cuando la varianza es muy grande, tu muestra raramente tendr una distribucin normal... Error de estimacin. Es lgico pensar que no haya una coincidencia total entre los datos de la poblacin y los de la muestra. Hemos de indicar el mximo error tolerable, que suele establecerse en el 5%. Pero si queremos rebajar ese error tendremos que aumentar el volumen de la muestra Para determinar el volumen de la muestra, de acuerdo con el nivel de confianza, existen tablas. Bugeda (1974) recoge tablas que permiten determinar el volumen de la muestra y el nivel de estimacin para los niveles de confianza del 99.7% y del 95%. La varianza es la desviacin estndar al cuadrado. La

variancia y la desviacin estndar te dan una idea de tu muestra y de su distribucin (teniendo en cuenta que sea normal) (en caso de no ser normal estaramos hablando de Mediana y Espacio intercuartil IQR). Lo puedes usar para detectar outliers (valores fuera de lo normal). Por ejemplo, un valor que sea mayor a la Media + 3 SD ya empieza a considerase un outlier. Cuando la varianza es muy grande, tu muestra raramente tendr una distribucin normal... Error de estimacin. Es lgico pensar que no haya una coincidencia total entre los datos de la poblacin y los de la muestra. Hemos de indicar el mximo error tolerable, que suele establecerse en el 5%. Pero si queremos rebajar ese error tendremos que aumentar el volumen de la muestra 3. QU SIGNIFICAN EL ERROR TIPO I Y EL ERROR TIPO II. EXPLIQUE SU INTERPRETACIN CON UN EJEMPLO Error de tipo I: tambin llamado error de tipo alfa, que es la probabilidad de que ocurra este error, es el error que se comete cuando el investigador rechaza la hiptesis nula (Ho) siendo sta verdadera en la poblacin. Es equivalente a encontrar un resultado falso positivo, porque el investigador llega a la conclusin de que existe una diferencia entre las hiptesis cuando en realidad no existe. Error de tipo II: tambin llamado error de tipo beta (aunque beta es la probabilidad de que exista ste error), se comete cuando el investigador no rechaza la hiptesis nula siendo sta falsa en la poblacin. Es equivalente a la probabilidad de un resultado falso negativo, ya que el investigador llega a la conclusin de que ha sido incapaz de encontrar una diferencia que existe en la realidad. Ejemplo: se tienen dos cajas, caja A y caja B. La caja A tiene 40 fichas con el nmero 1; 50 fichas con el nmero 10 y 10 fichas con el nmero 100. La caja B tiene 40 fichas con el nmero 100; 50 fichas con el nmero 10 y 10 fichas con el nmero 1. Se elige una caja al azar, y de ella se saca una ficha. Usted no sabe si es la caja A o la caja B. Se tiene las hiptesis: Ho: la caja es la A H1: la caja es la B Se establece la regla de decisin: rechazar la hiptesis nula si la ficha es de 100. FICHAS # DE FICHAS EN LA CAJA A 40 50 10 # DE FICHAS EN LA CAJA B 10 50 40 1 10 100 Cul es la probabilidad de cometer el error tipo I? La probabilidad de cometer el error tipo I es el nivel de significacin : = P (rechazar Ho/Ho es verdadera) = P (sacar una ficha de 100 de la caja A) = 10/100 = 0,10 Cual es la probabilidad de cometer el error tipo II? La probabilidad de cometer el error tipo II es : = P (aceptar Ho/H1 es verdadera) = P (sacar una ficha de 1 o de 10 de la caja B) = 60/100} = 0,60

4 EXPLIQUE CULES SON LOS SUPUESTOS DE HOMOGENEIDAD, HOMOCEDASTICIDAD, INDEPENDENCIA Y NORMALIDAD, QUE DEBEN CUMPLIRSE PARA VALIDAR UN ANLISIS DE VARIANZAS. El ANOVA parte de algunos supuestos que han de cumplirse: La variable dependiente debe medirse al menos a nivel de intervalo. Independencia de las observaciones. La distribucin de los residuales debe ser normal. Homocedasticidad: homogeneidad de las varianzas.

La tcnica fundamental consiste en la separacin de la suma de cuadrados (SS, 'sum of squares') en componentes relativos a los factores contemplados en el modelo. Como ejemplo, mostramos el modelo para un ANOVA simplificado con un tipo de factores en diferentes niveles. (Si los niveles son cuantitativos y los efectos son lineales, puede resultar apropiado un anlisis de regresin lineal) SSTotal = SSError + SSFactores El nmero de grados de libertad (gl) puede separarse de forma similar y se corresponde con la forma en que la distribucin chi-cuadrado describe la suma de cuadrados asociada. glTotal = glError + glFactores 6 ESTABLEZCA LAS CONSIDERACIONES QUE DEBEN HACERSE PARA

SELECCIONAR ENTRE UN MODELO PARAMTRICO O SU CORRESPONDIENTE NO PARAMTRICO. LOS MTODOS NO PARAMTRICOS TIENEN VENTAJAS SOBRE LOS PARAMTRICO. Los mtodos paramtricos en muchas ocasiones no cumplen con los supuestos acerca de la forma funcional del conjunto de variables aleatorias de las cuales provienen los datos, produciendo as modelos no muy confiables que generan sesgos y deterioran la calidad de los pronsticos. En el campo no paramtrico se evita este problema al permitir una forma funcional flexible, y no un conjunto pequeo de modelos rgidos como lo hacen los paramtricos. Consideraciones de las pruebas no paramtricas sobre las pruebas paramtricas: Por lo general, son fciles de usar y entender. Eliminan la necesidad de suposiciones restrictivas de las pruebas paramtricas. Se pueden usar con muestras pequeas. Se pueden usar con datos cualitativos. Consideraciones de las pruebas paramtricas sobre las pruebas no paramtricas: A veces, ignoran, desperdician o pierden informacin. No son tan eficientes como las paramtricas.

Llevan a una mayor probabilidad de no rechazar una hiptesis nula falsa (incurriendo en un error de tipo II). Por lo general, las pruebas paramtricas son ms poderosas que las pruebas no paramtricas y deben usarse siempre que sea posible. Es importante observar, que aunque las pruebas no paramtricas no hacen suposiciones sobre la distribucin de la poblacin que se muestrea, muchas veces se apoyan en distribuciones mustrales como la normal o la ji cuadrada.

7. UNA DE LAS OPCIONES QUE TIENE LA ESTADSTICA PARA REALIZAR INFERENCIA SOBRE LOS PARMETROS DE UNA POBLACIN ES LA PRUEBA DE HIPTESIS. EXPLIQUE LAS VENTAJAS Y DESVENTAJAS CON RESPECTO AL OTRO MTODO DE ESTIMACIN. La prueba de hiptesis es un procedimiento de toma de decisiones, relacionada principalmente con la eleccin de una accin entre dos conjuntos posibles de valores del parmetro, es decir, en dos hiptesis estadsticas, a las cuales llamaremos: Hiptesis nula H0 Corresponde a la ausencia de una modificacin en la variable investigada, y por lo tanto se especifica de una forma exacta: H0 : = 0 Hiptesis alternativa H1 Se especifica de manera ms general H1: H1: >
0

H1: < 0. Las caractersticas que hacen de un estimador un buen mtodo 1. Imparcialidad. Se refiere al hecho de que una media de muestra es un estimador no sesgado de una media de poblacin, porque la media de distribucin de muestreo de las medias de muestras tomadas de la misma poblacin es igual a la media de la poblacin misma. Podemos decir que una estadstica es un estimador imparcial (o no sesgado) si, en promedio, tiende a tomar valores que estn por encima del parmetro de la poblacin y la misma extensin con la que tiende a asumir valores por debajo del parmetro de poblacin que se est estimando. 2. Eficiencia. Se refiere al tamao del error estndar de la estadstica. Si comparamos dos estadsticas de una muestra del mismo tamao y tratamos de decidir cul de ellas es un estimador ms eficiente, escogeramos la estadstica que tuviera el menor error estndar o la menor desviacin estndar de la distribucin de muestreo. Tiene sentido pensar que un estimador con un error estndar menor (con

menos desviacin) tendr una mayor oportunidad de producir una estimacin ms cercana al parmetro de poblacin que se est considerando. 3. Coherencia. Una estadstica es un estimador coherente de un parmetro de poblacin si al aumentar el tamao de la muestra, se tiene casi la certeza de que el valor de la estadstica se aproxima bastante al valor del parmetro de la poblacin. Si un estimador es coherente, se vuelve ms confiable si tenemos tamaos de muestras ms grandes. 4. Suficiencia. Un estimador es suficiente si utiliza una cantidad de la informacin contenida en la muestra que ningn otro estimador podra extraer informacin adicional de la muestra sobre el parmetro de la poblacin. 8. LOS DOS MTODOS NO PARAMTRICO PARA REALIZAR UNA BONDAD DE AJUSTE DE LOS DATOS DE UNA VARIABLE CON RESPECTO A UNA DISTRIBUCIN DE PROBABILIDAD SON: EL DE CHI-CUADRADO Y EL DE KOLMOGOROV SMIRNOV. EXPLIQUE EN QU CONDICIONES DEBE USARSE CADA UNO DE ELLOS. La prueba Chi-cuadrado es otro tipo de prueba que se utiliza para contrastar hiptesis, usada en aquellos casos en que se asume que la distribucin de datos no se ajusta a la distribucin normal, y por lo tanto no es significativo usar t de Student. Se asume que cuanto menor sea el valor de chi-cuadrado calculado ms se aproximan entre si los comportamientos de las dos muestras (cuando son dos), o mejor se aproxima el comportamiento de una sola muestra al valor hipottico de la media asumido para la poblacin. a prueba Kolmogorov - Smirnov debe usarse cuando la variable de anlisis es continua. Sin embargo, si la prueba se usa cuando la distribucin de la poblacin no es continua, el error que ocurre en la probabilidad resultante est en la direccin segura. Es decir, cuando se rechaza la hiptesis nula, tenemos verdadera confianza en la decisin. Tambin puede aplicarse para tamaos de muestra pequeos, lo que no sucede con la chi cuadrado. 9. EL ANLISIS DE VARIANZA ES UNA TCNICA ESTADSTICA UTILIZADA PARA MEDIR EL EFECTO QUE TIENE CADA UNO DE LOS NIVELES EN QUE SE CLASIFICA UNA VARIABLE SOBRE OTRA VARIABLE QUE REPRESENTA LAS REPUESTAS A LAS MEDICIONES REALIZADAS UNA EXPERIMENTACIN. EXPLIQUE LAS CONDICIONES QUE SE DEBEN IMPONER A LAS DOS VARIABLES Y LOS SUPUESTOS QUE DEBEN CUMPLIRSE PARA QUE TENGA VALIDEZ EL USO DE ESTA TCNICA. Para utilizar el ANOVA de forma satisfactoria deben cumplirse tres tipos de hiptesis, aunque se aceptan ligeras desviaciones de las condiciones ideales:

1. Cada conjunto de datos debe ser independiente del resto.

2. Los resultados obtenidos para cada conjunto deben seguir una distribucin normal. 3. Las varianzas de cada conjunto de datos no deben diferir de forma significativa. Cuando se utiliza la tcnica anova se deben cumplir los siguientes supuestos: a. Las personas de los diversos subgrupos deben seleccionarse mediante el muestreo aleatorio, a partir de poblaciones normalmente distribuidas. b. La varianza de los subgrupos debe ser homognea. c. Las muestras que constituyen los grupos deben ser independientes. A menos de que las muestras sean independientes, y que por lo tanto, generen estimaciones de varianza independientes, la razn de las varianzas inter e intra no adoptar la distribucin F. El anlisis de la varianza es un mtodo para comparar dos o ms medias, que es necesario porque cuando se quiere comparar ms de dos medias es incorrecto utilizar repetidamente el contraste basado en la t de Student por dos motivos: n primer lugar, y como se realizaran simultnea e independientemente varios contrastes de E hiptesis, la probabilidad de encontrar alguno significativo por azar aumentara. En cada contraste se rechaza la H0 si la t supera el nivel crtico, para lo que, en la hiptesis nula, hay una probabilidad. Si se realizan m contrastes independientes, la probabilidad de que, en la iptesis nula, ningn estadstico h supere el valor) crtico es (1 - m) , por lo tanto, la probabilidad de que alguno lo supere es 1 - (1 m, que para valores m. Una primera solucin, denominadaprximos a 0 es aproximadamente igual a de mtodo de Bonferroni, consiste en bajar el valor /m, aunque resulta un mtodo muy conservador., usando en su lugar de. En segundo lugar, en cada comparacin la hiptesis nula es que las dos muestras provienen de la misma poblacin, por lo tanto, cuando se hayan realizado todas las comparaciones, la hiptesis nula es que todas las muestras provienen de la misma poblacin y, sin embargo, para cada comparacin, la estimacin de la varianza necesaria para el contraste es distinta, pues se ha hecho en base a muestras distintas. 10. EXISTEN DOS TIPOS DE MODELO DE ANLISIS DE VARIANZA: DE EFECTOS FIJOS Y DE EFECTOS ALEATORIOS. EXPLIQUE EL SIGNIFICADO CADA UNO DE ELLOS EN UN ANLISIS DE VARIANZA. Los modelos de regresin de datos anidados, realizan distintas hiptesis sobre el comportamiento de los residuos, el ms elemental y el ms consistente es el de Efectos Fijos. Este modelo es el que implica menos suposiciones sobre el comportamiento de los residuos. Los niveles de estos efectos (fijos) incluyen la totalidad de las posibilidades y se definen por el experimentador (que es quien decide, qu tratamientos se comparan. En los modelos de efectos aleatorios, los niveles de cada efecto son resultado de una seleccin al azar. Por ejemplo, el efecto Hospital en la evaluacin de un tratamiento puede incluir tres hospitales seleccionados al azar entre los hospitales de una determinada comunidad. CONCLUSIONES

Gracias a la lectura del Modulo de inferencia estadstica, al obtener los conceptos bsicos, logramos el desarrollo de la actividad No 2, en el foro participativo, en el cual con la integracin de los compaeros logramos entregar terminado este trabajo. Este trabajo es la aplicacin de los conceptos obtenidos y se formo un aprendizaje sobre cmo resolver problemas de inferencia estadstica.

BIBLIOGRAFIA

Modulo Inferencia Estadstica, Jorge Eliecer Rondon Duran, Danis Brito Rosado

S-ar putea să vă placă și