Copia de 56299268 Trabajo Colaborativo2 Final Infer en CIA A Infer en CIA A

Inferencia Estadstica
APORTE TRABAJO COLABORATIVO #2
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA (UNAD)
INTRODUCCIN Con el propsito de aplicar y comprender ms a fondo los conceptos estudiados en la Unidades correspondientes del Curso de Inferencia Estadstica , se propone el desarrollo de las siguientes
OBJETIVOS
Motivar al estudiante en el abordaje de los temas referentes a familiarizarse con conceptos bsicos abordados a lo largo de la Unidad. Realizar lecturas que permitan conceptualizar lo referente a telemtica
1. Establezca la diferencia entre: Nivel de significacin y potencia de una prueba; pruebas parmetricas y pruebas No parmetricas. R// Cuando planteamos un estudio sobre una poblacin, debemos idealmente estudiar a todos los individuos que la conforman; pero no siempre podemos acceder todos, entonces tenemos que escoger una muestra; sin embargo los resultados obtenidos de esta manera nunca sern exactamente iguales, a los que se obtendran de estudiar a toda la poblacin; es decir, siempre va a haber un margen de error. Por ello, antes de realizar el estudio debemos plantearnos; que proporcin de error estamos dispuestos a aceptar para da r por vlido nuestro resultado. El nivel de significancia: Es la mxima probabilidad de error que estamos dispuestos aceptar para dar como vlida nuestra hiptesis del investigador. Potencia de una prueba: es una medida muy descriptiva y concisa de la sens ibilidad de una prueba estadstica, donde se entiende por sensibilidad a la capacidad de una prueba para detectar diferencias. puede interpretarse como la probabilidad de rechazar de manera correcta una hiptesis nula falsa. Pruebas parmetricas: requieren de variables medidas en la escala de razn o intercalar y de anlisis de un parmetro de la poblacin y otros requisitos que dependen de la prueba en especfico. Estas pruebas comparan los grupos a travs de una medida de tendencia central (parmetro): la media aritmtica. Pruebas no parmetricas: requieren de que los datos estn en escala nominal u ordinal. En estas pruebas no se presupone una distribucin de probabilidad para los datos, por ello se conocen tambin como de distribucin libre (distribution free). En la mayor parte de ellas los resultados estadsticos se derivan nicamente a partir de procedimientos de ordenacin y recuento, por lo que su base lgica es de fcil comprensin. 2. El tamao de una muestra para realizar inferencia estadstica depen de de unos factores, (la confiabilidad, la varianza y el error de estimacin), que la determinan. Explique los criterios que tiene un investigador para la determinacin de estos factores. R// El nivel de confianza: que queramos que alcancen nuestros result ados tambin influye en el tamao que debamos dar a la muestra. Entre +2 y -2 sigmas de la curva de distribucin normal de Gauss, a partir de la media, est incluido el 95.5% de la poblacin. Esto quiere decir que tenemos una probabilidad de que 955/1000 c oincidan con los de la poblacin total. Si queremos alcanzar una mayor certidumbre hemos de abarcar entre +3 y -3 sigmas, en cuyo caso el riesgo de que exista diferencia entre los estadsticos de la muestra y los parmetros de la poblacin sean distintos ser de 997/100, pero naturalmente tendremos que elevar el nmero de elementos de la muestra. Para determinar el volumen de la muestra, de acuerdo con el nivel de confianza, existen tablas. Bugeda (1974) recoge tablas que permiten determinar el volumen de l a muestra y el nivel de estimacin para los niveles de confianza del 99.7% y del 95%. La varianza es la desviacin estndar al cuadrado. La variancia y la desviacin estndar te dan una idea
de tu muestra y de su distribucin (teniendo en cuenta que sea no rmal) (en caso de no ser normal estaramos hablando de Mediana y Espacio intercuartil IQR) . Lo puedes usar para detectar outliers (valores fuera de lo normal). Por ejemplo, un valor que sea mayor a la Media + 3 SD ya empieza a considerase un outlier. Cuan do la varianza es muy grande, tu muestra raramente tendr una distribucin normal... Error de estimacin. Es lgico pensar que no haya una coincidencia total entre los datos de la poblacin y los de la muestra. Hemos de indicar el mximo error tolerable, que suele establecerse en el 5%. Pero si queremos rebajar ese error tendremos que aumentar el volumen de la muestra. 3. Qu significan el error tipo I y el error tipo II. Explique su interpretacin con un ejemplo R// Error de tipo I: tambin llamado error de tipo alfa, que es la probabilidad de que ocurra este error, es el error que se comete cuando el investigador rechaza la hiptesis nula (Ho) siendo sta verdadera en la poblacin. Es equivalente a encontrar un resultado falso positivo, porque el investigador llega a la conclusin de que existe una diferencia entre las hiptesis cuando en realidad no existe. Error de tipo II: tambin llamado error de tipo beta (aunque beta es la probabilidad de que exista ste error), se comete cuando el investigador no rechaza la hiptesis nula siendo sta falsa en la poblacin. Es equivalente a la probabilidad de un resultado falso negativo, ya que el investigador llega a la conclusin de que ha sido incapaz de encontrar una diferencia que existe en la realidad. Ejemplo: se tienen dos cajas, caja A y caja B. La caja A tiene 40 fichas con el nmero 1; 50 fichas con el nmero 10 y 10 fichas con el nmero 100. La caja B tiene 40 fichas con el nmero 100; 50 fichas con el nmero 10 y 10 fichas con el nmero 1. Se elige una caja al azar, y de ella se saca una ficha. Usted no sabe si es la caja A o la caja B. Se tiene las hiptesis: Ho: la caja es la A H1: la caja es la B Se establece la regla de decisin: rechazar la hiptesis nula si la ficha es de 100. FICHAS # DE FICHAS EN LA CAJA A 40 50 10 # DE FICHAS EN LA CAJA B 10 50 40 1 10 100 Cul es la probabilidad de cometer el error tipo I? La probabilidad de cometer el error tipo I es el nivel de significacin : = P(rechazar Ho/Ho es verdadera) = P(sacar una ficha de 100 de la caja A) = 10/100 = 0,10 Cual es la probabilidad de cometer el error tipo II? La probabilidad de cometer el error tipo II es : = P(aceptar Ho/H1 es verdadera) = P(sacar una ficha de 1 o de 10 de la caja B) = 60/100} = 0,60
4. Explique cules son los supuestos de homogeneidad, homocedasticidad, independencia y Normalidad, que deben cumplirse para validar un anlisis de varianzas. R// El ANOVA parte de algunos supuestos que han de cumplirse: La variable dependiente debe medirse al menos a nivel de intervalo. Independencia de las observaciones. La distribucin de los residuales debe ser normal. Homocedasticidad: homogeneidad de las varianzas.
La tcnica fundamental consiste en la separacin de la suma de cuadrados (SS, 'sum of squares') en componentes relativos a los factores contemplados en el modelo. Como ejemplo, mostramos el modelo para un ANOVA simplificado con un tipo de factores en diferentes niveles. (Si los niveles son cuantitativos y los efectos son lineales, puede resultar apropiado un anlisis de regresin lineal) SSTotal = SSError + SSFactores El nmero de grados de libertad (gl) puede separarse de forma similar y se corresponde con la forma en que la distribucin chi -cuadrado describe la suma de cuadrados asociada. glTotal = glError + glFactores
5. Comprueben a partir de dos muestras independientes de igual tamao de hombres y mujeres, la opinin de acuerdo o desacuerdo con algn tema de su inters, a travs del contraste de una hiptesis, en la se establezca si existen diferencias de opinin entre los hombres y mujeres sobre el tema de inters consultado. Interprete los resultados a que diere lugar este caso. Para dar respuesta a este caso utilice los pasos para el contraste de una hiptesis. R// Una hiptesis estadstica es una asuncin relativa a una o varias poblaciones, que puede ser cierta o no. Las hiptesis estadsticas se pueden contrastar con la informacin extrada de las muestras y tanto si se aceptan como si se rechazan se puede cometer un error. La hiptesis formulada con intencin de rechazarla se llama hiptesis nula y se representa por H0. Rechazar H0 implica aceptar una hiptesis alternativa (H1). La situacin se puede esquematizar: H0 cierta H0 rechazada H0 no rechazada Error tipo I (a ) Decisin correcta H0 falsa H1 cierta Decisin correcta (*) Error tipo II (b )
(*) Decisin correcta que se busca a = p(rechazar H0|H0 cierta) b = p(aceptar H0|H0 falsa) Potencia =1-b = p(rechazar H0|H0 falsa) Detalles a tener en cuenta 1 a y b estn inversamente relacionadas. 2 S lo pueden disminuirse las dos, aumentando n. Los pasos necesarios para realizar un contraste relativo a un parmetro q son: 1. Establecer la hiptesis nula en trminos de igualdad 2. Establecer la hiptesis alternativa, que puede hacerse de tres maneras, d ependiendo del inters del investigador en el primer caso se habla de contraste bilateral o de dos colas, y en los otros dos de lateral (derecho en el 2 caso, o izquierdo en el 3) o una cola. 3. Elegir un nivel de significacin: nivel crtico para a 4. Elegir un estadstico de contraste: estadstico cuya distribucin muestral se conozca en H0 y que est relacionado con q y establecer, en base a dicha distribucin, la regin crtica: regin en la que el estadstico tiene una probabilidad menor que a si H0 fuera cierta y, en consecuencia, si el estadstico cayera en la misma, se rechazara H0. Obsrvese que, de esta manera, se est ms seguro cuando se rechaza una hiptesis que cuando no. Por eso se fija como H0 lo que se quiere rechazar. Cuando no se recha za, no se ha demostrado nada, simplemente no se ha podido rechazar. Por otro lado, la decisin se toma en base a la distribucin muestral en H0, por eso es necesario que tenga la igualdad. 5. Calcular el estadstico para una muestra aleatoria y compararlo con la regin crtica, o equivalentemente, calcular el "valor p" del estadstico (probabilidad de obtener ese valor, u otro ms alejado de la H0, si H0 fuera cierta) y compararlo con a. 6. Establezca las consideraciones que deben hacerse para seleccionar ent re un modelo paramtrico o su correspondiente No paramtrico. Los mtodos no paramtricos tienen ventajas sobre los paramtrico. R//. Los mtodos paramtricos en muchas ocasiones no cumplen con los supuestos acerca de la forma funcional del conjunto de var iables aleatorias de las cuales provienen los datos, produciendo as modelos no muy confiables que generan sesgos y deterioran la calidad de los pronsticos. En el campo no paramtrico se evita este problema al permitir una forma funcional flexible, y no u n conjunto pequeo de modelos rgidos como lo hacen los paramtricos. Consideraciones de las pruebas no parametricas sobre las pruebas parametricas: Por lo general, son fciles de usar y entender. Eliminan la necesidad de suposiciones restrictivas de las pruebas paramtricas. Se pueden usar con muestras pequeas. Se pueden usar con datos cualitativos.
Consideraciones de las pruebas parametricas sobre las pruebas no parametricas: A veces, ignoran, desperdician o pierden informacin. No son tan eficientes com o las paramtricas. Llevan a una mayor probabilidad de no rechazar una hiptesis nula falsa (incurriendo en un error de tipo II). Por lo general, las pruebas paramtricas son ms poderosas que las pruebas no paramtricas y deben usarse siempre que sea posi ble. Es importante observar, que aunque las pruebas no paramtricas no hacen suposiciones sobre la distribucin de la poblacin que se muestrea, muchas veces se apoyan en distribuciones muestrales como la normal o la ji cuadrada. 7. Una de las opciones que tiene la estadstica para realizar inferencia sobre los parmetros de una poblacin es la prueba de hiptesis. Explique las ventajas y desventajas con respecto al otro mtodo de estimacin. R//. La prueba de hiptesis es planear una hiptesis y saber si la hiptesis nula es verdadera o no, como tambin si se acepta mejor la hiptesis alternativa. En otras palabras es verificar el proceso y ver si est la bien. Tambin que la prueba de hiptesis que vimos hoy es que se tomaba 2 observaciones para ver si son las mismas.
8. Los dos mtodos No paramtricos para realizar una bondad de ajuste de los datos de una variable con respecto a una distribucin de probabilidad son: El de Chi cuadrado y el de Kolmogorov Smirnov. Explique en que condiciones debe usarse cada uno de ellos. R// CHI CUADRADO Se utiliza cuando: Cuando los datos puntualizan a las escalas nominal u ordinal. Se utiliza solo la frecuencia. Poblaciones pequeas. Cuando se desconocen los parmetros media, moda, etc.
Cuando los datos son independientes. Cuando se quiere contrastar o comparar hiptesis. Investigaciones de tipo social - muestras pequeas no representativas >5.
Cuando se requiere de establecer el nivel de confianza o significatividad en las diferencias. Cuando la muestra es seleccionada no probabilsticamente. X2 permite establecer diferencias entre f y se utiliza solo en escala nominal. Poblacin > a 5 y < a 20.
KOLMOGOROV SMIRNOV
La prueba KOLMOGOROV SMIRNOV se aplica a distribuciones de tipo ordinal. Tambin se usa para probar hiptesis acerca de distribuciones discretas. Se basa en calcular las diferencias, en valor absoluto, entre las frecuencias acumuladas relativas observadas y las esperadas, en cada clase. 9. El anlisis de varianza es una tcnica estadstica utilizada para medir el efecto que tiene cada uno de los niveles en que se clasifica una variable sobre otra variable que representa las repuestas a las mediciones re alizadas una experimentacin. Explique las condiciones que se deben imponer a las dos variables y los supuestos que deben cumplirse para que tenga validez el uso de esta tcnica. R//. Para utilizar el ANOVA de forma satisfactoria deben cumplirse tres tipos de hiptesis, aunque se aceptan ligeras desviaciones de las condiciones ideales: 1. Cada conjunto de datos debe ser independiente del resto. 2. Los resultados obtenidos para cada conjunto deben seguir una distribucin normal. 3. Las varianzas de cada conjunto de datos no deben diferir de forma significativa. Cuando se utiliza la tcnica anova se deben cumplir los siguientes supuestos: 1. Las personas de los diversos subgrupos deben seleccionarse mediante el muestreo aleatorio, a partir de poblaciones normalmente distribuidas. 2. La varianza de los subgrupos debe ser homognea. 3. Las muestras que constituyen los grupos deben ser independientes.
Amenos de que las muestras sean independientes, y que por lo tanto, generen estimaciones de varianza independiente s, la razn de las varianzas inter e intra no adoptar la distribucin F. 10. Existen dos tipos de modelo de anlisis de varianza: de efectos fijos y de efectos aleatorios. Explique el significado de cada uno de ellos en un anlisis de varianza. R// Los modelos de efectos fijos y aleatorios difieren en la concepcin de la poblacin de estudio de partida. El modelo de efectos fijos de anlisis de la varianza se aplica a situaciones en las que el experimentador ha sometido al grupo o material analizado a vari os factores, cada uno de los cuales le afecta slo a la media, permaneciendo la "variable respuesta" con una distribucin normal. Los modelos de efectos aleatorios se usan para describir situaciones en que ocurren diferencias incomparables en el material o grupo experimental. El ejemplo ms simple es el de estimar la media desconocida de una poblacin compuesta de individuos diferentes y en el que esas diferencias se mezclan con los errores del instrumento de medicin.
CONCLUSIN
Este trabajo fue de gran ayuda ya que nos permiti trabajar la unidad del modulo de Inferencia Estadstica y de esta manera trabajar en los puntos que ah se plantean; esto con el fin de afianzar nuestros conocimientos y de que hiciramos cada uno de los p untos planteados.
BIBLIOGRAFA
y y
Modulo de Inferencia estadstica

http://www.terra.es/personal2/jpb00000/tinferencia.htm

Copia de 56299268 Trabajo Colaborativo2 Final Infer en CIA A Infer en CIA A

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Copia de 56299268 Trabajo Colaborativo2 Final Infer en CIA A Infer en CIA A

Încărcat de

Drepturi de autor:

Formate disponibile

Inferencia Estadstica

APORTE TRABAJO COLABORATIVO #2

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA (UNAD)

Modulo de Inferencia estadstica

S-ar putea să vă placă și