Documente Academic
Documente Profesional
Documente Cultură
TRABAJO COLABORATIVO N2
GRUPO: 100403_31
INTRODUCCION
En este trabajo pondremos en prctica los mtodos estadsticos que permiten deducir (inferir) como se
distribuye la poblacin en estudio o las relaciones estocsticas entre varias variables de inters a partir
de la informacin que proporciona una muestra. Adems recordaremos los trminos o conceptos
bsicos que estudiaremos en el transcurso de esta materia y el propsito del estudio estadstico suele
ser, como hemos venido citando, extraer conclusiones acerca de la naturaleza de una poblacin. Al ser
la poblacin grande y no poder ser estudiada en su integridad en la mayora de los casos, las
conclusiones obtenidas deben basarse en el examen de solamente una parte de sta, lo que nos lleva, en
primer lugar a la justificacin, necesidad y definicin de las diferentes tcnicas de muestreo como lo
veremos ms adelante.
OBJETIVOS
El objetivo de este trabajo estadstico es medir y modelar la variabilidad del proceso mediante
un modelo probabilstico.
Para modelar la variabilidad de una variable aleatoria si slo se dispone del conocimiento de
una muestra de la misma se sigue el siguiente modo de actuacin: Planteamiento del problema.
Si se acepta que el modelo ajustado es adecuado se puede utilizar para obtener resultados y
conclusiones sobre la variable en estudio
Mejorar
Error de tipo II: Tambin llamado error de tipo beta (aunque beta es la probabilidad de que exista ste
error), se comete cuando el investigador no rechaza la hiptesis nula siendo sta falsa en la poblacin.
Es equivalente a la probabilidad de un resultado falso negativo, ya que el investigador llega a la
conclusin de que ha sido incapaz de encontrar una diferencia que existe en la realidad.
Se acepta en un estudio que el valor del error beta debe estar entre el 5 y el 20%.
Un error tipo II se presenta si la hiptesis nula es aceptada cuando de hecho es falsa y deba ser
rechazada.
4. Explique cuales son los supuestos de homogeneidad, homocedasticidad, independencia y
Normalidad, que deben cumplirse para validar un anlisis de varianzas.
SUPUESTOS DE HOMOGENEIDAD
Para validar el supuesto de homogeneidad se realiza de manera grfica un diagrama de dispersin entre
los residuales (eje Y) y las respuestas estimadas . Si se observa algn patrn indica que
posiblemente no se cumple el supuesto de homogeneidad del error puro. Para realizar la prueba de
manera formal se de plantear la hiptesis
Si
no se rechaza, se comparan las medias mediante la prueba ; si se rechaza se intentar transformar
los datos o aplicar la prueba no paramtrica como la Kruskal-Wallis. Existen diversos procedimientos
para probar la anterior hiptesis, algunos de estos se estudiaran a continuacin
*SUPUESTOS DE HOMOCEDASTICIDAD
La homocedasticidad es una propiedad fundamental del modelo de regresin lineal general y est
dentro de sus supuestos clsicos bsicos.
Se dice que existe homocedasticidad cuando la varianza de los errores estocsticos de la regresin es la
misma para cada observacin i (de 1 a n observaciones), es decir:
Donde
es un escalar constante para todo i. Lo que significara que habra una Distribucin de
probabilidad de idntica amplitud para cada variable aleatoria.
Esta cualidad es necesaria, segn el Teorema de Gauss-Mrkov, para que en un modelo los coeficientes
estimados sean los mejores o eficientes, lineales e insesgados.
Cuando no se cumple esta situacin, decimos que existe heterocedasticidad, que es cuando la varianza
de cada trmino de perturbacin (ui) no es un nmero constante
.
Este fenmeno suele ser muy comn en datos de Corte Transversal y tambin se presenta, menos
frecuentemente, en series de tiempo.
Si se regresiona un modelo a travs de Mnimos Cuadrados Ordinarios con presencia de
heterocedasticidad, los coeficientes siguen siendo lineales e insesgados pero ya no poseen mnima
varianza (eficiencia).
*SUPUESTOS DE INDEPENDENCIA
El supuesto de independencia de las variables aleatorias error
ser
*SUPUESTOS DE NORMALIDAD
Como ya se ha mencionado anteriormente, el residual es dado por
, los cuales contienen
dentro de ellos informacin sobre el porqu el modelo no se ajusta a los datos. Por ello es necesario
realizar un anlisis de los residuales para obtener cualquier peculiaridad que el ajuste de regresin
pueda tener.
Cuando se propone el modelo para el juste de los datos se establecen unos supuestos sobre la variable
error:
Independencia de los errores
Los errores se distribuyen normales con media cero
Los errores son independientes
Los errores tienen varianza constante
Cuando se ajusta el modelo se espera que los residuales exhiban el cumplimiento de los anteriores
supuestos sobre la variable error. Despus de examinar los residuales slo se podr decir que
los
y
Donde
INTERPRETACION:
Si los puntos parecen ajustarse a una lnea recta, puede decirse que parece indicar que los datos
provienen de una distribucin normal, pero tenga en cuenta que en algunos casos, aunque los puntos se
ajusten a una lnea recta puede que los datos no provengan de una distribucin normal; por ello se
recomienda utilizar mtodos objetivos.
5. Comprueben a partir de dos muestras independientes de igual tamao de hombres y mujeres,
la opinin de acuerdo o desacuerdo con algn tema de su inters, a travs del contraste de una
hiptesis, en la se establezca si existen diferencias de opinin entre los hombres y mujeres sobre el
tema de inters consultado. Interprete los resultados a que diere lugar este caso. Para dar
respuesta a este caso utilice los pasos para el contraste de una hiptesis.
Se toman datos sobre un nuevo parque de diversiones, calificando el parque de diversiones de 1 a 10,
donde 1 es muy malo y 10 es muy bueno.
Tema encuestado:
Respuestas posibles:
valores entre 1 y 10
Cantidad de hombres:
20
Cantidad de mujeres:
20
Resultados:
MUJERE
S
CALIFICACI
N
HOMBRES CALIFICACI
N
10
10
10
10
11
11
12
12
13
13
14
14
15
15
16
16
17
17
18
18
19
19
20
20
Se desea probar la diferencia de opinin entre hombres y mujeres, con un nivel de significancia del
0.05
Definiendo las medias poblacionales:
1 = 7.05
2 = 7.45
SOLUCIN:
Paso 1:
Se plantean las hiptesis Nula H0 y la Alternativa H1
H0: 1 = 2 Las dos medias son iguales
H1: 1 2 Las dos medias son diferentes
Paso 2:
Se elige el nivel de significancia, que en este caso se ha planteado en 0.05 y se utiliza la distribucin t
student ya que las muestras son menores que 30.
Los grados de libertad para este caso son: 20 + 20 2 = 18
Ahora, como la hiptesis alternativa H1 est planteada como diferente, la prueba es de dos colas.
Paso 3:
Como son dos muestras se debe calcular las medias y las varianzas de cada grupo:
_
X
n
S
HOMBRES
MUJERES
7.45
7.05
20
20
1.76
1.50
t=
7.45 7.05
1.76(19)+1.50(19)
38
=
1
20
1
20
0.40
0.403
0.9907
Paso 4:
Debido a que el nivel de significancia es de 0.05 y dado que la hiptesis alternativa planteada no seala
una direccin, se debe trabajar con una prueba de dos colas.
Paso 5:
Despus de hacer el respectivo anlisis se decide no rechazar la hiptesis nula dado que el valor del
estadstico de prueba .09907 se ha ubicado en la zona de aceptacin de dicha hiptesis; se concluye
entonces que no existe diferencia en la opinin (de acuerdo o desacuerdo) entre los 20 hombres y las 20
mujeres con relacin al gusto por del parque de diversiones, con un nivel de significancia del 5%.
6. Establezca las consideraciones que deben hacerse para seleccionar entre un modelo
paramtrico o su correspondiente No paramtrico.
Cuando trabajamos con muestras pequeas (n < 10) en las que se desconoce si es vlido suponer la
normalidad de los datos, conviene utilizar pruebas no paramtricas, al menos para corroborar los
resultados obtenidos a partir de la utilizacin de la teora basada en la normal.
En estas tcnicas, solamente se necesitan conocimientos elementales de matemticas, pues los mtodos
son relativamente ms sencillos que en las pruebas paramtricas. En estas pruebas, tambin se tienen
supuestos, pero son pocos y no tienen que ver con la naturaleza de la distribucin de la poblacin, por
lo que a estas tcnicas tambin se les conoce como de libre distribucin.
En general el nico supuesto que se debe cumplir en la mayora de las pruebas no paramtricas para
confiar en ellas, es que la muestra haya sido seleccionada en forma probabilstica.
7. Una de las opciones que tiene la estadstica para realizar inferencia sobre los parmetros de
una poblacin es la prueba de hiptesis. Explique las ventajas y desventajas con respecto al otro
mtodo de estimacin.
8. Los dos mtodos No paramtrico para realizar una bondad de ajuste de los datos de una
variable con respecto a una distribucin de probabilidad son: El de Chi-cuadrado y el de
Kolmogorov - Smirnov . Explique en que condiciones debe usarse cada uno de ellos.
La prueba de chi cuadrado puede emplearse para comparar frecuencias de dos o ms grupos, como en
muchas otras aplicaciones. Se utiliza en esta forma, para hacer referencia al ensayo como prueba de chi
cuadrado para la independencia. Su versatilidad es una de las razones por la cual los investigadores
usan esta prueba con tanta frecuencia.
Cuando se presentan ms de dos resultados debe aplicarse la prueba de chi-cuadrado, frecuentemente
usada para probar hiptesis concernientes a la diferencia entre un conjunto de frecuencias observadas
de una muestra y un conjunto correspondiente de frecuencias tericas o esperadas.
Con el fin de resolver varios tipos de situaciones aplicamos la prueba de chi-cuadrado , que presenta las
siguientes caractersticas:
Y el de Kolmogorov Smirnov
La nica premisa que se necesita es que las mediciones se encuentren al menos en una escala de
intervalo. Se necesita que la medicin considerada sea bsicamente continua. Adems dicha prueba es
aplicable cualquiera sea el tamao de la muestra.
Compara las funciones de distribucin terica y emprica (slo vlido para variables continuas).
La prueba de K-S de una muestra es una hiptesis de bondad de ajuste. Esto es, se interesa en el grado
de acuerdo entre la distribucin de un conjunto de valores de la muestra y alguna distribucin terica
especfica. Determina si razonablemente puede pensarse que las mediciones mustrales provengan de
una poblacin que tenga esa distribucin terica. En la prueba se compara la distribucin de frecuencia
acumulativa de la distribucin terica con la distribucin de frecuencia acumulativa observada. Se
determina el punto en el que estas dos distribuciones muestran la mayor divergencia.
Se trata de un mtodo no paramtrico sencillo para probar si existe una diferencia significativa entre
una distribucin de frecuencia observada y otra frecuencia terica. Es otra medida de la bondad de
ajuste de una distribucin de frecuencia terica.
Se basa en la comparacin de distribuciones acumuladas: la distribucin acumulada de los datos
observados y la distribucin acumulada terica correspondiente al modelo elegido.
9. El anlisis de varianza es una tcnica estadstica utilizada para medir el efecto que tiene cada
uno de los niveles en que se clasifica una variable sobre otra variable que representa las
repuestas a las mediciones realizadas una experimentacin. Explique las condiciones que se
deben imponer a las dos variables y los supuestos que deben cumplirse para que tenga validez el
uso de esta tcnica.
En el anlisis de varianza Cuando se tienen dos variables para la obtencin de una repuestas a las
mediciones realizadas una experimentacin se debe tener en cuenta:
Que primero est la hiptesis nula de que las muestras provienen todas de poblaciones con la misma
media, si ese es el caso, entonces las diferencias observadas entre las medias mustrales, se deben a
oscilaciones del muestreo y por lo tanto, no son significativas.
As, la hiptesis alternativa a explorar es que en cada una de las muestras se obtiene de una poblacin
dada y que las medias de las poblaciones no son todas iguales y acorde con esta hiptesis, las
diferencias entre las diversas medias mustrales son significativas.
Por tanto, para comparar las diversas medias mustrales, se debe dar la validez de la hiptesis nula,
utilizando la informacin contenida en las muestras.
Con base a esta informacin, se rechaza la hiptesis nula o se reserva el juicio; si la hiptesis nula es
rechazada, las diferencias entre las medias mustrales son consideradas significativas, as pues, el
investigador se ve obligado a reservar el juicio de que las diferencias no son consideradas reservadas.
Sintetizando, el procedimiento radica en suponer primero que la hiptesis nula es verdadera, concurre
suponer que las muestras provienen de una misma poblacin. Se hace por tanto, dos estimaciones de la
varianza de esa poblacin, si la disparidad entre estas dos estimaciones es considerable, la hiptesis
nula es rechazada y las diferencias entre las diversas medias maestrales son consideradas significativas.
10. Existen dos tipos de modelo de anlisis de varianza: de efectos fijos y de efectos aleatorios.
Explique el significado cada uno de ellos en un anlisis de varianza.
Rta//: La manera ms sencilla de distinguir entre ambos modelos es pensar que, si se repitiera el estudio
un tiempo despus, en un modelo de efectos fijos las muestras seran iguales (no los individuos que las
forman) es decir corresponderan a la misma situacin, mientras que en un modelo de efectos aleatorios
las muestras seran distintas.
Aunque las asunciones iniciales y los propsitos de ambos modelos son diferentes, los clculos y las
pruebas de significacin son los mismos y slo difieren en la interpretacin y en algunas pruebas de
hiptesis suplementarias.
CONCLUSIONES
El intercambio de ideas y la presentacin de aportes de cada uno de los integrantes del grupo
colaborativo, facilita la estructuracin del informe final; cumpliendo as con la finalidad de la
UNAD que es el auto aprendizaje y el trabajo en equipo.
BIBLIOGRAFIA
Modulo de inferencia estadstica
Protocolo de Inferencia Estadstica
http://es.wikipedia.org/wiki/Error_muestral
http://www.virtual.unal.edu.co/cursos/odontologia/2002890/lecciones/estimacion/estimacion.htm