Sunteți pe pagina 1din 16

INFERENCIA ESTADISTICA

TRABAJO COLABORATIVO N2

GRUPO: 100403_31

EDISSON ALEXANDER JIMENEZ CASTAO


LINDA CATALINA RESTREPO OTALORA
JOSE ALFREDO GUZMAN
MARIAJAIDY MACHADO

Trabajo presentado al Tutor:


Dr. DANYS BRITO

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD


FACULTAD DE CIENCIAS BSICAS, TCNICAS E INGENIERA
INGENIERA INDUSTRIAL
MAYO 2010

INTRODUCCION
En este trabajo pondremos en prctica los mtodos estadsticos que permiten deducir (inferir) como se
distribuye la poblacin en estudio o las relaciones estocsticas entre varias variables de inters a partir
de la informacin que proporciona una muestra. Adems recordaremos los trminos o conceptos
bsicos que estudiaremos en el transcurso de esta materia y el propsito del estudio estadstico suele
ser, como hemos venido citando, extraer conclusiones acerca de la naturaleza de una poblacin. Al ser
la poblacin grande y no poder ser estudiada en su integridad en la mayora de los casos, las
conclusiones obtenidas deben basarse en el examen de solamente una parte de sta, lo que nos lleva, en
primer lugar a la justificacin, necesidad y definicin de las diferentes tcnicas de muestreo como lo
veremos ms adelante.

OBJETIVOS

El objetivo de este trabajo estadstico es medir y modelar la variabilidad del proceso mediante
un modelo probabilstico.

Para modelar la variabilidad de una variable aleatoria si slo se dispone del conocimiento de
una muestra de la misma se sigue el siguiente modo de actuacin: Planteamiento del problema.

Seleccin de la muestra (Muestreo estadstico)


Estudio descriptivo de la muestra, analtico y grfico (Estadstica Descriptiva).
En base al conocimiento de los modelos probabilsticos
Estimar los parmetros del modelo supuesto a partir de las observaciones mustrales
Chequear que el modelo de probabilidad ajustado a los datos es adecuado y que se verifican las
hiptesis supuestas en el estudio

Si se acepta que el modelo ajustado es adecuado se puede utilizar para obtener resultados y
conclusiones sobre la variable en estudio

Mejorar

la estimacin de los parmetros del modelo, utilizando mtodos estadsticos ms


eficaces. Aumentando el tamao muestral.

DESARROLLO DE LOS PROBLEMAS


1. Establezca la diferencia entre: Nivel de significacin y potencia de una prueba; pruebas
paramtricas y pruebas No paramtricas
A). la diferencia entre Nivel de significacin y potencia de una prueba consiste en que Cuando se tiene
una hiptesis esta puede ser verdadera o falsa y Pero cuando la decisin no est de acuerdo con la
realidad se pueden cometer dos tipos de errores vistos anteriormente: rechazar la hiptesis nula cuando
en realidad es cierta, llamado error tipo I representado por alfa ( ); aceptar la hiptesis nula cuando
en realidad es falso, llamado error tipo II representado por beta ( ), llamados tambin nivel de
significancia. El procedimiento utilizado consiste en limitarlos a un nivel preestablecido pequeo,
generalmente 0.01 0.05. Este planteamiento se le denomina la potencia de la prueba
b). La diferencia entre Pruebas paramtricas y pruebas No paramtricas radica en la robustez de estas,
es decir, las pruebas paramtricas son robustas si a pesar de no cumplir cabalmente con todos los
requisitos se puede emplear sin que deforme mucho las conclusiones pero cuando las pruebas no son
robustas, es necesario utilizar las pruebas no paramtricas, las pruebas no paramtricas no presuponen
una distribucin de probabilidad para los datos, por ello se conocen tambin como de distribucin libre.
En la mayor parte de ellas los resultados estadsticos se derivan nicamente a partir de procedimientos
de ordenacin y recuento, por lo que su base lgica es de fcil comprensin.
2. El tamao de una muestra para realizar inferencia estadstica depende de unos factores, (la
confiabilidad, la varianza y el error de estimacin), que la determinan.
Explique los criterios que tiene un investigador para la determinacin de estos factores.
Los criterios que tiene un investigador para la determinacin de estos factores son en primer lugar la
definicin de los objetivos de la investigacin, ya que dependiendo de estos el investigador tendr la
claridad de determinar los dems criterios necesarios para seleccionar el tamao de la muestra.
En otras palabras, el investigador en primer lugar debe saber cul es la escala con la que se estn
midiendo los datos que se analizarn, pues no se puede aplicar la misma prueba estadstica para el caso
en que la variable de inters sea el peso de un producto que cuando lo es la profesin del usuario de un
producto.
3. Qu significan el error tipo I y el error tipo II. Explique su interpretacin con un ejemplo
Error de tipo I: Tambin mal llamado error de tipo alfa (alfa es la probabilidad de que ocurra este
error), es el error que se comete cuando el investigador rechaza la hiptesis nula (Ho) siendo sta
verdadera en la poblacin. Es equivalente a encontrar un resultado falso positivo, porque el
investigador llega a la conclusin de que existe una diferencia entre las hiptesis cuando en realidad no
existe.
Un error tipo I se presenta si la hiptesis nula es rechazada cuando de hecho es verdadera y deba ser
aceptada.

Error de tipo II: Tambin llamado error de tipo beta (aunque beta es la probabilidad de que exista ste
error), se comete cuando el investigador no rechaza la hiptesis nula siendo sta falsa en la poblacin.
Es equivalente a la probabilidad de un resultado falso negativo, ya que el investigador llega a la
conclusin de que ha sido incapaz de encontrar una diferencia que existe en la realidad.
Se acepta en un estudio que el valor del error beta debe estar entre el 5 y el 20%.
Un error tipo II se presenta si la hiptesis nula es aceptada cuando de hecho es falsa y deba ser
rechazada.
4. Explique cuales son los supuestos de homogeneidad, homocedasticidad, independencia y
Normalidad, que deben cumplirse para validar un anlisis de varianzas.

SUPUESTOS DE HOMOGENEIDAD
Para validar el supuesto de homogeneidad se realiza de manera grfica un diagrama de dispersin entre
los residuales (eje Y) y las respuestas estimadas . Si se observa algn patrn indica que
posiblemente no se cumple el supuesto de homogeneidad del error puro. Para realizar la prueba de
manera formal se de plantear la hiptesis

Si
no se rechaza, se comparan las medias mediante la prueba ; si se rechaza se intentar transformar
los datos o aplicar la prueba no paramtrica como la Kruskal-Wallis. Existen diversos procedimientos
para probar la anterior hiptesis, algunos de estos se estudiaran a continuacin

*SUPUESTOS DE HOMOCEDASTICIDAD
La homocedasticidad es una propiedad fundamental del modelo de regresin lineal general y est
dentro de sus supuestos clsicos bsicos.
Se dice que existe homocedasticidad cuando la varianza de los errores estocsticos de la regresin es la
misma para cada observacin i (de 1 a n observaciones), es decir:

Donde
es un escalar constante para todo i. Lo que significara que habra una Distribucin de
probabilidad de idntica amplitud para cada variable aleatoria.

Esta cualidad es necesaria, segn el Teorema de Gauss-Mrkov, para que en un modelo los coeficientes
estimados sean los mejores o eficientes, lineales e insesgados.
Cuando no se cumple esta situacin, decimos que existe heterocedasticidad, que es cuando la varianza
de cada trmino de perturbacin (ui) no es un nmero constante
.
Este fenmeno suele ser muy comn en datos de Corte Transversal y tambin se presenta, menos
frecuentemente, en series de tiempo.
Si se regresiona un modelo a travs de Mnimos Cuadrados Ordinarios con presencia de
heterocedasticidad, los coeficientes siguen siendo lineales e insesgados pero ya no poseen mnima
varianza (eficiencia).

*SUPUESTOS DE INDEPENDENCIA
El supuesto de independencia de las variables aleatorias error

, se puede chequear grficamente por

medio de un diagrama de dispersin entre los residuales

y el orden en que se tomaron las

observaciones (si se tiene)


. Para los datos del ejemplo, el grfico se muestra en la figura 1. No
se observa un patrn caracterstico, por lo tanto, parece indicar que los residuos se encuentran
independientes o aleatoriamente distribuidos.

Figura 1. Grfico de residuales vs orden para la densidad ptica


Prueba de DurbinWatson
Para ejecutar esta prueba objetiva sobre la independencia de los errores se asume que las observaciones
y as los residuales tienen un orden natural tal como el tiempo o espacio. La prueba de Durbin-Watson
tiene como estadstica de prueba

Se puede demostrar que:


1. El valor de esta siempre en el intervalo
2. Si los residuales son positivamente correlacionados, entonces ser cercano a y los residuales
tienden a ser parecidos.
3. Si los residuales son negativamente correlacionados, entonces ser cercano a y as

ser

cercano a . Adems los residuales tienden a ser muy diferentes.


4. La distribucin de es simtrica alrededor de .

*SUPUESTOS DE NORMALIDAD
Como ya se ha mencionado anteriormente, el residual es dado por
, los cuales contienen
dentro de ellos informacin sobre el porqu el modelo no se ajusta a los datos. Por ello es necesario
realizar un anlisis de los residuales para obtener cualquier peculiaridad que el ajuste de regresin
pueda tener.
Cuando se propone el modelo para el juste de los datos se establecen unos supuestos sobre la variable
error:
Independencia de los errores
Los errores se distribuyen normales con media cero
Los errores son independientes
Los errores tienen varianza constante
Cuando se ajusta el modelo se espera que los residuales exhiban el cumplimiento de los anteriores
supuestos sobre la variable error. Despus de examinar los residuales slo se podr decir que

los

supuestos parecen ser violados o


los supuestos parecen no ser violados. Esto ltimo no significa que
los supuestos se cumplan; esto significa que sobre la base de los datos se ha visto que no hay razn para
decir que los supuestos no se cumplen.
Nosotros usualmente asumimos que
y que todos los errores son independientes uno del
otro, pero sus estimados, los residuales no pueden ser independientes. Los grficos utilizados son: el
histograma, el grfico de probabilidad normal entre otros.

GRAFICO DE PROBABILIDAD NORMAL


Este se puede obtener por el procedimiento descrito en la seccin de distribucin normal curso dieo
virtual: validacin de supuestos. Ver gua de Excel o tambien al ejecutar el anlisis de regresin en
Excel y elegir grfico de probabilidad normal. Excel utiliza los residuales y aplica el mismo
procedimiento descrito en la gua de Excel, e incluye salidas de dos columnas:
Percentil Y
y

y
Donde

INTERPRETACION:
Si los puntos parecen ajustarse a una lnea recta, puede decirse que parece indicar que los datos
provienen de una distribucin normal, pero tenga en cuenta que en algunos casos, aunque los puntos se
ajusten a una lnea recta puede que los datos no provengan de una distribucin normal; por ello se
recomienda utilizar mtodos objetivos.
5. Comprueben a partir de dos muestras independientes de igual tamao de hombres y mujeres,
la opinin de acuerdo o desacuerdo con algn tema de su inters, a travs del contraste de una
hiptesis, en la se establezca si existen diferencias de opinin entre los hombres y mujeres sobre el
tema de inters consultado. Interprete los resultados a que diere lugar este caso. Para dar
respuesta a este caso utilice los pasos para el contraste de una hiptesis.
Se toman datos sobre un nuevo parque de diversiones, calificando el parque de diversiones de 1 a 10,
donde 1 es muy malo y 10 es muy bueno.

Tema encuestado:

Calificacin del parque de diversiones

Respuestas posibles:

valores entre 1 y 10

Cantidad de hombres:

20

Cantidad de mujeres:

20

Resultados:

MUJERE
S

CALIFICACI
N

HOMBRES CALIFICACI
N

10

10

10

10

11

11

12

12

13

13

14

14

15

15

16

16

17

17

18

18

19

19

20

20

Se desea probar la diferencia de opinin entre hombres y mujeres, con un nivel de significancia del
0.05
Definiendo las medias poblacionales:
1 = 7.05
2 = 7.45

SOLUCIN:
Paso 1:
Se plantean las hiptesis Nula H0 y la Alternativa H1
H0: 1 = 2 Las dos medias son iguales
H1: 1 2 Las dos medias son diferentes

Paso 2:
Se elige el nivel de significancia, que en este caso se ha planteado en 0.05 y se utiliza la distribucin t
student ya que las muestras son menores que 30.
Los grados de libertad para este caso son: 20 + 20 2 = 18
Ahora, como la hiptesis alternativa H1 est planteada como diferente, la prueba es de dos colas.

Paso 3:
Como son dos muestras se debe calcular las medias y las varianzas de cada grupo:

_
X
n
S

HOMBRES

MUJERES

7.45

7.05

20

20

1.76

1.50

Para el clculo del valor estadstico se usa la siguiente frmula:

El valor estadstico aplicando la frmula es:

t=

7.45 7.05

1.76(19)+1.50(19)
38

=
1
20

1
20

0.40
0.403

0.9907

Paso 4:
Debido a que el nivel de significancia es de 0.05 y dado que la hiptesis alternativa planteada no seala
una direccin, se debe trabajar con una prueba de dos colas.

Paso 5:
Despus de hacer el respectivo anlisis se decide no rechazar la hiptesis nula dado que el valor del
estadstico de prueba .09907 se ha ubicado en la zona de aceptacin de dicha hiptesis; se concluye
entonces que no existe diferencia en la opinin (de acuerdo o desacuerdo) entre los 20 hombres y las 20
mujeres con relacin al gusto por del parque de diversiones, con un nivel de significancia del 5%.

6. Establezca las consideraciones que deben hacerse para seleccionar entre un modelo
paramtrico o su correspondiente No paramtrico.
Cuando trabajamos con muestras pequeas (n < 10) en las que se desconoce si es vlido suponer la
normalidad de los datos, conviene utilizar pruebas no paramtricas, al menos para corroborar los
resultados obtenidos a partir de la utilizacin de la teora basada en la normal.
En estas tcnicas, solamente se necesitan conocimientos elementales de matemticas, pues los mtodos
son relativamente ms sencillos que en las pruebas paramtricas. En estas pruebas, tambin se tienen
supuestos, pero son pocos y no tienen que ver con la naturaleza de la distribucin de la poblacin, por
lo que a estas tcnicas tambin se les conoce como de libre distribucin.
En general el nico supuesto que se debe cumplir en la mayora de las pruebas no paramtricas para
confiar en ellas, es que la muestra haya sido seleccionada en forma probabilstica.
7. Una de las opciones que tiene la estadstica para realizar inferencia sobre los parmetros de
una poblacin es la prueba de hiptesis. Explique las ventajas y desventajas con respecto al otro
mtodo de estimacin.

Dentro de las Desventajas de las pruebas de hiptesis se encuentran las siguientes:


No requieren que hagamos la suposicin de que una poblacin est distribuida en forma de
curva normal u otra forma especfica.
Generalmente, son ms fciles de efectuar y comprender.
Algunas veces, ni siquiera se requiere el ordenamiento o clasificacin formal.
Y entre las ventajas podemos destacar las siguientes:

Ignoran una cierta cantidad de informacin


son muy eficientes. Cuando usamos pruebas no paramtricas, efectuamos un trueque y se
pierde agudeza al estimar intervalos, pero se gana la habilidad de usar menos informacin y
calcular ms rpidamente.

8. Los dos mtodos No paramtrico para realizar una bondad de ajuste de los datos de una
variable con respecto a una distribucin de probabilidad son: El de Chi-cuadrado y el de
Kolmogorov - Smirnov . Explique en que condiciones debe usarse cada uno de ellos.
La prueba de chi cuadrado puede emplearse para comparar frecuencias de dos o ms grupos, como en
muchas otras aplicaciones. Se utiliza en esta forma, para hacer referencia al ensayo como prueba de chi
cuadrado para la independencia. Su versatilidad es una de las razones por la cual los investigadores
usan esta prueba con tanta frecuencia.
Cuando se presentan ms de dos resultados debe aplicarse la prueba de chi-cuadrado, frecuentemente
usada para probar hiptesis concernientes a la diferencia entre un conjunto de frecuencias observadas
de una muestra y un conjunto correspondiente de frecuencias tericas o esperadas.
Con el fin de resolver varios tipos de situaciones aplicamos la prueba de chi-cuadrado , que presenta las
siguientes caractersticas:

Intervienen dos o ms variables cualitativas.


Su valor slo puede ser positivo.
Hay una familia de distribuciones de esta clase, una para cada grado de libertad.
Las distribuciones tienen sesgo positivo, pero conforme aumenta el nmero de grados de
libertad, la distribucin se aproxima a la de tipo normal.
Las variables presentan dos o ms modalidades.
Los datos se presentan en frecuencias que se tabulan en tablas de contingencia o tablas de doble
entrada.

Y el de Kolmogorov Smirnov
La nica premisa que se necesita es que las mediciones se encuentren al menos en una escala de
intervalo. Se necesita que la medicin considerada sea bsicamente continua. Adems dicha prueba es
aplicable cualquiera sea el tamao de la muestra.
Compara las funciones de distribucin terica y emprica (slo vlido para variables continuas).
La prueba de K-S de una muestra es una hiptesis de bondad de ajuste. Esto es, se interesa en el grado
de acuerdo entre la distribucin de un conjunto de valores de la muestra y alguna distribucin terica

especfica. Determina si razonablemente puede pensarse que las mediciones mustrales provengan de
una poblacin que tenga esa distribucin terica. En la prueba se compara la distribucin de frecuencia
acumulativa de la distribucin terica con la distribucin de frecuencia acumulativa observada. Se
determina el punto en el que estas dos distribuciones muestran la mayor divergencia.
Se trata de un mtodo no paramtrico sencillo para probar si existe una diferencia significativa entre
una distribucin de frecuencia observada y otra frecuencia terica. Es otra medida de la bondad de
ajuste de una distribucin de frecuencia terica.
Se basa en la comparacin de distribuciones acumuladas: la distribucin acumulada de los datos
observados y la distribucin acumulada terica correspondiente al modelo elegido.
9. El anlisis de varianza es una tcnica estadstica utilizada para medir el efecto que tiene cada
uno de los niveles en que se clasifica una variable sobre otra variable que representa las
repuestas a las mediciones realizadas una experimentacin. Explique las condiciones que se
deben imponer a las dos variables y los supuestos que deben cumplirse para que tenga validez el
uso de esta tcnica.

Para cada poblacin la variable de respuesta est normalmente distribuida.


La varianza de la variable respuesta es la misma para todas las poblaciones.
Las observaciones deben ser independientes.

En el anlisis de varianza Cuando se tienen dos variables para la obtencin de una repuestas a las
mediciones realizadas una experimentacin se debe tener en cuenta:
Que primero est la hiptesis nula de que las muestras provienen todas de poblaciones con la misma
media, si ese es el caso, entonces las diferencias observadas entre las medias mustrales, se deben a
oscilaciones del muestreo y por lo tanto, no son significativas.
As, la hiptesis alternativa a explorar es que en cada una de las muestras se obtiene de una poblacin
dada y que las medias de las poblaciones no son todas iguales y acorde con esta hiptesis, las
diferencias entre las diversas medias mustrales son significativas.
Por tanto, para comparar las diversas medias mustrales, se debe dar la validez de la hiptesis nula,
utilizando la informacin contenida en las muestras.
Con base a esta informacin, se rechaza la hiptesis nula o se reserva el juicio; si la hiptesis nula es
rechazada, las diferencias entre las medias mustrales son consideradas significativas, as pues, el
investigador se ve obligado a reservar el juicio de que las diferencias no son consideradas reservadas.
Sintetizando, el procedimiento radica en suponer primero que la hiptesis nula es verdadera, concurre
suponer que las muestras provienen de una misma poblacin. Se hace por tanto, dos estimaciones de la
varianza de esa poblacin, si la disparidad entre estas dos estimaciones es considerable, la hiptesis
nula es rechazada y las diferencias entre las diversas medias maestrales son consideradas significativas.
10. Existen dos tipos de modelo de anlisis de varianza: de efectos fijos y de efectos aleatorios.
Explique el significado cada uno de ellos en un anlisis de varianza.

Rta//: La manera ms sencilla de distinguir entre ambos modelos es pensar que, si se repitiera el estudio
un tiempo despus, en un modelo de efectos fijos las muestras seran iguales (no los individuos que las
forman) es decir corresponderan a la misma situacin, mientras que en un modelo de efectos aleatorios
las muestras seran distintas.
Aunque las asunciones iniciales y los propsitos de ambos modelos son diferentes, los clculos y las
pruebas de significacin son los mismos y slo difieren en la interpretacin y en algunas pruebas de
hiptesis suplementarias.

CONCLUSIONES

El programa de Inferencia Estadstica se proyecta como una herramienta de gran importancia


para el desarrollo profesional.

El contenido didctico de la unidad N2 permite conocer el complemento didctico para el


desarrollo de actividades durante el semestre.

El intercambio de ideas y la presentacin de aportes de cada uno de los integrantes del grupo
colaborativo, facilita la estructuracin del informe final; cumpliendo as con la finalidad de la
UNAD que es el auto aprendizaje y el trabajo en equipo.

BIBLIOGRAFIA
Modulo de inferencia estadstica
Protocolo de Inferencia Estadstica
http://es.wikipedia.org/wiki/Error_muestral
http://www.virtual.unal.edu.co/cursos/odontologia/2002890/lecciones/estimacion/estimacion.htm

S-ar putea să vă placă și