Documente Academic
Documente Profesional
Documente Cultură
80.375.378
TUTOR:
DIEGO FERNANDO PULECIO
CURSO: 100403
GRUPO: 113
INTRODUCCIÓN
Presentamos en esta oportunidad nuestro segundo trabajo colaborativo en este interesante curso de
inferencia estadística en el que el grupo ha participado activamente presentando sus diferentes
aportes y puntos de vista sobre la problemática propuesta.
El tema que nos ocupa en términos generales se refiere a las pruebas y modelos paramétricos y no
paramétricos en las pruebas de hipótesis. Un manejo adecuado de esta temática deberá llevarnos a
tomar determinaciones acertadas cuando nos corresponda analizar diferentes hipótesis o alternativas
frente a una situación determinada.
El desarrollo de estas actividades ha de permitirnos afianzar nuestros conocimientos y adquirir
destrezas en el manejo de información que hará parte de nuestro desempeño profesional y cotidiano.
Escuela de Ciencias Básicas, Tecnología e Ingeniería
Curso: INFERENCIA ESTADÍSTICA
OBJETIVOS.
Apropiar y llevar a la práctica conceptos fundamentales sobre las pruebas de hipótesis y los
diferentes métodos para esta actividad.
DESARROLLO DE TEMAS:
Las pruebas no paramétricas son aplicables a casi todos los casos, mientras que las
pruebas paramétricas solo son aplicables bajo ciertas condiciones.
N
IE
s
e
lN
o
h
a
y
u
n
n
S
e
u
s
a
n
Escuela de Ciencias Básicas, Tecnología e Ingeniería
Curso: INFERENCIA ESTADÍSTICA
PR
E
C
o
m
p
r
e
n
d
E
s
t
a
s
s
o
L
a
m
a
y
o
r
E
s
t
a
s
p
r
u
e
Concluimos que determinar el tamaño de la muestra es un tema complejo. Por tanto, el investigador
habrá de tener en cuenta: la amplitud del universo (infinito o no), representatividad, las variables
(tipo de datos, valores de la misma, homogeneidad/variabilidad de los datos), el tipo de
muestreo, el proceso y medios de
Escuela de Ciencias Básicas, Tecnología e Ingeniería
Curso: INFERENCIA ESTADÍSTICA
recogida de datos, los análisis estadísticos que se planifiquen, el error muestral, el error de estimación
y el nivel de confianza con el que deseemos trabajar entre otras consideraciones. Con esta base se
tendrán los referentes necesarios para determinar el tamaño de la muestra.
Para seleccionar el tamaño de la muestra se suelen utilizar técnicas de tres tipos. Ya hemos hablado
del uso de tablas, pero también se pueden determinar mediante otros procedimientos: las “curvas de
error” del tipo de las definidas por Kerlinger (1975: 132) o mediante cálculos estadísticos.
CONFIABILIDAD
Esta demostrado con soporte matemático que una muestra representativa arroja resultados que
permiten inferir sobre la población con una confiabilidad muy alta.
Esta área de la Estadística, ayuda a determinar la confiabilidad de la inferencia de que
los fenómenos observados en la muestra ocurrirán también en la población de donde
se selecciona la muestra.
VARIANZA
Si observamos, veremos que la varianza no es más que el desvío estándar al cuadrado. Precisamente
la manera de simbolizarla es S al cuadrado . Por lo mismo, el desvío estándar puede definirse como la
raíz cuadrada de la varianza
ERROR DE ESTIMACIÓN
Es una medida de su precisión que se corresponde con la amplitud del intervalo de confianza.
Cuanta más precisión se desee en la estimación de un parámetro, más estrecho deberá ser el
intervalo de confianza y, por tanto, menor el error, y más sujetos deberán incluirse en la muestra
estudiada.
3. Qué significan el error tipo I y el error tipo II. Explique su interpretación con un ejemplo.
EL ERROR DE TIPO I
También mal llamado error de tipo alfa (alfa es la probabilidad de que ocurra este error), es el error
que se comete cuando el investigador rechaza la hipótesis nula (Ho) siendo ésta verdadera en la
población. Es equivalente a encontrar un resultado falso positivo, porque el investigador llega a la
conclusión de que existe una diferencia entre las hipótesis cuando en realidad no existe.
Escuela de Ciencias Básicas, Tecnología e Ingeniería
Curso: INFERENCIA ESTADÍSTICA
Ejemplo
Se considera que una persona esta contagiada del VIH cuando en verdad no tiene el virus. Se
También llamado error de tipo beta (aunque beta es la probabilidad de que exista éste error), se
comete cuando el investigador no rechaza la hipótesis nula siendo ésta falsa en la población. Es
equivalente a la probabilidad de un resultado falso negativo, ya que el investigador llega a la
conclusión de que ha sido incapaz de encontrar una diferencia que existe en la realidad.
Para reconocer la homogeneidad es necesario realizar el análisis de la varianza . Con este análisis
podemos determinar si las variables influyen en los resultados o comportamientos.
El objetivo del análisis de varianza es determinar cuales son las variables independientes de
importancia en un estudio, y en qué forma interactúan y afectan la respuesta
Esta cualidad es necesaria, según el Teorema de Gauss, para que en un modelo los
coeficientes estimados sean los mejores o eficientes, lineales e insesgados.
Cuando no se cumple esta situación, decimos que existe heterocedasticidad, que es cuando la
varianza de cada término de perturbación (ui) no es un número constante .
Este fenómeno suele ser muy común en datos de Corte Transversal y también se presenta, menos
frecuentemente, en series de tiempo.
Escuela de Ciencias Básicas, Tecnología e Ingeniería
Curso: INFERENCIA ESTADÍSTICA
SUSESOS INDEPENDIENTES
Esta propiedad coincide más con la idea intuitiva de independencia y algunos textos la dan como
definición. Hay que notar, sin embargo, que ambas definiciones no son estrictamente equivalentes.
NORMALIDAD
Las puntuaciones de los diversos en la variable independiente se deben distribuir normal, lo que
implica que son muestras representativas de las poblaciones con distribución normal en esa variable.
El ANOVA es robusto al incumplimiento de este supuesto, no obstante, si la muestra es pequeña
es conveniente evaluarlo.
Una hipótesis estadística es una asunción relativa a una o varias poblaciones, que puede ser cierta o
no. Las hipótesis estadísticas se pueden contrastar con la información extraída de las muestras y tanto
si se aceptan como si se rechazan se puede cometer un error. La hipótesis formulada con intención de
rechazarla se llama hipótesis nula y se representa por H0.
Escuela de Ciencias Básicas, Tecnología e Ingeniería
Curso: INFERENCIA ESTADÍSTICA
Rechazar H0 implica aceptar una hipótesis alternativa (H1). La situación se puede esquematizar: H0
cierta H0 rechazada H0 no rechazada Error tipo I (a ) Decisión correcta H0 falsa H1 cierta Decisión
correcta (*) Error tipo II (b )
(*) Decisión correcta que se busca a = p(rechazar H0|H0 cierta) b = p(aceptar H0|H0 falsa) Potencia
=1-b = p(rechazar H0|H0 falsa) Detalles a tener en cuenta 1 a y b están inversamente relacionadas.
2 Sólo pueden disminuirse las dos, aumentando n. Los pasos necesarios para realizar un contraste
relativo a un parámetro q son:
6. Establezca las consideraciones que deben hacerse para seleccionar entre un modelo
paramétrico o su correspondiente No paramétrico.
Los métodos no paramétricos tienen ventajas sobre los paramétrico. Los métodos paramétricos en
muchas ocasiones no cumplen con los supuestos acerca de la forma funcional del conjunto de
variables aleatorias de las cuales provienen los datos, produciendo así modelos no muy confiables
que generan sesgos y deterioran la calidad de los pronósticos. En el campo no paramétrico se
evita este problema al permitir una forma funcional flexible, y no un conjunto pequeño de modelos
rígidos como lo hacen los paramétricos.
Consideraciones de las pruebas no parametricas sobre las pruebas parametricas: Por lo general, son
fáciles de usar y entender. Eliminan la necesidad de suposiciones restrictivas de las pruebas
paramétricas. Se pueden usar con muestras pequeñas. Se pueden usar con datos cualitativos.
Escuela de Ciencias Básicas, Tecnología e Ingeniería
Curso: INFERENCIA ESTADÍSTICA
Consideraciones de las pruebas parametricas sobre las pruebas no parametricas: A veces, ignoran,
desperdician o pierden información. No son tan eficientes como las paramétricas. Llevan a una mayor
probabilidad de no rechazar una hipótesis nula falsa (incurriendo en un error de tipo II).
Por lo general, las pruebas paramétricas son más poderosas que las pruebas no
paramétricas y deben usarse siempre que sea posible. Es importante observar, que aunque las
pruebas no paramétricas no hacen suposiciones sobre la distribución de la población que se muestrea,
muchas veces se apoyan en distribuciones muéstrales como la normal o la ji cuadrada.
7. Una de las opciones que tiene la estadística para realizar inferencia sobre los parámetros de
una población es la prueba de hipótesis. Explique las ventajas y desventajas con respecto al
otro método de estimación.
Una hipótesis estadística se define como un supuesto hecho sobre algún parámetro de la
población. Dicho de otra manera es una teoría o suposición sobre un caso determinado la cual es
susceptible de ser verificada y en consecuencia de dicha verificación, ser entonces aceptada o
rechazada.
Una prueba de hipótesis consiste en contrastar dos hipótesis estadísticas. Tal contraste involucra la
toma de decisión acerca de las hipótesis. La decisión consiste en rechazar o no una hipótesis en favor
de la otra. Una hipótesis estadística se denota por “H” y son dos:
VENTAJAS:
DESVENTAJAS
El uso de pruebas no paramétricas con datos que pueden manejarse con pruebas
paramétricas, produce un desperdicio de información.
La aplicación de algunas pruebas no paramétricas puede ser muy laboriosa y
complicarse para el caso de grandes muestras.
8. Los dos métodos No paramétricos para realizar una bondad de ajuste de los datos de una
variable con respecto a una distribución de probabilidad son: El de Chi- cuadrado, y el de
Kolmogorov - Smirnov . Explique en qué condiciones debe usarse cada uno de ellos.
CHI-CUADRADO DE PEARSON:
CRITERIO DE HOMOGENEIDAD.
CRITERIO DE INDEPENDENCIA.
Debe usarse cada uno de ellos según lo que se requiera, ya que si se quiere comprobar si
determinados datos se ajustan a una distribución concreta se usará el de "bondad de ajuste".
Para ver si dos muestras provienen de una misma población o una población con una misma familia
de distribuciones usaremos el de "homogeneidad". Y si se desea
comprobar si dos muestras son independientes o no usaremos el de independencia.
Además se deberá tener en cuenta en cada uno de esos tres casos la forma de los datos ya que
según sean datos continuos o discretos puede existir otro contraste que no sea Chi- cuadrado,.
También debe recordarse que son contrastes asistóticos, es decir, solo funcionan con muestras de
tamaño grande, con que el tamaño sea superior a 25 ya funcionan razonablemente.
Trabaja en base a valores observados valores esperados El valor esperado para cada celda de la
tabla de contingencia se obtiene multiplicando el total marginal de columna por el total marginal de la
fila divido por el total Luego se calcula un valor chi para cada celda el cual se obtiene restando el
valor observado menos el valor esperado , esta diferencia se eleva al cuadrado y se divide por el
valor esperado. Finalmente se suman todos los valores chi de todas las celdas y se obtiene el chi
cuadrado Se buscara en la tabla de chi el área que le corresponde según los grados de libertad Los
grados de libertad se obtiene de multiplicar número de filas menos 1 por número de columnas menos
1.
Conviene tener en cuenta que la prueba Kolmogórov-Smirnov es más sensible a los valores cercanos
a la mediana que a los extremos de la distribución. La prueba de Anderson-Darling proporciona igual
sensibilidad con valores extremos. Mediante la prueba se compara la distribución acumulada de las
frecuencias teóricas (ft) con la distribución acumulada de las frecuencias observadas (f obs), se
encuentra el punto de divergencia máxima y se determina qué probabilidad existe de que una
diferencia de esa magnitud se deba al azar.
En las tareas de investigación se pudo obtener un conjunto de observaciones, en las cuales se supone
que tienen una distribución normal, binomial, de Poisson, etc. Para el caso, las frecuencias de las
distribuciones teóricas deben contrastar con las frecuencias observadas, a fin de conocer cuál
distribución se adecua mejor al modelo.
Pasos:
Calcular las frecuencias esperadas de la distribución teórica específica por considerar para
determinado número de clases, en un arreglo de rangos de menor a mayor.
Arreglar estos valores teóricos en frecuencias acumuladas.
Arreglar acumulativamente las frecuencias observadas.
Aplicar la ecuación D = ft - f obs, donde D es la máxima discrepancia de ambas.
Comparar el valor estadístico D de Kolmogorov-Smirnov en la tabla de valores críticos de D.
Decidir si se acepta o rechaza la hipótesis.
Ecuación: D = ft -
fobs
En esta ecuación se aprecia que el procedimiento es muy simple y quizá lo que
parezca más complicado corresponde al cálculo de la frecuencia esperada de cada tipo de
distribución teórica. Por lo tanto, en la marcha de los ejercicios se presentará cada uno de
ellos y la manera de aplicar la prueba estadística.
10. Existen dos tipos de modelo de análisis de varianza: de efectos fijos y de efectos
aleatorios. Explique el significado cada uno de ellos en un análisis de varianza.
Donde es la media global, ai es la constante del efecto, o efecto fijo, que diferencia a las k
poblaciones. También se puede escribir:
Escuela de Ciencias Básicas, Tecnología e Ingeniería
Curso: INFERENCIA ESTADÍSTICA
representa la desviación de la observación j-ésima de la muestra i-ésima, con respecto a su media. A este
término se le suele llamar error aleatorio y, teniendo en cuenta las asunciones iniciales del análisis de la
varianza son k variables (una para cada muestra), todas con una distribución normal de media 0 y varianza .
La hipótesis nula en este análisis es que todas las medias son iguales
En este modelo se asume que las k muestras son muestras aleatorias de k situaciones distintas
y aleatorias. De modo que un valor aislado Yij se puede escribir como:
donde es la media global, ij son variables (una para cada muestra) distribuidas
2
normalmente, con media 0 y varianza (como en el modelo I) y Ai es una variable
distribuida normalmente, independiente de las ij, con media 0 y varianza
La diferencia con respecto al de efectos fijos es que en lugar de los efectos fijos i ahora se
consideran efectos aleatorios Ai.
Igual que en el primer modelo se encuentra que MSE no se modifica en la H1 y que al valor
esperado de MSA se le añade el término de componente añadida (que aquí es una verdadera
varianza ya que Ai es una variable aleatoria):
Escuela de Ciencias Básicas, Tecnología e Ingeniería
Curso: INFERENCIA ESTADÍSTICA
Para llegar a este resultado se utiliza la asunción de independencia entre Ai y ij y es, por
tanto, muy importante en el modelo y conviene verificar si es correcta en cada caso.
Fuente: http://www.hrc.es/bioest/Anova_8.html
Escuela de Ciencias Básicas, Tecnología e Ingeniería
Curso: INFERENCIA ESTADÍSTICA
CONCLUSIONES