Sunteți pe pagina 1din 16

Escuela de Ciencias Básicas, Tecnología e Ingeniería

Curso: INFERENCIA ESTADÍSTICA

INFERENCIA ESTADÍSTICA TRABAJO


COLABORATIVO 2

EDWIN RONAL SEPULVEDA FADIS

TORRES FLOREZ CÓD. 85271264

JAMES BAHAMÓN MONTOYA Cód.


80220327
JUAN MANUEL PEÑUELA COD.

80.375.378

TUTOR:
DIEGO FERNANDO PULECIO

CURSO: 100403
GRUPO: 113

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD MAYO –


2011
Escuela de Ciencias Básicas, Tecnología e Ingeniería
Curso: INFERENCIA ESTADÍSTICA

INTRODUCCIÓN

Presentamos en esta oportunidad nuestro segundo trabajo colaborativo en este interesante curso de
inferencia estadística en el que el grupo ha participado activamente presentando sus diferentes
aportes y puntos de vista sobre la problemática propuesta.
El tema que nos ocupa en términos generales se refiere a las pruebas y modelos paramétricos y no
paramétricos en las pruebas de hipótesis. Un manejo adecuado de esta temática deberá llevarnos a
tomar determinaciones acertadas cuando nos corresponda analizar diferentes hipótesis o alternativas
frente a una situación determinada.
El desarrollo de estas actividades ha de permitirnos afianzar nuestros conocimientos y adquirir
destrezas en el manejo de información que hará parte de nuestro desempeño profesional y cotidiano.
Escuela de Ciencias Básicas, Tecnología e Ingeniería
Curso: INFERENCIA ESTADÍSTICA

OBJETIVOS.

 Apropiar y llevar a la práctica conceptos fundamentales sobre las pruebas de hipótesis y los
diferentes métodos para esta actividad.

 Conocer y comprender los diferentes elementos conceptuales propios de la inferencia


estadística.

 Intercambiar conocimientos y experiencias que nos permitan enriquecer nuestro


aprendizaje.

 Evidenciar el nivel de apropiación de conceptos y conocimientos vistos en la segunda unidad


de Inferencia estadística.
Escuela de Ciencias Básicas, Tecnología e Ingeniería
Curso: INFERENCIA ESTADÍSTICA

DESARROLLO DE TEMAS:

1. Establezca la diferencia entre: Nivel de significación y potencia de una prueba;


pruebas paramétricas y pruebas No paramétricas.

La diferencia entre Nivel de significancia y la potencia de una prueba es que el Nivel de


Significación es la probabilidad de error que estamos dispuestos aceptar, mientras en la
Potencia está la probabilidad de rechazar la hipótesis nula cuando es falsa.

Las pruebas no paramétricas son aplicables a casi todos los casos, mientras que las
pruebas paramétricas solo son aplicables bajo ciertas condiciones.

Lo anterior se resume en la siguiente tabla.

N
IE
s

e
lN
o

h
a
y
u
n

n
S
e

u
s
a

n
Escuela de Ciencias Básicas, Tecnología e Ingeniería
Curso: INFERENCIA ESTADÍSTICA

PR
E
C
o
m
p
r
e
n
d
E
s
t
a
s
s
o
L
a

m
a
y
o
r
E
s
t
a
s
p
r
u
e

2. El tamaño de una muestra para realizar inferencia estadística depende de unos


factores, (la confiabilidad, la varianza y el error de estimación), que la determinan.
Explique los criterios que tiene un investigador para la determinación de estos
factores.

Concluimos que determinar el tamaño de la muestra es un tema complejo. Por tanto, el investigador
habrá de tener en cuenta: la amplitud del universo (infinito o no), representatividad, las variables
(tipo de datos, valores de la misma, homogeneidad/variabilidad de los datos), el tipo de
muestreo, el proceso y medios de
Escuela de Ciencias Básicas, Tecnología e Ingeniería
Curso: INFERENCIA ESTADÍSTICA

recogida de datos, los análisis estadísticos que se planifiquen, el error muestral, el error de estimación
y el nivel de confianza con el que deseemos trabajar entre otras consideraciones. Con esta base se
tendrán los referentes necesarios para determinar el tamaño de la muestra.

Para seleccionar el tamaño de la muestra se suelen utilizar técnicas de tres tipos. Ya hemos hablado
del uso de tablas, pero también se pueden determinar mediante otros procedimientos: las “curvas de
error” del tipo de las definidas por Kerlinger (1975: 132) o mediante cálculos estadísticos.

Ampliaremos un poco sobre estos aspectos.

CONFIABILIDAD

Esta demostrado con soporte matemático que una muestra representativa arroja resultados que
permiten inferir sobre la población con una confiabilidad muy alta.
Esta área de la Estadística, ayuda a determinar la confiabilidad de la inferencia de que
los fenómenos observados en la muestra ocurrirán también en la población de donde
se selecciona la muestra.

VARIANZA

Si observamos, veremos que la varianza no es más que el desvío estándar al cuadrado. Precisamente
la manera de simbolizarla es S al cuadrado . Por lo mismo, el desvío estándar puede definirse como la
raíz cuadrada de la varianza

ERROR DE ESTIMACIÓN

Es una medida de su precisión que se corresponde con la amplitud del intervalo de confianza.
Cuanta más precisión se desee en la estimación de un parámetro, más estrecho deberá ser el
intervalo de confianza y, por tanto, menor el error, y más sujetos deberán incluirse en la muestra
estudiada.

3. Qué significan el error tipo I y el error tipo II. Explique su interpretación con un ejemplo.

EL ERROR DE TIPO I

También mal llamado error de tipo alfa (alfa es la probabilidad de que ocurra este error), es el error
que se comete cuando el investigador rechaza la hipótesis nula (Ho) siendo ésta verdadera en la
población. Es equivalente a encontrar un resultado falso positivo, porque el investigador llega a la
conclusión de que existe una diferencia entre las hipótesis cuando en realidad no existe.
Escuela de Ciencias Básicas, Tecnología e Ingeniería
Curso: INFERENCIA ESTADÍSTICA

Es equivalente a encontrar un resultado falso Positivo, porque el investigador llega a la conclusión de


que existe una diferencia entre las hipótesis cuando en realidad no existe. Se relaciona con el nivel
significancia estadística.

Ejemplo

Se considera que una persona esta contagiada del VIH cuando en verdad no tiene el virus. Se

condena Culpable de un crimen a una persona que es inocente.

El error de tipo II,

También llamado error de tipo beta (aunque beta es la probabilidad de que exista éste error), se
comete cuando el investigador no rechaza la hipótesis nula siendo ésta falsa en la población. Es
equivalente a la probabilidad de un resultado falso negativo, ya que el investigador llega a la
conclusión de que ha sido incapaz de encontrar una diferencia que existe en la realidad.

4. Explique cuales son los supuestos de homogeneidad, homocedasticidad,


independencia y Normalidad, que deben cumplirse para validar un análisis de
varianzas.

El Supuesto de Homogeneidad se valida gráficamente en un diagrama de dispersión de entre los


residuales del eje (y), y si se cumple algún valor entonces querrá decir que no se cumple, el
supuesto de homogeneidad.

Para reconocer la homogeneidad es necesario realizar el análisis de la varianza . Con este análisis
podemos determinar si las variables influyen en los resultados o comportamientos.

El objetivo del análisis de varianza es determinar cuales son las variables independientes de
importancia en un estudio, y en qué forma interactúan y afectan la respuesta

El supuesto de homocedasticidad es una propiedad fundamental del modelo de regresión lineal, y


se dice que existe cuando la varianza de los errores estocásticos de la regresión es la misma para
cada observación.

Esta cualidad es necesaria, según el Teorema de Gauss, para que en un modelo los
coeficientes estimados sean los mejores o eficientes, lineales e insesgados.

Cuando no se cumple esta situación, decimos que existe heterocedasticidad, que es cuando la
varianza de cada término de perturbación (ui) no es un número constante .

Este fenómeno suele ser muy común en datos de Corte Transversal y también se presenta, menos
frecuentemente, en series de tiempo.
Escuela de Ciencias Básicas, Tecnología e Ingeniería
Curso: INFERENCIA ESTADÍSTICA

El Supuesto de independencia se puede representar mediante un gráfico de los residuales contra el


orden en que se tomaron las observaciones.

El supuesto de Normalidad ocurre cuando, valga la redundancia el muestreo se realiza en


poblaciones normales , y que exista evidencia de que se realizaron la prueba de Hartley, Cochran y
Bartlet y son sensibles a la normalidad.

SUSESOS INDEPENDIENTES

Dos sucesos son independientes si y sólo si p(A Ç B) = p(A) p(B). Si dos


sucesos son independientes

y del mismo modo p(B|A) = p(B).

Esta propiedad coincide más con la idea intuitiva de independencia y algunos textos la dan como
definición. Hay que notar, sin embargo, que ambas definiciones no son estrictamente equivalentes.

NORMALIDAD

Las puntuaciones de los diversos en la variable independiente se deben distribuir normal, lo que
implica que son muestras representativas de las poblaciones con distribución normal en esa variable.
El ANOVA es robusto al incumplimiento de este supuesto, no obstante, si la muestra es pequeña
es conveniente evaluarlo.

5. Comprueben a partir de dos muestras independientes de igual tamaño de hombres


y mujeres, la opinión de acuerdo o desacuerdo con algún tema de su interés, a través del
contraste de una hipótesis, en la se establezca si existen diferencias de opinión entre los
hombres y mujeres sobre el tema de interés consultado. Interprete los resultados a que
diere lugar este caso. Para dar respuesta a este caso utilice los pasos para el contraste
de una hipótesis.

Una hipótesis estadística es una asunción relativa a una o varias poblaciones, que puede ser cierta o
no. Las hipótesis estadísticas se pueden contrastar con la información extraída de las muestras y tanto
si se aceptan como si se rechazan se puede cometer un error. La hipótesis formulada con intención de
rechazarla se llama hipótesis nula y se representa por H0.
Escuela de Ciencias Básicas, Tecnología e Ingeniería
Curso: INFERENCIA ESTADÍSTICA

Rechazar H0 implica aceptar una hipótesis alternativa (H1). La situación se puede esquematizar: H0
cierta H0 rechazada H0 no rechazada Error tipo I (a ) Decisión correcta H0 falsa H1 cierta Decisión
correcta (*) Error tipo II (b )
(*) Decisión correcta que se busca a = p(rechazar H0|H0 cierta) b = p(aceptar H0|H0 falsa) Potencia
=1-b = p(rechazar H0|H0 falsa) Detalles a tener en cuenta 1 a y b están inversamente relacionadas.
2 Sólo pueden disminuirse las dos, aumentando n. Los pasos necesarios para realizar un contraste
relativo a un parámetro q son:

 Establecer la hipótesis nula en términos de igualdad


 Establecer la hipótesis alternativa, que puede hacerse de tres maneras, dependiendo del
interés del investigador, en el primer caso se habla de contraste bilateral o de dos colas, y en
los otros dos de lateral (derecho en el 2º caso, o izquierdo en el 3º) o una col
 Elegir un nivel de significación: nivel crítico para a 4. Elegir un estadístico de contraste:
estadístico cuya distribución muestral se conozca en H0 y que esté relacionado con q y
establecer, en base a dicha distribución, la región crítica: región en la que el estadístico tiene
una probabilidad menor que a si H0 fuera cierta y, en consecuencia, si el estadístico cayera en
la misma, se rechazaría H0. Obsérvese que, de esta
manera, se está más seguro cuando se rechaza una hipótesis que cuando no. Por eso se fija
como H0 lo que se quiere rechazar. Cuando no se rechaza, no se ha demostrado nada,
simplemente no se ha podido rechazar. Por otro lado, la decisión se toma en base a la
distribución muestral en H0, por eso es necesario que tenga la igualdad. 5. Calcular el
estadístico para una muestra aleatoria y compararlo con la región crítica, o equivalentemente,
calcular el "valor p" del estadístico (probabilidad de obtener ese valor, u otro más alejado de la
H0, si H0 fuera cierta) y compararlo con a.

6. Establezca las consideraciones que deben hacerse para seleccionar entre un modelo
paramétrico o su correspondiente No paramétrico.

Los métodos no paramétricos tienen ventajas sobre los paramétrico. Los métodos paramétricos en
muchas ocasiones no cumplen con los supuestos acerca de la forma funcional del conjunto de
variables aleatorias de las cuales provienen los datos, produciendo así modelos no muy confiables
que generan sesgos y deterioran la calidad de los pronósticos. En el campo no paramétrico se
evita este problema al permitir una forma funcional flexible, y no un conjunto pequeño de modelos
rígidos como lo hacen los paramétricos.

Consideraciones de las pruebas no parametricas sobre las pruebas parametricas: Por lo general, son
fáciles de usar y entender. Eliminan la necesidad de suposiciones restrictivas de las pruebas
paramétricas. Se pueden usar con muestras pequeñas. Se pueden usar con datos cualitativos.
Escuela de Ciencias Básicas, Tecnología e Ingeniería
Curso: INFERENCIA ESTADÍSTICA

Consideraciones de las pruebas parametricas sobre las pruebas no parametricas: A veces, ignoran,
desperdician o pierden información. No son tan eficientes como las paramétricas. Llevan a una mayor
probabilidad de no rechazar una hipótesis nula falsa (incurriendo en un error de tipo II).

Por lo general, las pruebas paramétricas son más poderosas que las pruebas no
paramétricas y deben usarse siempre que sea posible. Es importante observar, que aunque las
pruebas no paramétricas no hacen suposiciones sobre la distribución de la población que se muestrea,
muchas veces se apoyan en distribuciones muéstrales como la normal o la ji cuadrada.

7. Una de las opciones que tiene la estadística para realizar inferencia sobre los parámetros de
una población es la prueba de hipótesis. Explique las ventajas y desventajas con respecto al
otro método de estimación.

En primer lugar recordemos en qué consisten las pruebas de hipótesis.

Una hipótesis estadística se define como un supuesto hecho sobre algún parámetro de la
población. Dicho de otra manera es una teoría o suposición sobre un caso determinado la cual es
susceptible de ser verificada y en consecuencia de dicha verificación, ser entonces aceptada o
rechazada.

Una prueba de hipótesis consiste en contrastar dos hipótesis estadísticas. Tal contraste involucra la
toma de decisión acerca de las hipótesis. La decisión consiste en rechazar o no una hipótesis en favor
de la otra. Una hipótesis estadística se denota por “H” y son dos:

- Ho: hipótesis nula


- H1: hipótesis alternativa

VENTAJAS:

 No incorporan los supuestos restrictivos de las pruebas paramétricas.


 No requieren que la población subyacente esté normalmente distribuida.
 El uso de rangos permite menos errores.
 Permite precisar con mucha exactitud la estatura de cada caso
 Por lo general, son fáciles de usar y entender.
 Eliminan la necesidad de suposiciones restrictivas de las pruebas paramétricas.
 Se pueden usar con muestras pequeñas.
 Se pueden usar con datos cualitativos.
Escuela de Ciencias Básicas, Tecnología e Ingeniería
Curso: INFERENCIA ESTADÍSTICA

DESVENTAJAS

 El uso de pruebas no paramétricas con datos que pueden manejarse con pruebas
paramétricas, produce un desperdicio de información.
 La aplicación de algunas pruebas no paramétricas puede ser muy laboriosa y
complicarse para el caso de grandes muestras.

 Consume tiempo y espacio para representar y observar el comportamiento de los datos


 A veces, ignoran, desperdician o pierden información.
 No son tan eficientes como las paramétricas.
 Llevan a una mayor probabilidad de no rechazar una hipótesis nula falsa (incurriendo en un
error de tipo II).

8. Los dos métodos No paramétricos para realizar una bondad de ajuste de los datos de una
variable con respecto a una distribución de probabilidad son: El de Chi- cuadrado, y el de
Kolmogorov - Smirnov . Explique en qué condiciones debe usarse cada uno de ellos.

Empezaremos por determinar las condiciones en que se usaría el método Chi-cuadrado.

CHI-CUADRADO DE PEARSON:

PRUEBA DE BONDAD DE AJUSTE:

Ho La muestra se ajusta a una distribución teórica (esperado o modelo


H1:Ho La muestra no se ajusta a una distribución teórica. (esperado o modelo)

CRITERIO DE HOMOGENEIDAD.

Ho = Las poblaciones son homogéneas.


Ho = Las poblaciones no son homogéneas.
Escuela de Ciencias Básicas, Tecnología e Ingeniería
Curso: INFERENCIA ESTADÍSTICA

CRITERIO DE INDEPENDENCIA.

Ho: Las variables son independientes


H1: Las variables están relacionadas.

Debe usarse cada uno de ellos según lo que se requiera, ya que si se quiere comprobar si
determinados datos se ajustan a una distribución concreta se usará el de "bondad de ajuste".

Para ver si dos muestras provienen de una misma población o una población con una misma familia
de distribuciones usaremos el de "homogeneidad". Y si se desea
comprobar si dos muestras son independientes o no usaremos el de independencia.

Además se deberá tener en cuenta en cada uno de esos tres casos la forma de los datos ya que
según sean datos continuos o discretos puede existir otro contraste que no sea Chi- cuadrado,.
También debe recordarse que son contrastes asistóticos, es decir, solo funcionan con muestras de
tamaño grande, con que el tamaño sea superior a 25 ya funcionan razonablemente.

¿COMO SE CALCULA EL CHI-CUADRADO?

Trabaja en base a valores observados valores esperados El valor esperado para cada celda de la
tabla de contingencia se obtiene multiplicando el total marginal de columna por el total marginal de la
fila divido por el total Luego se calcula un valor chi para cada celda el cual se obtiene restando el
valor observado menos el valor esperado , esta diferencia se eleva al cuadrado y se divide por el
valor esperado. Finalmente se suman todos los valores chi de todas las celdas y se obtiene el chi
cuadrado Se buscara en la tabla de chi el área que le corresponde según los grados de libertad Los
grados de libertad se obtiene de multiplicar número de filas menos 1 por número de columnas menos
1.

PRUEBA DE KOLMOGOROV-SMIRNOV PARA UNA MUESTRA

La prueba de Kolmogorov-Smirnov para una muestra se considera un procedimiento de "bondad de


ajuste", es decir, permite medir el grado de concordancia existente entre la distribución de un conjunto
de datos y una distribución teórica específica. Su objetivo es señalar si los datos provienen de una
población que tiene la distribución teórica especificada. En el caso de que queramos verificar la
normalidad de una distribución, la prueba de Lilliefors conlleva algunas mejoras con respecto a la de
Kolmogórov-Smirnov; y, en general, el test de Shapiro–Wilk o la prueba de Anderson-Darling son
alternativas más potentes.
Escuela de Ciencias Básicas, Tecnología e Ingeniería
Curso: INFERENCIA ESTADÍSTICA

Conviene tener en cuenta que la prueba Kolmogórov-Smirnov es más sensible a los valores cercanos
a la mediana que a los extremos de la distribución. La prueba de Anderson-Darling proporciona igual
sensibilidad con valores extremos. Mediante la prueba se compara la distribución acumulada de las
frecuencias teóricas (ft) con la distribución acumulada de las frecuencias observadas (f obs), se
encuentra el punto de divergencia máxima y se determina qué probabilidad existe de que una
diferencia de esa magnitud se deba al azar.

En las tareas de investigación se pudo obtener un conjunto de observaciones, en las cuales se supone
que tienen una distribución normal, binomial, de Poisson, etc. Para el caso, las frecuencias de las
distribuciones teóricas deben contrastar con las frecuencias observadas, a fin de conocer cuál
distribución se adecua mejor al modelo.

Pasos:

 Calcular las frecuencias esperadas de la distribución teórica específica por considerar para
determinado número de clases, en un arreglo de rangos de menor a mayor.
 Arreglar estos valores teóricos en frecuencias acumuladas.
 Arreglar acumulativamente las frecuencias observadas.
 Aplicar la ecuación D = ft - f obs, donde D es la máxima discrepancia de ambas.
 Comparar el valor estadístico D de Kolmogorov-Smirnov en la tabla de valores críticos de D.
 Decidir si se acepta o rechaza la hipótesis.
Ecuación: D = ft -
fobs
En esta ecuación se aprecia que el procedimiento es muy simple y quizá lo que
parezca más complicado corresponde al cálculo de la frecuencia esperada de cada tipo de
distribución teórica. Por lo tanto, en la marcha de los ejercicios se presentará cada uno de
ellos y la manera de aplicar la prueba estadística.

10. Existen dos tipos de modelo de análisis de varianza: de efectos fijos y de efectos
aleatorios. Explique el significado cada uno de ellos en un análisis de varianza.

MODELO DE ANÁLISIS DE EFECTOS FIJOS.

Un valor individual se puede escribir en este modelo como:

Donde  es la media global, ai es la constante del efecto, o efecto fijo, que diferencia a las k
poblaciones. También se puede escribir:
Escuela de Ciencias Básicas, Tecnología e Ingeniería
Curso: INFERENCIA ESTADÍSTICA

representa la desviación de la observación j-ésima de la muestra i-ésima, con respecto a su media. A este
término se le suele llamar error aleatorio y, teniendo en cuenta las asunciones iniciales del análisis de la

varianza son k variables (una para cada muestra), todas con una distribución normal de media 0 y varianza  .

La hipótesis nula en este análisis es que todas las medias son iguales

que puede escribirse en términos del modelo como:

MODELO DE EFECTOS ALEATORIOS

En este modelo se asume que las k muestras son muestras aleatorias de k situaciones distintas
y aleatorias. De modo que un valor aislado Yij se puede escribir como:

donde  es la media global,  ij son variables (una para cada muestra) distribuidas
2
normalmente, con media 0 y varianza  (como en el modelo I) y Ai es una variable
distribuida normalmente, independiente de las ij, con media 0 y varianza

La diferencia con respecto al de efectos fijos es que en lugar de los efectos fijos  i ahora se
consideran efectos aleatorios Ai.

Igual que en el primer modelo se encuentra que MSE no se modifica en la H1 y que al valor
esperado de MSA se le añade el término de componente añadida (que aquí es una verdadera
varianza ya que Ai es una variable aleatoria):
Escuela de Ciencias Básicas, Tecnología e Ingeniería
Curso: INFERENCIA ESTADÍSTICA

Para llegar a este resultado se utiliza la asunción de independencia entre Ai y ij y es, por
tanto, muy importante en el modelo y conviene verificar si es correcta en cada caso.

Fuente: http://www.hrc.es/bioest/Anova_8.html
Escuela de Ciencias Básicas, Tecnología e Ingeniería
Curso: INFERENCIA ESTADÍSTICA

CONCLUSIONES

 Los diferentes métodos de prueba de hipótesis nos permiten tomar determinaciones


acertadas frente a situaciones que tengan que ver con el contraste de diferentes alternativas de
las cuales debamos elegir la más adecuada para el propósito que nos ocupe.

 La aplicación de un método paramétrico o no paramétrico depende entre otras cosas del


tamaño y características de la muestra y de los requerimientos que originen la investigación.

 El trabajo en equipo permite complementar la información aportada por cada


integrante y enriquecer los conocimientos y experiencias frente a un te,a determinado.

S-ar putea să vă placă și