Sunteți pe pagina 1din 5

P valvule

En contrastes de hiptesis y en estadstica general, el valor p (a veces conocido


simplemente como el p-valor, la p, valor p consignado, o bien directamente en
ingls p-value) se define como la probabilidad de obtener un resultado al menos
tan extremo como el que realmente se ha obtenido (valor del estadstico
calculado), suponiendo que la hiptesis nula es cierta, en trminos de probabilidad
condicional:

Es fundamental tener en cuenta que el valor p est basado en la asuncin de la


hiptesis de partida (o hiptesis nula). El valor p es por tanto una medida
de significacin estadstica.

Se rechaza la hiptesis nula si el valor p asociado al resultado observado es igual


o menor que el nivel de significacin establecido, convencionalmente 0,05 0,01.
Es decir, el valor p nos muestra la probabilidad de haber obtenido el resultado que
hemos obtenido si suponemos que la hiptesis nula es cierta.

Si el valor p es inferior al nivel de significacin, lo ms verosmil es que la hiptesis


de partida sea falsa. Sin embargo, tambin es posible que estemos ante una
observacin atpica, por lo que estaramos cometiendo el error estadstico de
rechazar la hiptesis nula cuando sta es cierta basndonos en que hemos tenido
la mala suerte de encontrar una observacin atpica. Este tipo de errores se puede
subsanar rebajando el valor p; un valor p de 0,05 es usado en investigaciones
habituales sociolgicas mientras que valores p de 0,01 se utilizan en
investigaciones mdicas, en las que cometer un error puede acarrear
consecuencias ms graves. Tambin se puede tratar de subsanar dicho error
aumentando el tamao de la muestra obtenida, lo que reduce la posibilidad de que
el dato obtenido sea casualmente raro.

El valor p es un valor de probabilidad, por lo que oscila entre 0 y 1. As, se suele


decir que valores altos de p NO RECHAZAN la hiptesis nula o, dicho de forma
correcta, no permiten rechazar la H0. De igual manera, valores bajos de p
rechazan la H0.

Es importante recalcar que un contraste de hiptesis nula no permite aceptar una


hiptesis; simplemente la rechaza o no la rechaza, es decir que la tacha de
verosmil (lo que no significa obligatoriamente que sea cierta, simplemente que es
ms probable de serlo) o inverosmil.
coeficientes: R y R cuadrada ajustada
En la literatura se suele encontrar que los criterios para determinar la bondad de
las predicciones se basa en el examen de los valores del coeficiente de
correlacin y, principalmente, del coeficiente de determinacin R2 (tambin
denominado coeficiente de correlacin mltiple al cuadrado o coeficiente de
determinacin mltiple).

Coeficiente de determinacin mltiple, R2, y R2 ajustado, son algunas medidas


habituales en el anlisis de regresin, denotando el porcentaje de varianza
justificado por las variables independientes. El R2 ajustado tiene en cuenta el
tamao del conjunto de datos, y su valor es ligeramente inferior al de su
correspondiente R2 [Norusis, 1993].
El R2 es un criterio de valoracin de la capacidad de explicacin de los modelos
de regresin, y representa el porcentaje de la varianza justificado por la variable
independiente. Se puede interpretar como el cuadrado del coeficiente de
correlacin de Pearson entre las variables dependiente e independiente, o tambin
como el cuadrado del coeficiente de correlacin entre los valores reales de una
variable y sus estimaciones. Si todas las observaciones estn en la lnea de
regresin, el valor de R2 es 1, y si no hay relacin lineal entre las variables
dependiente e independiente, el valor de R2 es 0. El coeficiente R2 es una medida
de la relacin lineal entre dos variables. A medida que su valor es mayor, el ajuste
de la recta a los datos es mejor, puesto que la variacin explicada es mayor; as, el
desajuste provocado por la sustitucin de los valores observados por los predichos
es menor.

Los valores que se han obtenido para el coeficiente R2 en los diferentes estudios
publicados, por ejemplo, sobre los puntos de funcin varan desde 0,44 hasta
0,87. Apoyndose en estos valores, algunos autores afirman la validez de la
tcnica de los puntos de funcin. Sin embargo, es una conclusin que no se
desprende directamente de esos datos. Fijmonos que son valores explicativos,
no predictivos. Tanto el R2 como el coeficiente de correlacin no son las medidas
ms adecuadas para evaluar la prediccin de un modelo; en el mejor de los casos
se trata de medidas del ajuste de la ecuacin a los datos, no de la capacidad
predictiva del modelo. En algunos casos la idea que nos transmite el R2 puede
coincidir con la de las variables que a continuacin se muestran, pero en otros no.

Prueba de shapiro
En estadstica, el Test de ShapiroWilk se usa para contrastar la normalidad de un
conjunto de datos. Se plantea como hiptesis nula que una muestra x1, ..., xn
proviene de una poblacin normalmente distribuida. Fue publicado en 1965 por
Samuel Shapiro y Martin Wilk.1 Se considera uno de los test ms potentes para el
contraste de normalidad, sobre todo para muestras pequeas (n<50).

Normalidad de residuos
Hiptesis de normalidad.
La hiptesis de normalidad afirma que los errores del modelo e siguen una
distribucin normal. Esta hiptesis se contrasta a partir de los residuos
estandarizados {ri}i = 1n . Se pueden aplicar los contrastes y grficos de
normalidad descritos en la seccin 4.3.bullet Grficos para observar la
normalidad son: el histograma, estimador ncleo de la densidad de Rosenblatt-
Parzen, grfico p - p y grfico q - q.bullet Contrastes de normalidad son:
contraste de asimetra y kurtosis, contraste chi-cuadrado, contraste de
Kolmogorov-Smirnov-Liliefors.En relacin con la utilizacin de los residuos para
contrastar la normalidad, debe de tenerse en cuenta que de la relacin e = (I- H)
Por tanto, si ei es pequeo, el trmino dominante en la relacin anterior es el
sumatorio que por el Teorema Central del Lmite es aproximadamente normal.
Entonces puede ocurrir que los ei sean aproximadamente normales aunque los ei
no lo sean. En cualquier caso, si n es grande en relacin con k + 1 se pueden
utilizar los residuos estandarizados ri para contrastar la hiptesis de normalidad.
La falta de normalidad influye en el modelo en:
Los estimadores mnimo-cuadrticos no son eficientes (de mnima varianza).
Los intervalos de confianza de los parmetros del modelo y los contrastes de
significacin son solamente aproximados y no exactos.
Causas que dan origen a la falta de normalidad son las siguientes:
* Existen observaciones heterogneas. En este caso se debe averiguar la causa
que origina estas observaciones: errores en la recogida de datos; el modelo
especificado no es correcto porque se han omitido variables regresoras (por
ejemplo, no se ha tenido en cuenta una variable de clasificacin cuando las
observaciones proceden de diferentes poblaciones).
Se debe hacer un estudio de influencia de las observaciones atpicas para
averiguar el grado de influencia en la estimacin del modelo. Si esta influencia es
muy grande puede ser conveniente recurrir a procedimientos de estimacin
robusta en el clculo del modelo.

* Existe asimetra en la distribucin. En este caso suele ser conveniente


transformar la variable respuesta (transformacin de Box-Cox). Este problema
suele estar relacionado con otros problemas como falta de linealidad o
heterocedasticidad, la solucin de transformar las observaciones pueden
resolverlos conjuntamente.

* Si la hiptesis de normalidad no se verifica y las soluciones anteriores no son


vlidas se pueden obtener intervalos de confianza de los parmetros por mtodos
diferentes de los expuestos en los que se tiene en cuenta la distribucin especfica
de los errores.

ANOVA
Un anlisis de varianza (ANOVA) prueba la hiptesis de que las medias de dos o
ms poblaciones son iguales. Los ANOVA evalan la importancia de uno o ms
factores al comparar las medias de la variable de respuesta en los diferentes
niveles de los factores. La hiptesis nula establece que todas las medias de la
poblacin (medias de los niveles de los factores) son iguales mientras que la
hiptesis alternativa establece que al menos una es diferente.

Para ejecutar un ANOVA, debe tener una variable de respuesta continua y al


menos un factor categrico con dos o ms niveles. Los anlisis ANOVA requieren
datos de poblaciones que sigan una distribucin aproximadamente normal con
varianzas iguales entre los niveles de factores. Sin embargo, los procedimientos
de ANOVA funcionan bastante bien incluso cuando se viola el supuesto de
normalidad, a menos que una o ms de las distribuciones sean muy asimtricas o
si las varianzas son bastante diferentes. Las transformaciones del conjunto de
datos original pueden corregir estas violaciones.

Grafico q y q
En estadstica, un grfico Q-Q ("Q" viene de cuantil) es un mtodo grfico para el
diagnstico de diferencias entre la distribucin de probabilidad de una poblacin
de la que se ha extrado una muestra aleatoria y una distribucin usada para la
comparacin. Una forma bsica de grfico surge cuando la distribucin para la
comparacin es una distribucin terica.1 No obstante, puede usarse la misma
idea para comparar las distribuciones inferidas directamente de dos conjuntos de
observaciones, donde los tamaos de las muestras sean distintos.2
Un ejemplo del tipo de diferencias que pueden comprobarse es la no-normalidad
de la distribucin de una variable en una poblacin. Para una muestra de tamao
n, se dibujan n puntos con los (n+1)-cuantiles de la distribucin de comparacin,
por ejemplo, la distribucin normal, en el eje horizontal el estadstico de k-simo
orden, (para k = 1, ..., n) de la muestra en el eje vertical. Si la distribucin de la
variable es la misma que la distribucin de comparacin se obtendr,
aproximadamente, una lnea recta, especialmente cerca de su centro. En el caso
de que se den desviaciones sustanciales de la linealidad, los estadsticos
rechazan la hiptesis nula de similitud.

ndice [ocultar]
1 Representacin grfica
2 Relacin con grficas de probabilidad
3 Vase tambin
4 Notas
5 Referencias

6 Enlaces externos

S-ar putea să vă placă și