Documente Academic
Documente Profesional
Documente Cultură
Trminos y conceptos
Suposiciones
Anlisis de correlacin
Diagrama de dispersin
Diagrama de dispersin Coeficiente de correlacin r Lnea de regresin de muestra Prueba de Ho: P=0
Diagnstico de regresin
REGRESIN LINEAL SIMPLE: Estudia cmo los cambios de una variable no aleatoria,
ECUACIN DE REGRESIN: Relacin que se ajusta a un conjunto de datos
experimentales. muestrales.
afectan a una aleatoria, y si existe una relacin se establece en una expresin lineal.
VALOR MEDIO O ESPERADO: Constante de gravedad que nos seala los valores
donde se sita los valores de mxima probabilidad de la variable aleatoria. Ei = Error del modelo ei= Se denomina residuo y describe el error en el ajuste del modelo en el isimo punto de los datos.
CONCEPTOS
CORRELACION:se basa en el grado de relacin que poseen dos variables numricas entre si. COEFICIENTE DE CORRELACIN :permite predecir si entre dos variables existe o no una relacin o dependencia matemtica.
DIAGRAMA DE DISPERSION: es una representacin en un sistema de coordenadas cartesianas de los datos numricos observados.
HIPOTESIS NULA: se utiliza para designar cualquier hiptesis formulada para ver si puede ser rechazada
Se predice una variable dependiente en funcin de una variable independiente simple. Y|x es la variable aleatoria Y que corresponde a un valor fijo x. Su media se relaciona linealmente con x mediante:
n parejas de (xi,yi) donde deseamos determinar la lnea que mejor se ajuste con:
y = a + Bx
Todas las medias caen en una lnea recta, y cada Yi se describe con el modelo de regresin lineal simple:
ei= yi - y
Lmites de confianza para los coeficientes de regresin: a +- t /2 Se (Sxx + (nx)2) / nSxx b +- t /2 Se n / Sxx
Es la lnea que se utiliza para distinguir entre le valor estimado o predicho, es la lnea que se ajusta mejor a los datos que obtenidos de la muestra tomada, entre ms datos, ms exactas sern las suposiciones.
Mtodo de calcular la ecuacin de la lnea que mejor ajusta un conjuntos dado de datos apareados, que da valores de a y b ( estimaciones).
Debemos determinar a y b de forma que los errores sean lo ms pequeo posible, (ei), se hace la suma: ei Si ei=0 , minimizamos la suma de los cuadrados de los ei, elegiremos a y b tales que: [yi (a + bxi)]2
Se emplea cuando la relacin entre x y la media de y es lineal o bastante cercana a una lnea recta. Expresiones relacionadas con los valores muestrales (xi,yi): Sxx= nxi2 (xi)2 Syy= n yi2 (yi)2
Entre todos los estimados insesgados de y que son lineales en las yi, los estimadores de mnimos cuadrados tienen la variancia ms pequea. Los estimadores de mnimos cuadrados son los ms confiables por hallarse sujetos a variaciones aleatorias ms pequeas.
CORRELACION
CORRELACION
El concepto de relacin o correlacin se refiere al grado de variacin conjunta existente entre dos o mas variables. Nos vamos a centrar en el estudio de un particular de relacin llamada lineal y nos vamos a limitar a considerar dos variables nicamente (simple X y Y) .
Anlisis de correlacin
Si consideramos la relacin entre las precipitaciones pluviales y la produccin de cierta cosecha, la relacin entre la resistencia a la tensin y la dureza del aluminio o la conexin entre las impurezas del aire y la incidencia de cierta enfermedad. A esta clase de problemas se les llama problemas de anlisis de correlacin donde se supone que los datos puntuales (Xi, Yi) para i= 1,2,...,n son valores de un par de variables aleatorias cuya densidad conjunta esta dada por f(X,Y)
El coeficiente de correlacin, r, tiene las siguientes propiedades: No tiene dimensiones: Es decir, no depende de las unidades en las que se expresan los valores de las dos variables. Por tanto, si se realiza un cambio de unidades, el valor de r no vara. El valor de r est comprendido entre -1 y 1. Si la correlacin es perfecta (puntos de la nube alineados), entonces | r | = 1, es decir, r = 1 r = -1. Si la correlacin es fuerte, | r | es prximo a 1. Si la correlacin es dbil, | r | es prximo a 0.
Grado de Correlacin
El coeficiente de correlacin, r, presenta valores entre 1 y +1. Cuando r es prximo a 0, no hay correlacin lineal entre las variables. La nube de puntos est muy dispersa o bien no forma una lnea recta. No se puede trazar una recta de regresin. Cuando r es cercano a +1, hay una buena correlacin positiva entre las variables segn un modelo lineal y la recta de regresin que se determine tendr pendiente positiva, ser creciente. Cuando r es cercano a -1, hay una buena correlacin negativa entre las variables segn un modelo lineal y la recta de regresin que se determine tendr pendiente negativa: es decreciente.
No hay correlacin
r 0
r 0
r 1
(c) Rosario Ruiz Baos. Departamento de Biblioteconoma y Documentacin. Universidad de Granada (Espaa)
r 1
DIAGRAMA DE DISPERSIN
La forma mas directa e intuitiva de formarnos una primera impresin sobre el tipo de relacin existente entre dos variables esa travs de un diagrama de dispersin. Este es un grafico en el que una de las variables (Xi) se coloca en el eje de la abscisa, la otra (Yi) en la ordenada y los pares (Xi, Yi) se representan como una nube de puntos. La forma de la nube de puntos nos informa sobre el tipo de relacin existente entre las variables
Ejemplo.- Suponga que al administrador de una cadena de almacenes departamentales le gustara desarrollar un modelo para predecir las ventas semanales ( en miles de dlares) de cada tienda. se seleccion una muestra de 20 almacenes de entre todos los que conforman la cadena.
DIAGRAMA DE DISPERSIN
ventas semanales (mles de dolares)
15 10
Serie1
Muestra una situacin de que entre mayores son las puntuaciones en una variable, mayores son tambin , las puntuaciones en la otra, cuando ocurre esto, los puntos se sitan en una lnea recta ascendente y hablamos de una relacin lineal positiva.
r 1
Representa una situacin de que entre mayores sean las puntuaciones de una variable, menores son las puntuaciones en la otra, en este caso los puntos se sitan en una lnea recta descendente y hablamos de una relacin lineal negativa.
r 1
Cuando r es prximo a 0, no hay correlacin lineal entre las variables. La nube de puntos est muy dispersa o bien no forma una lnea recta. No se puede trazar una recta de regresin.
No hay correlacin
r 0
La importancia del clculo de regresiones lineales es importante porque nos permite predecir valores de respuesta a uno o ms valores de la variable independiente.
El intervalo de prediccin calculado, representa un intervalo que tiene una probabilidad igual a 1- de contener no un parmetro sino un valor futuro yo de la variable aleatoria Yo.
Una hiptesis estadstica es cualquier conjetura sobre una o varias caractersticas de inters de un modelo de probabilidad. Puede ser: paramtrica (simple o compuesta) y no paramtrica. La hiptesis que se contrasta se denomina hiptesis nula (H0). Si se rechaza la hiptesis nula es porque se asume como correcta una hiptesis complementaria que se denomina hiptesis alternativa (H1). Ho p= 0 H1 p> 0 En el clculo de la hiptesis se pueden cometer 2 tipos de errores: El rechazo de la hiptesis nula cuando es verdadera se llama error tipo I. La aceptacin de la hiptesis nula cuando es falsa se llama error tipo II.
HIPOTESIS NULA Ho; p=0 A menudo se requiere que formulemos la hiptesis opuesta a la que deseamos probar. Por ejemplo, si queremos demostrar que un mtodo de irrigacin es ms costoso que otro, formulamos la hiptesis de que los dos son igualmente costosos. En vista de que formulamos la hiptesis de que no hay diferencia en los costos de los dos mtodos de irrigacin, a esta hiptesis la llamaremos hiptesis nula y la denotaremos por Ho .
En particular podemos probar la hiptesis nula de que no hay correlacin, es decir, la hiptesis nula p=0, con el estadstico
z= (n-3) * Z = (n-3)/2 * ln (1+r ) / (1-r)
Donde: n= tamao de la muestra Z= transformacin Z de Fisher *ln (1+r ) / (1-r) r= coeficiente de correlacin