Documente Academic
Documente Profesional
Documente Cultură
Análisis de Regresión
Una relación funcional matemáticamente hablando, está dada por:
Y = f(x1, . . . , xn; θ1, . . . , θm)
Donde:
Y: Variable respuesta (o dependiente)
Xi: La i-esima variable independiente (i=1,.., n)
θj : El j-esimo parámetro en la función (j=1,..,m)
f : La función
Para elegir una relación funcional particular como la representativa de la población
bajo investigación, usualmente se procede:
1) Una consideración analítica del fenómeno que nos ocupa, y
2) Un examen de diagramas de dispersión.
Una vez decidido el tipo de función matemática que mejor se ajusta (o representa
nuestro concepto de la relación exacta que existe entre las variables) se presenta
el problema de elegir una expresión particular de esta familia de funciones; es
decir, se ha postulado una cierta función como término del verdadero estado en la
población y ahora es necesario estimar los parámetros de esta función (ajuste de
curvas).
Como los valores de los parámetros no se pueden determinar sin errores por que
los valores observados de la variable dependiente no concuerdan con los valores
esperados, entonces la ecuación general replanteada, estadísticamente, sería:
Y = f(x1, . . . xn; θ1, . . . , θm) + ε
Donde ε representa el error cometido en el intento de observar la característica en
estudio, en la cual muchos factores contribuyen al valor que asume ε.
Los supuestos del 3 al 6 equivalen a decir que los errores son aleatorios, que se
distribuyen normalmente con media cero y variancia 𝜎2. Terminología:
Promedios.
∑ 𝑦𝑖 ∑ 𝑥𝑖
𝑦̅ = ; 𝑥̅ =
𝑛 𝑛
Sumas de cuadrados y productos de X e Y.
𝑆𝐶𝑌 = ∑(𝑦𝑖 − 𝑦)2 ; 𝑆𝐶𝑋 = ∑(𝑥𝑖 − 𝑥)2 ; 𝑆𝑃𝑋𝑌 = ∑(𝑥𝑖 − 𝑥̅ ) (𝑦𝑖 − 𝑦̅)
SCY también corresponde a la suma de cuadrados total = SC total
Estimación de parámetros
La función de regresión lineal simple es expresado como:
Y = βo + β1X + ε
La estimación de parámetros consiste en determinar los parámetros βo y β1 a
partir de los datos muéstrales observados; es decir, deben hallarse valores como
𝑏𝑜 𝑦 𝑏1 de la muestra, que represente a βo + β1 , respectivamente.
Empleando el método de los mínimos cuadrados, es decir minimizando la suma de
cuadrados de los errores, se determinan los valores de 𝑏𝑜 𝑦 𝑏1, asi:
REGRESIÓN CURVILÍNEA
Se considerará primero el caso en que la graficacion en una escala adecuada
puede ser lineal. Por ejemplo, si un conjunto de parejas de datos que conste de n
puntos (𝑥𝑖, 𝑦𝑖) "se enderezan" cuando son graficados sobre ejes escalados
adecuadamente. E este caso, al ser representados sobre papel semilogarítmico,
indican que la curva de regresión de y sobre x es exponencial, es decir para
cualquier x considerada, la media de la distribución está dada por la siguiente
ecuación predictora 𝑦 = 𝛼 . 𝛽 𝑥, tomando logaritmos en ambos miembros:
log(y) = log(α) + 𝑥 log(β)
Y se puede estimar ahora 𝑙𝑜𝑔(𝛼) 𝑦 𝑙𝑜𝑔(𝛽), y de ahí obtener 𝛼 𝑦 𝛽, aplicando los
métodos anteriores a los n pares de valores [𝑥𝑖, 𝑙𝑜𝑔(𝑦𝑖)].
Correlación.
Recordemos que para el caso de una variable, la varianza era un parámetro que
nos mostraba cuanta variación existía entre la media un conjunto de datos. En el
mismo tenor, estamos en determinar la dependencia entre dos variables por lo que
una primera propuesta es construir una medida que nos permita en forma análoga
tratar la “variación”.
Se define la covarianza como la variación que existe entre los datos de dos
variables, expresada como:
(𝑥1 − 𝑥̅ )(𝑦1 |−𝑦̅)
𝑠𝑥𝑦 = ∑
𝑛
Donde 𝑥1 𝑦 𝑦1 son las variables para n datos que intervienen en el estudio.
En realidad la correlación es una medida sobre el grado de relación entre dos
variables, sin importar cuál es la causa y cuál es el efecto. La dependencia de la
que se habla en este sentido es la dependencia entre la varianza de las variables.