Sunteți pe pagina 1din 17

INDICE:

UNIDAD 1.- REGRESION LINEAL SIMPLE Y CORRELACION.


1.1.- MODELO DE REGRESION SIMPLE.
1.2.- SUPUESTOS.
1.3.- DETERMINACION DE LA ECUACION DE REGRESION.
1.4.- MEDIDAS DE VARIACION.
1.5.- CALCULO DE COEFICIENTES DE CORRELACION Y DE
DETERMINACION.
1.6.- ANALISIS RESIDUAL.
1.7.- INFERENCIAS ACERCA DE LA PENDIENTE.
1.8.- APLICACIONES.

INTRODUCCIN
La regresin y los anlisis de correlacin nos muestran como determinar tanto la
naturaleza como la fuerza de una relacin entre dos variables
Si sabemos que existe una relacin entre una variable denominada dependiente y
otras denominadas independientes (como por ejemplo las existentes entre: la
experiencia profesional de los trabajadores y sus respectivos sueldos, las
estaturas y pesos de personas, la produccin agraria y la cantidad de fertilizantes
utilizados, etc.), puede darse el problema de que la dependiente asuma mltiples
valores para una combinacin de valores de las independientes.
La dependencia a la que hacemos referencia es relacional matemtica y no
necesariamente de causalidad. As, para un mismo nmero de unidades
producidas, pueden existir niveles de costo, que varan empresa.
Si se da ese tipo de relaciones, se suele recurrir a los estudios de regresin en los
cuales se obtiene una nueva relacin pero de un tipo especial denominado
funcin, en la cual la variable independiente se asocia con un indicador de
tendencia central de la variable dependiente. Cabe recordar que en trminos
generales, una funcin es un tipo de relacin en la cual para cada valor de la
variable independiente le corresponde uno y slo un valor de la variable
dependiente.

1.1.- MODELO DE REGRESION SIMPLE.


El modelo lineal relaciona la variable dependiente Y con K variables explicitas
(k = 1,...K), o cualquier transformacin de stas que generen un hiperplano de
parmetros
desconocidos:

Donde
es la perturbacin aleatoria que recoge todos aquellos factores de la
realidad no controlables u observables y que por tanto se asocian con el azar, y es
la que confiere al modelo su carcter estocstico. En el caso ms sencillo, con una
sola variable explicita, el hiperplano es una recta:

El problema de la regresin consiste en elegir unos valores determinados para los


parmetros desconocidos , de modo que la ecuacin quede completamente
especificada. Para ello se necesita un conjunto de observaciones. En una
observacin i-sima (i= 1,... I) cualquiera, se registra el comportamiento
simultneo de la variable dependiente y las variables explicitas (las perturbaciones
aleatorias se suponen no observables).

Los valores escogidos como estimadores de los parmetros , son los


coeficientes de regresin sin que se pueda garantizar que coincida n con
parmetros reales del proceso generador. Por tanto, en

Los valores

son por su parte estimaciones o errores de la perturbacin aleatoria.

Hiptesis modelo de regresin lineal clsico


1. Esperanza matemtica nula.

Para cada valor de X la perturbacin tomar distintos valores de forma aleatoria,


pero no tomar sistemticamente valores positivos o negativos, sino que se

supone tomar algunos valores mayores que cero y otros menores que cero, de
tal forma que su valor esperado sea cero.

2. Homocedasticidad

Para todo t
Todos los trminos de la perturbacin tienen la misma varianza que es
desconocida. La dispersin de cada en torno a su valor esperado es siempre la
misma.

3. Incorrelacin.
Para todo t,s con t distinto
de s
Las covarianzas entre las distintas perturbaciones son nulas, lo que quiere decir
que no estn correlacionadas o autocorrelacionadas. Esto implica que el valor de
la perturbacin para cualquier observacin muestral no viene influenciado por los
valores de las perturbaciones correspondientes a otras observaciones mustrales.
4. Regresores no estocsticos.
5. No existen relaciones lineales exactas entre los Regresores.
6
Suponemos que no existen errores de especificacin en el modelo,
ni errores de medida en las variables explicativas
7. Normalidad de las perturbaciones

1.2.- SUPUESTOS DEL MODELO DE REGRESIN LINEAL.


Para poder crear un modelo de regresin lineal es necesario que se cumpla con
los siguientes supuestos:
1. Que la relacin entre las variables sea lineal.
2. Que los errores en la medicin de las variables explicativas sean
independientes entre s.
3. Que los errores tengan varianza constante. (Homocedasticidad)
4. Que los errores tengan una esperanza matemtica igual a cero (los errores
de una misma magnitud y distinto signo son equiprobables).
5. Que el error total sea la suma de todos los errores.

6. Los valores de la variable independiente X son fijos, medidos sin error.


7. La variable Y es aleatoria
8. Para cada valor de X, existe una distribucin normal de valores de Y
(subpoblaciones Y)

9. Las variancias de las subpoblaciones Y son todas iguales.


10. Todas las medias de las subpoblaciones de Y estn sobre la recta.

11.

Los

valores

de

estn

normalmente

distribuidos

son

estadsticamente independientes.
1.3.- DETERMINACION DE LA ECUACION DE REGRESION.
Consiste en determinar los valores de "a" y "b " a partir de la muestra, es decir,
encontrar los valores de a y b con los datos observados de la muestra. El mtodo
de estimacin es el de Mnimos Cuadrados, mediante el cual se obtiene:

Luego, la ecuacin de regresin muestral estimada es

Que se interpreta como:


a es el estimador de a
Es el valor estimado de la variable Y cuando la variable X = 0
b es el estimador de b , es el coeficiente de regresin.
Est expresado en las mismas unidades de Y por cada unidad de X. Indica el
nmero de unidades en que vara Y cuando se produce un cambio, en una unidad,
en X (pendiente de la recta de regresin).
Un valor negativo de b sera interpretado como la magnitud del decremento en Y
por cada unidad de aumento en X.
EJEMPLO:
Los datos de la siguiente tabla representan las estaturas (X, cm) y los pesos (Y,
kg) de una muestra de 12 hombres adultos. Para cada estatura fijada previamente
se observ el peso de una persona seleccionada de entre el grupo con dicha
estatura, resultando:
X

152 155 152 155 157 152 157 165 162 178 183 17
8

50

61. 54. 57. 63. 59

61

72

66

72

84

82

Con estos datos vamos a plantear una ecuacin de regresin simple que nos
permita pronosticar los pesos conociendo las tallas. Utilizaremos a = 0.05, y
contrastaremos nuestra hiptesis con la prueba F.
DESARROLLO
Representacin matemtica y grfica de los datos:
Representacin Matemtica
estatur Peso
a
s

I.C. para la I. C.
media
individual

Regresin Lineal

dato
s
x

x ^2

152

50

2310
4
2500

155

61.5

2402 3782. 9532. 59.0


5
3
5
3
2.47

56.0 61.9 50.0 68.0


9
7
5
2

152

54.5

2310 2970.
4
3
8284

56.4
3
-1.93

53.0 59.7 47.3 65.5


7
9
0
6

155

57.5

2402 3306. 8912. 59.0


5
3
5
3
-1.53

56.0 61.9 50.0 68.0


9
7
5
2

63.5

2464 4032. 9969. 60.7


9
3
5
7
2.73

58.0 63.4 51.8 69.6


5
8
5
8

59

2310
4
3481

8968

56.4
3
2.57

53.0 59.7 47.3 65.5


7
9
0
6

61

2464
9
3721

9577

60.7
7
0.23

58.0 63.4 51.8 69.6


5
8
5
8

72

2722
5
5184

67.7
11880 1
4.29

65.1 70.2 58.8 76.5


7
4
5
7

66

2624
4
4356

65.1
10692 1
0.89

62.6 67.5 56.2 73.9


5
6
7
4

157

152

157

165

162

y ^2

xy

y
est.

Residua
l
L. I.

7600

56.4
3
-6.43

L. S. L. I.

L. S.

53.0 59.7 47.3 65.5


7
9
0
6

10

178

72

3168
4
5184

78.9
12816 9
-6.99

74.6 83.3 69.4 88.5


5
3
5
2

83.3
15372 2
0.68

78.0 88.6 73.3 93.3


1
4
1
4

78.9
14596 9
3.01

74.6 83.3 69.4 88.5


5
3
5
2

11

183

84

3348
9
7056

12

178

82

3168
4
6724

Representacin Grfica

HIPTESIS
HO: No hay relacin entre la variable peso y la variable estatura.
HA: Hay relacin entre la variable peso y la variable estatura.
Tabla de anlisis de
varianza
Fuente
de

Grados de

Suma de

Cuadrados

cuadrados

medios

estadstico
F

la
regresin 1

1061.1

1061.1

73.08

error

10

145.2

14.5

total

11

1206.3

Variacin libertad
Debido a

Se obtiene un valor F = 73.08 > 4.96, con lo cual se rechaza la hiptesis nula y
aceptamos que la variable estatura est relacionada con la variable peso con un
95% de confianza.
De acuerdo al desarrollo matemtico hemos obtenido los siguientes clculos:

Lo que nos permite obtener los coeficientes a y b.


Luego,
b = 1223 / 1409.667 = 0.8676
a = 65.25 (0.8676) (162.167) = -75.446
INTERPRETACIN
La ecuacin de regresin estimada es:
Coeficiente de correlacin: R= 0.9379
Coeficiente de determinacin: R=0.8796
El valor de b = 0.8676 indica el incremento del peso en kilogramos, en promedio,
por cada centmetro de aumento en la estatura de los hombres adultos.
El valor de a, no tiene interpretacin prctica en el ejemplo, se interpretara como
el valor obtenido, en promedio, para el peso Y, cuando la estatura es 0.
Utilizando la ecuacin de regresin para estimar o predecir valores de la variable
Y: Para una talla de 180 se obtiene un peso de 80.7 kg.
Cunto se espera que pese (en promedio) una persona que mide 1.60 m?

Sustituyendo el valor de inters en la ecuacin:

Se obtiene:

1.5.- CALCULO DE COEFICIENTES DE CORRELACION Y DE


DETERMINACION.
Sirve para medir la bondad del ajuste de una recta de regresin a un conjunto de
observaciones, en el caso de tener una variable dependiente y una independiente.
Dicha medida nos la da el coeficiente de determinacin R2, que verifica 0 R2
1. Cuanto ms cercano a uno sea su valor mejor ser el ajuste, y tanto peor
cuanto ms cercano a cero.
Se calcula como el cuadrado del coeficiente de correlacin lineal de Pearson
El coeficiente de correlacin lineal de Pearson (se denota r ) es una medida
de asociacin lineal entre dos variables aleatorias X e Y:
r = =Cov(X,Y)
SxSy
Se verifica que 1 r 1 y podemos decir que:
Si r = -1, existe una relacin lineal negativa perfecta entre X e Y.
Si r = 1, existe una relacin lineal positiva perfecta entre X e Y.
Si r = 0, no existe ninguna relacin lineal entre X e Y (X e Y son
independientes).
1.- Coeficiente de Correlacin Lineal Simple (r).
Mide el grado de asociacin lineal entre dos variables. Este estadstico oscila entre
1 (fuerte asociacin lineal positiva: a medida que aumenten los valores de una
variable aumentarn los de la otra) y 1 (fuerte asociacin lineal negativa: a
medida que aumenten los valores de una variable disminuyen los de la otra).
Cuando los valores de este estadstico se aproximen a 0 nos estar indicando que
entre las dos variables no existe asociacin lineal y, en consecuencia, carece de
sentido determinar el modelo y/o ecuacin de regresin lineal. Resulta muy

interesante comparar este coeficiente junto con el Scatter Plot de la nube de


puntos (grfico 1 del anexo de resultados), ya que el grfico nos ofrece una
representacin elocuente de la distribucin y relacin de las dos variables
relacionadas. Si la nube de puntos forma una forma indefinida y muy dispersa, nos
indica la inexistencia de relacin entre las variables. Si por el contrario, se observa
una forma definida y proximidad entre los puntos, habr relacin entre las
variables caracterizada por la forma y distribucin que adopte.
Para determinar si la asociacin es estadsticamente significativa podemos
contrastar la H0 de que el coeficiente de correlacin lineal es igual a 0; o lo que es
lo mismo, que las dos variables estn incorrelacionadas. Si el p-valor asociado al
estadstico de contraste (r) es menor que el nivel de significacin elegido (normalmente 0.05) rechazaremos H0. En la matriz de correlaciones se recogen estos
dos valores: en primer lugar aparece el grado de relacin (r) que se produce entre
las dos variables que cruzamos; y en segundo lugar, la significacin estadstica de
esa relacin de correlacin lineal simple (aparecen en la matriz de correlaciones).

2.- Coeficiente de Correlacin Mltiple al Cuadrado o Coeficiente de


Determinacin (R Square R2).
El coeficiente de determinacin se define a partir del coeficiente de correlacin
mltiple (R) y mide la proporcin de variabilidad de la variable dependiente
explicada por la variable independiente introducida o por la recta de regresin. Si
el valor que resulta lo multiplicamos por 100, obtendremos el porcentaje de
variabilidad explicada.
Debemos hacer notar que pese a que estemos efectuando un anlisis de
regresin lineal bivariado, el proceso que seguimos es el del anlisis de regresin
multivariable. El cuadro de dilogo del anlisis multivariado ofrece una informacin
ms rica de ah la tendencia generalizada a utilizar ste en detrimento del cuadro

de dilogo de regresin simple. Por esta razn, vamos a ver como en las salidas
del ordenador, y pese a estar realizando un anlisis con dos variables, a este
coeficiente se le denomina coeficiente de Correlacin Mltiple (Mltiple R),
residiendo la explicacin en el hecho de que va a ser siempre el anlisis
multivariable el que apliquemos indistintamente si nos encontramos trabajando
con dos variables, como es ahora el caso, o con ms variables, como se ver en
el prximo captulo. No debemos confundir el coeficiente de correlacin mltiple
(mide el grado de asociacin entre la variable dependiente y un conjunto de
variables independientes), de los coeficientes
1.6.- ANALISIS RESIDUAL.
Como ya hemos comentado los residuos, e, son la estimacin de los verdaderos
errores. En regresin lineal la distribucin de la variable formada por los residuos
debe ser Normal, esto es, los residuos observados y los esperados bajo hiptesis
de distribucin normal deben ser parecidos. Adems, los residuos deben ser
independientes. En consecuencia, el anlisis de los residuales nos va a permitir no
solo profundizar en la relacin que se produce entre las dos variables, sino
tambin, ponderar la bondad de ajuste de la regresin obtenida.
Para contrastar la supuesta normalidad de los residuales podemos recurrir,
fundamentalmente, a la representacin de dos grficos: (1) el grfico de
residuales tipificados (grfico 2 del anexo de resultados) nos da idea de cmo se
distribuyen los residuos en relacin a la distribucin normal (que sera la que
cabra esperar de los mismos). Si ambas distribuciones son iguales (la distribucin
de los residuos es normal) los puntos se sitan sobre la diagonal del grfico. Por lo
contrario, en la medida que aparecen dispersos y formando lneas horizontales
respecto a la diagonal, habr ms residuos y el ajuste ser peor; (2) el grfico de
probabilidad normal (grfico 3 del anexo de resultados) compara grficamente,
al superponer la curva de distribucin normal, la funcin de distribuciones
acumulada observadas en la muestra con la funcin de distribucin acumulada
esperada bajo supuestos de normalidad.
Por su parte el estadstico de Durbin-Watson mide el grado de autocorrelacin
entre el residuo correspondiente a cada observacin y el anterior (si los residuos
son independientes, el valor observado en una variable para un individuo no debe
estar influenciado en ningn sentido por los valores de esta variable observados
en otro individuo). Si el valor del estadstico es prximo a 2 los residuos estn
incorrelacionados; si se aproxima a 4, estarn negativamente incorrelacionados; y
si se aproximan a 0 estarn positivamente incorrelacionados.

1.7.- INFERENCIAS ACERCA DE LA PENDIENTE.

1.8.- APLICACIONES.
Aplicaciones de la regresin lineal
Lneas de tendencia
Una lnea de tendencia representa una tendencia en una serie de datos obtenidos
a travs de un largo perodo. Este tipo de lneas puede decirnos si un conjunto de
datos en particular (como por ejemplo, el PBI, el precio del petrleo o el valor de
las acciones) han aumentado o decrementando en un determinado perodo. Se
puede dibujar una lnea de tendencia a simple vista fcilmente a partir de un grupo
de puntos, pero su posicin y pendiente se calcula de manera ms precisa
utilizando tcnicas estadsticas como las regresiones lineales. Las lneas de
tendencia son generalmente lneas rectas, aunque algunas variaciones utilizan
polinomios de mayor grado dependiendo de la curvatura deseada en la lnea.
Medicina
En medicina, las primeras evidencias relacionando la mortalidad con el fumar
tabaco vinieron de estudios que utilizaban la regresin lineal. Los investigadores
incluyen una gran cantidad de variables en su anlisis de regresin en un esfuerzo
por eliminar factores que pudieran producir correlaciones espurias. En el caso del
tabaquismo, los investigadores incluyeron el estado socio-econmico para
asegurarse que los efectos de mortalidad por tabaquismo no sean un efecto de su
educacin o posicin econmica. No obstante, es imposible incluir todas las
variables posibles en un estudio de regresin. En el ejemplo del tabaquismo, un
hipottico gen podra aumentar la mortalidad y aumentar la propensin a adquirir
enfermedades relacionadas con el consumo de tabaco. Por esta razn, en la
actualidad las pruebas controladas aleatorias son consideradas mucho ms
confiables que los anlisis de regresin.

S-ar putea să vă placă și