Documente Academic
Documente Profesional
Documente Cultură
INTRODUCCIN
La regresin y los anlisis de correlacin nos muestran como determinar tanto la
naturaleza como la fuerza de una relacin entre dos variables
Si sabemos que existe una relacin entre una variable denominada dependiente y
otras denominadas independientes (como por ejemplo las existentes entre: la
experiencia profesional de los trabajadores y sus respectivos sueldos, las
estaturas y pesos de personas, la produccin agraria y la cantidad de fertilizantes
utilizados, etc.), puede darse el problema de que la dependiente asuma mltiples
valores para una combinacin de valores de las independientes.
La dependencia a la que hacemos referencia es relacional matemtica y no
necesariamente de causalidad. As, para un mismo nmero de unidades
producidas, pueden existir niveles de costo, que varan empresa.
Si se da ese tipo de relaciones, se suele recurrir a los estudios de regresin en los
cuales se obtiene una nueva relacin pero de un tipo especial denominado
funcin, en la cual la variable independiente se asocia con un indicador de
tendencia central de la variable dependiente. Cabe recordar que en trminos
generales, una funcin es un tipo de relacin en la cual para cada valor de la
variable independiente le corresponde uno y slo un valor de la variable
dependiente.
Donde
es la perturbacin aleatoria que recoge todos aquellos factores de la
realidad no controlables u observables y que por tanto se asocian con el azar, y es
la que confiere al modelo su carcter estocstico. En el caso ms sencillo, con una
sola variable explicita, el hiperplano es una recta:
Los valores
supone tomar algunos valores mayores que cero y otros menores que cero, de
tal forma que su valor esperado sea cero.
2. Homocedasticidad
Para todo t
Todos los trminos de la perturbacin tienen la misma varianza que es
desconocida. La dispersin de cada en torno a su valor esperado es siempre la
misma.
3. Incorrelacin.
Para todo t,s con t distinto
de s
Las covarianzas entre las distintas perturbaciones son nulas, lo que quiere decir
que no estn correlacionadas o autocorrelacionadas. Esto implica que el valor de
la perturbacin para cualquier observacin muestral no viene influenciado por los
valores de las perturbaciones correspondientes a otras observaciones mustrales.
4. Regresores no estocsticos.
5. No existen relaciones lineales exactas entre los Regresores.
6
Suponemos que no existen errores de especificacin en el modelo,
ni errores de medida en las variables explicativas
7. Normalidad de las perturbaciones
11.
Los
valores
de
estn
normalmente
distribuidos
son
estadsticamente independientes.
1.3.- DETERMINACION DE LA ECUACION DE REGRESION.
Consiste en determinar los valores de "a" y "b " a partir de la muestra, es decir,
encontrar los valores de a y b con los datos observados de la muestra. El mtodo
de estimacin es el de Mnimos Cuadrados, mediante el cual se obtiene:
152 155 152 155 157 152 157 165 162 178 183 17
8
50
61
72
66
72
84
82
Con estos datos vamos a plantear una ecuacin de regresin simple que nos
permita pronosticar los pesos conociendo las tallas. Utilizaremos a = 0.05, y
contrastaremos nuestra hiptesis con la prueba F.
DESARROLLO
Representacin matemtica y grfica de los datos:
Representacin Matemtica
estatur Peso
a
s
I.C. para la I. C.
media
individual
Regresin Lineal
dato
s
x
x ^2
152
50
2310
4
2500
155
61.5
152
54.5
2310 2970.
4
3
8284
56.4
3
-1.93
155
57.5
63.5
59
2310
4
3481
8968
56.4
3
2.57
61
2464
9
3721
9577
60.7
7
0.23
72
2722
5
5184
67.7
11880 1
4.29
66
2624
4
4356
65.1
10692 1
0.89
157
152
157
165
162
y ^2
xy
y
est.
Residua
l
L. I.
7600
56.4
3
-6.43
L. S. L. I.
L. S.
10
178
72
3168
4
5184
78.9
12816 9
-6.99
83.3
15372 2
0.68
78.9
14596 9
3.01
11
183
84
3348
9
7056
12
178
82
3168
4
6724
Representacin Grfica
HIPTESIS
HO: No hay relacin entre la variable peso y la variable estatura.
HA: Hay relacin entre la variable peso y la variable estatura.
Tabla de anlisis de
varianza
Fuente
de
Grados de
Suma de
Cuadrados
cuadrados
medios
estadstico
F
la
regresin 1
1061.1
1061.1
73.08
error
10
145.2
14.5
total
11
1206.3
Variacin libertad
Debido a
Se obtiene un valor F = 73.08 > 4.96, con lo cual se rechaza la hiptesis nula y
aceptamos que la variable estatura est relacionada con la variable peso con un
95% de confianza.
De acuerdo al desarrollo matemtico hemos obtenido los siguientes clculos:
Se obtiene:
de dilogo de regresin simple. Por esta razn, vamos a ver como en las salidas
del ordenador, y pese a estar realizando un anlisis con dos variables, a este
coeficiente se le denomina coeficiente de Correlacin Mltiple (Mltiple R),
residiendo la explicacin en el hecho de que va a ser siempre el anlisis
multivariable el que apliquemos indistintamente si nos encontramos trabajando
con dos variables, como es ahora el caso, o con ms variables, como se ver en
el prximo captulo. No debemos confundir el coeficiente de correlacin mltiple
(mide el grado de asociacin entre la variable dependiente y un conjunto de
variables independientes), de los coeficientes
1.6.- ANALISIS RESIDUAL.
Como ya hemos comentado los residuos, e, son la estimacin de los verdaderos
errores. En regresin lineal la distribucin de la variable formada por los residuos
debe ser Normal, esto es, los residuos observados y los esperados bajo hiptesis
de distribucin normal deben ser parecidos. Adems, los residuos deben ser
independientes. En consecuencia, el anlisis de los residuales nos va a permitir no
solo profundizar en la relacin que se produce entre las dos variables, sino
tambin, ponderar la bondad de ajuste de la regresin obtenida.
Para contrastar la supuesta normalidad de los residuales podemos recurrir,
fundamentalmente, a la representacin de dos grficos: (1) el grfico de
residuales tipificados (grfico 2 del anexo de resultados) nos da idea de cmo se
distribuyen los residuos en relacin a la distribucin normal (que sera la que
cabra esperar de los mismos). Si ambas distribuciones son iguales (la distribucin
de los residuos es normal) los puntos se sitan sobre la diagonal del grfico. Por lo
contrario, en la medida que aparecen dispersos y formando lneas horizontales
respecto a la diagonal, habr ms residuos y el ajuste ser peor; (2) el grfico de
probabilidad normal (grfico 3 del anexo de resultados) compara grficamente,
al superponer la curva de distribucin normal, la funcin de distribuciones
acumulada observadas en la muestra con la funcin de distribucin acumulada
esperada bajo supuestos de normalidad.
Por su parte el estadstico de Durbin-Watson mide el grado de autocorrelacin
entre el residuo correspondiente a cada observacin y el anterior (si los residuos
son independientes, el valor observado en una variable para un individuo no debe
estar influenciado en ningn sentido por los valores de esta variable observados
en otro individuo). Si el valor del estadstico es prximo a 2 los residuos estn
incorrelacionados; si se aproxima a 4, estarn negativamente incorrelacionados; y
si se aproximan a 0 estarn positivamente incorrelacionados.
1.8.- APLICACIONES.
Aplicaciones de la regresin lineal
Lneas de tendencia
Una lnea de tendencia representa una tendencia en una serie de datos obtenidos
a travs de un largo perodo. Este tipo de lneas puede decirnos si un conjunto de
datos en particular (como por ejemplo, el PBI, el precio del petrleo o el valor de
las acciones) han aumentado o decrementando en un determinado perodo. Se
puede dibujar una lnea de tendencia a simple vista fcilmente a partir de un grupo
de puntos, pero su posicin y pendiente se calcula de manera ms precisa
utilizando tcnicas estadsticas como las regresiones lineales. Las lneas de
tendencia son generalmente lneas rectas, aunque algunas variaciones utilizan
polinomios de mayor grado dependiendo de la curvatura deseada en la lnea.
Medicina
En medicina, las primeras evidencias relacionando la mortalidad con el fumar
tabaco vinieron de estudios que utilizaban la regresin lineal. Los investigadores
incluyen una gran cantidad de variables en su anlisis de regresin en un esfuerzo
por eliminar factores que pudieran producir correlaciones espurias. En el caso del
tabaquismo, los investigadores incluyeron el estado socio-econmico para
asegurarse que los efectos de mortalidad por tabaquismo no sean un efecto de su
educacin o posicin econmica. No obstante, es imposible incluir todas las
variables posibles en un estudio de regresin. En el ejemplo del tabaquismo, un
hipottico gen podra aumentar la mortalidad y aumentar la propensin a adquirir
enfermedades relacionadas con el consumo de tabaco. Por esta razn, en la
actualidad las pruebas controladas aleatorias son consideradas mucho ms
confiables que los anlisis de regresin.