Documente Academic
Documente Profesional
Documente Cultură
1.- Introduccin
El coeficiente de correlacin (rxy), estudiado en los puntos anteriores, permita conocer la
magnitud de la relacin (supuestamente lineal) existente entre dos variables. En el
presente apartado nos introduciremos en el concepto de regresin lineal, donde estudiaremos
la estructura de relacin existente entre tales variables. Ambos conceptos -regresin y
correlacin- estn ntimamente ligados, mientras el primero especifica la forma de la
relacin, el segundo, sobre la base de esta forma, estudia la intensidad de la relacin
establecida.
De una manera ms concreta, mediante el modelo de regresin especificaremos la
ecuacin de regresin que nos permitir un doble objetivo: a) describir de una manera
clara y concisa la relacin existente entre ambas variable y b), predecir los valores de
una variable en funcin de la otra.
En un sentido muy amplio, y hablando en trminos puramente estadsticos, podemos afirmar
que el anlisis de regresin es un mtodo que permite analizar la variabilidad de una
determinada variable en funcin de la informacin que le proporcionan una o ms variables
(Pedhazur, 1982). Se concreta, como hemos indicado, en el estudio de relacin entre
variables, de forma tal que una determinada variable -variable respuesta, explicada,
dependiente o criterio- pueda expresarse en funcin de otra u otras variables - predictoras,
explicativas, independientes o regresores-, lo que permitir predecir los valores de la variable
respuesta en funcin de las variables explicativas, as como determinar la importancia de
stas. Por otro lado, se especifica que la estructura de la relacin es lineal. Este aspecto es
importante por cuanto se descartan aqu otros tipos de relaciones. Por esta razn, con cierta
frecuencia nos referiremos a la regresin lineal como modelo de regresin lineal, en el sentido
de que se aplica una cierta concepcin -modelo- que tenemos de la realidad merced a la cual
se supone que las relaciones entre variables sigue una cierta estructura -la estructura lineal.-.
Hemos de decir, aunque slo sea por curiosidad histrica, que el trmino "regresin" se debe a
Sir Francis Galton (1822-1911) estudiando la relacin de la estatura entre padres e hijos.
Observ que los padres altos tenan hijos altos, aunque no tan altos como sus
progenitores. Igualmente, los padres bajos tendan a tener descendencia de baja estatura
aunque ms altos que sus respectivos padres. En ambos casos, pues, exista una cierta
tendencia a la estatura media, o dicho en trminos de propio Galton, exista una
"regresin a la mediocridad". Aunque hoy da el trmino de "regresin lineal" est muy
lejos de sus primeras intenciones ha quedado as acuado, aunque con otros
propsitos.
Es evidente el inters el modelo de regresin lineal aplicado a Ciencias Humanas y de la
Salud, donde no podemos encontrar relaciones exactas como ocurre en otras reas de la
ciencia, pero s ciertas tendencias susceptibles de ser cuantificadas. Supngase, por citar tan
slo algunos posibles casos de estudio, el efecto de una cierta terapia sobre las respuestas de
los pacientes sometidos a ella, los gastos de publicidad de una empresa y el consumo
ciudadano, el efecto del tabaco sobre el cncer, el clima laboral y la productividad en una
empresa o la calidad de enseanza y el rendimiento acadmico. En todos ellos hay algn
aspecto de la conducta que nos interesa prever (y en ltima instancia, controlar). Merced a la
ligazn que presenta la conducta con alguna variable relevante (y que se entiende manipulable
por el investigador) podemos ejercer algn tipo de control sobre aquella interviniendo sobre la
variable que incide sobre la misma. De esta forma, lograremos nuestros propsitos en cuanto
a salud, por ejemplo, eliminado el consumo de tabaco, o bien una determinada terapia
cognitivo-conductual se mostrar efectiva en la remisin de la depresin.
Como se ha indicado, en el presente captulo, nos limitaremos al estudio de la regresin donde
se estudia la relacin que sobre la variable de respuesta ejerce una nica variable explicativa.
Este tipo de regresin -la ms sencilla de las posibles- se denomina por esta razn regresin
lineal simple.
Y X
En trminos grficos, esta relacin quedara expresada mediante el siguiente diagrama causal:
En los momentos iniciales hay poca gente con conocimiento del tema, lo que hace que la
extensin del rumor sea pequea. Conforme aumenta el nmero de sujetos conocedores de
tal rumor hay ms posibilidad de interaccin con las personas desconocedoras del tema,
con lo que hay una gran progresin, hasta llegar a un cierto punto en el que casi toda la
poblacin est saturada y son ya pocos los individuos que restan por enterarse de la
cuestin, de forma tal que el incremento es cada vez ms reducido, hasta alcanzar el valor de
cero, cuando el rumor ha llegado a extenderse por toda la poblacin. Este tipo de fenmenos
es muy conocido en biologa, especialmente en dinmica de poblaciones, caracterstico de la
evolucin de una cierta poblacin con recursos limitados.
Otro ejemplo. La relacin entre esfuerzo y aprendizaje no es lineal sino tal como se expone en
la siguiente figura:
Y Y
Y Y
Los parmetros de la ecuacin (1.14) -ecuacin de regresin verdadera- ( y )
generalmente desconocidos y han de ser estimados a partir de los valores observados en
muestra de sujetos. Para que las inferencias a la poblacin -estimacin- as como
contrastes de hiptesis acerca de los parmetros sean adecuados es necesario que
variables implicadas cumplan las siguientes caractersticas estadsticas:
son
una
los
las
(a) Linealidad. El primer supuesto establece que el valor esperado (media) en la variable
Y para cada uno de los valores X se encuentra sobre la recta de regresin "verdadera" de Y
sobre X, o dicho de otra manera, la recta de regresin de Y sobre X vendr determinada
por los valores medios de Y para cada valor de X. En consecuencia, la esperanza
matemtica de los errores ser cero. As:
E (Y | X ) X
En trminos de los errores:
E( ) 0
Ya que:
E E Y Y E Y Y
E Y E Y Y Y 0
(b) Homocedasticidad. El segundo supuesto establece que las varianzas de Y para cada valor
de X son todas iguales 2 , esto es, la dispersin de la variable Y a todo lo largo de la
recta de regresin es constante. El inters de esta propiedad reside en la ventaja de
utilizar un nico valor para todo el recorrido de X a la hora de estimar valores de Y a partir
de X, lo que otorga simplicidad al modelo. As pues:
Var(Y |X ) 2
i
Obsrvese que la distribucin de los errores es la misma que la de la variable dependiente
en torno a la recta de regresin (para valores fijos de X). En consecuencia, su varianza
coincidir con la de los errores ya que en la expresin Y X la variabilidad
en Y para un cierto valor de X lo aporta :
E Yi X i
Var(Y |i) E Yi Y
i
2
X
distintos -estudios transversales- esta propiedad suele cumplirse. Otro caso sucede en
estudios longitudinales donde se efectan diferentes mediciones de los mismos sujetos a
lo largo del tiempo, y que por razones de inercia suelen presentar autocorrelacin. As:
Cov(YiYj) 0
O bien:
Cov( i j) 0
d) Normalidad de las distribuciones. Este supuesto establece que la forma de la distribucin
de Y para cada valor de X sigue una ley normal. Se cumple, entonces, la condicin de
normalidad. Esta propiedad, junto a la condicin de homocedasticidad facilita la
inferencia estadstica del valor de Y poblacional a partir del valor de X. As:
Y i N( yx,
yx
i N (0, )
Hay que decir en relacin a este supuesto que le modelo de regresin es bastante robusto
frente a violaciones del mismo. Por otro lado, para tamaos de muestras grandes, el
teorema central del lmite garantiza su cumplimiento.
Adems de estos requisitos necesarios a efectos de inferencia estadstica y contrastes
de hiptesis han de respetarse otros supuestos relacionados con el modelo de regresin en
cuanto modelo descriptivo. Estos son:
(a) El modelo ha de estar correctamente especificado, lo que implica el doble cometido de
no haber excluido variables independientes relevantes y el no haber incluido variables
independientes irrelevantes. Este requisito cumple su verdadera dimensin en la
regresin mltiple donde las variables independientes han de ser seleccionadas
cuidadosamente. Cuando se trata de una nica variable independiente, la precaucin ha de
cifrarse en esa variable y aqu la evidencia es palpable si el modelo no ha sido
correctamente especificado.
(b) La variable independiente ha de haber sido medida sin error. Se quiere decir con ello
que las puntuaciones empricas obtenidas en X son precisamente sus puntuaciones
verdaderas. Este requisito es un tanto ideal ya que el error de medida est implcito en
toda medicin. A este respecto hay que decir que en modelos ms completos
(Modelos Estructurales) se contempla la fiabilidad en la medida. Obsrvese por otro
lado, que la exactitud en la medicin no es requisito para la variable Y, ya que esta
circunstancia queda contemplada en el error .
muestra
presentan
Y
X
que mejor represente la nube de puntos correspondiente a la muestra observada, y cuyos
valores (a y b) sean buenos estimadores de la verdadera ecuacin de regresin ( y ):
E(Y |X)
X
referente a la poblacin de origen.
Podramos utilizar varios mtodos en la determinacin de la recta que mejor ajuste a la
mencionada nube de puntos. Todos ellos tendrn, obviamente, como objetivo fundamental
reducir al mnimo el error global cometido, lo que se traduce, de alguna forma, en minimizar
el conjunto de errores e obtenido para el total de las observaciones. A este respecto,
podramos establecer el siguiente criterio:
N
mnimo
i1
lograrse
existiendo grandes errores positivos y negativos que quedaran neutralizados entre s. Esta
situacin podramos solventarla con dos procedimientos: a) operando con los valores
13
13
|e |
mnimo
i1
e
2
mnimo
i1
S
b y r
Y
y de ordenada en el origen:
xy
x
S
bX
mnimo
i1
Y Y2 (Y (a bX))2 Y
N
i1
i1
(a bX
) 2Y(a
bX)
i1
i1
Esta funcin tendr un mnimo para los valores que anulen la primera derivada respecto a a y
b. As pues, calculemos primeramente la derivada parcial respecto a a. Haciendo operaciones
tenemos:
N 2
e
i1
a bX Y
0
De donde:
a Y bX
Para calcular b procedamos de igual manera. Igualemos a cera la derivada parcial respecto a
b, y haciendo operaciones:
2
2
i1
i 1
b
N
XY
2 i1
X
N
YX 0
Despejando b:
N
XY
i1
XY
S
X
i 1
S xy
2
x
S xS y
x
y
S x2
S
rxy y
Sx
b) puntuaciones centradas
Tengamos la ecuacin de regresin en directas:
Y a
bX
Sustituyamos a por su valor:
Y a
bX
(Y bX ) bX Y bX bX Y b( X X )
Donde se nos indica que el valor pronosticado en Y es precisamente su media (el valor
previsto en ausencia total de informacin) ms el efecto de la variable X.
Ahora, si pasamos Y al primer miembro de la ecuacin:
b(X X)
Y Y
Como puede observarse, dicha ecuacin presenta la misma pendiente que la ecuacin
obtenida en puntuaciones directas. Se diferencia de sta en que carece de ordenada en el
origen. La recta, pues, en centradas pasa por el origen de coordenadas. Esto es:
Obsrvese que las puntuaciones centradas son la consecuencia de restar a los valores Y su
media (Y Y ) y a los valores X, igualmente su media (X X). Por otro lado,
sucede, precisamente, que tanto la media de Y como la media de X satisfacen la ecuacin
de la recta, como se desprende de (1.20):
Y a
bX
c) Puntuaciones estandarizadas
Tomemos como referencia la siguiente ecuacin conocida:
Y Y b(X X)
Sy
(X X)
Sx
Se observa que el primer miembro de la igualdad hace referencia a las puntuaciones tpicas
de Y, y el segundo miembro, a las puntuaciones tpicas de X. Sustituyendo por la notacin
adecuada:
Zy rxy Zx
Se comprueba que la ecuacin en puntuaciones estandarizadas tiene por pendiente el
coeficiente de correlacin simple.
Ejemplo 1.5.- Sobre los datos del ejemplo 1.1, calcular la ecuacin de regresin en
puntuaciones directas, centradas y estandarizadas:
SOL:
a) Directas:
b rxy
Sy
Sx
0.8327
2.579
0.1975
10.874
Y a bX
e
donde la parte determinista que permite obtener
modelo es:
Y a
bX
la
complejidad, carecer de error. El estudio del error o puntuaciones residuales tiene especial
inters, como se ver mas adelante en la verificacin de los supuestos del modelo. Por el
momento, sealemos su existencia. En el ejemplo 1.1, el sujeto nmero 4, que presenta un
coeficiente intelectual -C.I.- de 124 puntos, ha obtenido una calificacin de 7 puntos. El
pronstico de la ecuacin de regresin ser:
Y a bX 16.702 0.1975 *124 7.788
Y el error obtenido:
e Y Y 7 7.788
0.788
La interpretacin es obvia; para un sujeto de 124 de C.I. el modelo predice 7.788 puntos.
Ha obtenido 7 puntos, luego la parte que no explica el modelo corresponde a -0.788
puntos.
b) Puntuacin estimada
Mayor inters tiene por el momento que nos concentremos en la parte estructural del
modelo. A este respecto hay que decir que el valor Y obtenido al aplicar la ecuacin de
i
regresin sobre un determinado valor Xi hace referencia al valor promedio previsto para
todos aquellos sujetos que han obtenido en la variable X el valor de Xi . Por ejemplo, en el
caso que nos concierne para el sujeto que ha logrado 124 puntos de C.I. la puntuacin
prevista ha sido de 7.788. Se interpreta como la calificacin media de todos los sujetos de
124 puntos en inteligencia. Es obvio que no todos los sujetos de igual inteligencia
sacarn exactamente la misma puntuacin. Dependiendo de otros factores (motivacin,
personalidad... etc) unos obtendrn ms y otros menos. Al final es el valor ms probable
(promedio) el especificado por la ecuacin de regresin.
c) Pendiente de la recta
La pendiente de la recta tiene una interpretacin sencilla en matemticas; muestra el
cambio en Y por cada unidad de cambio en X. Como la ecuacin de regresin opera (mediante
el procedimiento de mnimos cuadrados) sobre la base del diagrama de dispersin, la
interpretacin, en este caso, tal como quedo de manifiesto en el apartado anterior, es la
siguiente: la pendiente b indica el cambio medio en Y asociado a cada unidad de cambio en X.
Por ejemplo, en el caso que estamos tratando, la pendiente vale 0.1975. Se interpreta en el
sentido de que por cada punto de incremento en el C.I. los sujetos, por trmino medio,
mejorarn en 0.1975 puntos su rendimiento acadmico.
Una pendiente de cero indica claramente que la variable X no sirve para nada, pero una
pendiente grande no indica lo contrario, ya que para esto hace falta conocer las escalas de las
variables, y lo que es ms importante, la dispersin de la nube de puntos. Un diagrama de
dispersin mas bien redondeado, aunque con una recta implcita de gran pendiente no
significa gran cosa en trminos de relacin.
c) Ordenada en el origen
Como se sabe, la ordenada en el origen hace referencia al valor en Y cuando X=0. En la
ecuacin de regresin, ya que la recta est elaborada sobre los puntos medios del diagrama
de dispersin, hace referencia a la puntuacin media de Y cuando el valor de X es cero.
No siempre es interpretable este valor en Psicologa. Por ejemplo, en nuestro caso la
ordenada en el origen es -16.702. Es evidente que un sujeto no obtendr esta calificacin
cuando X=0. Los valores negativos en rendimiento carecen de interpretacin. Por otro
lado, ha de tenerse en cuenta que no es posible encontrar una inteligencia de valor cero;
el rango de variacin en las variables no ha de estar fuera de los observados en la muestra,
ya que ste ha sido el punto de referencia para determinar la ecuacin de regresin. Por
tanto, aunque la recta pueda prolongarse hasta el infinito no es lcito operar con
valores fuera de los mrgenes estudiados.
No obstante, frecuentemente, puede interpretarse el valor de la ordenada en el origen.
Supongamos que relacionamos la variable Ingresos (Y) con Aos de estudio (X) y obtenemos
la siguiente ecuacin de regresin:
Y 600
120X
En este caso, los sujetos que carecen de todo tipo de estudio ganan por trmino medio 600
euros, de tal manera que por cada ao de estudio ven incrementado su salario en 120 euros.
As, un sujeto que haya estudiado 10 aos tendr un sueldo de 600+120*10=1800 euros.
Y
Y
Para un sujeto en particular que dado un valor Xi haya obtenido Yi , cometeremos un error
de prediccin:
e Yi
Y
Supongamos ahora que tenemos conocimiento de la relacin lineal que liga las variable X e
Y. Y esta relacin es segn la ecuacin conocida
Y a
bX
como indicativo del error cometido cuando carecemos de la informacin proporcionada por
el modelo y lo definimos como desviacin total respecto a la media para un determinado
sujeto, entonces el valor:
Yi
Y
Yi
Yi
Yi Y Yi
Y
desviacin no explicada Yi Y .
Si elevamos al cuadrado ambos miembros de la igualdad (1.30):
Yi Y 2 Yi Y2 Yi
Y
2Yi Y
Yi Y
Si se cumple esta igualdad para cada uno de los sujetos, se cumplir igualmente para la
suma de todos ellos. As pues:
N
i1
Y2
Y
Yi
i1
Yi
i1
Yi
i1
Donde:
N
Y 0
Yi
i1
ya que los errores aleatorios no correlacionan con ninguna otra puntuacin (Obsrvese
que el sumatorio anterior es el numerador de la covarianza entre los errores y las
puntuaciones predichas por el modelo de regresin). En consecuencia:
N
Yi Y 2
i1
i1
i1
Yi 2 Yi Y2
Y
Esto es:
Suma de cuadrados total = Suma de cuadrados explicada + Suma de cuadrados no explicada
26
26
Si tomamos las sumas de cuadrados anteriores (como numeradores de varianzas que son)
como un ndice de la variabilidad de los datos tenemos que:
Variacin Total = Variacin Explicada + Variacin No Explicada.
Merece destacarse la importancia de esta igualdad. Del cociente entre la variacin explicada y
27
27
(Y
i 1
N
(Y
2Y )
Y2)
i1
Obsrvese que este cociente lo hemos denominado como R . Coincide, precisamente, como
demostraremos a continuacin con el valor de rxy al cuadrado, tambin
denominado
coeficiente de determinacin. En este sentido, en relacin al numerador de la expresin
(1.32) se sabe que la ecuacin de regresin en puntuaciones centradas es:
Yi Y b(X i X)
Elevando al cuadrado y sacando sumatorios:
N
(Yi Y )2 b
2 N
(X
i1
(X
i1
i1
pues:
2
2 NS x
(X
X)
i
N
i1
Igualmente, en relacin a
(Y
i1
2
X)
2Y ) :
N
(Y
Y)
i1
NS y2
2
(Yi Y )
2
is1
NS x
N
bS ySx
NS
(Y i Y)
i1
Sy
2
2
2 2
xy S 2 S x r
2
R2 b S
x
x
2
xy
Sy
Sy
Resulta patente, pues, la utilidad de R para hacernos una ideal cabal del efecto de una
variable sobre otra. En trminos prcticos, para calcular la bondad de ajuste del modelo
bastar con elevar al cuadrado el coeficiente de correlacin (rxy) que se supone ya ha sido
obtenido en su momento (ver frmula (1.9) o equivalente). Tambin podemos aplicar la
frmula (1.33), si disponemos de las varianzas de X y de Y. Podemos, igualmente, aplicar
directamente la expresin (1.32) o bien, si operamos en base a las puntuaciones directas
utilizaremos la siguiente:
2
Xi
i1
(Y
2 i
Y)
2
i1
N
(Yi
b
2
N
2
X)(X
i2
i1
N
(Yi
Y)
Y)
i1
i1
b2
i1
i1
i1
N
Por otro lado, podemos replantear la frmula (1.31) en funcin de R . De esta forma logramos
una mejor comprensin de dicha igualdad, al mismo tiempo que al expresarse en trminos
de proporcin quedamos liberados de los problemas de las escalas. Para ello dividamos los
dos miembros de la igualdad (1.31) por la suma de cuadrados total:
i 1
N
i1
i 1
N
Y 2
i1
2
Y
Y2
i 1
N
i1
Esto es:
Prop. variabilidad total = prop. variabilidad explicada + prop. variabilidad no explicada
Es fcil deducir que:
Prop. var. no explicada = 1 - R
1 R (1 R )
variacin
SOL:
Comenzaremos con la expresin original (1.32), que no es precisamente la frmula
ms simple de realizar, pero tiene la ventaja de ser la que mejor refleja la lgica de la bondad
de ajuste. Permite distinguir para cada puntuacin de Y los distintos componentes de
variacin (desviacin explicada, no explicada y total):
N
(Y
Y)
i 1
N
(Y
Y2)
i1
(Y Y)
i
i1
66.5
(Y Y )
4.032 6.5 6.204 6.5 3.637 6.5 7.784 6.5 10.351 6.5
2
i1
8.178 6.5 5.414 6.5 8.771 6.5 6.599 6.5 4.032 6.5 46.108
2
i1
i
i1
N
66.5 46.108 20.392
Y 2 i
2
Y
Y
i1
Y)
(Yi
2
i1
N
(Y
46.108
2
Y)
i1
0.6933
66.5
b2
(Y
Y)
1
i1
N
2
(
Y)
i
Y
X i
X2i i1
N
N
2
i
i1
0.1975 139245
s i 1i
1175
10
65
2
46.108
66.5
0.6933
489
10
O ms sencilla an:
N
Y)
(Yi
2
i1
R
NS x
(Yi
Y )2
NSy
0.19752 * 10 * 10.8742
10 * 2.579
2
46.108
0.6933
66.5
i1
A nivel estadstico, se trata de comparar la varianza explicada, que define el modelo, con la
varianza no explicada, que lo desdibuja. Si la varianza explicada es mayor que la no
explicada ser indicativo de que se reconoce algo a pesar del ruido, si ocurre lo contrario, el
ruido, la deformacin que impone la varianza aleatoria impedir toda
posibilidad de
reconocimiento y el modelo no ser validado.
La prueba estadstica que permite comparar varianzas y tomar decisiones en cuanto a su
magnitud relativa es, como se sabe, el anlisis de la varianza. A dicha prueba nos
remitimos cuando hablamos de validacin del modelo.
A este respecto, la varianza explicada tendr por valor:
n
(Y
Y )
2
i
i 1
k
Siendo el numerador la suma de cuadrados explicada por la regresin y el denominador los
grados de libertad asociados al componente de variacin explicado, donde k indica el
nmero de variables independientes a considerar.
Por otro lado, la varianza no explicada ser:
n
(Yi Yi )
i1
N k
1
(Yi Y )
i 1
(Y
i 1
Y
i )
N k
1
Se
rechaza la H 0
F F(k,N
FUENTE DE
VARIACIN
SUMA DE
CUADRADOS
n
Explicada
k1,)
(Y
Y )
Se
i1
i2
(Y Y )
i1
n
Total
(Y
i1
i1
No explicada
acepta la H 0
N k
1
(Y) Y
2
i1
N k
1
Y )
exp.
Varno exp.
N 1
(Y
Y)
(
2
Y )
(Y
2
Y )
b
2
(X
i1
X)
i1
X
i
n
n
N
(Y Yb) (X
2
X) ib
i1
2
i
i1
(Yi Y )
b
NSx
( b
Xi 2
n
X)
i1
i1
2
2
Ya que:
N
2
N
i1
X i X
Sx
x2
NS
i1
(Yi Yi )2
(Yi
(Y
Y )
i1
i1
2
Y
)
i1
(Yi
Yi )
(Y
2
i
Y )
i1
NS y2 b 2 NSx
(Yi 2
Y)
i 1
i 1
Segn utilicemos una u otra expresin tendremos diferentes alternativas a la frmula (1.40).
Por ejemplo, si operamos en puntuaciones directas:
b
n
(Y
)
i
(Y Yi
)2
i
i 1
N k
1
Xi
2
i
X
i 1
i 1
i 1
Yi2
i 1
2
i
X
X i2
i 1
N k 1
i 1
(Y Y )
i 1
b NSx
F
k
i
(Yi
2
Y)
i 1
N k 1
k
y2
2
2
NS b NSx
N k 1
R
F
k
2
1R
N k
1
Para ello, tan slo tenemos que dividir el numerador y el denominado de (1.42) por la suma
de cuadrados de Y. As pues:
N
(Y Y )
i
1
1
i
k
F N
(Y Y)2
i 1
Y)2 /
Y )2
(Y
N k 1
1
i
i 1
(Y Y ) (Y Y )
2
kR 1
N1
(Y
i 1
N k
1
Ejemplo 1.7.- Calcular la validez del modelo de regresin lineal del ejemplo 1.1.
SOL:
Si lo hacemos en trminos de las puntuaciones directas:
2
b
i Xi
1
N
i
X
i 1
i1
Xi
2
i
0.1975
139245
i 1
65
489
10
1175
10
46.108
1
2
20.392
1175
0.1975 139245
10
18.088
i1
i1
N k
1
10 1 1
Comparando:
18.088 > 5.318
Luego se rechaza la H0 (con un riesgo mximo de 0.05). Puede considerarse vlido el
modelo.
Si operamos en trminos de varianzas:
0.1975 * 10 * 10.874
k
1
F
2
2
2
2
2
2
NS y b NSx
10 * 2.579 0.1975 *10 *10.874
8
N k 1
b NSx
18.088
0.8237
2
1 R
N k 1
1 0.8237
18.088
FUENTE DE
VARIACIN
Explicada
No explicada
Total
SUMA DE
CUADRADOS
GRADOS DE
LIBERTAD
46.108
20.392
1
8
46.108
2.549
66.5
7.389
VARIANZA
F
F 18.088
44
44
Despejando Y:
Y Y b(X X)
En esta situacin las variables estn relacionadas, el modelo aporta informacin relevante
en trminos predictivos y es, por ello, vlido.
As pues, como se ha indicado, la validez del modelo puede comprobarse tambin (adems
de la prueba F) contrastando la pendiente asociada al modelo de regresin. Si se
demuestra que la pendiente es significativamente diferente de cero, el modelo tendr
capacidad predictiva, y por tanto, ser vlido. Por el contrario, si la pendiente no fuera
S bi
2
Sres
2
S
res
(X
X)2
NSx
i1
Sbi
b 0
2
Sres
n
(X
X)2
i1
para el nivel de
S
n
(X
2
res
X)2
0.1975
4.253
2.549
1182.5
i1
10.- Prediccin.
Una vez validado el modelo de regresin que liga las variables X e Y puede ser
conveniente utilizarlo para establecer predicciones de la variable Y. Por ejemplo, si
conocemos para una cierta muestra de vendedores la relacin existente entre una
determinada prueba psicolgica y el xito profesional de los mismos, puede interesarnos, si
disponemos de un candidato a vendedor, aplicar dicha prueba a efectos de su capacidad en
ventas.
Si para la elaboracin del modelo dispusiramos de los datos de toda la poblacin sucedera
que la ecuacin de regresin obtenida sera precisamente la ecuacin regresin verdadera
Y
X
En este supuesto, el valor ms probable en Y para un sujeto que haya obtenido un cierto
valor en X sera el reflejado en la ecuacin de regresin (1.46):
Si deseamos afinar algo ms y ofrecer una estimacin por intervalo, sabemos por los
requisitos del modelo de regresin que para un cierto valor Xo la distribucin ligada de los
valores Y sigue una ley normal de media el valor predicho en la ecuacin de regresin y de
varianza la varianza residual. De esta forma, para los sujetos que han obtenido Xo habr una
proporcin 1 de ellos que tendrn en Y puntuaciones comprendidas en el siguiente
intervalo:
Y0 t(N
2, )Se
En trminos de probabilidad, diremos que un sujeto que ha obtenido una cierta puntuacin
Xo tendr una probabilidad1 de estar comprendido en los citados lmites.
En la prctica, no obstante, sucede que desconocemos la recta de regresin verdadera;
tan slo disponemos de la recta de regresin obtenida en una muestra. En consecuencia,
entre la ecuacin de regresin estimada y la verdadera habr una cierta diferencia tal como se
muestra en la siguiente figura:
No podemos especificar el valor exacto del error ya que desconocemos los parmetros
poblacionales. Lo que s podemos cuantificar es la distribucin en el muestreo de los
distintos valores Y en torno al valor real Yo. Esto es, hemos de determinar la Var(Yo ). A
o
este respecto, se sabe que:
Y0 a bX 0
e
Luego:
2
Var(Y0 ) Var(a bX 0 e) Var(a)2 X 0 Var(b)
Sres
2
1
X
Var(a)
N
N
X X
i1
S2
res
En consecuencia:
2
X
1
2
res
Var(Y0)
S
N
X 02
N
2
X X
i1
2
Sres
N
S2res
i1
Haciendo operaciones:
X0
Var(Y0) Sres 1 N
N
X X 2
i1
Y0 t(N
2, )
1 X 0 X
2
Sres
1 N
i1
Ejemplo 1.9.- Tomando como referencia los datos del ejemplo 1.3, determinar el la
calificacin verdadera para una persona que presenta 115 puntos de C.I.
SOL:
Aplicando la ecuacin de regresin tenemos que la puntuacin pronosticada para este
sujeto ser:
Y
t
02,) (N
res
X0 X
N
X X 2
i1
espera
encontrarse
10
el parmetro
115 117.52
1182.5
Existe una probabilidad de 0.95 de que un sujeto que presente un C.I. de 115 obtenga entre
9.882 y 2.140 en rendimiento. Obsrvese la magnitud del intervalo que hace posible
prcticamente cualquier calificacin (de suspenso a sobresaliente) debido a la muestra tan
pequea (10 sujetos) que por motivos didcticos ha sido utilizada.
Bibliografa.
ACHEN, C. H. (1982). Interpreting and using regression. London: Sage.
AIKEN, L., AND WEST, S. (1991). Multiple regression: Testing and interpreting Interactions.
London: Sage
AMON, J. (1990). Estadstica para psiclogos (1). Estadstica Descriptiva. Madrid: Pirmide.
AMON, J. (1990). Estadstica para psiclogos (2). Probabilidad. Estadstica Inferencial. Madrid:
Pirmide.
BOTELLA Y SANMARTIN, R. (1992). Anlisis de datos en Psicologa I. Madrid: Pirmide.
BOTELLA, J. y BARRIOPEDRO, M. I. (1991). Problemas y ejercicios de Psicoestadstica. Madrid:
Pirmide.
BRETT, J. M.; JAMES, L. R. (1982) Causal Analysis: assumptioms, models and data. Bervely
Hills: SAGE.
COHEN, J. and COHEN, P. (1975). Applied Multiple Regresion/Correlation analysis for the
Behavioral Sciences. Hillsdales, N. J.: LEA
COOK, R. D. and WEISBERG S. (1982). Residual and influence in regression. New York: Chapman
& Hall.
CHATTERJEE, S. (1977). Regression analysis by example. New York: Wiley.
DOMENECH, J. M. (1985). Mtodos estadsticos: modelo lineal de regresin. Barcelona:
Herder. DRAPER, N. R. (1986). Applied regression analysis. New York: John Wiley
JACCARD, J., LEE TEITEL, TURRISI, R., WAN, C. (1990). Interaction effects in multiple
regression. Sage University Paper series on Quantitative Applications in the Social Sciences. Newbury
Park, CA:Sage
JAMES, L. R. (1982). Causal analysis: assumptions, models and data. Bervely Hills: Sage.
JAEZ, L. (1980). Fundamentos de psicologa matemtica. Madrid: universidad Complutense.
LEWIS-BECK, M. S. (1980). Applied regression. London: Sage.
PEDHAZUR, E. J. (1982). Multiple regression in behavioral research. Explanation and prediction
(2nd ed.). New York: Halt, Rinehart and Winston.
PEA, D. (1987).:Estadstica, modelos y mtodos. 2. Modelos lineales y series temporales Alianza
Universidad.
SHOEDER et al. (1982). Understanding regression analysis: an introductory guide. Bervely Hills:
Sage.
WONNACOTT, T. H. and WONNACOTT, R. J. (1981). Regression: a second course in statistics.
New York: Wiley.
54
54
Internet