Apuntes Analisis de Regresion PDF

Pgina 1 de 43
ANLISIS DE REGRESIN.
Relaciones entre dos variables cuantitativas.
A menudo nos va a interesar describir la relacin o asociacin entre dos variables. Como siempre
la metodologa va a depender del tipo de variable que queremos describir. Ac vamos a estudiar
cmo describir la relacin entre dos variables cuantitativas.
Describiendo relaciones entre dos variables cuantitativas.
Para mostrar graficamente la relacin entre dos variables cuantitativas usaremos un grfico
llamado de dispersin o de XY.
Grfico de Dispersin de Notas en la Prueba 1 versus Notas en la Prueba Final

Acumulativa de un curso de 25 alumnos de Estadstica en la UTAL
7
Estudiante
16
6
2
Examen
1
1 2 3 4 5 6 7
Prueba 1
ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
P1 1,7 3,8 5,1 5,6 5,0 5,7 2,1 3,7 3,8 4,1 3,4 4,4 6,8 5,1 4,3 6,2 5,9 5,4 4,1 6,2 5,2 4,6 4,9 5,9 5,5
Ex 3,5 3,2 3,5 5,2 4,9 3,7 3,6 4,5 4,0 3,6 4,4 3,3 5,5 3,9 4,6 5,7 4,3 4,1 5,0 3,8 4,4 4,0 4,5 3,4 4,5
Ejemplo
a) Encuentre el estudiante nmero 19 en el grfico.
b) Suponga que otro estudiante tuvo un 5,0 en la primera prueba y un 5,5 en la prueba final
acumulativa o Examen. Agregue este punto en el grfico.
Pgina 2 de 43
Al igual que cuando estudiamos los histogramas, tallos y hojas y otros grficos, ahora nos va
interesar describir la forma del grfico. Especficamente en este caso particular de grficos de
dispersin, nos va a interesar la direccin, forma y grado de asociacin entre dos variables
cuantitativas. Por direccin, diremos que dos variables estn asociadas positivamente cuando a
mayor valor de una variable el valor de la otra variable tambin aumenta, como se muestra en la
figura A. Dos variables estarn negativamente asociadas cuando a mayor valor de una variable el
valor de la otra variable disminuye, como se muestra en la figura B.
La forma de una asociacin puede ser adems lineal, curva, cuadrtica, estacional o cclica, o
quizs no tenga una forma definida. En la figura A podemos decir que la relacin es lineal. En
cambio en las figuras B y D parece no lineal. Por ltimo la figura C muestra que no hay
asociacin.
Por el grado de asociacin entendemos cun cerca estn los datos de una forma dada. Por
ejemplo, en la figura B se ve que existe un alto grado de asociacin no lineal entre los datos. En
este punto debemos tener cuidado, porque cambios de escala pueden cambiar la figura y nos
pueden llevar a conclusiones errneas. Ms adelante discutiremos sobre una medida de
asociacin llamada el coeficiente de correlacin.
Por ltimo, al mirar un grfico de dispersin nos van a interesar puntos que aparecen lejos o
desviados del patrn general del grfico. En la figura A, el punto (21, 39) est lejos del resto de
los puntos, sin embargo parece seguir el patrn general del grfico.
Como resumen de las figuras tenemos lo siguiente:
Figura A: muestra un grado de asociacin intermedio, positivo y lineal.

Figura B: muestra un grado de asociacin fuerte, negativo y no lineal o curvo.
Figura C: muestra que no hay asociacin entre las variables.
Figura D: muestra un grado de asociacin muy fuerte y no lineal o cuadrtico.
Figure A: Positive Association Figure B: Negative Association
100 100
90 90
80
80
70
70
60
50 60
40 50
30 40
10 20 30 40 50 30
X 10 20 30 40 50
X
Figure C: No Linear Association
Figure D: No Linear Association
100
90 100
80 90
70 80
60 70
50 60
40 50
30 40
10 20 30 40 50 30
X 10 20 30 40 50
X
Pgina 3 de 43
Ejemplo
Interprete el grfico de las notas anterior.
Correlacin: Cun fuerte es la relacin lineal?
Definicin:
El coeficiente de correlacin muestral r mide el grado de asociacin lineal entre dos variables
cuantitativas. Describe la direccin de la asociacin lineal e indica cun cerca estn los puntos a
una lnea recta en el diagrama de dispersin.
Nota: El coeficiente de correlacin muestral r = es un estimador puntual de la correlacin

poblacional (parmetro).
Caractersticas:
1. Rango: El coeficiente de correlacin muestral est entre -1 y 1 (1 r +1) .
2. Signo: El signo de coeficiente de correlacin indica la direccin de la asociacin. La direccin

ser negativa si el r est en el intervalo [-1 , 0). La direccin ser positiva si el r est en el
intervalo (0 , +1].
3. Magnitud: La magnitud del coeficiente de correlacin indica el grado de la relacin lineal. Si

los datos estn linealmente asociados r = +1 o r = 1 indican una relacin lineal perfecta. Si
r = 0 entonces no existe relacin lineal.
4. Medida de asociacin: La correlacin slo mide el grado de asociacin lineal.
5. Unidad: La correlacin se calcula usando las dos variables cuantitativas estandarizadas. Por
lo que r no tiene unidad y tampoco cambia si cambiamos la unidad de medida de X o Y. La
correlacin entre X e Y es la misma que la correlacin entre Y y X.
y y y
x
x
x
x x x
x
x x x x x
x
x x x x x
x x x x x
x x x
x x x x
x
x x
x x
x
x x x
r 0,8 r 0,2 r =0
Pgina 4 de 43
Ejemplo
Asigne un posible valor de r para cada grfico:
Graph A: ___________ Graph B: ___________

y y
x x
Graph C: ___________ Graph D: ___________
y y
x x
r=0 r = +1 r = -1 r = 0,6 r = -0,2 r = -0,8 r = 0,1
Cmo se calcula el coeficiente de correlacin r?:
1 x x y y
r =
(n 1)
s X sY

Pgina 5 de 43
Ejemplo
Correlacin entre Test 1 y Test 2:
20
Test 1 Test 2
8 9 18
10 13
12 14 16
14 15
Test 2
16 19 14
12
10
8 10 12 14 16
Test 1
En SPSS
Analizar > Correlaciones > Bivariadas.
Correlaciones
Test 1 Test 2
Test 1 Correlacin de Pearson 1 .965**
Sig. (bilateral) .008
N 5 5
Test 2 Correlacin de Pearson .965** 1
Sig. (bilateral) .008
N 5 5
**. La correlacin es significativa al nivel 0,01
(bilateral).
Pgina 6 de 43
Ejemplo
La Tabla adjunta presenta 4 bases de datos preparadas por el estadstico Frank Ascombe*
x 10 8 13 9 11 14 6 4 12 7 5
y1 8.04 6.95 7.58 8.81 8.33 9.96 7.24 4.26 10.84 4.82 5.68
x 10 8 13 9 11 14 6 4 12 7 5
y2 9.14 8.14 8.74 8.77 9.26 8.1 6.13 3.1 9.13 7.26 4.74
x 10 8 13 9 11 14 6 4 12 7 5
y3 7.46 6.77 12.74 7.11 7.81 8.84 6.08 5.39 8.15 6.42 5.73
x4 8 8 8 8 8 8 8 8 8 8 19
y4 6.58 5.76 7.71 8.84 8.47 7.04 5.25 5.56 7.91 6.89 12.5
En la salida de SPSS adjunta, encuentre los coeficientes de correlacin para los pares de variables
preparadas por Ascombe. Cules son sus conclusiones?
Correlaciones
X Y1 Y2 Y3 X4 Y4
X Correlacin de Pearson 1 .816** .816** .816** -.400 .003
Sig. (bilateral) . .002 .002 .002 .223 .993
N 11 11 11 11 11 11
Y1 Correlacin de Pearson .816** 1 .750** .469 -.297 .065
Sig. (bilateral) .002 . .008 .146 .375 .849
N 11 11 11 11 11 11
Y2 Correlacin de Pearson .816** .750** 1 .588 -.451 -.014
Sig. (bilateral) .002 .008 . .057 .164 .966
N 11 11 11 11 11 11
Y3 Correlacin de Pearson .816** .469 .588 1 -.289 .023
Sig. (bilateral) .002 .146 .057 . .389 .947
N 11 11 11 11 11 11
X4 Correlacin de Pearson -.400 -.297 -.451 -.289 1 .817**
Sig. (bilateral) .223 .375 .164 .389 . .002
N 11 11 11 11 11 11
Y4 Correlacin de Pearson .003 .065 -.014 .023 .817** 1
Sig. (bilateral) .993 .849 .966 .947 .002 .
N 11 11 11 11 11 11
**. La correlacin es significativa al nivel 0,01 (bilateral).
Ahora revise los grficos de dispersin. Mantiene sus conclusiones anteriores?
*
Anscombe, F. (1973) "Graphs in statistical analysis", The American Statistician, 27: 17-21.
Pgina 7 de 43
11 10
10 9
9 8
8 7
7 6
6 5
5 4
Y1
Y2
4 3
2 4 6 8 10 12 14 16 2 4 6 8 10 12 14 16
X X
14 14
12 12
10 10
8 8
6 6
Y4
Y3
4 4
2 4 6 8 10 12 14 16 6 8 10 12 14 16 18 20
X X4
Pgina 8 de 43
Regresin Lineal Simple.
Como ya hemos visto muchos estudios son diseados para investigar la asociacin entre dos o
ms variables. Muchas veces intentamos relacionar una variable explicativa con una variable
respuesta. Los datos que se usan para estudiar la relacin entre dos variables se llaman datos
bivariados. Datos bivariados se obtienen cuando medimos ambas variables en el mismo
individuo. Suponga que est interesado en estudiar la relacin entre las notas de la primera
prueba y las notas finales. Entonces las notas en la primera prueba corresponderan a la variable
explicativa o independiente X y las notas finales sera la variable respuesta o dependiente Y.
Estas dos variables son de tipo cuantitativo.Si el grfico de dispersin nos muestra una asociacin
lineal entre dos variables de inters, entonces buscaremos una lnea recta que describa la
relacin, la llamaremos recta de regresin.
Un poco de historia.
El nombre de regresin deriva de los estudios de herencia de Francis Galton, quien en 1886* publica
la ley de la "regresin universal". En sus estudios Galton encontr que haba una relacin directa
entre la estatura de padres e hijos. Sin embargo, el promedio de estatura de hijos de padres muy
altos era inferior al de sus padres y, el de hijos de padres muy bajos, era superior al de los padres,
regresando a una media poblacional. De ah viene el nombre de regresin.
Ejemplo
Se seleccion a 7 alumnas de la carrera de Psicologa del ao 2003 que nos dieron sus datos de
estatura (en cms) y de peso (en kilos).
Estatura 155 157 159 162 165 168 169

Peso 48 48 51 55 53 55 57
*
Galton, F. (1886) "Regression Towards Mediocrity in Hereditary Stature," Journal of the
Anthropological Institute, 15:246-263 (http://www.mugu.com/galton/essays/1880-1889/galton-
1886-jaigi-regression-stature.pdf)
Pgina 9 de 43
58
56
54
peso
52
50
48
154 156 158 160 162 164 166 168 170

estatura
Ajustando una recta a los datos:

Si queremos describir los datos con una recta tenemos que buscar la "mejor", porque no ser
posible que la recta pase por todos los puntos. Ajustar una recta significa buscar la recta que
pase lo ms cerca posible de todos los puntos.
Ecuacin de la recta:
Suponga que Y es la variable respuesta (eje vertical) y X es la variable explicativa (eje

horizontal). Una lnea recta relaciona a Y con X a travs de la ecuacin: Y = a + bX .
En la ecuacin, b es la pendiente, cuanto cambia Y cuando X aumenta en una unidad. La
pendiente puede tener signo positivo, negativo o valor cero. El nmero a es el intercepto, el
valor de Y cuando X se iguala a cero.
Y b positivo b negativo b=0
a
b
b a
b=0
a
1 2 3 1 2 3
Si queremos relacionar al peso con la estatura entonces la lnea recta ser: peso = a + b estatura .
La recta de regresin que resume el peso con la estatura es: peso = 45,276 + 0,603 estatura .
Pgina 10 de 43
58
56
54
peso
52
50
48
154 156 158 160 162 164 166 168 170

estatura
La figura muestra que la lnea ajusta ms o menos bien a los datos. La pendiente b = 0,603 nos
dice que el peso de este grupo aumenta en 0,603 kilos por cada centmetro que aumente de
estatura. La pendiente b es la tasa de cambio en la respuesta Y cuando X cambia. La pendiente
de la recta de regresin es una descripcin numrica importante de la relacin entre dos
variables. El intercepto es a = 45,276 , que sera el peso si la estatura fuera cero. En este caso,
el cero de estatura no tiene sentido, as es que tomaremos al intercepto slo como parte de la
ecuacin.
Regresin de mnimos cuadrados
Necesitamos una forma objetiva de obtener una recta y que esta pase por la mayora de los
puntos.
Definicin:
La recta de regresin de mnimos cuadrados, dada por Y = a + bX , es la recta que hace mnima
la suma de los cuadrados de las desviaciones verticales de los datos a la recta, donde
b=
(x x )(y y )
i i
y a = y bx
(x x ) i
2
sY
Una forma fcil de calcular la pendiente es: b = r donde s y es la desviacin estndar de las
sX
respuestas y s x es la desviacin estndar de la variable explicativa.
El mtodo de mnimos cuadrados fue publicado por el matemtico francs Adrien Legendre (1752-1833) en 1805. Este
mtodo es una de las herramientas estadsticas ms usadas.
Pgina 11 de 43
Ejemplo
Test 1 vs Test 2.
Test 1 Test 2 20
8 9
10 13 18
12 14
14 15 16
16 19
Test 2
14
12
10
8 10 12 14 16
Test 1
Podemos usar los clculos de la correlacin para calcular la pendiente:

sy 3,605551275
b = r = 0,96476 = 1,1 y a = y bx = 14 1,1 12 = 0,8
sx 3,16227766
Con estos valores podemos construir la recta de regresin de mnimos cuadrados:
Y = 0,8 + 1,1X .
Interpretacin de los coeficientes de regresin:
Pendiente: b = 1,1 ==> cada punto adicional en el test 1, significa un aumento de 1,1 puntos
en el test 2 en promedio.
Intercepto: a = 0,8 ==> Si asignamos el valor cero puntos al test 1, el test 2 tendra un valor
de 0,8 puntos.
Si usamos la recta de regresin, podemos predecir que un estudiante que tiene 15 puntos en el
test 1 tendr Y = 0,8 + 1,1(15) = 17,3 puntos en el test 2.
Definicin:
Un residuo es la diferencia entre la respuesta observada, Y, y la respuesta que predice la recta

de regresin, Y . Cada par de observaciones (X i , Y i ) , es decir, cada punto en el grfico de
dispersin, genera un residuo:
residuo = Y observado Y estimado
El i-simo residuo = ei = Yi Yi = Yi (a + bxi )

Pgina 12 de 43
Prediccin:
Podemos usar la recta de regresin para prediccin substituyendo el valor de X en la ecuacin y

calculando el valor Y resultante. En el ejemplo de las estaturas:
Y = 45,276 + 0,603 X .
La exactitud de las predicciones de la recta de regresin depende de que tan dispersos estn las
observaciones alrededor de la recta (ajuste).
Extrapolacin:
Extrapolacin es el uso de la recta de regresin para predecir fuera del rango de valores de la
variable explicativa X. Este tipo de predicciones son a menudo poco precisas.
Por ejemplo los datos de peso y estatura fueron tomados de un grupo de alumnas de Psicologa
del ao 2003 que tenan entre 18 y 23 aos. Cunto debe haber pesado una persona si al nacer
midi 45 centmetros?
"No deje que los clculos invadan su sentido comn". (Moore, 1989).
Tarea: Calcular los residuos de la regresin, Cunto vale la suma de los residuos?
Los residuos muestran cun lejos estn los datos de la lnea de regresin ajustada, examinar los
residuos nos ayuda a saber qu tan bien describe la recta a los datos. Los residuos que se
generan a partir del mtodo de mnimos cuadrados tienen una propiedad bsica: el promedio de
los residuos es siempre cero.
Ejemplo
Volvamos al ejercicio con las estaturas y pesos de 7 alumnas. La recta de regresin la podemos
calcular usando el SPSS con la salida:
En SPSS
Analizar > Regresin > Lineal.
Coeficientes(a)
Coeficientes no Coeficientes
Modelo estandarizados estandarizados t Sig.
B Error tp. Beta

1 (Constante) -45.276 18.496 -2.448 .058
estatura .603 .114 .921 5.285 .003
a Variable dependiente: peso
Tambin podemos hacer un grfico con los residuos versus la variable explicativa. El grfico de
los residuos magnifica las desviaciones de los datos a la recta, lo que ayuda a detectar problemas
con el ajuste. Si la recta de regresin se ajusta bien a los datos no deberamos detectar ningn
patrn en los residuos.
La figura A adjunta muestra un grfico de residuos tpico, generalmente se dibuja una lnea
horizontal en el cero. La figura B en cambio muestra que la relacin entre X e Y es no lineal, por
Pgina 13 de 43
lo tanto una lnea recta no es buena descripcin de la asociacin. La figura C muestra residuos en
forma de embudo, donde la variacin de Y alrededor de X aumenta cuando X aumenta.
Figura A:
Figura B:
Figura C:
Ejemplo
Los estudiantes de una clase de Fsica estn estudiando la cada libre para determinar la relacin
entre la distancia desde que un objeto cae y el tiempo que demora en caer. Se muestra el grfico
de dispersin de los datos obtenidos, y el grfico de residuos. Basado en estos grficos, Le
parece apropiado un modelo de regresin lineal?
Pgina 14 de 43
Puntos influyentes y extremos.
Un punto extremo es una observacin que est lejos de la lnea recta, lo que produce un residuo
grande, positivo o negativo. Un punto es influyente si al sacarlo produce un cambio notorio en
la recta de regresin.
Considere el siguiente conjunto de datos I y su grfico de dispersin correspondiente.
X Y 6 Punto A
1 1
1 2
5
2 1.5
2.5 2.5
3 3 4
3.5 3
y
4 3.5 3
4 4
4.5 4 2
5 5
5 6
1
5.5 6
2 6 1 2 3
x
4 5 6
Coeficientesa
Coeficientes
Coeficientes no estandarizad
estandarizados os
Modelo B Error tp. Beta t Sig.
1 (Constante) .958 .847 1.131 .282
x .815 .234 .724 3.482 .005
a. Variable dependiente: y
Coeficientesa
Coeficientes
estandarizados os
1 (Constante) .036 .415 .087 .932
x 1.002 .112 .943 8.973 .000
Pgina 15 de 43
6 Punto A
3
Recta con A
Y = 0,958+0,815X
Recta sin A
2 Y = 0,036+1,002X
0
0 1 2 3 4 5 6
X
El punto A produce un residuo grande, parece ser un punto extremo.
Sin embargo, no es influyente, ya que al sacarlo la recta de regresin no cambia mucho.
Considere ahora el siguiente conjunto de datos II y su grfico de dispersin:
X Y 7 Punto B
1 3
1.5 2 6
2 3
2 4 5
2.5 1
2.5 2
y
3 1
3 2 3
3 3
3.5 2 2
4 1
1
7 7
1 2 3 4 5 6 7
x
Pgina 16 de 43
Coeficientesa
Coeficientes
estandarizados os
1 (Constante) .886 .955 .928 .375
x .582 .292 .533 1.991 .074
Coeficientesa
Coeficientes
estandarizados os
1 (Constante) 3.694 .845 4.373 .002
x -.594 .315 -.532 -1.885 .092
7 Punto B
Recta con B
Y=0,886+0,882X
4
Y
2 Recta sin B
Y=3,694-0,594X
0
0 1 2 3 4 5 6 7 8
X
Punto B no produce un residuo grande.

Pgina 17 de 43
Sin embargo, el punto B es muy influyente ya que la sacarlo del anlisis la lnea recta cambia
totalmente.
El Punto B es influyente, pero no extremo.
Notas:
a) La asociacin entre una variable explicativa X y una variable respuesta Y, aunque sea muy
fuerte, no es por s sola evidencia de que los cambios en X causan cambios en Y.
b) Un coeficiente de correlacin es el resumen de la relacin presente en un grfico de

dispersin. Conviene, pues, asegurarse mirando este grfico que el coeficiente es un buen
resumen del mismo. Tratar de interpretar un coeficiente de correlacin sin haber visto
previamente el grfico de las variables puede ser muy peligroso (Pea, Romo, p.129).
c) Como hemos visto el coeficiente de correlacin es un resumen del grfico de dispersin

entre dos variables. La recta de regresin es otra manera de resumir esta informacin, y su
parmetro fundamental, la pendiente, est relacionado con el coeficiente de correlacin por la
sY
ecuacin: b = r . La diferencia entre regresin y correlacin es que en el clculo de la
sX
correlacin ambas variables se tratan simtricamente, mientras que en la regresin, no. En
regresin se trata de prever la variable respuesta en funcin de los valores de la variable
explicativa. En consecuencia, si cambiamos el papel de las variables cambiar tambin la
ecuacin de regresin, porque la recta se adaptar a las unidades de la variable que se desea
predecir (Pea, Romo, p.142).
Pgina 18 de 43
INFERENCIA EN REGRESIN LINEAL SIMPLE
Modelo de regresin lineal simple:
Se tienen n observaciones de una variable explicativa X y de una variable respuesta Y,

(x1, y1 ), (x2, y2 ),..., (xn, yn ) . Ambas variables X e Y son cuantitativas.
El modelo estadstico de regresin lineal simple es: yi = + xi + i , donde:

- yi es la variable respuesta para cada observacin i (i = 1, 2,K , n)
- es el intercepto y representa el valor de la respuesta y cuando la variable explicativa x es
cero.
- es la pendiente asociada a la variable explicatoria x y representa el cambio en la variable
respuesta y por unidad de cambio de la variable x .
Las desviaciones i son independientes y normalmente distribuidas con media 0 y desviacin
estndar : i ~ N (0, )
Llamaremos respuesta media y = E (Y ) a la funcin lineal de las variables explicatorias:

y = + x .
Los parmetros del modelo son: , y , los coeficiente de regresin y la estimacin de la

variabilidad.
El modelo estadstico de regresin lineal simple asume que para cada valor de X, los valores de la
respuesta Y son normales con media (que depende de X) y desviacin estndar que no
depende de X. Esta desviacin estndar es la desviacin estndar de todos los valores de Y en
la poblacin para un mismo valor de X.
Estos supuestos se pueden resumir como: Para cada X, Y ~ N( y , ) donde

y = E (Y ) = + x . Podemos visualizar el modelo con la siguiente figura:
Pgina 19 de 43
Los datos nos darn estimadores puntuales de los parmetros poblacionales.
Estimadores de los parmetros de regresin:
El estimador de la respuesta media est dado por y = a + bx

El estimador del intercepto es: = a
El estimador de la pendiente es: = b
El estimador de la desviacin estndar est dado por: =

(y i y i )
2
=
e i
2
n2 n2
Probando la hiptesis acerca de la existencia de relacin lineal.
En el modelo de regresin lineal simple, si la pendiente de la recta de regresin en la poblacin es

cero ( = 0) , entonces las variables X e Y no estn asociadas linealmente y la respuesta es una
constante E(Y) = .
E(Y) =
Es decir, conocer el valor de X no nos va a ayudar a conocer Y.

Pgina 20 de 43
Para docimar la significancia de la relacin lineal realizamos el test de hiptesis:
H0 : = 0
H 0 : No existe regresin lineal
o
H1 : 0 H 1 : Existe regresin lineal
Existen hiptesis de una cola, donde H1 : < 0 o H1 : > 0 , pero lo usual es hacer el test
bilateral.
Para docimar la hiptesis podemos usar el test t de la forma:
estimador puntual valor hipottico

t =
error estndar del estimador
El estimador puntual de es b y el valor hipottico, suponiendo la hiptesis nula cierta, es cero.

El error estndar de b es:

EE(b) =
(x i x)
2
El estadstico para docimar la hiptesis acerca de la pendiente de la poblacin es:

b
t= ~ t ( n 2)
EE (b)
Bajo H0 el estadstico t sigue una distribucin t de Student con (n-2) grados de libertad.
Intervalo de confianza para la pendiente:

Un intervalo de confianza ( 1 )*100% para la pendiente est dado por:
b t ( n 2 ;1 2 )[EE(b)]
(
donde t n 2 ;1 2 ) es el percentil apropiado de la distribucin t de Student con (n-2)
grados de libertad.
Suponga que se rechaza al 5% la hiptesis nula del test t:
H0 : = 0
H1 : 0
El intervalo del 95% de confianza para la verdadera pendiente contiene el cero?

Pgina 21 de 43
Ejemplo: Test 1 versus Test 2 revisitado.

Recordemos los datos:
Test 1 Test 2
8 9
10 13
12 14
14 15
16 19
Revisemos la salida de SPSS con lo que hemos visto hasta ahora:
Analizar > Regresin > Lineal > En Estadsticos > Seleccionar Intervalos de Confianza.
Resumen del modelo
R cuadrado Error tp. de la

Modelo R R cuadrado corregida estimacin
1 ,965a ,931 ,908 1,095
a. Variables predictoras: (Constante), Test 1
ANOVAb
Suma de Media
Modelo cuadrados gl cuadrtica F Sig.
1 Regresin 48,400 1 48,400 40,333 ,008a
Residual 3,600 3 1,200
Total 52,000 4
a. Variables predictoras: (Constante), Test 1
b. Variable dependiente: Test 2
Coeficientes a
Coeficientes
Coeficientes no estandarizad Intervalo de confianza para
estandarizados os B al 95%
Lmite
Modelo B Error tp. Beta t Sig. Lmite inferior superior
1 (Constante) ,800 2,135 ,375 ,733 -5,996 7,596
Test 1 1,100 ,173 ,965 6,351 ,008 ,549 1,651
a. Variable dependiente: Test 2
Pgina 22 de 43
Verificando supuestos en la Regresin lineal simple.
1. Examine el grfico de dispersin de Y versus X para decidir si el modelo lineal parece

razonable (supuesto de linealidad).
2. Examine los residuos para verificar los supuestos acerca del trmino del error. Los residuos
deben ser una muestra aleatoria de una poblacin normal con media 0 y desviacin estndar
. Cuando examine los residuos verifique:
a) Normalidad.
Para verificar normalidad haga el histograma de los residuos, este debera aparecer como
normal sin valores extremos. En el caso de tener pocas observaciones puede hacer un grfico
de tallo y hoja y verificar que no haya observaciones extremas.
b) Homocedasticidad: desviacin estndar comn (que no depende de X).
El grfico de los residuos versus X, debe tener aproximadamente una banda del mismo ancho,
de la forma:
En cambio el siguiente grfico muestra evidencia de que la variabilidad en la respuesta tiende

a aumentar cuando X aumenta:
Pgina 23 de 43
Pasos en el anlisis de Regresin Lineal Simple:
1. Describir las variables X e Y por medio de una tabla con medidas de resumen descriptiva.
2. Verificar supuesto de linealidad con grfico de dispersin y coeficiente de correlacin.
3. Ajustar modelo de regresin lineal simple
4. Verificar Test de Regresin Lineal
5. Verificar coeficiente de determinacin R2
6. Anlisis de los supuestos en los residuos: Normalidad y Homocedasticidad.
Ejemplo:
Se conduce un experimento en 12 sujetos para analizar si la dosis de cierta droga (en ml) est
relacionada con el tiempo de reaccin a un estmulo en segundos.
Droga (ml) 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0 6,5
Tiempo (segs) 1,0 0,8 1,8 1,4 2,1 1,8 2,2 3,0 2,75 3,0 4,1 4,9
Analizar > Estadsticos Descriptivos > Descriptivos
Estadsticos descriptivos
N Mnimo Mximo Media Desv. tp.
Tiempo de Reaccin (seg) 12 ,80 4,90 2,4042 1,21925
Dosis de Droga (ml) 12 1,00 6,50 3,7500 1,80278
N vlido (segn lista) 12
Analizar > Correlaciones > Bivariadas
Correlaciones
Tiempo de
Reaccin Dosis de
(seg) Droga (ml)
Tiempo de Reaccin Correlacin de Pearson 1 ,939(**)
(seg) Sig. (bilateral) ,000
N 12 12
Dosis de Droga (ml) Correlacin de Pearson ,939(**) 1
Sig. (bilateral) ,000
N 12 12
** La correlacin es significativa al nivel 0,01 (bilateral).
Pgina 24 de 43
Grficos > Generador de Grficos > Elija Dispersin/Puntos > Doble clic en el grfico, en ventana de
Editor de Grficos > Opciones > Elementos > Lnea de Ajuste Total > Lineal.
Grfico de dispersin del tiempo de reaccin a estmulo versus dosis de droga:
5,00
4,00
Tiempo de Reaccin (seg)
3,00
2,00
1,00
Sq r lineal = 0,882
0,00
1,00 2,00 3,00 4,00 5,00 6,00 7,00
Dosis de Droga (ml)
Linealidad?
Analizar > Regresin > Lineal
Coeficientes(a)
Coeficientes no Coeficientes
estandarizados estandarizados

1 (Constante) ,022 ,303 ,072 ,944
Dosis de Droga (ml) ,635 ,073 ,939 8,663 ,000
a Variable dependiente: Tiempo de Reaccin (seg)
Test de regresin lineal simple?

Pgina 25 de 43
ANOVAb
Suma de Media
1 Regresin 14.430 1 14.430 75.048 .000a
Residual 1.923 10 .192
Total 16.352 11
a. Variables predictoras: (Constante), Dosis de droga (ml)
b. Variable dependiente: Tiempo de reaccin (seg)
Resumen del modelo

1 .939a .882 .871 .43849
a. Variables predictoras: (Constante), Dosis de droga (ml)
Coeficiente de determinacin?
Analizar > Regresin > Lineal > Guardar > en Residuos seleccione No Tipificados. Luego, Grficos
> Generador de Grficos > seleccione Dispersin/Puntos > doble clic en el grfico, en Editor de Grficos >
Opciones > Lnea de Referencia del eje Y.
Grfico de residuos de la regresin versus dosis de droga:
0,6
Unstandardized Residual
0,3
0,0
-0,3
-0,6
1 2 3 4 5 6 7
Dosis de Droga (ml)
Homocedasticidad?
Pgina 26 de 43
Pruebas de normalidad
Kolmogorov-Smirnov a Shapiro-Wilk
Estadstico gl Sig. Estadstico gl Sig.
Unstandardized Residual ,162 12 ,200* ,933 12 ,413
*. Este es un lmite inferior de la significacin verdadera.
a. Correccin de la significacin de Lilliefors
Pgina 27 de 43
ANLISIS DE REGRESIN LINEAL MLTIPLE.
Anteriormente, ya vimos que el anlisis de regresin simple trata de relacionar una variable
explicativa cuantitativa con una variable respuesta cuantitativa. Todos esos elementos nos van a
servir ahora para continuar con el caso ms general y de mayor utilidad prctica, que es la
regresin lineal mltiple. Por regresin lineal mltiple entenderemos el anlisis de regresin lineal
pero ahora con ms de una variable explicativa.
Datos para regresin mltiple.
Los datos para regresin lineal simple consisten en pares de observaciones (xi, yi) de dos
variables cuantitativas. Ahora tendremos mltiples variables explicativas, por lo que la notacin
ser ms elaborada. Llamaremos Xij el valor de la j-sima variable del i-simo sujeto o unidad
(i=1,2,...,n ; j=1,2,...,p). Los datos se pueden organizar de la siguiente forma en una base:
1 x11 x12 ... x1p y1

2 x21 x22 ... x2p y2
:
n xn1 xn2 ... xnp yn
Donde n es el nmero de casos o tamao muestral y p es el nmero de variables explicatorias.

Esta es una forma de organizar la base de datos, no importa el orden de las variables.
El modelo estadstico de regresin lineal mltiple es:
yi = 0 + 1 xi1 + 2 xi 2 + L + p xip + i
donde:
- yi es la variable respuesta para cada observacin i (i = 1, 2,K , n)

- 0 es el intercepto y representa el valor de la respuesta y cuando todas las variables
explicativas xij son cero.
- j son las p pendientes asociadas a cada variable explicatoria xj y representan el cambio en la
variable respuesta y por unidad de cambio en la variables explicativa xj (manteniendo

constante el resto de las variables explicativas) ( j = 1, 2,K , p ) .
Las desviaciones i son independientes y normalmente distribuidas con media 0 y desviacin
estndar : i ~ N (0, )
Los parmetros del modelo son: 0 , 1 , L , p y , los coeficiente de regresin y la

estimacin de la variabilidad, es decir son en total (p + 2) parmetros.
Si suponemos que la respuesta media est relacionada con los parmetros a travs de la
ecuacin: y = 0 + 1 x 1 + 2 x 2 + L + p x p , esto quiere decir que podemos estimar la
media de la variable respuesta a travs de la estimacin de los parmetros de regresin. Si
Pgina 28 de 43
esta ecuacin se ajusta a la realidad entonces tenemos una forma de describir cmo la media de
la variable respuesta y vara con las variables explicatorias x1, x2 , L , x p .
Estimacin de los parmetros de regresin mltiple.
En regresin lineal simple usamos el mtodo de mnimos cuadrados para obtener estimadores
del intercepto y de la pendiente. En regresin lineal mltiple el principio es el mismo, pero
necesitamos estimar ms parmetros.
Llamaremos b0 , b1 , L , bp a los estimadores de los parmetros 0 , 1 , L , p
La respuesta estimada por el modelo para la i-sima observacin es:

i = b0 + b1 x i1 + b2 x i 2 + L + bp x ip
y
El i-simo residuo es la diferencia entre la respuesta observada y la predicha:
residuo = y observado y
estimado
El i-simo residuo = e i = y i y
i
(
e i = y i b0 + b1 x i1 + b2 x i 2 + L + b p x ip )
El mtodo mnimos cuadrados elige los valores de los estimadores b0 , b1 , L , b p ptimos, es
decir, que hacen la suma de cuadrados de los residuos menor posible. En otras palabras, los
parmetros estimados b0 , b1 , L , b p minimizan la diferencia entre la respuesta observada y la
respuesta estimada, lo que equivale a minimizar: (y i y

i )2 .
La frmula de los estimadores de mnimos cuadrados para regresin mltiple se complica porque
necesitamos notacin matricial, sin embargo estamos a salvo si entendemos el concepto y
dejaremos a SPSS hacer los clculos.
Pruebas de significancia e Intervalos de confianza para los coeficientes de regresin.
Podemos obtener intervalos de confianza y test de hiptesis para cada uno de los coeficientes de
regresin j como lo hicimos en regresin simple. Los errores estndar de los estadsticos
muestrales b0 , b1, L , bp tienen frmulas ms complicadas, as es que nuevamente dejaremos que
SPSS haga su trabajo.
Test de hiptesis para j :
H0 : j = 0
Para docimar la hiptesis se usa el test t:
H1 : j 0
Pgina 29 de 43
bj
t = ~ t(n p 1)
EE(b j )
Donde EE(b j ) es el error estndar de b j
Notas:
- Vamos a dejar a SPSS el clculo del error estndar de bj .
- Tendremos entonces un test de hiptesis asociado a cada variable explicatoria en el modelo.
- Podemos realizar hiptesis de una cola, donde H1: j < 0 o H1: j > 0 , pero lo usual es
hacer el test bilateral.
Intervalo de confianza para j :

Un intervalo de confianza ( 1 )*100% para j est dado por:
b j t ( n p 1;1 2 ) EE (b j )
donde t ( n p 1 ;1 2 ) es el percentil apropiado de la distribucin t con (n-p-1) grados de
libertad, EE(b j ) es el error estndar de bj .
Intervalos de confianza para la respuesta media e intervalos de prediccin individual.
Se pueden obtener intervalos de confianza para la respuesta media o intervalos de confianza para
futuras observaciones en los modelos de regresin mltiple.
Tabla de ANOVA para regresin mltiple.
La tabla de anlisis de varianza para la regresin mltiple es la siguiente:
gl SC CM
Fuente de variacin Grados de libertad Suma de Cuadrados Cuadrados
Medios
Modelo p SCMod = (y y ) 2 SCMod
p
n SC Re s
Residuo n p 1 SC Re s = (y
i =1
i i )2
y
n p 1
Total n 1 SCT = (y
i =1
i y)
2
La tabla ANOVA es similar a la de regresin simple. Los grados de libertad del modelo son ahora p
en vez de 1, lo que refleja que ahora tenemos p variables explicatorias en vez de slo una. Las
sumas de cuadrados representan las fuentes de variacin. Recordemos que la suma de cuadrados
total es igual a la suma de los cuadrados del modelo de regresin ms la suma de los cuadrados
del residuo:
SCT = SCMod + SCRes

Pgina 30 de 43
Estadstico F.
La razn entre el cuadrado medio del modelo y el residuo F = MCMod MC Re s , permite estimar si
la relacin entre las variables explicatorias y la respuesta es significativa. La hiptesis que docima
el test F es:
H0 : 1 = 2 = L = p = 0
H1 : al menos un j no es cero
La hiptesis nula dice que ninguna de las variables explicatorias son predictoras de la variable
respuesta. La hiptesis alternativa dice que al menos una de las variables explicatorias est
linealmente relacionada con la respuesta. Como en regresin simple, valores grandes de F nos
dan evidencia en contra de hiptesis nula. Cuando H0 es verdadera, el estadstico F tiene
distribucin F de Fisher con (p, n-p-1) grados de libertad. Los grados de libertad estn asociados
a los grados de libertad del modelo y del residuo en la tabla ANOVA.
Recordemos que en regresin lineal simple el test F de la tabla ANOVA es equivalente al test t
bilateral para la hiptesis de que la pendiente es cero. Ahora, el test F de regresin mltiple docima
la hiptesis de que todos los coeficientes de regresin (con excepcin del intercepto) son cero,
hiptesis que no es de mucho inters. En el problema de regresin mltiple interesan ms las
hiptesis individuales para cada parmetro asociado a cada variable explicatoria.
Coeficiente de determinacin (R2).
SCReg
En regresin lineal simple vimos que el cuadrado del coeficiente de correlacin era r 2 = y
SCTotal
se poda interpretar como la proporcin de la variabilidad de Y que poda ser explicada por X. Un
coeficiente similar se calcula en regresin mltiple:
R 2
=
SC Mod
=
(y y )
2
SC Total
(y y )
i
2
Donde R2 es la proporcin de la variabilidad de la variable respuesta Y que es explicada por las

variables explicatorias x1,x2 , L ,x p en la regresin lineal mltiple.
A menudo se multiplica R2 por 100 y se expresa como porcentaje. La raz cuadrada de R2 es el
coeficiente de correlacin mltiple, es la correlacin entre las observaciones Yi y los valores
predichos y i .
Coeficiente de determinacin (R2) ajustado.
Cuando evaluamos un modelo de regresin lineal mltiple nos interesa decidir si una variable
dada mejora la capacidad para predecir la respuesta comparando el R2 de un modelo que contiene
la variable, con el R2 del modelo sin la variable. El modelo con mejor R2 debera ser el mejor
modelo. Pero debemos ser cuidadosos cuando comparamos los coeficientes de determinacin de
dos modelos diferentes. La inclusin de una variable adicional en el modelo nunca provoca la
reduccin de R2. Para manejar este problema, podemos utilizar el R2 ajustado, que ajusta por el
nmero de variables que hay en el modelo. El R2 ajustado es:
Ra2 = 1
n 1
n (p + 1)
(
1 R2 )
Pgina 31 de 43
Ejemplo:
Nos interesa analizar la relacin entre las notas de Enseanza Media y la Prueba de Aptitud
Acadmica (PAA). Se tienen datos de la PAA del 2001 de la regin del Maule. Queremos analizar
si podemos explicar las notas de enseanza media (NEM) con las pruebas de Matemtica (PAM),
Verbal (PAV) e Historia y Geografa (PHG).
Escribimos el modelo propuesto como:
y i = 0 + 1 xi 1 + 2 x i 2 + 3 x i 3 + 4 xi 4 + i
En forma abreviada:
NEM = PAM + PAV + PHG
Analizar > Regresin > Lineal > En Estadsticos > Seleccionar Intervalos de Confianza.
Resumen del modelo

1 .578a .334 .334 81.25283
a. Variables predictoras: (Constante), Prueba Historia y
Geografa, Prueba Aptitud Matemtica, Prueba Aptitud Verbal
ANOVAb
Suma de Media
1 Regresin 16400316 3 5466772.0 828.045 .000a
Residual 32660205 4947 6602.023
Total 49060521 4950
a. Variables predictoras: (Constante), Prueba Historia y Geografa, Prueba Aptitud
Matemtica, Prueba Aptitud Verbal
b. Variable dependiente: NEM Notas Ens Media
Coeficientesa
Coeficientes
Lmite
1 (Constante) 312.088 5.656 55.179 .000 301.000 323.176
Prueba Aptitud Verbal .153 .019 .176 7.993 .000 .115 .190
Prueba Aptitud
.275 .015 .349 18.133 .000 .245 .304
Matemtica
Prueba Historia y
.096 .019 .098 5.049 .000 .059 .133
Geografa
a. Variable dependiente: NEM Notas Ens Media
Pgina 32 de 43
Verificando supuestos en la regresin lineal mltiple.
1. Examine los grficos de dispersin entre la variable respuesta Y versus las variables
explicatorias X para investigar si la relacin entre estas variables es lineal y por lo tanto si el
modelo es razonable. A travs de este anlisis podremos entender mejor la relacin entre los
datos.
Analizar > Correlaciones > Bivariadas
Correlacionesa
Prueba Prueba
NEM Notas Prueba Aptitud Historia y
Ens Media Aptitud Verbal Matemtica Geografa
NEM Notas Ens Media Correlacin de Pearson 1 .526** .556** .485**
Sig. (bilateral) . .000 .000 .000
Prueba Aptitud Verbal Correlacin de Pearson .526** 1 .783** .789**
Sig. (bilateral) .000 . .000 .000
Prueba Aptitud Correlacin de Pearson .556** .783** 1 .711**
Matemtica Sig. (bilateral) .000 .000 . .000
Prueba Historia y Correlacin de Pearson .485** .789** .711** 1
Geografa Sig. (bilateral) .000 .000 .000 .
a. N por lista = 4951
Pgina 33 de 43
Grficos > Cuadros de dilogo antiguos > Dispersin/Puntos > seleccione Dispersin Matricial > Definir.
2. Examine los residuos para verificar los supuestos acerca del trmino del error. Los residuos
deben ser una muestra aleatoria de una poblacin normal con media 0 y desviacin estndar
. Para verificar normalidad grafique el histograma de los residuos, este debera aparecer
como normal sin valores extremos. Adems debemos revisar los residuos individuales para
detectar valores extremos y/o influyentes. Por ltimo debemos detectar si la distribucin de
los residuos es al azar y no hay formas que muestren un problema en el ajuste, o que la
varianza no sea constante.
Histograma de residuos Grfico P-P normal de regresin Residuo tipificado
Variable dependiente: NEM Notas Ens Media

Notas de Enseanza Media versus PAA 1.00
500
400 .75
300
.50
Prob acum esperada
200
Frecuencia
100 Desv. tp. = 1.00 .25

Media = 0.00
0 N = 4951.00
0.00
-3
-2
-2
-1
-1
-.5
0.
.5
1.
1.
2.
2.
3.
00
00
50
00
50
00
.0
.5
.0
.5
.0
0.00 .25 .50 .75 1.00

0
0
0
Regresin Residuo tipificado Prob acum observada

Pgina 34 de 43
Diagnsticos por casoa
NEM Notas Valor

Nmero de caso Residuo tip. Ens Media pronosticado Residuo bruto
91 3.005 760 515.8015 244.1985
627 3.066 781 531.8782 249.1218
683 -3.035 373 619.6385 -246.6385
a. Variable dependiente: NEM Notas Ens Media
Grfico de residuos versus predichos

4
Re 2
gr
esi 1
n
Re
0
sid
uo
-1
est
ud
en -2
tiz
ad -3
o
-4
400 500 600 700 800
Regresin Valor pronosticado
Ejemplo:
Usando la salida de SPSS para la regresin mltiple sin la Prueba de Historia y Geografa, analice
como cambia el R2.
Resumen del modelob

1 .575a .331 .331 81.439
a. Variables predictoras: (Constante), Prueba Aptitud
Matemtica, Prueba Aptitud Verbal
b. Variable dependiente: NEM Notas Ens Media
Colinealidad.
Aparte de los supuestos antes mencionados, siempre hay que verificar la presencia de
colinealidad. La colinealidad ocurre cuando dos o ms variables explicativas se relacionan entre s,
hasta el punto de que comunican esencialmente la misma informacin sobre la variacin
observada en Y. Un sntoma de la existencia de colinealidad es la inestabilidad de los coeficientes
calculados y sus errores estndares. En particular los errores estndares a menudo se tornan muy
grandes; esto implica que hay un alto grado de variabilidad de muestreo en los coeficientes
calculados.
Pgina 35 de 43
Deteccin de multicolinealidad en el modelo de regresin.
Los siguientes son indicadores de multicolinealidad:

1. Correlaciones significativas entre pares de variables independientes en el modelo.
2. Pruebas t no significativas para los parmetros individuales cuando la prueba F global del
modelo es significativa.
3. Signos opuestos (a lo esperado) en los parmetros estimados.
Ejemplo:
La Comisin Federal de Comercio (Federal Trade Commission) de Estados Unidos clasifica
anualmente las variedades de cigarrillos segn su contenido de alquitrn, nicotina y monxido de
carbono. Se sabe que estas tres sustancias son peligrosas para la salud de los fumadores.
Estudios anteriores han revelado que los incrementos en el contenido de alquitrn y nicotina de
un cigarrillo van acompaados por un incremento en el monxido de carbono emitido en el humo
de cigarrillo. La base de datos CO_multiple.sav (en Educandus) contiene los datos sobre
contenido de alquitrn (en miligramos), nicotina (en miligramos) y monxido de carbono (en
miligramos) y peso (en gramos) de una muestra de 25 marcas (con filtro) ensayadas en un ao
reciente. Suponga que se desea modelar el contenido de monxido de carbono, Y, en funcin del
contenido de alquitrn, X1, el contenido de nicotina, X2, y el peso, X3, utilizando el modelo:
yi = 0 + 1 xi1 + 2 xi 2 + 3 xi 3 + i
En forma abreviada:
CO = Alquitrn + Nicotina + Peso
El modelo se ajust a los 25 puntos de datos y se adjunta las salidas de SPSS:
Resumen del modelob

1 .958a .919 .907 1.4457
a. Variables predictoras: (Constante), Peso, Alquitrn, Nicotina
b. Variable dependiente: CO
Coeficientesa
Coeficientes
Lmite
1 (Constante) 3.202 3.462 .925 .365 -3.997 10.401
Alquitrn .963 .242 1.151 3.974 .001 .459 1.466
Nicotina -2.632 3.901 -.197 -.675 .507 -10.743 5.480
Peso -.130 3.885 -.002 -.034 .974 -8.210 7.950
a. Variable dependiente: Monxido de Carbono (mg)
Pgina 36 de 43
CO
Alquitrn
Nicotina
Peso
Correlacionesa
CO Alquitrn Nicotina Peso

CO Correlacin de Pearson 1 .957** .926** .464*
Sig. (bilateral) . .000 .000 .019
Alquitrn Correlacin de Pearson .957** 1 .977** .491*
Sig. (bilateral) .000 . .000 .013
Nicotina Correlacin de Pearson .926** .977** 1 .500*
Sig. (bilateral) .000 .000 . .011
Peso Correlacin de Pearson .464* .491* .500* 1
Sig. (bilateral) .019 .013 .011 .
*. La correlacin es significante al nivel 0,05 (bilateral).
a. N por lista = 25
Cul es la solucin al problema?
Modelo: CO = Alquitrn + Peso
Resumen del modelo

1 .958a .917 .909 1.4277
a. Variables predictoras: (Constante), Peso, Alquitrn
Pgina 37 de 43
Coeficientesa
Coeficientes
Lmite
1 (Constante) 3.114 3.416 .912 .372 -3.970 10.199
Alquitrn .804 .059 .961 13.622 .000 .682 .927
Peso -.423 3.813 -.008 -.111 .913 -8.331 7.485
Modelo: CO = Nicotina + Peso

Resumen del modelo

1 .926a .857 .844 1.8695
a. Variables predictoras: (Constante), Nicotina, Peso
Coeficientesa
Coeficientes
Lmite
1 (Constante) 1.614 4.447 .363 .720 -7.608 10.836
Nicotina 12.388 1.245 .925 9.952 .000 9.807 14.970
Peso .059 5.024 .001 .012 .991 -10.360 10.478
Modelo: CO = Alquitrn
Resumen del modelo

1 .957a .917 .913 1.3967
a. Variables predictoras: (Constante), Alquitrn
Coeficientesa
Coeficientes
Lmite
1 (Constante) 2.743 .675 4.063 .000 1.347 4.140
Alquitrn .801 .050 .957 15.918 .000 .697 .905
Pgina 38 de 43
Tabla resumen:
Modelos R2 Coeficiente Intervalo de confianza
para CO
Alquitrn 0,963 (0,459; 1,466)
Nicotina 90,7% -2,632 (-10,743; 5,480)
Peso -0,130 (-8,210; 7,950)
Alquitrn 0,804 (0,682; 0,927)

Peso 90,9% -0,423 (-8,331; 7,485)
Nicotina 12,388 (9,807; 14,970)

Peso 84,4% 0,059 (-10,360; 10,478)
Alquitrn 91,3% 0,801 (0,697; 0,905)
Residuos
Seleccin de modelos.
Como regla general, normalmente es preferible incluir en un modelo de regresin slo las
variables explicativas que ayudan a predecir o explicar la variabilidad de la respuesta Y, a este
modelo lo llamamos parsimonioso. En consecuencia, si tenemos diversas variables explicativas
potenciales, cmo decidir cules deben quedar en el modelo y cules dejar fuera? Por lo general,
la decisin se toma en base a una combinacin de consideraciones estadsticas y no estadsticas.
Es fundamental identificar o conocer cules variables podran ser importantes. Sin embargo, para
estudiar cabalmente el efecto de cada una de estas variables explicativas, sera necesario llevar a
cabo anlisis por separado de cada posible combinacin de variables. Los modelos resultantes
podran evaluarse enseguida de acuerdo con algn criterio estadstico. Este es el mtodo ms
completo, pero tambin el que ocupa ms tiempo. Si tenemos una gran cantidad de variables
explicativas el procedimiento podra no ser factible. Existen otros mtodos paso a paso (stepwise
en ingls) que son tiles, pero que hay que usarlos con cautela porque los resultados pudieran ser
dependientes de los datos (la muestra) ms que basados en el conocimiento del problema que
estamos estudiando. La recomendacin es buscar un equilibrio entre el uso de mtodos
computacionales, el conocimiento que tenemos de las variables y los resultados de la muestra.
Pgina 39 de 43
Variables indicadoras.
Las variables explicativas que hemos considerado hasta este momento se midieron en escala
cuantitativa. Sin embargo, el anlisis de regresin puede generalizarse para incluir, asimismo,
variables explicativas cualitativas.
Supongamos que sexo es una variable explicativa en un modelo de regresin mltiple.

Normalmente en las bases de datos se codifica con 1 a los hombres y 2 a las mujeres. Las
variables cualitativas deben ser ingresadas al modelo en SPSS por medio de variable indicadoras.
Las variables indicadoras (dummy en ingls) son variables codificadas como 1 y 0.
1 hom bres
Una variable indicadora para sexo ser:
0 mujeres
Estos nmeros no representan mediciones reales; sencillamente identifican las categoras de la

variable aleatoria nominal.
Datos > Recodificar > En distintas variables > valores antiguos y nuevos > 1 1 > 2 0
Ejemplo:
Queremos encontrar un modelo que explique el puntaje promedio en la PSU. Entre las
variables independientes considere las notas en la enseanza media (NEM) y el sexo. Para
esto usaremos los datos de la Prueba de Seleccin Universitaria (PSU) rendida el ao 2004 en la
regin del Maule. Usaremos los egresados en el ao 2003, es decir los que rinden por primera vez
la PSU.
Pasos en el anlisis de regresin mltiple:
1. Describir los datos: Descripcin grfica y numrica de las variables que se van a utilizar
en el anlisis
Pgina 40 de 43
Tabla del SPSS con descripcin de variables cuantitativas:
Variable Promedio Desviacin estndar Mediana Mnimo Mximo

Prom. PSU 486,35 104,24 478,50 219 826
NEM 586,91 99,45 580,00 270 826
Tabla con descripcin de variable cualitativa:
Sexo Frecuencia Porcentaje

Masculino 2106 46.1
Femenino 2460 53.9
Total 4566 100.0
Pgina 41 de 43
Descripcin grfica:
900
800
700
Promedio PSU
600
500
400
300
200
Masculino Femenino
Sexo
Estadsticos de grupo
Desviacin Error tp. de

Sexo N Media tp. la media
Promedio PSU Masculino 2106 495.30 106.388 2.318
Femenino 2460 478.69 101.758 2.052
2. Verificar los supuestos:
- Linealidad (Y versus X).

- No colinealidad (Correlacin entre las X).
3. Bsqueda del mejor modelo (R2 y test de hiptesis de los coeficientes de regresin).
Resumen del modelo

1 .610a .372 .372 82.611
a. Variables predictoras: (Constante), Sexo, NEM: Notas en
Enseanza Media
Coeficientesa
Coeficientes
Lmite
1 (Constante) 93.167 7.660 12.163 .000 78.151 108.184
NEM: Notas en
.642 .012 .612 51.565 .000 .617 .666
Enseanza Media
Sexo 36.158 2.482 .173 14.570 .000 31.293 41.023
a. Variable dependiente: Promedio PSU
Pgina 42 de 43
4. Anlisis de supuestos de residuos: Normalidad y Homocedasticidad
- Normalidad: Histograma y Grficos de Normalidad
- Homocedasticidad: Grfico de residuos versus Y estimada.
Nota: Si no se obtiene normalidad u homogeneidad de varianza, se pueden trasformar los

datos.
Pgina 43 de 43
7. Anlisis de modelo final
Podemos interpretar los coeficientes de regresin como siempre:
- intercepto: si las notas fueran cero en la mujeres (sexo=0), la PSU sera de 93,167
puntos.
- Pendiente NEM: por cada punto de notas de enseanza media aumenta la PSU promedio
en 0,642 puntos.
- Pendiente sexo: los hombres tienen el promedio 36,158 puntos ms que las mujeres en la
PSU
Este modelo puede ser analizado separadamente para hombres y mujeres:
Los hombres tienen la recta estimada: PSU = 129,325 + 0,642 NEM
Las mujeres tienen la recta estimada: PSU = 93,167 + 0,642 NEM
Grficamente se puede mostrar:

Apuntes Analisis de Regresion PDF

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Apuntes Analisis de Regresion PDF

Încărcat de

Drepturi de autor:

Formate disponibile

Pgina 1 de 43

Relaciones entre dos variables cuantitativas.

Describiendo relaciones entre dos variables cuantitativas.

Grfico de Dispersin de Notas en la Prueba 1 versus Notas en la Prueba Final

Como resumen de las figuras tenemos lo siguiente:

Figura A: muestra un grado de asociacin intermedio, positivo y lineal.

Figure A: Positive Association Figure B: Negative Association

Correlacin: Cun fuerte es la relacin lineal?

Nota: El coeficiente de correlacin muestral r = es un estimador puntual de la correlacin

1. Rango: El coeficiente de correlacin muestral est entre -1 y 1 (1 r +1) .

2. Signo: El signo de coeficiente de correlacin indica la direccin de la asociacin. La direccin

3. Magnitud: La magnitud del coeficiente de correlacin indica el grado de la relacin lineal. Si

Graph A: ___________ Graph B: ___________

r=0 r = +1 r = -1 r = 0,6 r = -0,2 r = -0,8 r = 0,1

Cmo se calcula el coeficiente de correlacin r?:

Analizar > Correlaciones > Bivariadas.

Ahora revise los grficos de dispersin. Mantiene sus conclusiones anteriores?

Regresin Lineal Simple.

Estatura 155 157 159 162 165 168 169

154 156 158 160 162 164 166 168 170

Ajustando una recta a los datos:

Suponga que Y es la variable respuesta (eje vertical) y X es la variable explicativa (eje

Y b positivo b negativo b=0

154 156 158 160 162 164 166 168 170

Regresin de mnimos cuadrados

Podemos usar los clculos de la correlacin para calcular la pendiente:

Interpretacin de los coeficientes de regresin:

Un residuo es la diferencia entre la respuesta observada, Y, y la respuesta que predice la recta

residuo = Y observado Y estimado

El i-simo residuo = ei = Yi Yi = Yi (a + bxi )

Podemos usar la recta de regresin para prediccin substituyendo el valor de X en la ecuacin y

Analizar > Regresin > Lineal.

B Error tp. Beta

Puntos influyentes y extremos.

El punto A produce un residuo grande, parece ser un punto extremo.

Sin embargo, no es influyente, ya que al sacarlo la recta de regresin no cambia mucho.

Considere ahora el siguiente conjunto de datos II y su grfico de dispersin:

Punto B no produce un residuo grande.

b) Un coeficiente de correlacin es el resumen de la relacin presente en un grfico de

c) Como hemos visto el coeficiente de correlacin es un resumen del grfico de dispersin

INFERENCIA EN REGRESIN LINEAL SIMPLE

Modelo de regresin lineal simple:

Se tienen n observaciones de una variable explicativa X y de una variable respuesta Y,

El modelo estadstico de regresin lineal simple es: yi = + xi + i , donde:

Las desviaciones i son independientes y normalmente distribuidas con media 0 y desviacin

Llamaremos respuesta media y = E (Y ) a la funcin lineal de las variables explicatorias:

Los parmetros del modelo son: , y , los coeficiente de regresin y la estimacin de la

Estos supuestos se pueden resumir como: Para cada X, Y ~ N( y , ) donde

Los datos nos darn estimadores puntuales de los parmetros poblacionales.

Estimadores de los parmetros de regresin:

El estimador de la respuesta media est dado por y = a + bx

El estimador de la desviacin estndar est dado por: =

En el modelo de regresin lineal simple, si la pendiente de la recta de regresin en la poblacin es

Es decir, conocer el valor de X no nos va a ayudar a conocer Y.

Para docimar la significancia de la relacin lineal realizamos el test de hiptesis:

Para docimar la hiptesis podemos usar el test t de la forma:

estimador puntual valor hipottico

El estimador puntual de es b y el valor hipottico, suponiendo la hiptesis nula cierta, es cero.

El estadstico para docimar la hiptesis acerca de la pendiente de la poblacin es:

Intervalo de confianza para la pendiente:

Suponga que se rechaza al 5% la hiptesis nula del test t:

El intervalo del 95% de confianza para la verdadera pendiente contiene el cero?

Ejemplo: Test 1 versus Test 2 revisitado.

Graph A: _ Graph B: _