Sunteți pe pagina 1din 38

Una

de
las
aplicaciones
mas
importantes de la estadstica implica la
estimacin del valor medio de una
variable de respuesta y o la prediccin
de algn valor futuro de y con base el
conocimiento de un conjunto de
variables independientes relacionadas,
x1, x2, . . . xk.

Los modelos que se emplean para


relacionar una variable dependiente y
con las variables independientes x1, x2, . .
. xk se denominan modelos de regresin
o modelos estadsticos lineales porque
expresan el valor medio de y para
valores dados de x1, x2, . . . xk como una
funcin lineal de un conjunto de
parmetros desconocidos.

Los conceptos de anlisis de regresin


se presentan empleando un modelo de
regresin muy sencillo, uno que
relaciona y con una sola variable x.
Aprenderemos a ajustar este modelo a
un conjunto de datos mediante el
mtodo de los mnimos cuadrados.

Examinaremos los diferentes tipos de


inferencias que pueden hacerse a partir
de un anlisis de regresin.

Un modelo de regresin simple:


supuestos
Supongamos que se quiere determinar
la magnitud de la compresin que se
producir en un tipo de material de 2
pulgadas de espesor cuando se someta
a diferentes cantidades de presin.

Un modelo de regresin simple:


supuestos
Se prueban cinco trozos experimentales
del material bajo diferentes presiones.
Los valores de x (en unidades de 10
libras por pulgada cuadrada) y las
magnitudes
de
compresin
y
resultantes (en unidades de 0.1 de
pulgada) se presentan en la tabla 1.

ESPCIME PRESI COMPRESI


N
N
N
X
Y

1
1
1
2
2
1
3
3
2
4
4
2
5
5
4

TABLA
#1

En la figura 1 se muestra una grfica


de los datos, llamada diagrama de
dispersin. y
4

Figura 1.

y
4

y
4
3
2
1
0

y
4
3
2
1
0

Supongamos
que
creemos
que el
valor de y tiende a
aumentar de forma
conforme x
X lineal
aumenta

Entonces, podramos escoger un modelo


que relacione a y con x trazando una
lnea recta a travs de los puntos de la
figura.

y
4
3
2
1
0

Semejante modelo determinstico (uno


que no contempla errores de prediccin)
podra ser adecuado si todos los puntos
de la figura quedaran sobre la lnea
ajustada.

La solucin es construir un modelo


probabilstico que relacione y con x; uno
que contemple la variacin aleatoria de
los puntos de datos a los lados de una
lnea recta.

Un tipo de modelo probabilstico, el


modelo de regresin lineal simple,
supone que el valor medio de y para un
valor dado de x se grafica como una
lnea recta y que los puntos se desvan
de esta lnea de medias en una cantidad
aleatoria (positiva o negativa) igual a ,
es decir:

y 0 1 x

y 0 1 x

y 0 1 x

y 0 1 x

y 0 1 x
Valor medio de y
para una x dada

Error
aleatorio

Donde 0 y 1 son parmetros


desconocidos
de
la
porcin
determinstica del modelo.

y 0 1 x
Valor medio de y
para una x dada

Error
aleatorio

Si suponemos que los puntos se desvan


por encima y por debajo de la lneas de
medias, siendo algunas desviaciones
positivas, otras negativas, y con E() = 0,
entonces el valor medio de y es:
E ( y ) E ( 0 1 x ) 0 1 x E ( ) 0 1 x

E ( y ) E ( 0 1 x ) 0 1 x E ( ) 0 1 x

E ( y ) E ( 0 1 x ) 0 1 x E ( ) 0 1 x

E ( y ) E ( 0 1 x ) 0 1 x E ( ) 0 1 x

Por lo tanto, el valor medio de y para un


valor dado de x, representado por el
smbolo E(y), se grafica como una lnea
recta con ordenada al origen igual a 0 y
pendiente igual a 11

y
4

E ( y ) 0 1 x

3
2

1 pendiente

1
0
0 ordenada al origen

Modelo de regresin lineal simple


(probabilstico)
y 0 1 x

Donde: y = variable dependiente


x = variable independiente
x
E ( y ) 0+

E(y)=

x
es
el
componente
0 1 1
determinstico (la ecuacin de una lnea
recta) = componente de error aleatorio
00 = punto en que la lnea corta el eje y
11 = pendiente de la lnea

Si queremos ajustar un modelo de


regresin lineal simple a un conjunto
de
datos,
debemos
encontrar
estimadores para los parmetros
desconocidos, 0 y 11.

Los supuestos, que se resumirn a


continuacin, son bsicos para todo
anlisis de regresin estadstico.

SUPUESTO 1:
La media de la distribucin de
probabilidad de es cero. Es decir, la
media de los errores a lo largo de una
serie
infinitamente
larga
de
experimentos es cero para cada valor de
la variable independiente x. Este
supuesto implica que el valor medio de
y, E(y), para un valor dado de x es
EE(y)=
( y ) 00+1x
1x

SUPUESTO 2:
La varianza de la distribucin de
probabilidad de es constante para
todos los valores de la variable
independiente x
SUPUESTO 3:
La distribucin de probabilidad de es
normal

SUPUESTO 4:
Los errores asociados a cualquier dos
observaciones
distintas
son
independientes. Es decir, el error
asociado a un valor de y en particular no
tiene efecto alguno sobre los errores
asociados a otros valores de y

ESTIMACIN DE 00 y 11:
EL METODO DE LOS MNIMOS
CUADRADOS
La suma de los cuadrados de las
desviaciones se denomina suma de los
cuadrados del error y se denota con el
smbolo SSE. La lnea recibe el nombre
de lnea de mnimos cuadrados, lnea de
regresin o ecuacin de mnimos
cuadrados.

y
4

1
0
1

y
4

1
0
1

y
4

1
0
1

El modelo de lnea recta para la


respuesta y en trminos de x es:
y= lnea
0+1xde+ medias

E (es:
y ) 0 1 xE(y)=
La

x
y0+
la1lnea
ajustada, que esperamos
encontrar, se representa como:
y 0 1 x

Formulas para las estimaciones de


mnimos cuadrados
Pendiente: 1

SS xy

SS xx

Ordenada
al 0 y 1 x
n
origen:
Donde: SS xy ( xi x )( yi y )
i 1
n

SS xx ( xi x )
i 1

Ejercicio:
A continuacin tenemos las estaturas en
centmetros (muestra x) y el peso en
kilogramos (y) de nios de 6 aos.
Nio
Estatur
a (cm)
x
Peso
(kg) y

9 10

12 12 10 11 11 10 11 10 11 11
1 3 8 8 1 9 4 3 0 5
25 22 19 24 19 18 20 15 20 21

Ejercicio:
Calcular: las medidas centrales, el
primero y segundo cuartil, los percentiles
30 y 70, el diagrama de dispersin

Ejercicio:
Con esta informacin encontrar
ecuacin de la lnea recta E(y)=?
Nio
Estatur
a (cm)
x
Peso
(kg) y

la

9 10

12 12 10 11 11 10 11 10 11 11
1 3 8 8 1 9 4 3 0 5
25 22 19 24 19 18 20 15 20 21