Sunteți pe pagina 1din 38

Una

de
las
aplicaciones
mas
importantes de la estadstica implica la
estimacin del valor medio de una
variable de respuesta y o la prediccin
de algn valor futuro de y con base el
conocimiento de un conjunto de
variables independientes relacionadas,
x1, x2, . . . xk.

Los modelos que se emplean para


relacionar una variable dependiente y
con las variables independientes x1, x2, . .
. xk se denominan modelos de regresin
o modelos estadsticos lineales porque
expresan el valor medio de y para
valores dados de x1, x2, . . . xk como una
funcin lineal de un conjunto de
parmetros desconocidos.

Los conceptos de anlisis de regresin


se presentan empleando un modelo de
regresin muy sencillo, uno que
relaciona y con una sola variable x.
Aprenderemos a ajustar este modelo a
un conjunto de datos mediante el
mtodo de los mnimos cuadrados.

Examinaremos los diferentes tipos de


inferencias que pueden hacerse a partir
de un anlisis de regresin.

Un modelo de regresin simple:


supuestos

Supongamos que se quiere determinar


la magnitud de la compresin que se
producir en un tipo de material de 2
pulgadas de espesor cuando se someta
a diferentes cantidades de presin.

Un modelo de regresin simple:


supuestos
Se prueban cinco trozos experimentales
del material bajo diferentes presiones.
Los valores de x (en unidades de 10
libras por pulgada cuadrada) y las
magnitudes
de
compresin
y
resultantes (en unidades de 0.1 de
pulgada) se presentan en la tabla 1.

ESPCIMEN PRESIN COMPRESIN


X
Y
1
1
1
2
2
1
3
3
2
4
4
2
5
5
4

TABLA # 1

En la figura 1 se muestra una grfica


de los datos, llamada diagrama de
dispersin. y
4

Figura 1.

y
4

y
4

3
2
1
0

y
4
3
2
1
0

Supongamos
que
creemos
que el
valor de y tiende a
aumentar de forma
conforme x
X lineal
aumenta

Entonces, podramos escoger un modelo


que relacione a y con x trazando una
lnea recta a travs de los puntos de la
figura.

y
4
3
2
1
0

Semejante modelo determinstico (uno


que no contempla errores de prediccin)
podra ser adecuado si todos los puntos
de la figura quedaran sobre la lnea
ajustada.

La solucin es construir un modelo


probabilstico que relacione y con x; uno
que contemple la variacin aleatoria de
los puntos de datos a los lados de una
lnea recta.

Un tipo de modelo probabilstico, el


modelo de regresin lineal simple,
supone que el valor medio de y para un
valor dado de x se grafica como una
lnea recta y que los puntos se desvan
de esta lnea de medias en una cantidad
aleatoria (positiva o negativa) igual a ,
es decir:

y 0 1 x

y 0 1 x

y 0 1 x

y 0 1 x

y 0 1 x
Valor medio de y
para una x dada

Error
aleatorio

Donde 0 y 1 son parmetros


desconocidos
de
la
porcin
determinstica del modelo.

y 0 1 x
Valor medio de y
para una x dada

Error
aleatorio

Si suponemos que los puntos se desvan


por encima y por debajo de la lneas de
medias, siendo algunas desviaciones
positivas, otras negativas, y con E() = 0,
entonces el valor medio de y es:
E( y) E (0 1 x ) 0 1 x E( ) 0 1 x

E( y) E (0 1 x ) 0 1 x E( ) 0 1 x

E( y) E (0 1 x ) 0 1 x E( ) 0 1 x

E( y) E (0 1 x ) 0 1 x E( ) 0 1 x

Por lo tanto, el valor medio de y para un


valor dado de x, representado por el
smbolo E(y), se grafica como una lnea
recta con ordenada al origen igual a 00 y
pendiente igual a 11

y
4

E ( y) 0 1 x

3
2

1 pendiente

0 ordenada al origen

0
1

Modelo de regresin lineal simple


(probabilstico)
y 0 1 x

Donde: y = variable dependiente


x = variable independiente
x x
E(y)=

es
el
componente
E ( y) 0+

0 1 1
determinstico (la ecuacin de una lnea
recta) = componente de error aleatorio

00 = punto en que la lnea corta el eje y


1 = pendiente de la lnea

Si queremos ajustar un modelo de


regresin lineal simple a un conjunto
de
datos,
debemos
encontrar
estimadores para los parmetros
desconocidos, 00 y 11.

Los supuestos, que se resumirn a


continuacin, son bsicos para todo
anlisis de regresin estadstico.

SUPUESTO 1:
La media de la distribucin de
probabilidad de es cero. Es decir, la
media de los errores a lo largo de una
serie
infinitamente
larga
de
experimentos es cero para cada valor de
la variable independiente x. Este
supuesto implica que el valor medio de
y, E(y), para un valor dado de x es
EE(y)=
( y) 00+11xx

SUPUESTO 2:
La varianza de la distribucin de
probabilidad de es constante para
todos los valores de la variable
independiente x

SUPUESTO 3:
La distribucin de probabilidad de es
normal

SUPUESTO 4:

Los errores asociados a cualquier dos


observaciones
distintas
son
independientes. Es decir, el error
asociado a un valor de y en particular no
tiene efecto alguno sobre los errores
asociados a otros valores de y

ESTIMACIN DE 00 y 11:
EL METODO DE LOS MNIMOS
CUADRADOS
La suma de los cuadrados de las
desviaciones se denomina suma de los
cuadrados del error y se denota con el
smbolo SSE. La lnea recibe el nombre
de lnea de mnimos cuadrados, lnea de
regresin o ecuacin de mnimos
cuadrados.

y
4

0
1

y
4

1
0
1

y
4

1
0
1

El modelo de lnea recta para la respuesta y


en trminos de x es:
y= 0+1x +
La lnea de medias es: EE(y)=
( y) 00 +1x1 x
y la lnea ajustada, que esperamos
encontrar, se representa como:
y 0 1 x

Formulas para las estimaciones de mnimos


cuadrados

Pendiente:

SS xy
SS xx

Ordenada al origen: 0 y 1 x
n

Donde: SS xy ( xi x )( yi y )
i 1
n

SS xx ( xi x )
i 1

Ejercicio:
A continuacin tenemos las estaturas en
centmetros (muestra x) y el peso en
kilogramos (y) de nios de 6 aos.
Nio

10

Estatura
121 123 108 118 111 109 114 103 110 115
(cm) x
Peso
25 22 19 24 19 18 20 15 20 21
(kg) y

Ejercicio:
Calcular: las medidas centrales, el
primero y segundo cuartil, los percentiles
30 y 70, el diagrama de dispersin

Ejercicio:
Con esta informacin encontrar
ecuacin de la lnea recta E(y)=?

Nio

la

10

Estatura
121 123 108 118 111 109 114 103 110 115
(cm) x
Peso
25 22 19 24 19 18 20 15 20 21
(kg) y

S-ar putea să vă placă și