Documente Academic
Documente Profesional
Documente Cultură
REGRESION SIMPLE
ATALAYA VARGAS, David.
GUERRERO MARTINEZ, Jeiner.
SANCHEZ PEA, Adriana.
INTRODUCCIN:
El trmino regresin fue utilizado por primera vez como un concepto
estadstico en 1877 por sir Francis Galton, quien llev a cabo un
estudio que mostr que la estatura de los nios nacidos de padres
altos tiende a retroceder o regresar hacia la estatura media de la
poblacin. Design la palabra regresin como el nombre del proceso
general de predecir una variable (la estatura de los nios) a partir de
otra (la estatura del padre o de la madre). Ms tarde, los estadsticos
acuaron el trmino regresin mltiple para describir el proceso
mediante el cual se utilizan varias variables para predecir otra.
En el anlisis de regresin, desarrollaremos una ecuacin de
estimacin, esto es, una frmula matemtica que relaciona las
variables conocidas con la variable desconocida. Despus de
conocer el patrn de esta relacin, podremos aplicar el anlisis de
correlacin para determinar el grado en el que las variables se
relacionan. El anlisis de correlacin, entonces, nos indica qu tan
bien la ecuacin de estimacin describe realmente la relacin.
OBJETIVOS:
Cmo determinar la relacin entre variables.
Utilizar diagramas de dispersin para visualizar la relacin entre
dos variables.
Emplear el anlisis de regresin para estimar la relacin entre dos
variables.
Aprender cmo el anlisis de correlacin describe el grado en el
cual dos variables estn relacionadas linealmente entre s.
Comprender el coeficiente de determinacin como una medida de
la fuerza de la relacin entre dos variables.
Conocer las limitaciones de la regresin y del anlisis de
correlacin y las advertencias sobre su uso.
CONCEPTOS:
REGRESIN: En el anlisis de regresin, desarrollaremos una ecuacin de
estimacin, esto es, una frmula matemtica que relaciona las variables
conocidas con la variable desconocida.
CORRELACIN: El anlisis de correlacin es para determinar el grado en el
que las variables se relacionan. El anlisis de correlacin, entonces, nos
indica qu tan bien la ecuacin de estimacin describe realmente la relacin.
Los anlisis de regresin y de correlacin se basan en la relacin, o
asociacin, entre dos (o ms) variables. La variable (o variables)
conocida(s) se llaman variable(s) independiente(s); la que tratamos de
predecir es la variable dependiente.
12-3
ANLISIS DE CORRELACIN
El anlisis de correlacin es un grupo de
tcnicas estadsticas usadas para medir
la fuerza de la asociacin entre dos
variables.
Un diagrama de dispersin es una
grfica que representa la relacin entre
dos variables.
La variable dependiente es la variable
que se predice o calcula.
La variable independiente proporciona
las bases para el clculo. Es la variable
de prediccin.
el coeficiente de correlacin, r
El coeficiente de correlacin (r) es una medida
de la intensidad de la relacin lineal entre dos
variables.
Requiere datos de nivel de razn.
Puede tomar cualquier valor de -1.00 a 1.00.
Los valores de -1.00 o 1.00 indican la correlacin
perfecta y fuerte.
Los valores cerca de 0.0 indican la correlacin
dbil.
Los valores negativos indican una relacin inversa
y los valores positivos indican una relacin directa.
10
9
8
7
6
5
4
3
2
1
0
0
5
X
10
10
9
8
7
6
5
4
3
2
1
0
0
5
X
10
Correlacin cero
10
9
8
7
6
5
4
3
2
1
0
0
5
X
10
10
9
8
7
6
5
4
3
2
1
0
0
5
X
10
Frmula para r
Calculamos el coeficiente de correlacin de
las frmulas siguientes.
( X X )(Y Y )
r
(n 1) s x s y
n ( X
n(XY ) (X )(Y )
2
) ( X ) n Y Y
2
COEFICIENTE DE
DETERMINACIN, (r2)
El coeficiente de determinacin (r2) es la
proporcin de la variacin total en la variable
dependiente (y) que se explica por la variacin
en la variable independiente (x).
Es el cuadrado del coeficiente de correlacin.
Su rango es de 0 a 1.
No da ninguna informacin sobre la direccin de
la relacin entre las variables.
Ejemplo 1
David, presidente de la sociedad de alumnos de
la Universidad Nacional de Cajamarca, se ocupa
de estudiar el costo de los libros de texto. l cree
que hay una relacin entre el nmero de
pginas en el texto y el precio de venta del libro.
Para proporcionar una prueba, selecciona una
muestra de ocho libros de texto actualmente en
venta en la librera. Dibuje un diagrama de
dispersin. Compruebe el coeficiente de
correlacin.
Ejemplo 1
(Continuacin)
Libro
Pginas
Precio ($)
Intr. a la Historia
500
84
lgebra
700
75
Intr.a la Psicologa
800
99
Intr. a la Sociologa
600
72
Estatica
400
69
Intr. a la Biologa
500
81
Dinamica
600
63
Analisis estructural
800
93
Ejemplo 1
(Continuacin)
90
Price ($)
80
70
60
400
500
600
Page
700
800
Ejemplo 1
Libro
(Continuacin)
Pginas
X
Precio ($)
Y
XY
500
84
42,000
X2
250,000
Y2
Intr. a la Historia
7,056
lgebra
700
75
52,500
490,000
5,625
Intr. a la Psicologa
800
99
79,200
640,000
9,801
Intr. a la Sociologa
600
72
43,200
360,000
5,184
Estatica
400
69
27,600
160,000
4,761
Intr. a la Biologa
500
81
40,500
250,000
6,561
Dinamica
600
63
37,800
360,000
3,969
Analisis estructural
800
93
74,400
640,000
8,649
Total
4,900
636
397,200
3,150,000
51,606
Ejemplo 1
n ( X
(Continuacin)
n(XY ) (X )(Y )
2
) ( X ) n Y Y
2
8(397,200) (4,900)(636)
0.614
Ejemplo 1
(Continuacin)
= 6.
Ejemplo 1
(Continuacin)
r n2
1 r 2
.614 8 2
1 (.614 ) 2
1.905
Anlisis de regresin
En anlisis de regresin utilizamos la variable
independiente (X) para estimar la variable
dependiente (Y).
La relacin entre las variables es lineal.
Ambas variables deben ser por lo menos escala
del intervalo.
El criterio de mnimos cuadrados se utiliza para
determinar la ecuacin. Este es el trmino (Y
Y')2
Anlisis de regresin
La ecuacin de regresin es: Y' = a + bX, donde:
Y' es el valor pronosticado de la variable Y para un
valor seleccionado de X.
a es la ordenada de la interseccin con el eje Y
cuando X = 0. Es el valor estimado de Y cuando
X=0
b es la pendiente de la recta, o el cambio
promedio en Y' para cada cambio de una unidad
en X.
el principio de mnimos cuadrados se utiliza para
obtener a y b.
Anlisis de regresin
El principio de mnimos cuadrados se utiliza para
obtener a y b. Las ecuaciones para determinar a
y b son:
n( XY ) ( X )( Y )
b
2
2
n( X ) ( X )
Y
X
a
b
n
n
Ejemplo 2
(Continuacin)
.05143
636
4,900
0.05143
48 .0
8
8
Ejemplo 2
(Continuacin)
Ejemplo 2
(Continuacin)
Y 48 .0 0.05143 X
48 .0 0.05143 (800 ) 89 .14
Y 2 aY bXY
n2
Ejemplo 3
Encuentre el error estndar de estimacin para
el
problema que implica el nmero de pginas en
un libro
y el precio de venta.
Y 2 aY bXY
s y. x
n2
51,606 48 (636 ) 0.05143 (397 ,200 )
82
10 .408
Suposiciones subyacentes en el
anlisis de regresin lineal
Para cada valor de X, hay un grupo de valores de Y,
y estos valores de Y se distribuyen normalmente.
Las medias de estas distribuciones normales de
valores Y, caen todas en la recta de regresin.
Las desviaciones estndar de estas distribuciones
normales son iguales.
Los valores de Y son estadsticamente
independendientes. Esto significa que en la
seleccin de una muestra, los valores de Y elegidos
para un valor particular de X no dependen de los
valores de Y de ningn otro valor de X.
Intervalo de confianza
El intervalo de confianza para el valor medio de Y
para un valor dado de X est dado por:
Y ts y. x
( X X )2
2
(
X
)
X 2
n
1
89 .14 2.447 (10 .408 )
8
89 .14 15 .31