Sunteți pe pagina 1din 29

CORRELACION Y

REGRESION SIMPLE
ATALAYA VARGAS, David.
GUERRERO MARTINEZ, Jeiner.
SANCHEZ PEA, Adriana.

INTRODUCCIN:
El trmino regresin fue utilizado por primera vez como un concepto
estadstico en 1877 por sir Francis Galton, quien llev a cabo un
estudio que mostr que la estatura de los nios nacidos de padres
altos tiende a retroceder o regresar hacia la estatura media de la
poblacin. Design la palabra regresin como el nombre del proceso
general de predecir una variable (la estatura de los nios) a partir de
otra (la estatura del padre o de la madre). Ms tarde, los estadsticos
acuaron el trmino regresin mltiple para describir el proceso
mediante el cual se utilizan varias variables para predecir otra.
En el anlisis de regresin, desarrollaremos una ecuacin de
estimacin, esto es, una frmula matemtica que relaciona las
variables conocidas con la variable desconocida. Despus de
conocer el patrn de esta relacin, podremos aplicar el anlisis de
correlacin para determinar el grado en el que las variables se
relacionan. El anlisis de correlacin, entonces, nos indica qu tan
bien la ecuacin de estimacin describe realmente la relacin.

OBJETIVOS:
Cmo determinar la relacin entre variables.
Utilizar diagramas de dispersin para visualizar la relacin entre
dos variables.
Emplear el anlisis de regresin para estimar la relacin entre dos
variables.
Aprender cmo el anlisis de correlacin describe el grado en el
cual dos variables estn relacionadas linealmente entre s.
Comprender el coeficiente de determinacin como una medida de
la fuerza de la relacin entre dos variables.
Conocer las limitaciones de la regresin y del anlisis de
correlacin y las advertencias sobre su uso.

CONCEPTOS:
REGRESIN: En el anlisis de regresin, desarrollaremos una ecuacin de
estimacin, esto es, una frmula matemtica que relaciona las variables
conocidas con la variable desconocida.
CORRELACIN: El anlisis de correlacin es para determinar el grado en el
que las variables se relacionan. El anlisis de correlacin, entonces, nos
indica qu tan bien la ecuacin de estimacin describe realmente la relacin.
Los anlisis de regresin y de correlacin se basan en la relacin, o
asociacin, entre dos (o ms) variables. La variable (o variables)
conocida(s) se llaman variable(s) independiente(s); la que tratamos de
predecir es la variable dependiente.

12-3

ANLISIS DE CORRELACIN
El anlisis de correlacin es un grupo de
tcnicas estadsticas usadas para medir
la fuerza de la asociacin entre dos
variables.
Un diagrama de dispersin es una
grfica que representa la relacin entre
dos variables.
La variable dependiente es la variable
que se predice o calcula.
La variable independiente proporciona
las bases para el clculo. Es la variable
de prediccin.

el coeficiente de correlacin, r
El coeficiente de correlacin (r) es una medida
de la intensidad de la relacin lineal entre dos
variables.
Requiere datos de nivel de razn.
Puede tomar cualquier valor de -1.00 a 1.00.
Los valores de -1.00 o 1.00 indican la correlacin
perfecta y fuerte.
Los valores cerca de 0.0 indican la correlacin
dbil.
Los valores negativos indican una relacin inversa
y los valores positivos indican una relacin directa.

Correlacin negativa perfecta

10
9
8
7
6
5
4
3
2
1
0
0

5
X

10

Correlacin positiva perfecta

10
9
8
7
6
5
4
3
2
1
0
0

5
X

10

Correlacin cero

10
9
8
7
6
5
4
3
2
1
0
0

5
X

10

Correlacin positiva fuerte

10
9
8
7
6
5
4
3
2
1
0
0

5
X

10

Frmula para r
Calculamos el coeficiente de correlacin de
las frmulas siguientes.

( X X )(Y Y )
r
(n 1) s x s y

n ( X

n(XY ) (X )(Y )
2

) ( X ) n Y Y
2

COEFICIENTE DE
DETERMINACIN, (r2)
El coeficiente de determinacin (r2) es la
proporcin de la variacin total en la variable
dependiente (y) que se explica por la variacin
en la variable independiente (x).
Es el cuadrado del coeficiente de correlacin.
Su rango es de 0 a 1.
No da ninguna informacin sobre la direccin de
la relacin entre las variables.

Ejemplo 1
David, presidente de la sociedad de alumnos de
la Universidad Nacional de Cajamarca, se ocupa
de estudiar el costo de los libros de texto. l cree
que hay una relacin entre el nmero de
pginas en el texto y el precio de venta del libro.
Para proporcionar una prueba, selecciona una
muestra de ocho libros de texto actualmente en
venta en la librera. Dibuje un diagrama de
dispersin. Compruebe el coeficiente de
correlacin.

Ejemplo 1

(Continuacin)

Libro
Pginas
Precio ($)
Intr. a la Historia
500
84
lgebra
700
75
Intr.a la Psicologa
800
99
Intr. a la Sociologa
600
72
Estatica
400
69
Intr. a la Biologa
500
81
Dinamica
600
63
Analisis estructural
800
93

Ejemplo 1

(Continuacin)

Scatter Diagram of Number of Pages and Selling Price of Text


100

90
Price ($)
80

70

60
400

500

600

Page

700

800

Ejemplo 1
Libro

(Continuacin)

Pginas
X

Precio ($)
Y
XY
500
84
42,000

X2
250,000

Y2

Intr. a la Historia
7,056
lgebra
700
75
52,500
490,000
5,625
Intr. a la Psicologa
800
99
79,200
640,000
9,801
Intr. a la Sociologa
600
72
43,200
360,000
5,184
Estatica
400
69
27,600
160,000
4,761
Intr. a la Biologa
500
81
40,500
250,000
6,561
Dinamica
600
63
37,800
360,000
3,969
Analisis estructural
800
93
74,400
640,000
8,649
Total
4,900
636
397,200
3,150,000
51,606

Ejemplo 1

n ( X

(Continuacin)

n(XY ) (X )(Y )
2

) ( X ) n Y Y
2

8(397,200) (4,900)(636)

8(3,150,000 (4,900) 8(51,606) (636)

0.614

Ejemplo 1

(Continuacin)

La correlacin entre el nmero de pginas y el


precio de venta del libro es 0.614. Esto indica
una asociacin moderada entre las variables.
Pruebe la hiptesis de que no hay correlacin en
la poblacin. Utilice un nivel de la significancia
del .02.

Paso 1: H0: La correlacin en la poblacin es cero.


H1: La correlacin en la poblacin no es cero.
Paso 2: H0 es rechazada si t>3.143 o si t<-3.143.
Hay 6 grados de libertad, encontrados cerca.
n2=82

= 6.

Ejemplo 1

(Continuacin)

Paso 3: Para encontrar el valor del


estadstico de prueba, utilizamos:
t

r n2
1 r 2

.614 8 2
1 (.614 ) 2

1.905

Paso 4: H0 no se rechaza. No podemos


rechazar la hiptesis de que no hay
correlacin en la poblacin. La cantidad de
asociacin puede ser debido al azar.

Anlisis de regresin
En anlisis de regresin utilizamos la variable
independiente (X) para estimar la variable
dependiente (Y).
La relacin entre las variables es lineal.
Ambas variables deben ser por lo menos escala
del intervalo.
El criterio de mnimos cuadrados se utiliza para
determinar la ecuacin. Este es el trmino (Y
Y')2

Anlisis de regresin
La ecuacin de regresin es: Y' = a + bX, donde:
Y' es el valor pronosticado de la variable Y para un
valor seleccionado de X.
a es la ordenada de la interseccin con el eje Y
cuando X = 0. Es el valor estimado de Y cuando
X=0
b es la pendiente de la recta, o el cambio
promedio en Y' para cada cambio de una unidad
en X.
el principio de mnimos cuadrados se utiliza para
obtener a y b.

Anlisis de regresin
El principio de mnimos cuadrados se utiliza para
obtener a y b. Las ecuaciones para determinar a
y b son:

n( XY ) ( X )( Y )
b
2
2
n( X ) ( X )
Y
X
a
b
n
n

Ejemplo 2

(Continuacin)

Desarrolle una ecuacin de regresin para la


informacin dada en el Ejemplo 1 que se puede
utilizar para estimar el precio de venta basado en
el nmero de pginas.
b

8(397 ,200 ) (4,900 )( 636 )

8(3,150 ,000 ) (4,900 )

.05143

636
4,900
0.05143
48 .0
8
8

Ejemplo 2

(Continuacin)

La ecuacin de regresin es:


Y' = 48.0 + .05143X
La ecuacin cruza al eje Y en $48. Un libro sin
las pginas costara $48.
La pendiente de la lnea es .05143. El costo de
cada pgina adicional es de cinco cntimos.
El signo del valor de b y el signo del valor de r
sern siempre iguales.

Ejemplo 2

(Continuacin)

Podemos utilizar la ecuacin de regresin para


estimar valores de Y.
El precio de venta estimado de un libro de 800
pginas es $89.14, encontrado por

Y 48 .0 0.05143 X
48 .0 0.05143 (800 ) 89 .14

El error estndar de estimacin


El error estndar de estimacin mide la
dispersin de los valores observados alrededor
de la lnea de regresin.
Las frmulas que se utilizan para comprobar el
error estndar son:
(Y Y ) 2
s y. x
n2

Y 2 aY bXY
n2

Ejemplo 3
Encuentre el error estndar de estimacin para
el
problema que implica el nmero de pginas en
un libro
y el precio de venta.
Y 2 aY bXY
s y. x
n2
51,606 48 (636 ) 0.05143 (397 ,200 )

82
10 .408

Suposiciones subyacentes en el
anlisis de regresin lineal
Para cada valor de X, hay un grupo de valores de Y,
y estos valores de Y se distribuyen normalmente.
Las medias de estas distribuciones normales de
valores Y, caen todas en la recta de regresin.
Las desviaciones estndar de estas distribuciones
normales son iguales.
Los valores de Y son estadsticamente
independendientes. Esto significa que en la
seleccin de una muestra, los valores de Y elegidos
para un valor particular de X no dependen de los
valores de Y de ningn otro valor de X.

Intervalo de confianza
El intervalo de confianza para el valor medio de Y
para un valor dado de X est dado por:
Y ts y. x

( X X )2
2
(

X
)
X 2
n

1
89 .14 2.447 (10 .408 )

8
89 .14 15 .31

(800 612 .5) 2


(4900 ) 2
3,150 ,000
8

S-ar putea să vă placă și