Sunteți pe pagina 1din 26

SABERES PREVIOS

Cules son los pases para realizar una


P.H.?
En que caso se utilizar la prueba de
independencia?
En que caso se utiliza la prueba Spearmean?
Para la prueba de spearman se utiliza
distribucin Z o T?
Tenemos los gastos de publicidad y las ventas de Pepsi 1 litro,
representados en un diagrama de dispersin.

Gastos de Publicidad y Ventas - Pepsi 1litro


ENE -MAY
9
Vende 8.0
8

7
Vende 5.5
6
Ventas

Gasta 3.5
4

Gasta 2.5
2

0
0 1 2 3 4 5
Gastos de Publicidad
Tenemos los gastos de publicidad y las ventas de Pepsi 1 litro,
representados en un diagrama de dispersin.

Gastos de Publicidad y Ventas - Pepsi 1litro


ENE -MAY
9

6
Ventas

0
0 1 2 3 4 5
Gastos de Publicidad
PROBABIILIDAD Y ESTADISTICA

Sesin N 13

ANLISIS DE CORRELACIN Y REGRESION LINEAL


SIMPLE

Docentes de Estadstica
Logro de Aprendizaje

Al finalizar la sesin, el estudiante Establece


una relacin estadstica entre la variable
dependiente y una variable independiente;
teniendo como referencia una base de datos,
estimando valores de una de las variables
consideradas a partir del valor de la otra,
utilizando la relacin existente entre las dos
variables previamente establecidas.

5
INTRODUCCIN

Es frecuente que estudiemos sobre una misma poblacin los valores de


dos variables estadsticas (X,Y) distintas, con el fin de ver si existe alguna
relacin entre ellas.
Ejemplo: Si sobre una poblacin de
nios entre 1 y 5 aos, estudiamos las
variables peso y estatura, esperamos
que en general ocurra que a mayor
estatura tambin encontremos mayor
peso, aunque es posible que en
algunos pocos casos no ocurra as.
Vemos que existe una relacin entre
las dos variables, aunque no es
funcional, o sea, no puedo determinar
con exactitud el peso que
corresponder a cada talla.

En este tema trataremos de describir y medir este tipo de relaciones, que aparecen
en gran cantidad de problemas.
INTRODUCCIN

El anlisis de este relacionamiento entre dos variables (X,Y)


presenta dos aspectos diferentes:

Unas veces nuestro inters est en conocer si las dos


variables estn asociadas y medir hasta qu punto los
cambios en una pueden explicarse por los cambios que
ocurren en la otra. En tal caso tenemos un problema de
Correlacin.

Otras veces, cuando estamos seguros que existe un alto


grado de asociacin entre las dos variables, el anlisis se
encamina a cuantificar la relacin existente con el fin de
predecir cules sern los valores de la variable respuesta, en
este caso tenemos un problema de Regresin.
1. ANALISIS DE CORRELACION

DEFINICIN. La correlacin es el mtodo empleado para


determinar el grado de asociacin o relacionamiento entre las
variables que se estudian, para as determinar en qu medida una
relacin funcional describe o explica en una forma adecuada la
relacin entre estas variables.

TIPOS DE CORRELACIN. Atendiendo al relacionamiento entre


las variables X e Y podemos tener:

a) Correlacin Directa o Positiva. Cuando las variables X e Y presentan variaciones


en un mismo sentido, esto es, para mayores valores de X corresponde mayores
valores de Y.
b) Correlacin Inversa o Negativa. Cuando las variaciones de X e Y son en
sentidos contrarios, esto es, para mayores valores de X corresponden menores
valores de Y.
c) Sin correlacin. Cuando no existe ningn tipo de relacionamiento entre las
variables.
1.1 DIAGRAMA DE DISPERSION

Se utiliza para graficar la relacin entre dos variables X e Y,


consiste en una nube de puntos que indicar si existe o no
correlacin dependiendo de la tendencia de los puntos.

20
Var. Dependiente (Y)

15
25

Var. Dependiente (Y)


10 20
6
15

Var. Dependiente (Y)


5
5
10
0 4
0 5 10 15 5 3
Var. Independiente (X)
0 2
0 10 20 30
1
Var. Independiente (X)
Correlacin 0
0 10 20
Positiva Var. Independiente (X)

(Directa) Correlacin
Negativa
(Inversa) Sin
Correlacin
1.2 EJEMPLO DE CORRELACION

Ejemplo1: Consideramos que las ventas se relacionan con los gastos en


publicidad y si tenemos los datos que se presentan en la siguiente tabla
entonces podremos observar la siguiente grfica:

Gastos en Diagrama de Dispersin


Ventas en
Ao publicidad en 160
millones (Y)
millones (X) 140

Ventas en Millones
120
1998 3 20 100
1999 5 40 80
2000 5 80 60
2001 6 120 40
2002 6 90 20
2003 7 125 0
2004 4 35 0 2 4 6 8 10
Gastos en Publicidad (Millones)
2005 8 135

Observando el grfico podemos decir que las ventas y el gasto en publicidad


tienen una correlacin Directa o Positiva.
1.3 COEFICIENTE DE CORRELACION

Es un nmero que indica el grado de asociacin entre las variables


y se define del siguiente modo:

r=
n xy - x y
n x 2
- ( x) n y - ( y)
2 2 2

Caractersticas:
i) El coeficiente r es un nmero comprendido entre -1 y +1
1 r 1
ii) Si r0 Existe una correlacin directa o positiva

iii) Si r0 Existe una correlacin Inversa o negativa

iv) Si r 1 Existe una perfecta asociacin positiva entre las dos variables
v) Si r 1 Existe una perfecta asociacin negativa entre las dos variables
vi) Si r 0 No Existe asociacin entre las dos variables, no existe asociacin lineal.
1.3.1 NIVELES DE CORRELACION (r)

Como se observa en los diagramas anteriores, el valor de r se aproxima a +1 cuando


la correlacin tiende a ser lineal directa (mayores valores de X significan mayores
valores de Y), y se aproxima a 1 cuando la correlacin tiende a ser lineal inversa.

Es importante notar que la existencia de correlacin entre variables no implica


causalidad. Atencin!: si no hay correlacin de ningn tipo entre dos variables,
entonces tampoco habr correlacin lineal, por lo que r = 0. Sin embargo, el que
ocurra r = 0 slo nos dice que no hay correlacin lineal, pero puede que la haya de
otro tipo.

El siguiente diagrama resume el anlisis del coeficiente de correlacin entre dos


variables:
1.4 EJEMPLO DE CORRELACION (r)
Ejemplo2: Del ejemplo1 hallar el coeficiente de correlacin

Publicidad
N Ventas (Y) XY X2 Y2
(X)
1998 3 20 60 9 400
1999 5 40 200 25 1600
2000 5 80 400 25 6400
2001 6 120 720 36 14400
2002 6 90 540 36 8100
2003 7 125 875 49 15625
2004 4 35 140 16 1225
2005 8 135 1080 64 18225
Total 44 645 4015 260 65975
X Y XY X2 Y2

n 8, x 5.5, y 80.625

r=
n xy - x y
8(4015) - 44(645)
0.932
n x 2
- ( x) n y - ( y)
2 2 2
8(260) - 442 8(65975) - 6452

Interpretacin: Como r=0.932, existe una alta correlacin positiva entre


los gastos en publicidad y las ventas.
2. ANALISIS DE REGRESION

REGRESIN. Es un mtodo que se emplea para encontrar una


funcin que se ajusta a una nube de puntos o diagrama de
dispersin, con la finalidad de obtener una prediccin aproximada
de una de las variables a partir de la otra.

Diagrama de Dispersin
160

140
Y f ( X )
Ventas en Millones

120

100

80

60

40

20

0
0 2 4 6 8 10
Gastos en Publicidad (Millones)
2.1. REGRESION LINEAL SIMPLE

Este tipo de regresin se utiliza cuando existe solo una variable


independiente X para una variable dependiente Y. Est definida por
la siguiente ecuacin lineal en su forma general:

Y b0 b1 X e

Donde:

Y Es la variable respuesta o la prediccin de la variable Y dado un valor X .

b0 Es el valor de Y cuando X = 0, es decir, es el valor de Y cuando la lnea de


regresin cruza el eje de las Y.

b1 Es la pendiente de la lnea, o la variacin promedio en Y por cada variacin de


una unidad en X.

X Es cualquier valor seleccionado de la variable independiente X.


e Es el error de prediccin
2.2 METODO DE MINIMOS CUADRADOS PARA ESTIMAR LOS
COEFICIENTES DE REGRESIN.

Es un mtodo para obtener la recta que se ajuste mejor a los


datos, al graficar los datos sabemos que podemos trazar infinidad
de rectas pero este mtodo nos proporciona la de mejor ajuste.

A ei se le llama desviacin o error que puede ser negativo o positivo, si elevamos las
desviaciones al cuadrado, para obtener la recta ms representativa la suma de los errores

al cuadrado e12 e22 e32 ..... en2 debe ser lo ms pequea posible.
2.3 ESTIMACION DE LOS COEFICIENTES
Sistemas de ecuaciones normales


y = b n+b x
0 1


xy = b x + b x
0 1
2

De donde obtenemos
n xy- x y
b0 = y - b1x b1 =
n x 2 - ( x)2

INTERPRETACION DE LOS COEFICIENTES DE REGRESION:


bo: es el valor de prediccin de Y, cuando la variable independiente X toma valor cero.
b1: es el cambio promedio de Y cuando X cambia en una unidad de medicin.
si b 1 > 0, la tendencia lineal es creciente.
Si b 1 <0, la tendencia lineal es decreciente.
Si b 1 = 0 no hay regresin.
3.3 EJEMPLO APLICATIVO

Ejemplo3: Una empresa tiene 7 vendedores, y se quiere analizar las


ventas mensuales (en miles de soles) frente a los aos de experiencia.
Los datos estn en la siguiente tabla.
a) Se trata de una relacin lineal? (analizar el diagrama de dispersin)
b) Si es una ecuacin lineal hallar la ecuacin de regresin determinando
los coeficientes de regresin.
c) Predecir la venta de un empleado con 40 aos de experiencia (Estimar
Y para un valor X=40)

N Experiencia (X) Ventas(miles)

1 13 26
2 16 33
3 30 36
4 2 16
5 8 26
6 6 19
7 31 38
Solucin:
a) Diagrama de dispersin

45

40

35
Ventas (Miles)

30

25

20

15

10

0
0 5 10 15 20 25 30 35

Experiencia

Segn el diagrama de dispersin existe una relacin aproximadamente


lineal.
CALCULO DE LOS COEFICIENTES DE REGRESIN

N
Experiencia Ventas(miles)
(X) (Y) XY X2 Y2
1 13 26 338 169 676
2 16 33 528 256 1089
3 30 36 1080 900 1296
4 2 16 32 4 256
5 8 26 208 64 676
6 6 19 114 36 361
7 31 38 1178 961 1444
X= 106 Y=194 XY=3478 X2=2390 Y2=5798

n 7 ; x
x 106 15.14 ; y
194
27.71
n 7 7

nn xy - x y 7(3478) -106(194) 0.688


b1 x y 2 nxy 2
i 1 n x - ( x)3478 7(2390) - 1062
i i 7(15.14)(27.71)
b1 n 0.688
2390 7(15.14)
2

x 2
i
nx 2
i 1
b0 y - b x 27.71- 0.688 (15.14) 17.29
b0 y b1 x 27.71 ( 0.688 )15.14 17.29
b.1 Ecuacin e interpretacin

Entonces la ecuacin de regresin estimada ser:

Y 17.29 0.688X
Interpretacin:
b0 17.29 , Son las ventas de un empleado cuando X es cero o
cuando no tienen aos de experiencia. En otras palabras un
vendedor tendr en promedio ventas de S/. 17290 si no tiene aos de
experiencia.

b1 0.688 , Es el incremento en 0.688 cuando X aumenta en una


unidad. En otras palabras es el aumento en S/. 688 por cada ao de
experiencia que adquiera un empleado.

C) Prediccin para X=40

Y 17.29 0.688( 40 ) 44.826

Un empleado con 40 aos de experiencia en ventas, vender


aproximadamente S/.44826
4. COEFICIENTE DE DETERMINACION

Mide el porcentaje de variabilidad en Y que puede explicarse a travs del


conocimiento de la variable independiente X. Se calcula con la siguiente frmula:

( x x )( y y )
2

R
2
r 2

xi2 nx 2 yi2 ny 2
Caractersticas:

i) Es un valor no negativo ya que se encuentra entre 0 y 1 0 R2 1


ii) Es un valor muy importante en cualquier anlisis de regresin, ya que muestra el grado
hasta el cual estn relacionadas la variabilidad de X e Y

Ejemplo: Del ejemplo sobre la regresin entre los aos de experiencia y las ventas
tenemos:

r 0.939 , por lo cual R 0.939 0.883


2 2

Interpretacin: El 88.3% de las variaciones de las ventas (Y) son explicados por los
aos de experiencia. Existe adems un (100-88.3)% = 11.7% que no es explicado por
los aos de experiencia.
5. ERROR ESTNDAR DE ESTIMACIN

En el anterior diagrama de dispersin no todos los puntos coinciden con la lnea de


regresin. Si todos los puntos estuvieran sobre la lnea no habra error al predecir
la variable dependiente Y basndose en la variable independiente X.

La prediccin perfecta es prcticamente imposible, por lo tanto es necesaria una


medida que indique que tan precisa es una prediccin de Y basada en X. Esta
medida es llamada el error estndar de estimacin. El error estndar de
estimacin, simbolizado Sy.x, es el mismo concepto de la desviacin estndar. La
desviacin estndar mide la dispersin alrededor de la media, el error estndar de
estimacin mide la dispersin alrededor de la lnea de dispersin.

El error estndar de estimacin es calculado con la siguiente frmula.

n n n

Y Y
2
y 2
i a yi b x i yi
s y. x i 1 i 1 i 1

n2 n2
Verificando mis Logros

Dado la siguiente informacin sobre el precio y demando de un producto se


presenta en la siguiente tabla:

Precio(x) 15 25 35 40 60
Demanda(y) 80 65 40 35 20

Determinar:
a) El diagrama de dispersin.
b) La ecuacin de regresin lineal
c) El coeficiente de correlacin.
d) El coeficiente de Determinacin.
e) La desviacin estndar
Bibliografa
1. Levin, Rubin, Bohon, Ramos. Estadstica para
administracin y economa 519.5 LEVI
2. Rufino Moya Calderon. Estadistica Descriptiva.
Un creador ejercita su mente en tratar de
convertir en conocido lo extrao y extrao lo desconocido
Teresa Amabile