Sunteți pe pagina 1din 91

Tema

REGRESIN
Y CORRELACIN
SIMPLE

DR. LUIS J. CASTILLO VSQUEZ

OBJETIVOS
Al finalizar el Tema 17, el participante ser capaz de:
1. Utilizar diagramas de dispersin para visualizar la relacin
entre dos variables.
2. Identificar relaciones simples entre variables
3. Utilizar la ecuacin de regresin para predecir valores
futuros.

4. Aplicar el anlisis de correlacin para describir el grado


hasta el cul dos variables estn relacionadas linealmente
entre si.
DR. LUIS J. CASTILLO VSQUEZ

6. Realizar el diagnostico de la regresin

7. Medicin de la autocorrelacin
8. Realizar la estimacin por intervalos
9. Realizar el anlisis de varianza de la regresin
simple

DR. LUIS J. CASTILLO VSQUEZ

CONTENIDO
1. El diagrama de dispersin
2. Las ecuaciones lineales simples

3. La regresin lineal simple


4. El error estndar de la estimacin
5. El anlisis de correlacin

6. El diagnstico de la regresin: al anlisis residual


7. La estadstica de Durbin-Watson
8. La estimacin por intervalos
9. Anlisis de varianza de la regresin simple.
DR. LUIS J. CASTILLO VSQUEZ

17.1 El diagrama de dispersin


Es un grfico que permite detectar la existencia
de una relacin entre dos variables.
Visualmente se puede buscar patrones que
indiquen el tipo de relacin que se da entre las
variables.

DR. LUIS J. CASTILLO VSQUEZ

(b) Lineal inversa

(a) Lineal directa


Y

Relaciones posibles
entre X y Y vistos
en diagramas de
dispersin

X
Y

X
(d) Curvilinea inversa

X
(e) Lineal inversa
con ms dispersin

DR. LUIS J. CASTILLO VSQUEZ

(c) Curvilnea directa

X
(d) Ninguna relacin

Aplicacin

Los datos.

DATOS
COMPLEMENTO

10

1.0

1.5

2.0

2.5

3.0

3.5

4.0

4.5

5.0

5.5

10

12

14

13

15

17

14

14

EN Kg: X
AUMENTO DE
PESO : Y

Presente la informacin en un diagrama de dispersin


DR. LUIS J. CASTILLO VSQUEZ

Procedimiento
1er Paso: Rena pares de datos (X,Y), cuya relacin
desea estudiar y organice la informacin en una
tabla.

PACIENTE
COMPLEMENTO

10

1.0

1.5

2.0

2.5

3.0

3.5

4.0

4.5

5.0

5.5

10

12

14

13

15

17

14

14

EN Kg: X
AUMENTO DE
PESO : Y
DR. LUIS J. CASTILLO VSQUEZ

2do Paso: Encuentre los valores mnimos y mximos


para X e Y. Elija las escalas que se usarn en los
ejes horizontal y vertical, de manera que ambas
longitudes sean aproximadamente iguales, facilitando
la lectura del diagrama.
20
15
10
5
0
0.0

DR. LUIS J. CASTILLO VSQUEZ

2.0

4.0

6.0

3er Paso: Registre los datos en el grfico. Cuando


se obtengan los mismos valores en diferentes
observaciones, muestre estos puntos haciendo
crculos concntricos (o), o registre el segundo punto
muy cerca del primero.
20
15
10
5
0
0.0

DR. LUIS J. CASTILLO VSQUEZ

2.0

4.0

6.0

4to Paso: Agregue toda la informacin que


puede ser de utilidad para entender el diagrama,
tal como: ttulo del diagrama, perodo de tiempo,
nmero de pares de datos, nombre de la variable
y unidades de cada eje, entre otros.

DR. LUIS J. CASTILLO VSQUEZ

17.2 Las ecuaciones lineales simples


Si dos variables, como X e Y, estn relacionadas, se
puede expresar como una relacin, por ejemplo:
Y = 3 + 1,5X
Al conocer la ecuacin se puede:
a) Calcular el valor de Y para cualquier valor
dado de X
b) Conocer el cambio en Y, cuando X vara en 1
DR. LUIS J. CASTILLO VSQUEZ

Por ejemplo: Y = 3 + 1,5X

Valor
Valor
Cambio
dado de X calculado de Y de Y
1
4,5
2
6,0
1,5
3
7,5
1,5
4
9,0
1,5
5
10,5
1,5
DR. LUIS J. CASTILLO VSQUEZ

El aumento en Y, cuando X vara en una unidad, est


dado por el coeficiente de X.
Ejemplo:

En Y = 10 + 2X
cuando X aumenta en 1, Y aumenta en 2
En Y = 5 - 0,8X
cuando X aumenta en 1, Y disminuye en 0,8
DR. LUIS J. CASTILLO VSQUEZ

A) Tipos de Variables
En una ecuacin como Y = 30 + 3X, el valor de Y
depende del valor que toma X, por eso a Y se le
llama variable dependiente, y a X se le llama
variable independiente.
Y = b0 + b1 X

Variable
Dependiente
DR. LUIS J. CASTILLO VSQUEZ

Variable
Independiente

B) Tipo de Relaciones

Cuando cambios en X provoca cambios en Y en igual


sentido (aumentos o disminuciones), las variables
estn directamente relacionadas. Se observa el
signo +
Ejemplo:
Y = 30 + 5X

Y
o

o
o
o

DR. LUIS J. CASTILLO VSQUEZ

o
o

Cuando cambios en X, provoca variaciones en Y en


sentido inverso (X aumenta, Y disminuye o viceversa),
las variables estn inversamente relacionadas. Se
observa en la ecuacin el signo -.
Ejemplo:

Y = 20 - 3X

o
o
o

o
o

o
o
o

DR. LUIS J. CASTILLO VSQUEZ

C) Grado de la ecuacin:
La ecuacin es de primer grado si la variable
independiente est elevada al exponente 1. Su
grfica genera una lnea recta (por lo que
tambin se le llama ecuacin lineal)
Ejemplo: Y = 30 + 4 X

DR. LUIS J. CASTILLO VSQUEZ

Si la variable independiente est elevada a un


exponente diferente a 1, la ecuacin toma el valor del
exponente. Su grfica no es una lnea recta.
Ejemplo:
Y = 10 + 3 X + 4 X2 : ecuacin de segundo grado
Y = 3 + 7X + 5 X3 : ecuacin de tercer grado
DR. LUIS J. CASTILLO VSQUEZ

D) Ecuaciones simples y mltiples:


Simples: Muestra la relacin entre dos variables
Y = 30 + 2X
Y = 10 - 3X2
Mltiple: Muestra la relacin entre tres o ms
variables
Y = 3X + 8 Z
Y = 5 + 2X2 + 4W
DR. LUIS J. CASTILLO VSQUEZ

D) Grfica de una ecuacin de primer grado:


Ejemplo: Y = 3 + 1,5X
X
Y

1
4 ,5

2
6 ,0

3
7 ,5

4
9 ,0

5
1 0 ,5

Los cinco pares de valores se diagraman de la


forma siguiente.
Y
12
11
10
9
8
7
6
5
4
3
2
1

.
.
.
.
.

(5,10.5)

(4,9)

(3,7.5)

(2,6)

(1,4.5)

DR. LUIS J. CASTILLO VSQUEZ

E) Forma general:
La ecuacin simple de primer grado tiene la
siguiente forma general
Y = b 0 + b1 X
Donde:
b1: pendiente, o sea, el cambio en Y cuando X = 1.
b0: el valor autnomo, es decir, Y = b0 cuando X = 0.
En la grfica es la interseccin con el eje Y
Ejemplo:
Y
Y = 3 + 1.5X

b0 = 3
DR. LUIS J. CASTILLO VSQUEZ

17.3 Regresin lineal simple


Es una tcnica estadstica que permite determinar la
mejor ecuacin que represente la relacin entre dos
variables relacionadas.

Para poder establecer la relacin cuantitativa entre X


e Y es necesario disponer de pares de observaciones.
Cada par ha sido registrado a la misma unidad
elemental.
DR. LUIS J. CASTILLO VSQUEZ

A) Suposiciones de regresin y correlacin


a) Normalidad: los valores de Y estarn distribuidos
normalmente a cada valor de X.
b) Homoscedasticidad: la variacin alrededor de la lnea
de regresin sea constante para todos los valores de
X.
c) Independencia de error: el error (diferencia
entre un valor observado y uno estimado de
independientemente de cada valor de X.

residual
Y) sea

d) Linealidad: la relacin entre las variables es lineal.


DR. LUIS J. CASTILLO VSQUEZ

B) El mtodo de Mnimos Cuadrados


Es el procedimiento matemtico utilizado para
determinar los valores numricos de los
coeficientes de regresin: b0 y b1

= b + b X se llama
La ecuacin general Y
0
1
ecuacin de regresin y permite estimar o
predecir los valores de Y.

DR. LUIS J. CASTILLO VSQUEZ

El mtodo consiste en determinar una


ecuacin que la suma de los errores al
cuadrado sea mnima.
Y

= error
Yi - Y

Min Y - Y

10
8

Lnea de
estimacin

4 Error= -6

Error= 2

X
DR. LUIS J. CASTILLO VSQUEZ

10

12

14

El mtodo utiliza un sistema de ecuacin llamado


ecuaciones normales, que tienen la siguiente
forma:

Y nb0 + b1 X
2
XY

b
X

b
X

0
1
Para aplicar las frmulas,
tenemos que confeccionar
un
cuadro
como
el
siguiente:
DR. LUIS J. CASTILLO VSQUEZ

X2

XY

1.0

8.0

1.0

8.0

1.5

10.0

2.3

15.0

2.0

9.0

4.0

18.0

2.5

12.0

6.3

30.0

3.0

14.0

9.0

42.0

3.5

13.0

12.3

45.5

16.0

60.0

4.0

15.0

4.5

17.0

20.3

76.5

5.0

14.0

25.0

70.0

5.5

14.0

30.3

77.0

126.0

126.3

442.0

XY

32.5
X

Sustituyendo los valores Y 126,0 , n = 5, X 32,5


2
XY

4
42
X

y 126 ,3 ,en las ecuaciones normales,


obtenemos el siguiente sistema de ecuaciones.
126 = 10b0 + 32,5b1
442 = 32,5b0 + 126,3b1
Resolviendo el sistema tenemos: b0 = 7,479
b1= 1,576 ,por lo tanto,
7,479 1,576X
Y
DR. LUIS J. CASTILLO VSQUEZ

c) Interpretacin
b0 = 7,478 : Es probable que un paciente desnutrido
que no sea considerado dentro del
Programa de Alimentacin Complementaria
tenga un peso de 7,478 Kg.
b1 = 1,576:Por cada Kg. del alimento complementario,
se espera que probablemente el nio
aumento su peso en 1,576 Kg.
DR. LUIS J. CASTILLO VSQUEZ

D) Valor observado y valor estimado de Y


El valor observado (Yi) se refiere al nivel efectivo u
observado de la variable Y (peso del nio), mientras
), es el nivel estimado de la
que el valor estimado ( Y
i
variable (peso esperado), obtenido utilizando la
X
Y
Y
ecuacin de regresin.
Y

.
.
Yi

Valor
observado

Valor
estimado

DR. LUIS J. CASTILLO VSQUEZ

xo

1.0

8.0

9.055

1.5

10.0

9.843

2.0

9.0

10.630

2.5

12.0

11.418

3.0

14.0

12.206

3.5

13.0

12.994

4.0

15.0

13.782

4.5

17.0

14.570

5.0

14.0

15.358

5.5

14.0

16.146

17.4 Error estndar de estimacin (Syx)


Mide la disparidad promedio entre los valores
observados y estimados de la variable Y. Se calcula
por la siguiente relacin
)
(Y - Y

Sy x =

n2

14

DR. LUIS J. CASTILLO VSQUEZ

Y Y

1.0

8.0

9.055

-1.1

1.112181

1.5

10.0

9.843

0.2

0.024806

2.0

9.0

10.630

-1.6

2.658204

2.5

12.0

11.418

0.6

0.338375

3.0

14.0

12.206

1.8

3.217718

3.5

13.0

12.994

0.0

3.48E-05

4.0

15.0

13.782

1.2

1.483524

4.5

17.0

14.570

2.4

5.905386

5.0

14.0

15.358

-1.4

1.843621

5.5

14.0

46

-2.1

4.604028

32.5

126.0

126.0

0.0

21.2

DR. LUIS J. CASTILLO VSQUEZ

Y Y

Reemplazando en la formula
S yx

21,20
21,20

2,65
10 2
8

Syx =1,628

El Syx es un indicador del grado de precisin con que


la ecuacin de regresin describe la relacin entre
las dos variables: cuanto ms pequeo, los valores
observado y estimado de Y son razonablemente
cercanos y, la ecuacin de regresin es una buena
descripcin esa la relacin.
DR. LUIS J. CASTILLO VSQUEZ

17.5 El anlisis de correlacin


El anlisis de correlacin es la tcnica estadstica
que permite describir el grado hasta el cual una
variable est linealmente relacionada con otra.
Hay dos medidas que se usan para describir la
correlacin
El coeficiente de determinacin
El coeficiente de correlacin
DR. LUIS J. CASTILLO VSQUEZ

A) El coeficiente de determinacin
Al construir un modelo de regresin, se define que
el valor Y depende de X.
Y = f (X)
Si la relacin es lineal: Y = b0 + b1X

Pero en la prctica Y depende tambin de otros


factores diferentes a X:
Y = b0 + b1X +
Parte de los cambios en Y pueden explicarse por X, a
otro se llama variacin explicada.
Pero hay cambios en Y que no pueden explicarse
por X, a lo que se llama variacin no explicada.
DR. LUIS J. CASTILLO VSQUEZ

Yi

Y
Variacin
Total
Yi - Y

Variacin
no explicada

Yi - Y
Variacin
Explicada

- Y

VARIACION
TOTAL
=

VARIACION
EXPLICADA

DR. LUIS J. CASTILLO VSQUEZ

VARIACION
NO EXPLICADA

El coeficiente de determinacin se puede calcular


del modo siguiente:
r2

variacion explicada

variacion total

r2 =

2
Y - Y
i
-Y
Y

Se elevan al cuadrado, para evitar que Y - Y 0


obtenindose un nmero positivo.
DR. LUIS J. CASTILLO VSQUEZ

1er Paso: Clculo de la venta media por vendedor


son ( Y )
n

Y=

i1

Y1 Y2 Y3 Y4 Y5
Y=
5

9 5 7 14 10 45
Y=

5
5
Y = 9 unidades
DR. LUIS J. CASTILLO VSQUEZ

2do Paso: Se calcula la variacin total, es decir, la


sumatoria de las desviaciones de las ventas
2
observadas (Yi) con respecto a la media: Yi - Y

Y Y

Y Y2

8.0

12.6

-4.6

21.16

10.0

12.6

-2.6

6.76

9.0

12.6

-3.6

12.96

12.0

12.6

-0.6

0.36

14.0

12.6

1.4

1.96

13.0

12.6

0.4

0.16

15.0

12.6

2.4

5.76

17.0

12.6

4.4

19.36

14.0

12.6

1.4

1.96

14.0

12.6

1.4

1.96

126.0

0.0
Y Y

72.4
2
Y Y

126.0
DR. LUIS J. CASTILLO VSQUEZ
Y

3er Paso: Se calcula la variacin explicada, es


decir, la sumatoria de las desviaciones cuadrticas
entre las ventas esperadas y la venta media de la
muestra: Y - Y
2
Y Y
2

DR. LUIS J. CASTILLO VSQUEZ

Y Y

9.055

12.6

-3.545

12.5699

9.843

12.6

-2.758

7.6038

10.630

12.6

-1.970

3.8793

11.418

12.6

-1.182

1.3964

12.206

12.6

-0.394

0.1551

12.994

12.6

0.394

0.1553

13.782

12.6

1.182

1.3971

14.570

12.6

1.970

3.8805

15.358

12.6

2.758

7.6055

16.146

12.6

3.546

12.5720

126.0

126.0

0.0

Y Y

51.2
2

4to Paso: Se compara la variacin explicada y


la variacin total.
r2

r2

variacion explicada

variacion total
=

r2 =

Y-Y

Yi - Y

51,2
0,707
72,4

5to Paso: Interpretacin: 70,7% de las


variaciones en el incremento de peso, pueden
explicarse por el consumo del complemento
nutricional.
DR. LUIS J. CASTILLO VSQUEZ

Valores posibles de r2
Si r2 = 1 : Correlacin perfecta, es decir, toda
variacin de Y puede explicarse por X
Si r2 = 0 : no existe correlacin entre X e Y. La
variacin explicada es 0. La variable X
no explica nada de los cambios en Y
Resumen
2
0 r 1
Cuanto ms cerca a uno, las variables tendrn
mayor correlacin.
DR. LUIS J. CASTILLO VSQUEZ

B) El coeficiente de correlacin
Es la raz cuadrada del coeficiente de
determinacin.

r = r2
Sus valores oscilan entre -1 y 1
Cuando r es positivo, indica que X e Y
estn directamente relacionados.

DR. LUIS J. CASTILLO VSQUEZ

Cuando r es negativo, indica que X e Y


estn inversamente relacionados.
El coeficiente r tiene el mismo signo que el
coeficiente b1 en la ecuacin de regresin

DR. LUIS J. CASTILLO VSQUEZ

Interpretacin del coeficiente de correlacin de


Pearson

Fuerte Moderada
Negativa Negativa
-1 -0,9
Perfecta
Negativa

Dbil
Negativa

-0,5

Dbil
Positiva
0
No existe
correlacin

DR. LUIS J. CASTILLO VSQUEZ

Moderada
Positiva
0,5

Fuerte
Positiva
0,9 1
Perfecta
Positiva

Ejemplo:

r2= 0,707

r = 0,707
r = 0,84
el signo es positivo ya que X e Y estn
relacionados directamente como lo indica el
signo del coeficiente b1 en la ecuacin de
regresin Y 7,479 1,576X
DR. LUIS J. CASTILLO VSQUEZ

Interpretacin: El incremento de peso (Y) y el


consumo del complemento nutricional (X) se
encuentran directamente asociados.

DR. LUIS J. CASTILLO VSQUEZ

17.6 Diagnstico de la regresin: anlisis


residual

El anlisis residual permite evaluar lo adecuado del


modelo de regresin que ha sido ajustado a los
datos. Tambin sirve para detectar si los supuestos
se cumplen.
A. Evaluacin de lo adecuado de modelo ajustado
Los valores del error residual o estimado (i) se
define como la diferencia entre los valores
observados (Yi) y los estimados ( Y i ) de la variable
dependiente para los valores dados de Xi

i = Yi - Y i
DR. LUIS J. CASTILLO VSQUEZ

Podemos evaluar lo adecuado del modelo de


regresin ajustado mediante el grfico de los
residuos (eje vertical) con respecto a los
correspondientes valores de Xi de la variable
independiente (eje horizontal).

DR. LUIS J. CASTILLO VSQUEZ

Variable X 1 Grfico de los residuales

3
2

Residuos

Ejemplo:
El grfico muestra un
adecuado ajuste entre
el incremento de peso
y el consumo del complemento nutricional.
No se observa una
tendencia.

1
0
-1

-2
-3

Variable X 1

El anlisis del grfico nos brinda el criterio para adoptar el


modelo lineal o dejarlo de lado. Si fuese as, podramos
probar con modelos no lineales como el cuadrtico,
logaritmo o exponencial.
El anlisis de residuos se complementa con el
clculo de los residuos estandarizados (SRi), que
resultan de la divisin del residuo dividido por su
error estndar.
i
SR i
S YX 1 hi
En donde

1
hi
n

Xi X2
n

2
X
DR. LUIS J. CASTILLO VSQUEZ
i nX
i1

Los valores estandarizados nos permiten tomar en


cuenta la magnitud de los residuos en unidades que
reflejen la variacin estandarizada alrededor de la lnea
de regresin.
Anlisis de los residuales
Observacin

Pronstico para Y

Residuos

Residuos estndares

9.138461538

-0.138461538

-0.101107641

3.276923077

1.723076923

1.258228423

6.207692308

0.792307692

0.578560391

15

-1

-0.730221853

12.06923077

-2.069230769

-1.510997526

44.30769231

0.692307692

0.505538206

DR. LUIS J. CASTILLO VSQUEZ

En el grfico siguiente, los residuos estandarizados fueron


graficados en funcin de la variable independiente
(cantidad del complemento nutricional). Se puede
observar de que existe una dispersin amplia en la grfica
de residuos, no existe un patrn evidente o una relacin
entre los residuos estandarizados y Xi . Los residuos
parecen estar equitativamente distribuidos por arriba y
por debajo de 0, para diferentes valores de X. Podemos
concluir que el modelo ajustado parece ser adecuado.
DR. LUIS J. CASTILLO VSQUEZ

Residuos estndares
1.5
1
0.5
0
-0.5 0
-1
-1.5
-2

DR. LUIS J. CASTILLO VSQUEZ

10

15

20

B. Evaluacin de las suposiciones


a. Homoscedasticidad
b. Normalidad

c. Independencia: Los datos recolectados


DR. LUIS J. CASTILLO VSQUEZ

17.7 Medicin de la autocorrelacin: Durbin-Watson


Una de las suposiciones del modelo de regresin
bsico es la independencia de los residuos. Esta
suposicin es violada con frecuencia cuando los
datos son recopilados en periodos secuenciales,
debido a que un residuo en cualquier punto del
tiempo puede tender a ser parecido a los residuos
que se encuentran en puntos de tiempo
adyacentes.
El estadstico D de Durbin-Watson mide la
correlacin de cada residuo y el residuo del periodo
inmediato anterior al periodo de inters.
DR. LUIS J. CASTILLO VSQUEZ

El estadstico D (Durbin-Watson)
2

i 2

i 1

i
i 1

i
En la que

representa el residuo en el periodo i.

DR. LUIS J. CASTILLO VSQUEZ

Interpretacin de D:

Cuando residuos sucesivos estn correlacionados


positivamente, el valor de D se aproximar a cero.
Si los resultados no estn correlacionados, el valor D
estar cercano a 2.
Si se presentase una autocorrelacin negativa, lo cual rara
vez sucede, de valor D tomar un valor mayor a 2 e,
incluso podra aproximarse a su valor mximo que es 4.
DR. LUIS J. CASTILLO VSQUEZ

Los resultados de SPSS nos proporciona el valor de


D de Durbin-Watson
Model Summ aryb
Change Statistics
Model
1

R Square
Change
F Change
.707 a
19.336

df1

df2
1

Sig. F Change
.002

Durbin-Watson
1.517

a. Predictors: (Constant), Complemento


b. Dependent Variable: AUMENTO

Segn este resultado permite afirmar que los


residuos no estn correlacionados.

DR. LUIS J. CASTILLO VSQUEZ

17.8 Estimacin por intervalos


A.Intervalo de confianza para 1
b1 N

b1 1

Sb1

2
1,
SC x
b1 1
S yx

SC x

2
SC x

desconocido
conocido

Lo2que se va hacer es estimar

2
n

b 2SC
Y

se estima mediante
la siguiente
formula:
1
x

n
i 1
2

S yx
DR. LUIS J. CASTILLO VSQUEZ
n2

-t0

t0

Pr( t 0 t t 0 )

b1 1

Pr t 0
t0 1
S yx

SC x

S yx
S yx
Pr b1 t 0
1 b1 t 0
1
SC x
SC x

DR. LUIS J. CASTILLO VSQUEZ

B. Intervalo de confianza para 0


2

1
x
b0 0 , 2
n SC

b0 0

Sb 0

b0 0
2

S yx

donde:
S 2yx

1
x

n SC x

t n2

DR. LUIS J. CASTILLO VSQUEZ

n2

b 2 SC
x
0

-t0

t0

Pr(t 0 t t 0 )

0
0
Pr t 0
t0 1

S
b
0

Pr b 0 t 0Sb0 0 b 0 t 0Sb0 1

t0 con (n-2) grados de libertad y

DR. LUIS J. CASTILLO VSQUEZ

C. Intervalo de confianza para /

Y X0

X0 X
2 1

Y N y / X 0 ,

SC x

Para un nivel dado de confianza, una variacin


aumentada alrededor de la lnea de regresin,
medida a travs del error estndar de la
estimacin, tiene como resultado un intervalo
ms amplio.
DR. LUIS J. CASTILLO VSQUEZ

Sin embargo, como se esperara, un tamao de


muestra aumentado reduce el ancho del
intervalo.

Pr y
t 0S y y / X0 y
t 0S y 1

donde:

X0 x
2 1
S y S yx

n
SCx

DR. LUIS J. CASTILLO VSQUEZ

D. Intervalo de confianza para un valor


individual
Adems de obtener una estimacin de intervalo
de confianza para el valor promedio, a menudo
es importante tener la capacidad de predecir la
respuesta que se obtendra para un valor
individual.

1 X X

Y N
, 1
2

DR. LUIS J. CASTILLO VSQUEZ

y / X0

SC x

El intervalo de prediccin est estimando


un valor individual, no un parmetro.

Pr y
t 0S y Y / X0 y
t 0S y 1

donde:

x
1
S y S2yx 1 0

n
SC x

DR. LUIS J. CASTILLO VSQUEZ

17.9 Anlisis de varianza de la regresin


simple
El anlisis de varianza es una tcnica que permite
localizar las fuentes de variabilidad que ayuden a explicar
el comportamiento de la variable dependiente.

SCtotal =

DR. LUIS J. CASTILLO VSQUEZ

SCerror + SCregresin
(SCresidual)

El cuadro de Anlisis de Varianza

Fuentes de
variabilidad
Debido a la
Regresin

Suma de
Cuadrados
2

b SC X

Y
Y

GL

Cuadrado
Medio
2
1

b SC x

Error
Experimental

Total

b12SCx n 2

SCtotal

DR. LUIS J. CASTILLO VSQUEZ

n 1

S2yx

F
calculado
b12SC x
S2yx

E(CMe)

2 12SC x

Asumiendo que existe una regresin lineal,


determine:
A.La ecuacin de regresin e interprete los coeficientes
regresin.
B.El intervalo de confianza para 1y para un valor
si X=3,8.

de

individual

C.El cuadro de ANOVA para la regresin lineal


D.El valor de

y
cuando
X = 5,1

E.La prueba de hiptesis respectiva a partir del


interprete el resultado.

ANOVA

F.Estime el aumento de peso que puede darse se consumen 6


Kg. del complemento nutricional mediante un intervalo e
interprete el resultado.
DR. LUIS J. CASTILLO VSQUEZ

Primero se realizan los Solucin


clculos necesarios:
n 10
Xi 32,5
Yi 126
Xi2 126,25
Yi2 1660
Xi Yi 442

A. Clculo de los coeficientes de regresin:


b0 b1X
Y
b0 Y b1 X
X Y

XY
i

b1

n
2

i
2
X

i
n

DR. LUIS J. CASTILLO VSQUEZ

442

32,5126

32,5
10

1,57

32,5
20
,
62
126,25
10

b0 12,6 (1,57)(3,25) 7,49

La ecuacin de regresin ser:


7,49 1,57 X
Y

Interpretacin:

b0= Se espera que el peso que un nio que no


consume este complemento nutricional sea 7,49
Kg.
b1= Por cada Kg. de complemento nutricional, el peso
del nio se incrementar en 1,57 Kg.
DR. LUIS J. CASTILLO VSQUEZ

B.

S yx
S yx

Pr 1,57 t 0,10 8
1 1,57 t 0,10 8
SC x
SC x

Intervalo de confianza para 1

1 0,10

S yx
S yx

Pr 1,57 1,86
1 1,57 1,86
0,90
4,54
4,54

2
yx

126
2
1660
1,57 20,62

10

S yx 1,642DR. LUIS J. CASTILLO VSQUEZ

72,7 50,82

2,69
8


1,642
1,642
Pr 1,57 1,86
1 1,57 1,86
0,90
4,54
4,54

Pr 0,8973 1 2,2427 0,90

Interpretacin: Hay 0,90 de confianza que el


intervalo que se ha construido, pertenezca al
grupo de intervalos que contienen al verdadero
parmetro 1.

Intervalo de confianza para un valor individual


Si X = 3,8 entonces Y 13,45
t 0S Y Yind Y
t 0S Y 1
Pr Y
DR. LUIS J. CASTILLO VSQUEZ

Pr13,45 (1,86 )S Y Yind 13,45 (1,86 )S Y 1


1 3,80 3,25
S Y 1,642 1

10
20,62
2

Interpretacin

DR. LUIS J. CASTILLO VSQUEZ

C. Anlisis de Varianza
Fuentes de
variabilidad

Suma de
Cuadrados

Debido a la
Regresin
Error
Experimental

Total

GL

Cuadrado
Medio

F
calculado

50,82

50,82

18,84

21,58

2,697

72,40

E(CMe)

Interpretacin: Se rechaza la hiptesis planteada. El


complemento nutricional si explica significativamente
los cambios en el peso de los nios.
DR. LUIS J. CASTILLO VSQUEZ

Y 7,49 1,57(5,51)
Y 16,14
E. D.
Prueba
Si X =de
5,1Hiptesis acerca de

1. Hp: 1= 0
Ha: 1 0
CMeregresin
2.
=
0,10
Fc
CMeerror
3.

DR. LUIS J. CASTILLO VSQUEZ

Supuestos
- La muestra seleccionada al azar
- La poblacin se distribuye al azar

- Los valores de X fijas y de Y variables (o aleatorias)


- Asunciones de la regresin lineal simple

4. Criterios de decisin
F1-/2
0,0041

F/2
5,32

Si 5,32 Fc 0,0041se rechaza la hiptesis planteada


DR. LUIS J. CASTILLO VSQUEZ

5. Clculos
50,82
Fc
18,84
2,697

6. Conclusiones
La variable complemento nutricional es
apropiada para explicar el comportamiento del
aumento de peso en nios desnutridos.
Adems, la ecuacin de regresin puede ser
usada con fines de prediccin hasta cierto lmite.
DR. LUIS J. CASTILLO VSQUEZ

Pr 16,91 1,86 S Y Y X0 16,91 1,86 S Y 1

F. Para X = 6, que promedio de Y vamos a obtener?

DR. LUIS J. CASTILLO VSQUEZ

17.10 Resultados con Excel


Estadsticas de la regresin

0.99582747

Coeficiente de correlacin mltiple


Coeficiente de determinacin R^2

0.99167236

R^2 ajustado

0.98959045

Error tpico

1.5310881

Observaciones

6
ANLISIS DE VARIANZA

GL

SC

CMe

Regresin

1116.62308

1116.62308

Residuos

9.37692308

2.34423077

Total

1126

Coefic
ientes

Error
tpico

Estadst
ico t

Intercepcin

0.346154

0.9173433

Variable X 1

2.930769

0.13428531

F cal

P-valor

476.328138

2.60786E-05

P-valor

Inferior
95%

Superior
95%

Inferior
95.0%

Superior
95.0%

0.37734384

0.72508508

-2.200804756

2.893112448

-2.200804756

2.893112448

21.824943

2.6079E-05

2.557932668

3.303605794

2.557932668

3.303605794

DR. LUIS J. CASTILLO VSQUEZ

Ejemplo:
En la Farmacia Santa Rita, se desea determinar
la relacin lineal simple entre la experiencia del
vendedor y las ventas durante un mes. Se
seleccionan 5 vendedores, los datos registrados
se presentan a continuacin:
VENDEDOR
CARLOS PEDRO JOSE JUAN MANUEL
EXPERIENCIA
(aos):X
3
1
2
5
4
VENTAS
(unidades) : Y
9
5
7
14
10
DR. LUIS J. CASTILLO VSQUEZ

Caso 1
Un equipo de profesionales en salud mental de un
hospital psiquitrico donde el tiempo de
permanencia es largo, quiere medir el nivel de
respuesta de pacientes retrados mediante un
programa de terapia de remotivacin. Para este
propsito
se
contaba
con
una
prueba
estandarizada, que era costosa y su aplicacin
tomaba mucho tiempo. Para salvar este obstculo,
el equipo cre una prueba ms fcil de aplicar.
DR. LUIS J. CASTILLO VSQUEZ

Para probar la utilidad de este nuevo instrumento


para medir el nivel de respuesta del paciente, el
equipo decidi examinar la relacin entre las
calificaciones obtenidas con la nueva prueba y las
calificaciones
obtenidas
con
la
prueba
estandarizada.
Paciente

10

11

Prueba nueva

50

55

60

65

70

75

80

85

90

95

100

Prueba estandar 61

61

59

71

80

76

90

106

98

100

114

DR. LUIS J. CASTILLO VSQUEZ

Caso 2
Se llevo a cabo un experimento para estudiar el
efecto de cierto medicamento para disminuir la
frecuencia cardiaca en adultos. Se reunieron los
siguientes datos: dosis en miligramos del
medicamento y la diferencia entre la frecuencia
cardiaca mas baja despus de la administracin
del medicamento y un control antes de
administrarlo.
DR. LUIS J. CASTILLO VSQUEZ

Dosis (mg)
1 1 1 1 2 2 2 2 3 3 3 3
Reduccion ritmo cardiaco 10 8 12 12 14 12 16 18 17 20 18 20
Determine la ecuacin de regresin lineal y
explique el valor de los coeficientes de regresin.
Calcule e interprete el coeficiente de correlacin y
el coeficiente de determinacin.

DR. LUIS J. CASTILLO VSQUEZ

Hoja de Comprobacin

1. El anlisis de regresin se usa para describir que tan bien

una ecuacin de estimacin describe la relacin que est


estudiando
2. Dado que la ecuacin para una lnea es Y = 26 - 24X,

podemos decir que la relacin Y con X es directa y lineal

3. Un valor r2 cercano a cero indica una fuerte correlacin

entre X y Y
DR. LUIS J. CASTILLO VSQUEZ

4. Los anlisis de regresin y correlacin se usan para


determinar relaciones de causa y efecto
5. El coeficiente de correlacin de muestra, r, no es nada ms que r
y no podemos interpretar su significado directamente como un
porcentaje del mismo tipo

6. El error estndar de la estimacin mide la variabilidad de los


valores observados alrededor de la ecuacin de regresin.
7. La lnea de regresin se deriva de una muestra y no de toda la
poblacin

DR. LUIS J. CASTILLO VSQUEZ

8. Podemos interpretar el coeficiente de determinacin de muestra


como la cantidad de la variacin en Y que es explicada por la lnea
de regresin
9. Las lneas trazadas a cada lado de la lnea de regresin a 1, 2 y 3
veces el valor del error estndar de la estimacin se denominan lneas
de confianza
10.La ecuacin de estimacin es vlida slo sobre el mismo intervalo
que el dado por los datos originales de muestra sobre los cuales se
desarroll

11.En al ecuacin Y = a + bX para la variable dependiente Y y la


variable independiente X, la interseccin Y es b.
DR. LUIS J. CASTILLO VSQUEZ

12.Si una lnea se ajusta a un conjunto de puntos mediante el mtodo


de mnimos cuadrados, los errores individuales positivos y
negativos desde la lnea suman cero.

13. Si Se = 0 para una ecuacin de estimacin, debe estimar


perfectamente la variable dependiente en los puntos observados

14.Supongamos que la pendiente de una ecuacin de estimacin es


positiva. Entonces el valor de r debe ser la raiz cuadrada positiva
de r2

DR. LUIS J. CASTILLO VSQUEZ

15.Si r = 0.8, entonces la ecuacin de regresin explica 80% de la


variacin total en la variable dependiente
16.El coeficiente de correlacin es el porcentaje de la variacin total
de la variable dependiente que es explicada por la regresin
17.El error estndar de la estimacin es medido perpendicularmente
desde la lnea de regresin ms que sobre el eje X
18.Al cuadrar los errores individuales, el mtodo de mnimos
cuadrados magnidica todas las desviaciones desde la lnea de
regresin estimada

DR. LUIS J. CASTILLO VSQUEZ

19. Una ecuacin de regresin no puede ser vlida al ampliarse fuera del
intervalo de muestra de la variable independiente
20. Un valor r2 implica que no existe una relacin de causa-efecto
significativa entre X y Y

21. Una valor pequeo de r2 implica que no existe una relacin de causaefecto significativa entre X y Y

DR. LUIS J. CASTILLO VSQUEZ

S-ar putea să vă placă și