Correlacion y Regresion

REGRESIÓN
Y CORRELACIÓN
SIMPLE
OBJETIVOS
Al finalizar el Tema , el participante será capaz de:
1. Utilizar diagramas de dispersión para visualizar la
relación entre dos variables.
2. Identificar relaciones simples entre variables
3. Utilizar la ecuación de regresión para predecir valores
futuros.
4. Aplicar el análisis de correlación para describir el
grado hasta el cuál dos variables están relacionadas
linealmente entre si.
6. Realizar el diagnostico de la regresión
7. Medición de la autocorrelación
8. Realizar la estimación por intervalos
9. Realizar el análisis de varianza de la regresión
simple
CONTENIDO
1. El diagrama de dispersión
2. Las ecuaciones lineales simples
3. La regresión lineal simple
4. El error estándar de la estimación
5. El análisis de correlación
6. El diagnóstico de la regresión: al análisis residual
7. La estadística de Durbin-Watson
8. La estimación por intervalos
9. Análisis de varianza de la regresión simple.
17.1 El diagrama de dispersión
Es un gráfico que permite detectar la

existencia de una relación entre dos
variables.
Visualmente se puede buscar patrones que
indiquen el tipo de relación que se da entre
las variables.
(a) Lineal directa (b) Lineal inversa (c) Curvilínea directa
Y Y Y
• •
Relaciones posibles • • ••
• • • •
entre X y Y vistos • ••
• •
en diagramas de • • •• •
dispersión •• X
•••
X X
Y • Y Y
• •• • • • ••
•• •
•• • •• • • •
• •• • • • • ••
• ••
•• •• •• • • •
••• •
• •
X X X
(d) Curvilinea inversa (e) Lineal inversa (d) Ninguna relación
con más dispersión
Aplicación
Los datos siguientes muestran las cantidades
consumidas de complemento nutricional (en Kg.) y
el aumento de peso de niños con signos de
desnutrición.
PACIENTE 1 2 3 4 5 6 7 8 9 10
COMPLEMENTO
1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5
EN Kg: X
AUMENTO DE
8 10 9 12 14 13 15 17 14 14
PESO : Y
Presente la información en un diagrama de dispersión

Procedimiento
1er Paso: Reúna pares de datos (X,Y), cuya
relación desea estudiar y organice la información
en una tabla.
PACIENTE 1 2 3 4 5 6 7 8 9 10
COMPLEMENTO
1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5
EN Kg: X
AUMENTO DE
8 10 9 12 14 13 15 17 14 14
PESO : Y
2do Paso: Encuentre los valores mínimos y máximos
para X e Y. Elija las escalas que se usarán en los
ejes horizontal y vertical, de manera que ambas
longitudes sean aproximadamente iguales, facilitando
la lectura del diagrama.
20
15
10
0
0.0 2.0 4.0 6.0
3er Paso: Registre los datos en el gráfico. Cuando
se obtengan los mismos valores en diferentes
observaciones, muestre estos puntos haciendo
círculos concéntricos (o), o registre el segundo punto
muy cerca del primero.
20
15
10
0
0.0 2.0 4.0 6.0
4to Paso: Agregue toda la información que
puede ser de utilidad para entender el diagrama,
tal como: título del diagrama, período de tiempo,
número de pares de datos, nombre de la variable
y unidades de cada eje, entre otros.
Relación complemento nutricional y
aumento de peso
20
Aumento de peso
15
(Kg)
10
5
0
0.0 2.0 4.0 6.0
Complemento nutricional (Kg)
17.2 Las ecuaciones lineales simples
Si dos variables, como X e Y, están

relacionadas, se puede expresar como una
relación, por ejemplo:
Y = 3 + 1,5X
Al conocer la ecuación se puede:
a) Calcular el valor de Y para cualquier valor
dado de X
b) Conocer el cambio en Y, cuando X varía en 1
Por ejemplo: Y = 3 + 1,5X
Valor Valor Cambio

dado de X calculado de Y de Y
1 4,5 -
2 6,0 1,5
3 7,5 1,5
4 9,0 1,5
5 10,5 1,5
El aumento en Y, cuando X varía en una unidad,
está dado por el coeficiente de X.
Ejemplo:
En Y = 10 + 2X
cuando X aumenta en 1, Y aumenta en 2
En Y = 5 - 0,8X
cuando X aumenta en 1, Y disminuye en 0,8
A) Tipos de Variables
En una ecuación como Y = 30 + 3X, el valor de Y
depende del valor que toma X, por eso a Y se le
llama variable dependiente, y a X se le llama
variable independiente.
Y = b0 + b1 X
Variable Variable
Dependiente Independiente
B) Tipo de Relaciones
Cuando cambios en X provoca cambios en Y en
igual sentido (aumentos o disminuciones), las
variables están directamente relacionadas. Se
observa el signo +
Ejemplo: Y o
o
Y = 30 + 5X o
o
o o
o
o o
X
Cuando cambios en X, provoca variaciones en Y
en sentido inverso (X aumenta, Y disminuye o
viceversa), las variables están inversamente
relacionadas. Se observa en la ecuación el signo
-. Y
Ejemplo: o
Y = 20 - 3X
o o
o o
o
o
X
C) Grado de la ecuación:
La ecuación es de primer grado si la
variable independiente está elevada al
exponente 1. Su gráfica genera una línea
recta (por lo que también se le llama
ecuación lineal)
Ejemplo: Y = 30 + 4 X
Si la variable independiente está elevada a un
exponente diferente a 1, la ecuación toma el valor
del exponente. Su gráfica no es una línea recta.
Ejemplo:
Y = 10 + 3 X + 4 X2 : ecuación de segundo grado
Y = 3 + 7X + 5 X3 : ecuación de tercer grado

D) Ecuaciones simples y múltiples:
 Simples: Muestra la relación entre dos variables
Y = 30 + 2X
Y = 10 - 3X2
 Múltiple: Muestra la relación entre tres o más

variables
Y = 3X + 8 Z
Y = 5 + 2X2 + 4W
D) Gráfica de una ecuación de primer grado:
Ejemplo: Y = 3 + 1,5X
X 1 2 3 4 5
Y 4 ,5 6 ,0 7 ,5 9 ,0 1 0 ,5
Los cinco pares de valores se diagraman de la
forma siguiente.
Y
12
11
10
. . (5,10.5)
9
8
7
6
. . (3,7.5)
(4,9)
5
4
3
2
.
(1,4.5)
(2,6)
1 2 3 4 5 X
E) Forma general:
La ecuación simple de primer grado tiene la
siguiente forma general
Y = b0 + b1 X
Donde:
b1: pendiente, o sea, el cambio en Y cuando X = 1.
b0: el valor autónomo, es decir, Y = b0 cuando X = 0.
En la gráfica es la intersección con el eje Y
Ejemplo:
Y
Y = 3 + 1.5X
.
b0 = 3
X
17.3 Regresión lineal simple
Es una técnica estadística que permite
determinar la mejor ecuación que represente la
relación entre dos variables relacionadas.
Para poder establecer la relación cuantitativa

entre X e Y es necesario disponer de pares de
observaciones. Cada par ha sido registrado a la
misma unidad elemental.
A) Suposiciones de regresión y correlación
a) Normalidad: los valores de Y estarán distribuidos
normalmente a cada valor de X.
b) Homoscedasticidad: la variación alrededor de la
línea de regresión sea constante para todos los
valores de X.
c) Independencia de error: el error (diferencia
residual entre un valor observado y uno estimado
de Y) sea independientemente de cada valor de X.
d) Linealidad: la relación entre las variables es lineal.
B) El método de Mínimos Cuadrados
Es el procedimiento matemático utilizado para

determinar los valores numéricos de los
coeficientes de regresión: b0 y b1
La ecuación general Y  = b + b X se llama

0 1
ecuación de regresión y permite estimar o
predecir los valores de Y.
El método consiste en determinar una
ecuación que la suma de los errores al
cuadrado sea mínima.
Y
 = error
Yi - Y
10
8
. Línea de
estimación
6
Ŷ
Min  Y - Y 
2
4 Error= -6
•
i
•
2
• . Error= 2
X
2 4 6 8 10 12 14
El método utiliza un sistema de ecuación llamado
ecuaciones normales, que tienen la siguiente
forma:
X Y X2 XY
 Y  nb 0 + b1  X
1.0 8.0 1.0 8.0
1.5 10.0 2.3 15.0
 XY  b 0 X  b1 X 2 2.0
2.5
9.0
12.0
4.0
6.3
18.0
30.0
3.0 14.0 9.0 42.0
Para aplicar las fórmulas, 3.5 13.0 12.3 45.5

4.0 15.0 16.0 60.0
tenemos que confeccionar 4.5 17.0 20.3 76.5
un cuadro como el 5.0 14.0 25.0 70.0
5.5 14.0 30.3 77.0
siguiente: 32.5 126.0 126.3 442.0
X Y X  XY
2
Sustituyendo los valores  Y  126,0 , n = 5,  X  32,5

2
XY  442 y   126,3 ,en las ecuaciones normales,
X
obtenemos el siguiente sistema de ecuaciones.
126 = 10b0 + 32,5b1
442 = 32,5b0 + 126,3b1
Resolviendo el sistema tenemos: b0 = 7,479
b1= 1,576 ,por lo tanto,
Ŷ  7,479  1,576X
c) Interpretación
b0 = 7,478 : Es probable que un paciente desnutrido

que no sea considerado dentro del
Programa de Alimentación Complementaria
tenga un peso de 7,478 Kg.
b1 = 1,576:Por cada Kg. del alimento complementario,

se espera que probablemente el niño
aumento su peso en 1,576 Kg.
D) Valor observado y valor estimado de Y
El valor observado (Yi) se refiere al nivel efectivo u
observado de la variable Y (peso del niño), mientras
que el valor estimado ( Ŷ ), es el nivel estimado de la
i
variable (peso esperado), obtenido utilizando la
ecuación de regresión. X Y Ŷ
1.0 8.0 9.055
Y
.
Yi

Y
1.5
2.0
10.0
9.0
9.843
10.630
.
2.5 12.0 11.418
3.0 14.0 12.206
Valor 3.5 13.0 12.994
observado Valor 4.0 15.0 13.782
estimado 4.5 17.0 14.570
5.0 14.0 15.358
X 5.5 14.0 16.146

xo
17.4 Error estándar de estimación (Syx)
Mide la disparidad ¨promedio¨ entre los valores

observados y estimados de la variable Y. Se
calcula por la siguiente relación
2
 (Y - Ŷ)
Syx =
n2
14
X Y Ŷ Y  Ŷ Y  Ŷ 2
1.0 8.0 9.055 -1.1 1.112181

1.5 10.0 9.843 0.2 0.024806
2.0 9.0 10.630 -1.6 2.658204
2.5 12.0 11.418 0.6 0.338375
3.0 14.0 12.206 1.8 3.217718
3.5 13.0 12.994 0.0 3.48E-05
4.0 15.0 13.782 1.2 1.483524
4.5 17.0 14.570 2.4 5.905386
5.0 14.0 15.358 -1.4 1.843621
5.5 14.0 46 -2.1 4.604028
32.5 126.0 126.0 0.0 21.2
Reemplazando en la formula
21,20 21,20
Sy x =   2,65
10  2 8
Syx =1,628
El Syx es un indicador del grado de precisión con que

la ecuación de regresión describe la relación entre
las dos variables: cuanto más pequeño, los valores
observado y estimado de Y son razonablemente
cercanos y, la ecuación de regresión es una buena
descripción esa la relación.
17.5 El análisis de correlación
El análisis de correlación es la técnica
estadística que permite describir el grado hasta
el cual una variable está linealmente
relacionada con otra.
Hay dos medidas que se usan para describir la

correlación
 El coeficiente de determinación
 El coeficiente de correlación
A) El coeficiente de determinación
Al construir un modelo de regresión, se define
que “el valor Y depende de X”.
Y = f (X)
Si la relación es lineal: Y = b0 + b1X
Pero en la práctica Y depende también de
“otros factores” diferentes a X:
Y = b 0 + b 1X + 
Parte de los cambios en Y pueden explicarse
por X, a esto se llama variación explicada.
Pero hay cambios en Y que no pueden
explicarse por X, a lo que se llama variación
no explicada.
Yi
Y
Variación Variación
Total no explicada
Yi - Y  Yi - Y 
Variación

 - Y
Explicada Y 
y
VARIACION VARIACION VARIACION

TOTAL = EXPLICADA + NO EXPLICADA
El coeficiente de determinación se puede
calcular del modo siguiente:
variacion explicada
r2 
variacion total
r2 = 
 Ŷ - Y 2
 Y - Y 
2
i
Se elevan al cuadrado, para evitar que  Y - Y  0

obteniéndose un número positivo.
1er Paso: Cálculo de la venta media por vendedor
son ( Y )
n
Y
i1 i
Y=
n
Y1  Y2  Y3  Y4  Y5
Y=
5
9  5  7  14  10 45
Y= 
5 5
Y = 9 unidades
2do Paso: Se calcula la variación total, es decir, la
sumatoria de las desviaciones de las ventas
observadas (Yi) con respecto a la media:  Y - Y
i
2
 
Y Y Y  Y Y  Y2
8.0 12.6 -4.6 21.16
10.0 12.6 -2.6 6.76
9.0 12.6 -3.6 12.96
12.0 12.6 -0.6 0.36
14.0 12.6 1.4 1.96
13.0 12.6 0.4 0.16
15.0 12.6 2.4 5.76
17.0 12.6 4.4 19.36
14.0 12.6 1.4 1.96
14.0 12.6 1.4 1.96
126.0 126.0 0.0 72.4
Y Y  Y  Y  Y  Y 
2
3er Paso: Se calcula la variación explicada, es
decir, la sumatoria de las desviaciones cuadráticas
entre las ventas esperadas y la venta media de la
muestra:  Y - Y
2
Ŷ Y Ŷ  Y 2
Ŷ  Y
9.055 12.6 -3.545 12.5699
9.843 12.6 -2.758 7.6038
10.630 12.6 -1.970 3.8793
11.418 12.6 -1.182 1.3964
12.206 12.6 -0.394 0.1551
12.994 12.6 0.394 0.1553
13.782 12.6 1.182 1.3971
14.570 12.6 1.970 3.8805
15.358 12.6 2.758 7.6055
16.146 12.6 3.546 12.5720
126.0 126.0 0.0 51.2
 Ŷ Y  Ŷ  Y  Ŷ  Y 2
4to Paso: Se compara la variación explicada y
la variación total.
variacion explicada 
 Ŷ - Y 
2
r2 
variacion total
r2 = i 
 Y -Y
2
51,2
r2 =  0,707
72,4
5to Paso: Interpretación: 70,7% de las

variaciones en el incremento de peso, pueden
explicarse por el consumo del complemento
nutricional.
Valores posibles de r2
Si r2 = 1 : Correlación perfecta, es decir, toda

variación de Y puede explicarse por X
Si r2 = 0 : no existe correlación entre X e Y. La

variación explicada es 0. La variable X
no explica nada de los cambios en Y
Resumen
0  r 1
2
Cuanto más cerca a uno, las variables tendrán

mayor correlación.
B) El coeficiente de correlación
Es la raíz cuadrada del coeficiente de
determinación.
r= r2
Sus valores oscilan entre -1 y 1
Cuando r es positivo, indica que X e Y
están directamente relacionados.
Cuando r es negativo, indica que X e Y
están inversamente relacionados.
El coeficiente r tiene el mismo signo que el
coeficiente b1 en la ecuación de regresión
Interpretación del coeficiente de
correlación de Pearson
Fuerte Moderada Débil Débil Moderada Fuerte

Negativa Negativa Negativa Positiva Positiva Positiva
-1 -0,9 -0,5 0 0,5 0,9 1

Perfecta Perfecta
No existe
Negativa correlación Positiva
Ejemplo: r2= 0,707
r = 0,707
r = 0,84
el signo es positivo ya que X e Y están

relacionados directamente como lo indica el
signo del coeficiente b1 en la ecuación de
regresión Ŷ  7,479  1,576X
Interpretación: El incremento de peso (Y) y el
consumo del complemento nutricional (X) se
encuentran directamente asociados.
17.6 Diagnóstico de la regresión: análisis
residual
El análisis residual permite evaluar lo adecuado
del modelo de regresión que ha sido ajustado a
los datos. También sirve para detectar si los
supuestos se cumplen.
A. Evaluación de lo adecuado de modelo ajustado
Los valores del error residual o estimado (i) se
define como la diferencia entre los valores
observados (Yi) y los estimados ( Ŷi ) de la variable
dependiente para los valores dados de Xi
i = Yi - Ŷi
Podemos evaluar lo adecuado del modelo de
regresión ajustado mediante el gráfico de los
residuos (eje vertical) con respecto a los
correspondientes valores de Xi de la variable
independiente (eje horizontal).
Ejemplo: Variable X 1 Gráfico de los residuales
El gráfico muestra un
3
adecuado ajuste entre 2
el incremento de peso
Residuos
1
y el consumo del com- 0

0 1 2 3 4 5 6
-1
plemento nutricional. -2
No se observa una -3
tendencia. Variable X 1
El análisis del gráfico nos brinda el criterio para
adoptar el modelo lineal o dejarlo de lado. Si fuese
así, podríamos probar con modelos no lineales como
el cuadrático, logaritmo o exponencial.
El análisis de residuos se complementa con el
cálculo de los residuos estandarizados (SRi), que
resultan de la división del residuo dividido por su
error estándar.
i
SRi 
S YX 1  hi
En donde 1
hi  
Xi  X2
n
n
 i  nX
2 2
X
i1
Los valores estandarizados nos permiten tomar en
cuenta la magnitud de los residuos en unidades
que reflejen la variación estandarizada alrededor
de la línea de regresión.
Análisis de los residuales

Observación Pronóstico para Y Residuos Residuos estándares
1 9.138461538 -0.138461538 -0.101107641
2 3.276923077 1.723076923 1.258228423
3 6.207692308 0.792307692 0.578560391
4 15 -1 -0.730221853
5 12.06923077 -2.069230769 -1.510997526
6 44.30769231 0.692307692 0.505538206
En el gráfico siguiente, los residuos estandarizados
fueron graficados en función de la variable
independiente (cantidad del complemento nutricional).
Se puede observar de que existe una dispersión
amplia en la gráfica de residuos, no existe un patrón
evidente o una relación entre los residuos
estandarizados y Xi . Los residuos parecen estar
equitativamente distribuidos por arriba y por debajo
de 0, para diferentes valores de X. Podemos concluir
que el modelo ajustado parece ser adecuado.
Residuos estándares
1.5
1
0.5
0
-0.5 0 5 10 15 20
-1
-1.5
-2
B. Evaluación de las suposiciones
a. Homoscedasticidad
b. Normalidad
c. Independencia:
17.7 Medición de la autocorrelación: Durbin-Watson
Una de las suposiciones del modelo de regresión
básico es la independencia de los residuos. Esta
suposición es violada con frecuencia cuando los
datos son recopilados en periodos secuenciales,
debido a que un residuo en cualquier punto del
tiempo puede tender a ser parecido a los residuos
que se encuentran en puntos de tiempo
adyacentes.
El estadístico D de Durbin-Watson mide la
correlación de cada residuo y el residuo del
periodo inmediato anterior al periodo de interés.
El estadístico D (Durbin-Watson)
n

 i i1
   2
D i2
n
 i

i1
2
En la que  i representa el residuo en el periodo i.

Interpretación de D:
Cuando residuos sucesivos están correlacionados
positivamente, el valor de D se aproximará a cero.
Si los resultados no están correlacionados, el valor D
estará cercano a 2.
Si se presentase una autocorrelación negativa, lo
cual rara vez sucede, de valor D tomará un valor
mayor a 2 e, incluso podría aproximarse a su valor
máximo que es 4.
Los resultados de SPSS nos proporciona el
valor de D de Durbin-Watson
Model Summaryb
Change Statistics
R Square
Model Change F Change df1 df2 Sig. F Change Durbin-Watson
1 .707a 19.336 1 8 .002 1.517
a. Predictors: (Constant), Complemento
b. Dependent Variable: AUMENTO
Según este resultado permite afirmar que los residuos

no están correlacionados.
17.8 Estimación por intervalos
A.Intervalo de confianza para 1
  2 
b1 N  1, 
 SCx 
b1  1 b1  1
 t
Sb1 Sy x
SCx
 2 desconocido
Lo que se va hacer es estimar
SCx conocido
 2

se estima mediante la siguiente formula:
 n
  Y 2

  b 2SC

Y 2

n  1 x
S 2
  i 1

n2
yx
-t0 t0
Pr( t 0  t  t 0 )
 
 
 b1  1 
Pr  t 0   t0   1 
 Sy x 
 SCx 
 Sy x S y x 
Pr b1  t 0  1  b1  t 0   1 
 SCx SCx 
B. Intervalo de confianza para 0
  1 x
2

b0    0 , 2   
  n SC 
  x 
b0   0 b0   0
  t n2
Sb0 1 x
2
Sy x 
n SCx
donde: 
 Y  Y
2

  b 2 SC

2

n  0 x
S 2y x  
n2
-t0 t0
Pr(  t 0  t  t 0 )
 b   
Pr  t 0  0 0
 t0   1 
 S 
 b 0 
 
Pr b0  t 0Sb0   0  b0  t 0Sb0  1  
t0 con (n-2) grados de libertad y 

C. Intervalo de confianza para  / YX
0
 1 X
Ŷ  N  y / X0 , 2   0
 X
2
 
 n SCx 
  
Para un nivel dado de confianza, una variación

aumentada alrededor de la línea de regresión,
medida a través del error estándar de la
estimación, tiene como resultado un intervalo
más amplio.
Sin embargo, como se esperaría, un tamaño de
muestra aumentado reduce el ancho del
intervalo.
 
Pr ŷ  t 0S ŷ   y / X0  ŷ  t 0S ŷ  1  
 
donde:
 1 X  x
2
S ŷ  S 2y x  0
n SCx 
 
D. Intervalo de confianza para un valor
individual
Además de obtener una estimación de intervalo
de confianza para el valor promedio, a menudo
es importante tener la capacidad de predecir la
respuesta que se obtendría para un valor
individual.
  
1 X
Ŷ  N  y / X0 , 2 1   0
 X
2
 
  n SCx 
  
El intervalo de predicción está estimando
un valor individual, no un parámetro.
 
Pr ŷ  t 0S ŷ   Y / X0  ŷ  t 0S ŷ  1  
donde:
2 
 
1 X0  x
S ŷ  S y x 1  
2

 n SC x 
 
17.9 Análisis de varianza de la
regresión simple
El análisis de varianza es una técnica que
permite localizar las fuentes de variabilidad
que ayuden a explicar el comportamiento de
la variable dependiente.
SCtotal = SCerror + SCregresión

(SCresidual)
El cuadro de Análisis de Varianza
Fuentes de Suma de Cuadrado F

variabilidad Cuadrados GL Medio calculado E(CMe)
Debido a la 2
b SCX 1
2
b SCx
1
b12SC x  2  12SCx
Regresión S 2y x
 Y 2
 2
Error
Experimental
 Y2

n
 b12SCx n  2 S2y x
Total SCtotal n 1
Asumiendo que existe una regresión lineal,
determine:
A.La ecuación de regresión e interprete los
coeficientes de regresión.
B.El intervalo de confianza para 1y para un valor
individual si X = 3,8.
C.El cuadro de ANOVA para la regresión lineal
D.El valor de ŷ cuando X = 5,1
E.La prueba de hipótesis respectiva a partir del
ANOVA e interprete el resultado.
F.Estime el aumento de peso que puede darse se
consumen 6 Kg. del complemento nutricional
mediante un intervalo e interprete el resultado.
Solución
Primero se realizan los cálculos necesarios:
n  10
 Xi  32,5
 Yi  126
 Xi2  126,25
 Yi2  1660
 Xi Yi  442
A. Cálculo de los coeficientes de regresión:
Ŷ  b0  b1X
b0  Y  b1 X
 Xi Yi  X Y
i i
442 
32,5126
n 10 32,5
b1     1,57
 X 2
126,25 
32,5  20,62
 i
X 2

n
i
10
b0  12,6  (1,57)(3,25)  7,49

La ecuación de regresión será:
Ŷ  7,49  1,57X
Interpretación:
b0= Se espera que el peso que un niño que no
consume este complemento nutricional sea
7,49 Kg.
b1= Por cada Kg. de complemento nutricional, el
peso del niño se incrementará en 1,57 Kg.
B. Intervalo de confianza para 1

 Sy x Sy x 

Pr 1,57  t 0,10 8   1  1,57  t 0,10 8    1  0,10

 SCx SCx 

 Sy x Sy x 
Pr 1,57  1,86  1  1,57  1,86   0,90
 4,54 4,54 
1660 
126 
2
 1,57  20,62
2
10 72,7  50,82
S 2
yx    2,69
8 8
S y x  1,642
  1,642   1,642 
Pr 1,57  1,86   1  1,57  1,86   0,90
  4,54   4,54 
Pr0,8973  1  2,2427  0,90
Interpretación: Hay 0,90 de confianza que el

intervalo que se ha construido, pertenezca al
grupo de intervalos que contienen al verdadero
parámetro 1.
Intervalo de confianza para un valor individual
Si X = 3,8 entonces Ŷ  13,45
PrŶ  t 0S Ŷ  Yind  Ŷ  t 0S Ŷ   1  
Pr13,45  (1,86)SŶ  Yind  13,45  (1,86)SŶ   1  
1 3,80  3,25
2
SŶ  1,642 1   
10 20,62
Interpretación
C. Análisis de Varianza
Fuentes de Suma de Cuadrado F

variabilidad Cuadrados GL Medio calculado E(CMe)
Debido a la
Regresión 50,82 1 50,82 18,84
Error
Experimental 21,58 8 2,697
Total
72,40 9
Interpretación: Se rechaza la hipótesis planteada. El
complemento nutricional si explica significativamente
los cambios en el peso de los niños.
D. Si X = 5,1
Ŷ  7,49  1,57(5,51)
Ŷ  16,14
E. Prueba de Hipótesis acerca de

1
1. Hp: 1= 0
Ha: 1 0
2.  = 0,10 CMeregresión
Fc 
CMeerror
3.
Supuestos
- La muestra seleccionada al azar
- La población se distribuye al azar
- Los valores de X fijas y de Y variables (o
aleatorias)
- Asunciones de la regresión lineal simple
4. Criterios de decisión
F1-/2 F/2
0,0041 5,32
Si 5,32  Fc  0,0041se rechaza la hipótesis planteada

5. Cálculos
50,82
Fc   18,84
2,697
6. Conclusiones
La variable “complemento nutricional” es
apropiada para explicar el comportamiento
del “aumento de peso” en niños desnutridos.
Además, la ecuación de regresión puede ser
usada con fines de predicción hasta cierto
límite.
F. ¿ Para X = 6, que promedio de Y vamos a obtener?
 
Pr 16,91  1,86S Ŷ   Y X0  16,91  1,86 S Ŷ  1  
17.10 Resultados con Excel
Estadísticas de la regresión
Coeficiente de correlación múltiple 0.99582747
Coeficiente de determinación R^2 0.99167236
R^2 ajustado 0.98959045
Error típico 1.5310881
Observaciones 6
ANÁLISIS DE VARIANZA
GL SC CMe F cal P-valor
Regresión 1 1116.62308 1116.62308 476.328138 2.60786E-05
Residuos 4 9.37692308 2.34423077
Total 5 1126
Coefic Error Estadíst Inferior Superior Inferior Superior

ientes típico ico t P-valor 95% 95% 95.0% 95.0%
Intercepción 0.346154 0.9173433 0.37734384 0.72508508 -2.200804756 2.893112448 -2.200804756 2.893112448
Variable X 1 2.930769 0.13428531 21.824943 2.6079E-05 2.557932668 3.303605794 2.557932668 3.303605794

Ejemplo:
En la Farmacia Santa Rita, se desea determinar
la relación lineal simple entre la experiencia del
vendedor y las ventas durante un mes. Se
seleccionan 5 vendedores, los datos registrados
se presentan a continuación:
VENDEDOR CARLOS PEDRO JOSE JUAN MANUEL

EXPERIENCIA
(años):X 3 1 2 5 4
VENTAS
(unidades) : Y 9 5 7 14 10
Caso 1
Un equipo de profesionales en salud mental de un

hospital psiquiátrico donde el tiempo de
permanencia es largo, quiere medir el nivel de
respuesta de pacientes retraídos mediante un
programa de terapia de remotivación. Para este
propósito se contaba con una prueba
estandarizada, que era costosa y su aplicación
tomaba mucho tiempo. Para salvar este obstáculo,
el equipo creó una prueba más fácil de aplicar.
Para probar la utilidad de este nuevo instrumento
para medir el nivel de respuesta del paciente, el
equipo decidió examinar la relación entre las
calificaciones obtenidas con la nueva prueba y las
calificaciones obtenidas con la prueba
estandarizada.
Paciente 1 2 3 4 5 6 7 8 9 10 11
Prueba nueva 50 55 60 65 70 75 80 85 90 95 100
Prueba estandar 61 61 59 71 80 76 90 106 98 100 114
Caso 2
Se llevo a cabo un experimento para estudiar el
efecto de cierto medicamento para disminuir la
frecuencia cardiaca en adultos. Se reunieron los
siguientes datos: dosis en miligramos del
medicamento y la diferencia entre la frecuencia
cardiaca mas baja después de la administración
del medicamento y un control antes de
administrarlo.
Dosis (mg) 1 1 1 1 2 2 2 2 3 3 3 3
Reduccion ritmo cardiaco 10 8 12 12 14 12 16 18 17 20 18 20
Determine la ecuación de regresión lineal y

explique el valor de los coeficientes de regresión.
Calcule e interprete el coeficiente de correlación y
el coeficiente de determinación.
Hoja de Comprobación
1. El análisis de regresión se usa para describir que tan bien

una ecuación de estimación describe la relación que está
estudiando
2. Dado que la ecuación para una línea es Y = 26 - 24X,

podemos decir que la relación Y con X es directa y lineal
3. Un valor r2 cercano a cero indica una fuerte correlación

entre X y Y
4. Los análisis de regresión y correlación se usan para
determinar relaciones de causa y efecto
2
5. El coeficiente de correlación de muestra, r, no es nada más que r
y no podemos interpretar su significado directamente como un
porcentaje del mismo tipo
6. El error estándar de la estimación mide la variabilidad de los

valores observados alrededor de la ecuación de regresión.
7. La línea de regresión se deriva de una muestra y no de toda la

población
8. Podemos interpretar el coeficiente de determinación de muestra
como la cantidad de la variación en Y que es explicada por la línea
de regresión
9. Las líneas trazadas a cada lado de la línea de regresión a 1, 2 y 3

veces el valor del error estándar de la estimación se denominan líneas
de confianza
10.La ecuación de estimación es válida sólo sobre el mismo intervalo

que el dado por los datos originales de muestra sobre los cuales se
desarrolló
11.En al ecuación Y = a + bX para la variable dependiente Y y la

variable independiente X, la intersección Y es b.
12.Si una línea se ajusta a un conjunto de puntos mediante el método
de mínimos cuadrados, los errores individuales positivos y
negativos desde la línea suman cero.
13. Si Se = 0 para una ecuación de estimación, debe estimar

perfectamente la variable dependiente en los puntos observados
14.Supongamos que la pendiente de una ecuación de estimación es

positiva. Entonces el valor de r debe ser la raiz cuadrada positiva
de r2
15.Si r = 0.8, entonces la ecuación de regresión explica 80% de la
variación total en la variable dependiente
16.El coeficiente de correlación es el porcentaje de la variación total

de la variable dependiente que es explicada por la regresión
17.El error estándar de la estimación es medido perpendicularmente

desde la línea de regresión más que sobre el eje X
18.Al cuadrar los errores individuales, el método de mínimos

cuadrados magnidica todas las desviaciones desde la línea de
regresión estimada
19. Una ecuación de regresión no puede ser válida al ampliarse fuera del
intervalo de muestra de la variable independiente
20. Un valor r2 implica que no existe una relación de causa-efecto

significativa entre X y Y
21. Una valor pequeño de r2 implica que no existe una relación de causa-
efecto significativa entre X y Y

Correlacion y Regresion

Încărcat de

Informații document

Descriere originală:

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Correlacion y Regresion

Încărcat de

Drepturi de autor:

Formate disponibile

REGRESIÓN

Es un gráfico que permite detectar la

Presente la información en un diagrama de dispersión

Si dos variables, como X e Y, están

Valor Valor Cambio

Y = 10 + 3 X + 4 X2 : ecuación de segundo grado

Y = 3 + 7X + 5 X3 : ecuación de tercer grado

 Múltiple: Muestra la relación entre tres o más

Para poder establecer la relación cuantitativa

Es el procedimiento matemático utilizado para

La ecuación general Y  = b + b X se llama

Para aplicar las fórmulas, 3.5 13.0 12.3 45.5

b0 = 7,478 : Es probable que un paciente desnutrido

b1 = 1,576:Por cada Kg. del alimento complementario,

X 5.5 14.0 16.146

Mide la disparidad ¨promedio¨ entre los valores

1.0 8.0 9.055 -1.1 1.112181

El Syx es un indicador del grado de precisión con que

Hay dos medidas que se usan para describir la

VARIACION VARIACION VARIACION

Se elevan al cuadrado, para evitar que  Y - Y  0

5to Paso: Interpretación: 70,7% de las

Si r2 = 1 : Correlación perfecta, es decir, toda

Si r2 = 0 : no existe correlación entre X e Y. La

Cuanto más cerca a uno, las variables tendrán

Fuerte Moderada Débil Débil Moderada Fuerte

-1 -0,9 -0,5 0 0,5 0,9 1

el signo es positivo ya que X e Y están

Ejemplo: Variable X 1 Gráfico de los residuales

y el consumo del com- 0

Análisis de los residuales

En la que  i representa el residuo en el periodo i.

Según este resultado permite afirmar que los residuos

t0 con (n-2) grados de libertad y 

Para un nivel dado de confianza, una variación

SCtotal = SCerror + SCregresión

Fuentes de Suma de Cuadrado F

b0  12,6  (1,57)(3,25)  7,49

Pr0,8973  1  2,2427  0,90

Interpretación: Hay 0,90 de confianza que el

Pr13,45  (1,86)SŶ  Yind  13,45  (1,86)SŶ   1  

Fuentes de Suma de Cuadrado F

E. Prueba de Hipótesis acerca de

Si 5,32  Fc  0,0041se rechaza la hipótesis planteada

Coefic Error Estadíst Inferior Superior Inferior Superior

Intercepción 0.346154 0.9173433 0.37734384 0.72508508 -2.200804756 2.893112448 -2.200804756 2.893112448

Variable X 1 2.930769 0.13428531 21.824943 2.6079E-05 2.557932668 3.303605794 2.557932668 3.303605794

VENDEDOR CARLOS PEDRO JOSE JUAN MANUEL

Un equipo de profesionales en salud mental de un

Determine la ecuación de regresión lineal y

1. El análisis de regresión se usa para describir que tan bien

2. Dado que la ecuación para una línea es Y = 26 - 24X,

3. Un valor r2 cercano a cero indica una fuerte correlación

6. El error estándar de la estimación mide la variabilidad de los

7. La línea de regresión se deriva de una muestra y no de toda la

9. Las líneas trazadas a cada lado de la línea de regresión a 1, 2 y 3

10.La ecuación de estimación es válida sólo sobre el mismo intervalo

11.En al ecuación Y = a + bX para la variable dependiente Y y la

13. Si Se = 0 para una ecuación de estimación, debe estimar

14.Supongamos que la pendiente de una ecuación de estimación es

16.El coeficiente de correlación es el porcentaje de la variación total

17.El error estándar de la estimación es medido perpendicularmente

18.Al cuadrar los errores individuales, el método de mínimos