Documente Academic
Documente Profesional
Documente Cultură
La medida del grado de asociación entre dos variables se denomina coeficiente de correlación
simple
Tipos de correlación
1º Correlación directa
La correlación directa se da cuando al aumentar una de las variables la
otra aumenta.
La recta correspondiente a la nube de puntos de la distribución es una
recta creciente.
f(X)
X
Y i = α + βXi + E i
Siendo:
Parámetros:
a : Origen de la recta
β : Pendiente de la recta
E i : Error aleatorio
2º Correlación inversa
f(x)
f(X)
Grado de correlación
1. Correlación fuerte
La correlación será fuerte cuanto más cerca esté los puntos de la
recta.
f(X)
2. Correlación débil
La correlación será débil cuanto más separados estén los puntos
de la recta
f(x)
. X
−1 ≤ r ≤ 1
Sin embargo estos valores resultan arbitrarios, puesto que dependerá de la naturaleza
INTRODUCCION
La regresión y la correlación son dos técnicas estadísticas, que sirven para identificar y
cuantificar alguna relación funcional entre dos o más variables, donde una variable depende de
la otra variable.
Se puede decir que Y depende de X, en donde Y e X son dos variables cualquiera en un modelo
de regresión simple.
−𝐒𝐢𝐦𝐩𝐥𝐞
(𝐱, 𝐲)
REGRESION Y CORRELACION
𝐌𝐮𝐥𝐭𝐢𝐩𝐥𝐞
(𝐱, 𝐲, 𝐳)
{(𝐱, 𝐲, 𝐳, 𝐰)
Análisis de Regresión:
Es el método estadístico que investiga y define la relación funcional entre dos o más variables.
1. Regresión lineal simple
Modelo: La línea recta: 𝒚∗ = 𝒂 + 𝒃𝒙
Y i = α + βXi + E i
Siendo:
Parámetros:
^
El error en el pronóstico es: E i = Y i – Y i
^
Y i : S e lee Y estimado.
EJEMPLO:
Con la información de seis Familias, sobre ingresos y consumo diario , estimar el consumo de
las familias cuyos Ingresos son 32 y 35 nuevos soles diarios, respectivamente.
VARIABLE X=Ingreso
Consumo
X Y XY XX YY
35 30 1050 1225 900
40 35 1400 1600 1225
38 30 1140 1444 900
55 50 2750 3025 2500
42 35 1470 1764 1225
60 50 3000 3600 2500
270 230 10810 12658 9250 Ingreso
∑𝐗 ∑𝐘 ∑ 𝐗𝐘 ∑ 𝐗𝟐 ∑ 𝐘𝟐
Para realizar estos ejercicios primero debemos fijarnos en la nube de puntos. La nube de puntos
nos da una idea de cómo va a ser el modelo a usar en el estudio- Debemos analizar el gráfico
como : la tendencia, la pendiente, tipo de correlación, etc.
Luego debemos encontrar los valores de “a” y “b” usando las fórmulas de las ecuaciones.
∑ 𝑦 = 𝑎𝑛 + 𝑏 ∑ 𝑥
∑ 𝑥𝑦 = 𝑎 ∑ 𝑥 + 𝑏 ∑ 𝑥 2
230 = 𝑎. 6 + 𝑏. 270
10810 = 𝑎. 270 + 𝑏12658
a= - 2.4142
b= 0.9055
Ejemplo: Se intenta predecir el ausentismo laboral Y (en horas al año) a partir del
salario X (en nuevos soles).
Es el método de estimación más utilizado, por el cual las cantidades a estimar son determinadas
minimizando la suma de los cuadrados de las diferencias entre los valores observados (Yi) y los
valores estimados (Y)
Procedimiento del cálculo de los coeficientes de regresión
Ecuación lineal de regresión:
Y = a+bX
a = ̅ - b𝑿
𝒀 ̅
̅
donde: 𝒀 ES LA MEDIA DE Y
̅
𝑿 ES LA MEDIA DE X
Y´ = a + b X
̂ = 47,06 +1,86 X
Luego: 𝒀
La distancia entre “puntos del modelo” y “puntos observados” nos permite calcular el error
Error estándar de estimación :
El primer paso que daremos será determinar el modelo de regresión que se va a utilizar.
Un procedimiento sencillo para seleccionar el modelo de regresión a utilizar, consiste en graficar
la variable respuesta contra la variable de predicción. Si la gráfica revela una tendencia lineal,
deberá suponerse un modelo de regresión lineal.
Ejemplo:
Queremos estimar la cantidad de ventas según las llamadas que realizan diez vendedores a
sus clientes.
Primero: identificar las variables dependiente e independiente.
Segundo Planteamiento de una hipótesis Ho: A mayor llamadas mayor ventas.
Tercero: Nube de puntos o diagrama de dispersión
Cuarto: Hallar la correlación de Pearson y el coeficiente de determinación e interpretar
Quinto: hallar los coeficientes de regresión
Sexto: Formular el modelo de regresión
Sétimo:Si un vendedor hiciera 45 llamadas , cuántas ventas haría?
Octavo: Si un vendedor hiciera 12 ventas, cuántas llamadas posible hizo?
vendedor Nº Nº
llamadas ventas
1 20 3
2 40 7
3 20 4
4 30 6
5 10 2
6 10 4
7 20 4
8 20 5
9 20 5
10 30 6
ACTIVIDAD
1.- Para cada uno de los siguientes conjunto de datos bivariantes graficar sus correspondientes
diagramas de dispersión de puntos. Qué tipo de relación funcional, cree usted, se podría ajustar
mejor a los datos? Porqué?
x 6 14 15 18 10 16 14 10 18 17
y 8 15 16 20 12 20 13 12 22 20
x 3 6 5 1 4 2 3 7 4
y 10 14 12 8 18 11 11 15 13
2.- Con la información del presente cuadro; determinar la relación entre ingresos (X) y ahorros
(Y) mensuales de las siguientes nueve familias en nuevos soles.
Año Miles
de t.
2011 14
2012 15
2013 16
2014 18
2015 17
2016 20
2017 25
2018 32
4.- Ingresos y gastos diarios de una muestra de 6 hogares en la Campiña del km 7- Chimbote.
INGRESOS GASTOS
10 9
12 12
15 14
18 15
20 18
25 20
5. Con la siguiente información del valle del Santa, ESTIMAR LA PRODUCCION DE MAÍZ PARA EL AÑO 2020
AÑO X PRODUCCIÒN.(MILES DE
Toneladas Y
2011 40
2012 53
2013 50
2014 70
2015 78
2016 74
2017 87
TOTALES
A) HALLAR NUBE DE PUNTOS
B) HALLAR EL MODELO DE PRODUCCION PARA PREDECIR LA PRODUCCION DE MAÍZ PARA ESTE AÑO.
C) SI LA PRODUCCION FUESE 100 000 TONELADAS A QUE AÑO LE CORRESPONDERÁ?
6.- La producción de maíz en Ancash en Miles de toneladas durante los años
2009 - 2016
Año Miles
de t.
2009 14
2010 14
2011 15
2012 16
2013 18
2014 17
2015 20
2016 21
TOTALES
8.- En el siguiente cuadro vemos las notas de los alumnos según las horas de ocio
HORAS DE NOTAS
OCIO
1 18
2 16
3 17
4 13
5 10
9.- En el siguiente cuadro vemos los puntajes alcanzados por los alumnos según las horas de
estudio
HORAS DE PUNTAJE
ESTUDIO
2 8
3 11
5 15
6 14
8 16
1. El número de españoles (en millones) ocupados en la agricultura, para los años que se
indican, era:
Año 1980 1982 1984 1986 1988 1990 1992 1994
Ocupados 2,1 2,04 1,96 1,74 1,69 1,49 1,25 1,16
a) ¿Podría explicarse su evolución mediante una recta de regresión?
b) ¿Qué limitaciones tendrían las estimaciones hechas por esa recta?
[sol] a) Si; b) No vale para hacer estimaciones alejadas de los años considerados.
2. Asocia las rectas de regresión y = –x +16, y = 2x – 12, y = 0,5x + 5 a las nubes de puntos
siguientes:
3. Asigna los coeficientes de correlación lineal r = 0,4; r = –0,85 y r = 0,7, a las nubes del
problema anterior.
[sol] a) Respectivamente: (c), (b), (a). b) Respectivamente: (a), (b), (c)
Tipo II. Cálculo de la correlación y regresión
6. La tabla siguiente muestra las notas obtenidas por 8 alumnos en un examen, las horas de
estudio dedicadas a su preparación y las horas que vieron la televisión los días previos al
examen.
Nota 5 6 7 3 5 8 4 9
Horas de
7 10 9 4 8 10 5 14
estudio
Horas de TV 7 6 2 11 9 3 9 5
a) Representa gráficamente los diagramas correspondientes a nota-estudio y nota-TV.
b) ¿Se observa correlación entre las variables estudiadas? ¿De qué tipo? ¿En qué caso
estimas que es más fuerte?
[sol] b) Sí. Directa; inversa.
7. Con los datos del problema anterior, halla el coeficiente de correlación de nota-estudio y
nota-TV. ¿Qué puede deducirse con más precisión conociendo la nota que obtuvo
una persona en el examen: el tiempo que dedicó al estudio o el que dedicó a ver la televisión?
[sol] 0,943382 y (0,846283. El tiempo que dedicó al estudio.