Sunteți pe pagina 1din 12

UNIVERSIDAD CESAR VALLEJO

ASIGNATURA: Cultura Estadística para la Investigación


DOCENTE: Mg. MANUEL FERNÁNDEZ POLO

SESION 11: Aplicaciones con el diagrama de dispersión. Coeficiente de correlación lineal de


Pearson. Modelo de regresión lineal simple (Uso de software estadístico o EXCEL). Informe
Estadístico: Análisis (discusión)

CORRELACIÓN: COEFICIENTE DE PEARSON; COEFICIENTE DE DETERMINACIÓN.

La correlación trata de establecer la relación o dependencia que existe


entre las dos variables que intervienen en una distribución bidimensional .

Es decir, determinar si los cambios en una de las variables


influyen en los cambios de la otra. En caso de que suceda, dire mos que
las variables están correlacionadas o que hay correlación entre ellas.
D i c h o d e o t r a f o r m a , c o r r e l a c i ó n e s el grado de asociación que existe entre
varias variables, para ver si las muestras tienen significancia en el estudio.

Tenemos que identificar las variables: Dependiente e


independiente.
Ingresos ( ) gastos ( )
Edad ( ) Coeficiente intelectual de las personas ( )
Salidas ( ) Entradas ( )
Notas ( ) Horas de estudio ( )
N° de Ventas ( ) N° de exposiciones ( )
Cosecha de un producto ( ) cantidad de riego, abono, fertilizantes ( )

El análisis de correlación, además de medir la asociación entre variables, mide también la


intensidad de dicha asociación, la correlación también puede ser simple o múltiple. Uno de los
coeficientes más utilizados para medir la correlación entre dos variables cuantitativas es el de
Pearson.

𝐧 ∑𝐱𝐲 − (∑𝐱) ( ∑𝐲)


r = -1 ≤ r ≤ 1
√[ 𝐧 ∑ 𝒙𝟐 − (∑𝐱)𝟐 ] [ 𝐧 ∑ 𝒚𝟐 − (∑𝐲)𝟐 ]

La medida del grado de asociación entre dos variables se denomina coeficiente de correlación
simple

Tipos de correlación
1º Correlación directa
La correlación directa se da cuando al aumentar una de las variables la
otra aumenta.
La recta correspondiente a la nube de puntos de la distribución es una
recta creciente.

f(X)

X
Y i = α + βXi + E i

Siendo:
Parámetros:

a : Origen de la recta
β : Pendiente de la recta
E i : Error aleatorio

2º Correlación inversa

La correlación inversa se da cuando al aumentar una de las


variables la otra disminuye.

La recta correspondiente a la nube de puntos de la distribución es


una recta decreciente.

f(x)

3º La dispersión de puntos tiene una forma redondeada.

f(X)

Grado de correlación

El grado de correlación indica la proximidad que hay entre los


puntos de la nube de puntos. Se pueden dar tres tipos:

1. Correlación fuerte
La correlación será fuerte cuanto más cerca esté los puntos de la
recta.

f(X)

2. Correlación débil
La correlación será débil cuanto más separados estén los puntos
de la recta
f(x)

. X

3. Correlación nula (hacer el gráfico)

La correlación nula se da cuando no hay dependencia de ningún


tipo entre las variables.
Si r = 0 los datos son “incorrelacionados”
P R O P I E D AD E S D E L C O E F I C I E N T E D E C O R R E L AC I Ó N

1. El coeficiente de correlación no varía al hacerlo la escala de medición.

Es decir, si expresamos la altura en metros o en centímetros el


coeficiente de correlación no varía.

2. El signo del coeficiente de correlación es el mismo que el de la


covarianza.

Si la covarianza es positiva, la correlación es directa.

Si la covarianza es negativa, la correlación es inversa.

Si la covarianza es nula, no existe correlación.

3. El coeficiente de correlación lineal es un número real comprendido entre


: -1 y 1

−1 ≤ r ≤ 1

4. Si el coeficiente de correlación lineal toma valores cercanos a −1 la


correlación es fuerte e inversa, y será tanto más fuerte cuanto más s e
aproxime r a −1.

5. Si el coeficiente de correlación lineal toma valores cercanos a 1 la


correlación es fuerte y directa, y será tanto más fuerte cuanto más se
aproxime r a 1.

6. Si el coeficiente de correlación lineal toma valores cercanos a 0, la


correlación es débil.

7. Si r = 1 ó −1, los puntos de la nube están sobre la recta creciente o


decreciente. Entre ambas variables hay dependencia funcional.

En la interpretación clásica del coeficiente de correlación, se sostiene que si:

a) 0.00 ≤ r < 0,30 existe correlación no significativa


b) 0.30 ≤ r < 0,50 existe correlación baja
c) 0.50 ≤ r < 0,75 existe una significativa correlación
d) 0.75 ≤ r < 1,00 existe alto grado de asociación

Sin embargo estos valores resultan arbitrarios, puesto que dependerá de la naturaleza

del problema que se investiga así como el tamaño de la muestra.


COEFICIENTE DE DETERMINACIÓN: (R2 )
Expresa la variación de la variable dependiente que es explicada por la variable
independiente.
Se halla elevando al cuadrado el valor del coeficiente de Correlación de PEARSON

REGRESION LINEAL SIMPLE: DIAGRAMA DE DISPERSION, COEFICIENTE DE REGRESION,


PREDICCIONES.

INTRODUCCION

Es frecuente tanto en la investigación científica como en el análisis cuantitativo para la toma de


decisiones, que el análisis estadístico esté orientado al análisis de la asociación entre dos o
más variables. Ejemplo el rendimiento de un alumno universitario al finalizar el primer ciclo de
estudios, con respecto a su rendimiento en secundaria y su preparatoria.
El análisis de regresión trata de establecer el tipo de relación entre variable, mediante una
relación funcional. Esta relación funcional permite predecir o estimar el valor de una de ellas.
Cuando en el análisis de regresión se utiliza solo una variable independiente se trata de una
regresión simple y cuando se consideran dos o más variables independientes se trata de una
regresión múltiple.
Uno de los usos más frecuentes de la regresión es la predicción, ejemplos: pronóstico de
ventas, evaluar el rendimiento de trabajadores, determinar el grado de satisfacción de los
trabajadores, etc.

La regresión y la correlación son dos técnicas estadísticas, que sirven para identificar y
cuantificar alguna relación funcional entre dos o más variables, donde una variable depende de
la otra variable.
Se puede decir que Y depende de X, en donde Y e X son dos variables cualquiera en un modelo
de regresión simple.

−𝐒𝐢𝐦𝐩𝐥𝐞
(𝐱, 𝐲)
REGRESION Y CORRELACION
𝐌𝐮𝐥𝐭𝐢𝐩𝐥𝐞
(𝐱, 𝐲, 𝐳)
{(𝐱, 𝐲, 𝐳, 𝐰)

Análisis de Regresión:
Es el método estadístico que investiga y define la relación funcional entre dos o más variables.
1. Regresión lineal simple
Modelo: La línea recta: 𝒚∗ = 𝒂 + 𝒃𝒙

Objetivo: predecir una variable Y (dependiente o criterio) a partir de una variable X


(Independiente o predictiva). Ambas variables cuantitativas.
Para un caso i la ecuación en la población es:

Y i = α + βXi + E i

Siendo:
Parámetros:

a : Es el punto en el que la recta corta al eje vertical (Y) y se denomina


constante la ecuación de la recta
β : Pendiente de la recta, expresa el cambio medio que se producen en Y por
c/unidad de cambio que se origina en X.
Ei : Error aleatorio
En la muestra se estima α y β con a y b:
Con estos estimadores, la ecuación es:
Y i = a +b Xi + E i

^
El error en el pronóstico es: E i = Y i – Y i
^
Y i : S e lee Y estimado.

EJEMPLO:

Con la información de seis Familias, sobre ingresos y consumo diario , estimar el consumo de
las familias cuyos Ingresos son 32 y 35 nuevos soles diarios, respectivamente.

VARIABLE X=Ingreso

VARIABLE Y=Consumo DISPERSION DE PUNTOS

Consumo

X Y XY XX YY
35 30 1050 1225 900
40 35 1400 1600 1225
38 30 1140 1444 900
55 50 2750 3025 2500
42 35 1470 1764 1225
60 50 3000 3600 2500
270 230 10810 12658 9250 Ingreso

∑𝐗 ∑𝐘 ∑ 𝐗𝐘 ∑ 𝐗𝟐 ∑ 𝐘𝟐

Para realizar estos ejercicios primero debemos fijarnos en la nube de puntos. La nube de puntos
nos da una idea de cómo va a ser el modelo a usar en el estudio- Debemos analizar el gráfico
como : la tendencia, la pendiente, tipo de correlación, etc.

Luego debemos encontrar los valores de “a” y “b” usando las fórmulas de las ecuaciones.

Ecuaciones Normales (para tu línea recta)

∑ 𝑦 = 𝑎𝑛 + 𝑏 ∑ 𝑥
∑ 𝑥𝑦 = 𝑎 ∑ 𝑥 + 𝑏 ∑ 𝑥 2
230 = 𝑎. 6 + 𝑏. 270
10810 = 𝑎. 270 + 𝑏12658

a= - 2.4142
b= 0.9055

Luego formamos el modelo de regresión

Escriba aquí la ecuación.


ESTIMACIONES
̂ = −𝟐. 𝟒𝟏𝟒𝟐 + 𝟎. 𝟗𝟎𝟓𝟓𝒙
𝒀 X ̂
𝒀
(32) 32 26.56
(55) 55 47.38

Ejemplo: Se intenta predecir el ausentismo laboral Y (en horas al año) a partir del
salario X (en nuevos soles).

a.- Construir el diagrama de dispersión de puntos


b.- hallar los parámetros
c.- hallar la ecuación o modelo de predicción
d.- estimar la recta

X( NUEVOS SOLES) Y:( HORA)


150 300
200 406
175 442
160 330
210 422
560 840

METODO DE LOS MINIMOS CUADRADOS PARA HALLAR LOS PARÀMETROS

Es el método de estimación más utilizado, por el cual las cantidades a estimar son determinadas
minimizando la suma de los cuadrados de las diferencias entre los valores observados (Yi) y los
valores estimados (Y)
Procedimiento del cálculo de los coeficientes de regresión
Ecuación lineal de regresión:

Y = a+bX

Cálculo de los parámetros de la regresión a y b

𝐧 ∑𝐱𝐲 − (∑𝐱) ( ∑𝐲)


b=
𝐧 ∑ 𝒙𝟐 − (∑𝐱)𝟐

a = ̅ - b𝑿
𝒀 ̅

̅
donde: 𝒀 ES LA MEDIA DE Y
̅
𝑿 ES LA MEDIA DE X

Luego formamos el modelo de regresión reemplazando sus valores respectivos.

Y´ = a + b X

̂ = 47,06 +1,86 X
Luego: 𝒀

La distancia entre “puntos del modelo” y “puntos observados” nos permite calcular el error
Error estándar de estimación :

El primer paso que daremos será determinar el modelo de regresión que se va a utilizar.
Un procedimiento sencillo para seleccionar el modelo de regresión a utilizar, consiste en graficar
la variable respuesta contra la variable de predicción. Si la gráfica revela una tendencia lineal,
deberá suponerse un modelo de regresión lineal.

Ejemplo:
Queremos estimar la cantidad de ventas según las llamadas que realizan diez vendedores a
sus clientes.
Primero: identificar las variables dependiente e independiente.
Segundo Planteamiento de una hipótesis Ho: A mayor llamadas mayor ventas.
Tercero: Nube de puntos o diagrama de dispersión
Cuarto: Hallar la correlación de Pearson y el coeficiente de determinación e interpretar
Quinto: hallar los coeficientes de regresión
Sexto: Formular el modelo de regresión
Sétimo:Si un vendedor hiciera 45 llamadas , cuántas ventas haría?
Octavo: Si un vendedor hiciera 12 ventas, cuántas llamadas posible hizo?

vendedor Nº Nº
llamadas ventas
1 20 3
2 40 7
3 20 4
4 30 6
5 10 2
6 10 4
7 20 4
8 20 5
9 20 5
10 30 6

ACTIVIDAD

1.- Para cada uno de los siguientes conjunto de datos bivariantes graficar sus correspondientes
diagramas de dispersión de puntos. Qué tipo de relación funcional, cree usted, se podría ajustar
mejor a los datos? Porqué?

x 6 14 15 18 10 16 14 10 18 17
y 8 15 16 20 12 20 13 12 22 20

x 3 6 5 1 4 2 3 7 4
y 10 14 12 8 18 11 11 15 13

2.- Con la información del presente cuadro; determinar la relación entre ingresos (X) y ahorros
(Y) mensuales de las siguientes nueve familias en nuevos soles.

X 350 400 450 500 950 850 700 900 600


Y 100 110 130 260 350 350 250 320 230

a) Dibuje el diagrama de dispersión y describir la tendencia


b) Encuentre la ecuación de la regresión o modelo de regresión
c) Pronosticar los ahorros para un ingreso de 1200 nuevos soles
3.- La producción de maíz en Ancash en Miles de toneladas durante los años
2011- 2018

Año Miles
de t.
2011 14
2012 15
2013 16
2014 18
2015 17
2016 20
2017 25
2018 32

Fuente; Ministerio de Agricultura.

a) Representar los datos en diagrama de dispersión


b) Determinar el modelo
c) Estimar para los años 2020; 2021.

4.- Ingresos y gastos diarios de una muestra de 6 hogares en la Campiña del km 7- Chimbote.
INGRESOS GASTOS
10 9
12 12
15 14
18 15
20 18
25 20

a.- Identificar las variables independiente y dependiente


b.- Nube de puntos
c.- Coeficiente de correlación
d.- Coeficiente de determinación
e.- Hallar los parámetros de la regresión (a y b)
f.- Obtener el modelo de predicción
g.- Estimar cuánto serán los gastos de una familia que tienen de ingresos de 40
soles diarios.

5. Con la siguiente información del valle del Santa, ESTIMAR LA PRODUCCION DE MAÍZ PARA EL AÑO 2020
AÑO X PRODUCCIÒN.(MILES DE
Toneladas Y
2011 40
2012 53
2013 50
2014 70
2015 78
2016 74
2017 87
TOTALES
A) HALLAR NUBE DE PUNTOS
B) HALLAR EL MODELO DE PRODUCCION PARA PREDECIR LA PRODUCCION DE MAÍZ PARA ESTE AÑO.
C) SI LA PRODUCCION FUESE 100 000 TONELADAS A QUE AÑO LE CORRESPONDERÁ?
6.- La producción de maíz en Ancash en Miles de toneladas durante los años
2009 - 2016

Año Miles
de t.
2009 14
2010 14
2011 15
2012 16
2013 18
2014 17
2015 20
2016 21

Fuente; Ministerio de Agricultura.

a) Representar los datos en diagrama de dispersión


b) Determinar el modelo
c) Estimar la producción para los años 2018 y 2020.

7 .- En el siguiente ejemplo: En un campo experimental se aplicó úrea a cada parcela


experimental y vemos su resultado.

a.- Reconocer las variables X e Y


b.- Nube de puntos y observe la tendencia
c.- Hallar el coeficiente de correlación e interpretar
d.- Hallar el coeficiente de determinación e interpretar

PARCELA APLICACIÓN RENDIMIENTO


DE ÚREA EN K. EN
TONELADAS
1 50 20
2 60 25
3 75 30
4 100 32
5 120 40
6 150 50

TOTALES
8.- En el siguiente cuadro vemos las notas de los alumnos según las horas de ocio

HORAS DE NOTAS
OCIO
1 18
2 16
3 17
4 13
5 10

a.- Reconocer las variables X e Y


b.- Nube de puntos y observe la tendencia
c.- Hallar el coeficiente de correlación e interpretar
d.- Hallar el coeficiente de determinación e interpretar

9.- En el siguiente cuadro vemos los puntajes alcanzados por los alumnos según las horas de
estudio

HORAS DE PUNTAJE
ESTUDIO
2 8
3 11
5 15
6 14
8 16

a.- Reconocer las variables X e Y


b.- Nube de puntos y observe la tendencia
c.- Hallar el coeficiente de correlación e interpretar
d.- Hallar el coeficiente de determinación e interpretar

EJERCICIOS REGRESION Y CORRELACION LINEAL RESUELTOS


Correlación y regresión

 1. El número de españoles (en millones) ocupados en la agricultura, para los años que se
indican, era:
Año 1980 1982 1984 1986 1988 1990 1992 1994
Ocupados 2,1 2,04 1,96 1,74 1,69 1,49 1,25 1,16
a) ¿Podría explicarse su evolución mediante una recta de regresión?
b) ¿Qué limitaciones tendrían las estimaciones hechas por esa recta?
[sol] a) Si; b) No vale para hacer estimaciones alejadas de los años considerados.

2. Asocia las rectas de regresión y = –x +16, y = 2x – 12, y = 0,5x + 5 a las nubes de puntos
siguientes:
3. Asigna los coeficientes de correlación lineal r = 0,4; r = –0,85 y r = 0,7, a las nubes del
problema anterior.
[sol] a) Respectivamente: (c), (b), (a). b) Respectivamente: (a), (b), (c)
Tipo II. Cálculo de la correlación y regresión

4. [S] a) Calcula la recta de regresión de Y sobre X en la distribución siguiente realizando todos


los cálculos intermedios.
X 10 7 5 3 0
Y 2 4 6 8 10
 b) ¿Cuál es el valor que correspondería según dicha recta a X = 7?
[sol] a) y = –0,8276x +10,138; b) 4,3448.

5. [S] El número de bacterias por unidad de volumen, presentes en un cultivo después de un


cierto número de horas, viene expresado en la siguiente tabla:
X: Nº de horas 0 1 2 3 4 5
Y: Nº de
12 19 23 34 56 62
bacterias
Calcula:
 a) Las medias y desviaciones típicas de las variables, número de horas y número de bacterias.
 b) La covarianza de la variable bidimensional.
 c) El coeficiente de correlación e interpretación.
 d) La recta de regresión de Y sobre X.

6. La tabla siguiente muestra las notas obtenidas por 8 alumnos en un examen, las horas de
estudio dedicadas a su preparación y las horas que vieron la televisión los días previos al
examen.
Nota 5 6 7 3 5 8 4 9
Horas de
7 10 9 4 8 10 5 14
estudio
Horas de TV 7 6 2 11 9 3 9 5
a) Representa gráficamente los diagramas correspondientes a nota-estudio y nota-TV.
b) ¿Se observa correlación entre las variables estudiadas? ¿De qué tipo? ¿En qué caso
estimas que es más fuerte?
[sol] b) Sí. Directa; inversa.

7. Con los datos del problema anterior, halla el coeficiente de correlación de nota-estudio y
nota-TV. ¿Qué puede deducirse con más precisión conociendo la nota que obtuvo
una persona en el examen: el tiempo que dedicó al estudio o el que dedicó a ver la televisión?
[sol] 0,943382 y (0,846283. El tiempo que dedicó al estudio.

8.-Indicar cinco ejemplos de variables dependientes e independientes

S-ar putea să vă placă și