Sunteți pe pagina 1din 16

Universidad San Carlos de Guatemala

Centro Universitario de Occidente


División: Ciencia y Tecnología
Carrera: Ingeniería en Gestión Ambiental Local
Curso: Estadística General
Catedrático: Ingeniero Julio Anleu

Tema: “Correlación”

Nombre/ Carné

Eva Cecilia Xicará Guerra 201530599


Carlos Javier Estrada de León 201831393
Cristian Andrés Calderón Ochoa 201631988
Jennifer Melissa Santizo Calderón 201830888

Fecha de entrega: 22/04/19


Introducción:
Es importante en el curso de Estadística General conocer la Correlación ya que
indica la fuerza y la dirección de una relación lineal y proporcionalidad entre dos
variables estadísticas. Se considera que dos variables cuantitativas están
correlacionadas cuando los valores de una de ellas varían sistemáticamente con
respecto a los valores homónimos de la otra, de manera cotidiana se utiliza la
correlación como por ejemplo con el simple hecho de Dos variables que tienen
una correlación importante y más cercana a 1 que a 0 son la altura y el peso de un
grupo de personas, puesto que por norma general, cuanto más mide una persona
más va a pesar, y para ver la dependencia que hay entre dos variables distintas y
cuantitativas, una herramienta fácil y cómoda que nos aportan las matemáticas es
la correlación. La idea es muy sencilla: Consiste en ver la relación de crecimiento
o decrecimiento de una variable observando el crecimiento de la otra. Así muchos
más ejemplos que nos sirve para utilizar esta herramienta importante.
Correlación
La correlación es la forma numérica en la que la estadística ha podido evaluar la
relación de dos o más variables, es decir, mide la dependencia de una variable
con respecto de otra variable independiente.

Para poder entender esta relación tendremos que analizarlo en forma gráfica:

edad peso Si tenemos los datos que se presentan en la


tabla y consideramos que la edad determina el peso
15 60 de las personas entonces podremos observar la
siguiente gráfica:
30 75

18 67 Donde los puntos representan cada uno de los


pares ordenados y la línea podría ser una recta que
42 80
represente la tendencia de los datos, que en otras palabras podría
demanda decirse que se
observa
28 que a mayor
60 edad mayor peso. 150
1698 47
100 2045
19 65 se puede explicar con la
La correlación 15
50 1348 100
pendiente de esa recta estimada y de esta 1268 120
31 92 0
forma nos podemos dar cuenta que también
1000 1500 2000
existe el caso en el que al crecer la variable
independiente decrezca la variable
dependiente. En aquellas rectas estimadas
cuya pendiente sea cero entonces podremos
decir que no existe correlación.

Así en estadística podremos calcular la correlación para datos no


agrupados con la siguiente formula.

n n n En donde:
n  xi y i   xi *  y i R = coeficiente de
r i 1 i 1 i 1
correlación
 n 2  n  2
 n 2  n  
2
N = número de pares
n xi    xi   n y i    y i  
 i 1  i 1    i 1  i 1   ordenados
X = variable independiente
Y = variable independiente
Ejemplo:

n n n
n x y  x * y
i 1 i i i 1 i i 1 i 7 * 13483  (183 * 499)
  
r    0.65638606
 n n    n 2  n 2 
2 7 * 5319  (183)2 7 * 36403  ( 499)2

n  x    x   n  y    y  
2
 i 1 i  i 1 i    i 1 i  i 1 i  
  

Edad (x) Peso (y) X2 Y2 X* Y

15 60 225 3600 900

30 75 900 5625 2250

18 67 324 4489 1206

42 80 1764 6400 3360

28 60 784 3600 1680


Supóngase que deseamos obtener la correlación de los datos de la tabla
19 65 361 4225 1235
anterior:
Ahora podemos
31 observar
92 que: 961 8464 2852

Se 183 499que el coeficiente


debe aclarar 5319 de correlación
36403 13483puede variar de la
sólo
siguiente manera: 1  r  1 y que para entenderlo mejor se debe obtener el
coeficiente de determinación que se obtiene con “ r “ cuadrada, ya que este
representa el porcentaje que se explica “ y ” mediante los datos de “ x ”.

En nuestro ejemplo decimos que la correlación es casi perfecta, ya que,


esta muy cerca de 1 y que el porcentaje de datos que explican a “ y “ es
(0.65638606)2= 0.430842 o sea el 43.08 % En el caso de que fueran datos
agrupados tendremos lo siguiente:

Primero tendremos que pensar que se genera una matriz, ya que, ahora
estamos juntando dos tablas de distribución de frecuencias y por ello nuestros
cálculos serán más laboriosos, por lo que les recomiendo el uso de una hoja de
calculo o al menos una calculadora con regresión para datos agrupados. De
cualquier forma aquí tambien estamos evaluando numéricamente si existe relación
entre dos variables y lo haremos con la siguiente ecuación.

k l l k
n   f xi y i   fx xi *  fy y i
j 1 i 1 i 1 i 1
r 
 l  l
  k
2
 k

2

n  f x x i    f x x i   n  f y y i    f y y i  
2 2

 i 1  i 1    i 1  i 1  
En donde podemos encontrar k como el número de clases para la variable "y" y l
para el número de clases de "x".
También podemos observar que hay varios tipos de "f" es decir, la que se
encuentra sola (sin subíndice) que nos habla de las frecuencias celdares (cada
una de las frecuencias que se encuentran en la intersección entre una columna y
un renglón) y las "f" con subíndices que representan las frecuencias de cada una
de las variables.

Para entender el uso de esta formula usaremos un ejemplo:


Los resultados que se presentan en la siguiente tabla representan los pesos y las
estaturas de 48 alumnos entrevistados el "día anáhuac"

Marcas de clase de "x"


1.44 1.54 1.64 1.745 1.845 1.94 fy fx y fx y^2
5 5 5 5
44.5 3 1 4 178 7921
marcas 54.5 5 9 5 19 1035.5 56434.7
5
de clase 64.5 1 2 4 1 1 9 580.5 37442.2
5
de "Y" 74.5 5 1 1 7 521.5 38851.7
5
84.5 2 2 1 5 422.5 35701.2
5
94.5 1 3 4 378 35721
fx 0 9 12 17 7 3 48 3116 212072
fx 0 13.9 19.7 29.66 12.915 5.83 82.06
x 05 4 5 5
fx 0 21.4 32.4 51.76 23.828 11.3 140.898
x ^2 832 723 5425 175 490 2
25 75
f x y 5380.77
Correlación= 0.695
La sustitución de la fórmula es la siguiente:

k l l k
n   f x i y i   f x x i *  fy y i
j 1 i 1 i 1 i 1 48 * 5380.77 - (82.06 * 3116)
r    0.695
 l  l   k
2
k  
2
((48 * 140.8982) - 82.06 2 ) * (( 48 * 212072) - 31162 )
n  f x x i    f x x i    n  f y y i    f y y i  
2 2

 i 1  i 1   i 1  i 1  

Al interpretar nuestro resultado podemos concluir que si existe relación


entre el peso y la estatura, es decir, que a mayor estatura mayor peso.

En muchas ocasiones el resultado de la correlación es negativo y lo que


debemos pensar es que la relación de las variables involucradas en el calculo es
inverso es decir que en la medidademanda
que crece la variable independiente la variable
dependiente decrece:
150
1698 47
100 2045 15
50 1348 100
1268 120
0
1000 1500 2000

Correlaciones parciales

Permiten evaluar la correlación entre dos variables (Var.1 y Var.2)


considerando el efecto (varianza) de una tercera (Var.3) o más variables.
Eliminando la varianza compartida por las variables de interés con la o las
variables auxiliares, obtenemos una medida de r que refleja los efectos de las
variables de interés primario.
En R podemos hacer análisis de correlación parcial usando la función pcor()
del paquete ggm. Veremos en la práctica el uso de las funciones ggm :: pcor() y
$ggm::cpor.test().
Supuestos hechos por el estadístico de correlación de Pearson r

• Ambas deben ser variables cuantitativas continuas (medidas de intervalo)


• Si queremos correr test de significancia, las variables deben estar
normalmente distribuidas.

El coeficiente de correlación no paramétrico de Kendall τ

El coeficiente de correlación τ de Kendall es no paramétrico, es decir, se


puede usar cuando se viola el supuesto de distribución normal de las variables a
comparar. La correlación τ de Kendall es particularmente adecuada cuando
tenemos un set de datos pequeño con muchos valores en el mismo rango o clase.
Se puede usar por ejemplo con datos categóricos codificados binariamente (0,1).
Estudios estadísticos han demostrado que el coeficiente de correlación τ de
Kendall es un mejor estimador de la correlación en la población que el coeficiente
de correlación no paramétrico de Spearman ρ, por lo que se recomienda usar τ
para análisis de datos no paramétricos. En R se puede estimar la correlación τ o ρ
cambiando el valor del argumento method=“kendall” o method=“spearman” de la
función cor, en la que por defecto method=“pearson”. Por ejemplo: cor(x, y,
method = ”kendall”)

El coeficiente de determinación R2

El coeficiente de correlación elevado al cuadrado es el coeficiente de


determinación, R2 , que mide la cantidad de variación en una variable que es
compartida por otra. Vimos en el ejemplo anterior que la r para cor(dosis,resp) era
de 0.8711651, y por tanto R2 = 0.7589286. Por tanto podemos decir que la
respuesta comparte un ~76% de la variación mostrada por la dosis. Tengan en
cuenta de nuevo que compartir variabilidad no implica necesariamente causalidad.
Regresión lineal Simple y Múltiple

Regresión lineal simple


El objetivo de un modelo de regresión es tratar de explicar la relación que
existe entre una variable dependiente (variable respuesta) Y un conjunto de
variables independientes (variables explicativas) X1,..., Xn.

 X: Variable independiente o explicativa o exógena.


 Y: Variable dependiente o respuesta o endógena.
En un modelo de regresión lineal simple tratamos de explicar la relación
que existe entre la variable respuesta Y y una única variable explicativa X.

Estudiar cómo influye la estatura del padre sobre la estatura del hijo, estima
el precio de una vivienda en función de su superficie, predice la tasa de paro para
cada edad, aproximar la calificación obtenida en una materia según el número de
horas de estudio semanal, prevé el tiempo de computación de un programa en
función de la velocidad del procesador.

Mediante las técnicas de regresión de una variable Y sobre una variable X,


buscamos una función que sea una buena aproximación de una nube de puntos
(xi, yi), mediante una curva del tipo:

El modelo de regresión lineal simple tiene la siguiente expresión:


Y = α + βX + ε

Es la pendiente es la ordenada en el origen (el valor que toma Y cuando X


vale 0), En donde una variable quede la recta (e indica cómo cambia Y al
incrementar X en una unidad) y incluye un conjunto grande de factores, cada uno
de los cuales influye en la respuesta sólo en pequeña magnitud, a la que
llamaremos error. X e Y son variables aleatorias, por lo que no se puede
establecer una relación lineal exacta entre ellas.
Tipos de Relación

Determinista
Conocido el valor de X, el valor de Y queda perfectamente
establecido. Son del tipo:
y = f (x)
Ejemplo: La relación existente entre la temperatura en grados
centígrados (X) y grados Fahrenheit (Y) es:
y = 1,8x + 32

No determinista
Conocido el valor de X, el valor de Y no queda perfectamente
establecido. Son del tipo:

y = f (x) + u

Donde u es una perturbación desconocida (variable aleatoria).


Ejemplo: Se tiene una muestra del volumen de producción (X) y el costo
total (Y ) asociado a un producto en un grupo de empresas.

Lineal
Cuando la función f (x) es lineal,

f (x) = β0 + β1x

 Si β1 > 0 hay relación lineal positiva.


 Si β1 < 0 hay relación lineal negativa.
No Lineal
Cuando la función f (x) no es lineal. Por ejemplo, f (x) = log(x), f (x) =
x 2 + 3.

Ausencia de Relación
Cuando f (x) = 0.

El modelo de regresi´on lineal simple supone que:

Yi = β0 + β1Xi + Ui

donde:

 Yi: representa el valor de la variable respuesta para la


observación i - ésima.
 Xi: representa el valor de la variable explicativa para la
observación i - ésima.
 Ui: representa el error para la observación i - ésima que se asume
normal.
Ui ∼ N(0, σ)

 β0 y β1 son los coeficientes de regresión:


o β0 : intercepto
o β1 : pendiente

Los par´ametros que hay que estimar son: β0, β1 y σ.

Modelo de regresión lineal simple


 Linealidad: La relaci´on existente entre X e Y es lineal
f (x) = β0 + β1x

 Homogeneidad: El valor promedio del error es cero,


E [Ui] = 0

 Homocedasticidad: La varianza de los errores es constante,


Var (Ui) = σ 2

 Independencia: Las observaciones son independientes,


E [Ui Uj] = 0

 Los datos deben ser independientes.


 Una observación no debe dar información sobre las demás.
 Habitualmente, se sabe por el tipo de datos si son adecuados
o no para el análisis.
 En general, las series temporales no cumplen la hipótesis de
independencia.

 Normalidad: Los errores siguen una distribución normal.


Ui ∼ N (0, σ)

Se asume que los datos son normales a priori. Regresión Lin

Regresión Lineal Múltiple


Una extensión natural del modelo de regresión lineal simple consiste en
considerar más de una variable explicativa.

Los modelo de regresión múltiple estudian la relación entre I una variable de


interés Y (variable respuesta o dependiente) y.

Un conjunto de variables explicativas o regresaras X1, X2, . . . , Xp.

En el modelo de regresión lineal múltiple se supone que la función de


regresión que relaciona la variable dependiente con las variables independientes
es lineal, es decir:

Y = β0 + β1X1 + β2X2 + · · · + βpXp + ε

En el modelo de regresión lineal múltiple se supone que la función de


regresión que relaciona la variable dependiente con las variables independientes
es lineal, es decir:

Y = β0 + β1X1 + · · · + βpXp + ε

 β0 es el término independiente. Es el valor esperado de Y cuando


X1, . . . , Xp son cero.
 β1, β2, . . . βp son los coeficientes parciales de la regresión:
o β1 mide el cambio en Y por cada cambio unitario en X1,
manteniendo X2, X3, . . . , Xp constantes.
o β2 mide el cambio en Y por cada cambio unitario en X2,
manteniendo X1, X3, . . . , Xp constantes.
o βp mide el cambio en Y por cada cambio unitario en Xp ,
manteniendo X1, . . . , Xp−1 constantes.
o ε es el error de observación debido a variables no controladas.

Podemos plantear el modelo en forma matricial de la siguiente manera:

 Asignando la notación a las matrices respectivas, podríamos escribir


la expresión anterior así:
Y = Xβ + ε

 Para estimar el vector de parámetros β podemos aplicar el método


de mínimos cuadrados, igual que en el modelo lineal simple, y como
resultado se obtiene el siguiente estimador:
βˆ = X tX −1 X t

Donde Xt denota a la matriz transpuesta de X.

Ejemplo:
Según el ajuste anterior:
Recuento = 25.7115 + 1.5818Temperatura + 1.5424Humedad.

Según el ajuste anterior:


Recuento = 25.7115 + 1.5818Temperatura + 1.5424Humedad

Según el ajuste anterior:


Recuento = 25.7115 + 1.5818Temperatura + 1.5424Humedad
Según el ajuste anterior:
Recuento = 25.7115 + 1.5818Temperatura + 1.5424Humedad
Conclusiones:
1. Es importante conocer que Dos variables que en principio no tienen que
tener correlación son por ejemplo la edad de un grupo de personas y la
suma de las cifras de sus números de teléfono, porque esa suma es un
valor completamente aleatorio.

2. la correlación es el indicador para saber si hay relación (LINEAL) entre dos


variables numéricas es el coeficiente de correlación o correlación de
Pearson.

3. Por ejemplo, considera que las variables son el ingreso familiar y el gasto
familiar. Se sabe que los aumentos de ingresos y gastos disminuyen juntos.
Por lo tanto, están relacionados en el sentido de que el cambio en cualquier
variable estará acompañado por un cambio en la otra variable.