Sunteți pe pagina 1din 47

Dr.

Waldo Lavado Casimiro


waldo.lavado@gmail.com
CORRELACIÓN ENTRE VARIABLES CUANTITATIVAS
Se considera que dos variables cuantitativas están
relacionadas entre sí cuando los valores de una de ellas
varían de forma sistemática con respecto a los valores
homónimos de la otra. Dicho de otro modo, si tenemos dos
variables, A y B, existe relación entre ellas si al aumentar
los valores de A también lo hacen los de B, o por el
contrario si al aumentar los valores de A disminuyen los de
B.

• Para variables métricas, el gráfico de dispersión es la


manera más sencilla de comprobar la relación entre las
dos variables, pudiendo esta adoptar diferentes formas.

• El método más usual para medir la intensidad de la


relación lineal entre dos variables métricas es la
correlación momento-producto o correlación de Pearson.
CORRELACIÓN ENTRE VARIABLES
CUANTITATIVAS

Los componentes fundamentales de una relación entre


dos variables cuantitativas son:

La Fuerza El Sentido La Forma


CORRELACIÓN ENTRE VARIABLES CUANTITATIVAS
• La fuerza mide el grado en que los pares de
observaciones quedan representados en una línea. Si la
nube de observaciones es estrecha y alargada, una línea
recta representará adecuadamente a la nube de puntos
y a la relación y por tanto ésta será fuerte.

• El sentido de la relación se refiere a cómo varían los


valores de B con respecto a A. Si al crecer los valores de
la variable A lo hacen los de B, será una relación positiva
o directa. Si al aumentar A, disminuye B, será una
relación negativa o inversa.

• La forma establece el tipo de línea a emplear para


definir el mejor ajuste. Se pueden emplear tres tipos de
líneas: una línea recta, una curva monotónica o una
curva no monotónica.
GRÁFICOS DE DISPERSIÓN
Dadas dos variables X y Y tomadas sobre el mismo elemento de la población,
el diagrama de dispersión es simplemente un gráfico de dos dimensiones,
donde en un eje (la abscisa) se grafica una variable (independiente), y en el
otro eje (la ordenada) se grafica la otra variable (dependiente). Si las variables
están correlacionadas, el gráfico mostraría algún nivel de correlación
(tendencia) entre las dos variables. Si no hay ninguna correlación, el gráfico
presentaría una figura sin forma, una nube de puntos dispersos en el gráfico.
DIAGRAMAS DE DISPERSIÓN ESTADÍSTICA

Gráfico de puntos para variables cuantitativas

Disposición:
Eje de abscisas: variable independiente (X)
Eje de ordenadas: variable dependiente (Y)

Frecuentemente X es una variable controlada (no aleatoria)

Un punto por cada observación (par de valores X-Y)

Aproximación al tipo de relación existente entre las variables


FORMAS TÍPICAS DE LOS DIAGRAMAS DE
DISPERSIÓN ESTADÍSTICA
 X  X Yi  Y 
N

i
i 1 SPC
S xy  
N  1 N  1

La covarianza puede tomar valores entre (-∞,+∞) de manera que si:


Sxy= 0 independencia lineal

Sxy> 0 relación lineal directa o positiva

Sxy< 0 relación lineal inversa o negativa

Vamos a ver, utilizando el gráfico de dispersión, porque las relaciones


De orden anteriores están relacionadas con el tipo de relación lineal.
Análisis de datos I Análisis de datos II X-X Y -Y (X - X)(Y - Y )
1 2 -3.9 -2.3 8.97
2 1 -2.9 -3.3 9.57
3 3 -1.9 -1.3 2.47
4 4 -0.9 -0.3 0.27
5 2 0.1 -2.3 -0.23
0 3 -4.9 -1.3 6.37
7 5 2.1 0.7 1.47
8 6 3.1 S1.7
xy 5.27
9 8 4.1 3.7 15.17
10 9 5.1 4.7 23.97
Sumas 49 43 0 0 73.3
Medias 4.9 4.3 8.14444444
La covarianza: dependencia de escalas
El coeficiente de correlación de Pearson
 X  X Yi  Y 
N

S xy i 1
i
rxy  
Sx Sy
 X  X  Y 
N N
2 2
i i  Y
i 1 i 1

 1  rxy   1
rxy = 0
9 12
25
8 rxy = 0.88 10
20 7
6 8
15 5 6
4
10
rxy = 1
4
3
5 2 2
1
0 0
0 0 2 4 6 8 10 12
0 2 4 6 8 10 12 0 2 4 6 8 10

0
0 2 4 6 8 10 12
-5

-10 rxy = -1
rxy = -0.88
rxy = 0
-15

-20
 La correlación es una prueba de hipótesis que debe ser
sometida a contraste y el coeficiente de correlación
cuantifica la correlación entre dos variables, cuando ésta
existe.

 El coeficiente r de Pearson, por ser una prueba


paramétrica requiere de variables numéricas con
distribución normal.

Sociedad Peruana de Bioestadística


www.bioestadistico.com
INTERPRETACIÓN

El coeficiente correlación varía entre 0 y 1, pudiendo ser


positivo o negativo..

El valor numérico indica la magnitud de la correlación.

Sociedad Peruana de Bioestadística


www.bioestadistico.com
INTERPRETACIÓN

El signo indica la dirección de la correlación

Correlación directa (+) Signo positivo Correlación inversa (-) Signo negativo
 “a mayor X, mayor Y” ó  “a mayor X, menor Y” ó
 “a menor X, menor Y”  “a menor X, mayor Y”

Sociedad Peruana de Bioestadística


www.bioestadistico.com
Estructura de los modelos de regresión

Xi
predictora
Yi
criterio
 i

independiente dependiente
exógena endógena
explicativa explicada

Expresión matemática del modelo en la población

Yi  f  X i    i   0   1 X i   i  Yi   i
Yi   0   1 X i Puntuación predicha por la recta de regresión verdadera
  Y  Y
i i i Residuo o error de predicción

En el modelo hay dos variables observadas: X e Y y dos parámetros


la ordenada en el origen de la recta de regresión 0 y la pendiente 
1
Interpretación de los parámetros:
Ejercicio Consumo
Esperanza de tabaco Esperanza
físico
de vida de vida

 i
 i

Yˆ  0  1 X  70  0,3 X Yˆ  0  1 X  70  0,04 X
1. El término de Error es una variable aleatoria con media cero: E ( i )  0

2. Homocedasticidad: la varianza del término de error es constante: Var ( i )  


2

3. Los errores se distribuyen normalmente:  i  N (0, 2 )

4. Los errores son independientes entre sí.

Las hipótesis anteriores pueden formularse de manera equivalente


en términos de la variable criterio. Así,
E /( XY i)Xi

E(Y / Xi )    Xi

1’. La media de Y depende linealmente de X: E(Y / X i )    X i

2’. La varianza de Y es constante: Var (Y / X i )  


2
Var Y /( Xi)2

3’. La distribución de Y es normal para cada X: Y / X i  N (  X i ,  2 )

4’. Las observaciones Yi son independientes entre sí.


Resumen gráfico de las hipótesis básicas
formuladas en términos de la variable criterio

 y2/ x   y2/ x   y2/ x   y2/ x


1 2 3 4

Distribución Normal

X1, X2 , X3, X4

X1, X 2, X 3, X4
El objetivo del análisis de
regresión será estimar los
parámetros del modelo presentado
y contrastar las hipótesis de
partida todo ello a partir de una
muestra.
Partimos de una muestra de sujetos extraídos
de una población en la que se han tomado
valores de las variables X e Y. La situación
más frecuente es que los puntos estén
dispersos en el plano definido por X e Y. La
primera pregunta a plantearnos es de las
infinitas rectas que podemos ajustar a la nube
de puntos ¿Cuál estimará mejor los
parámetros?. Existen diferentes criterios.
8,00 

7,00 
Y: Análisis de Datos II

6,00 

5,00 

4,00 

3,00  

2,00  

1,00 
  e
Yi  a  bX i  ei  Yi i

1,00 2,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00 10,00

X: Análisis de datos I   e
Yi  b0  b1 X i  ei  Yi i

  b  b X
Yi 0 1 i


ei  Yi  Yi
Criterio de mínimos cuadrados:

Yi  Yi    Y 
 a  bX i 
N N N

e 
2 2
2
i i  min
i 1 i 1 i 1


 Y  a  bX i  
N
2
0
a i 1
i

 N

b i  1
Yi  a  bX i   0
2
La recta de regresión de mínimos cuadrados en puntuaciones
directas y principales propiedades

Recta de regresión mínimo cuadrática (puntuaciones directas):

a  Y  bX

 X  X Yi  Y 
N

i 1
i S xy Sy
b 2  2  rxy
 X  X
N
S x Sxº
i
i 1


Yi  a  bX i  Y  b X i  X 
x y XX Y Y ( X  X)2 XXYY
1 2 -4,5 -2,1 20,25 9,45
2 1 -3,5 -3,1 12,25 10,85
3 3 -2,5 -1,1 6,25 2,75
4 4 -1,5 -0,1 2,25 0,15
5 2 -0,5 -2,1 0,25 1,05
6 3 0,5 -1,1 0,25 -0,55
7 5 1,5 0,9 2,25 1,35
8 4 2,5 2,9 6,25 7,25
9 6 3,5 1,9 12,25 6,65
10 8 4,5 3,9 20,25 17,55
55 41 0 0 82,5 56,5
La recta de regresión de mínimos cuadrados en puntuaciones
directas y principales propiedades

Recta de regresión mínimo cuadrática:

a  Y  bX  4,1  0,743  5,5  0,021

 X
i 1
i  X Yi  Y 
56,50
b 2   0,743
 X  X
N
82,50
i
i 1

Yi  0,021  0,743 X i

Yˆ  0,021  0,742 X i
El contraste de la regresión: introducción
1,5

1,0

,5

0,0

-,5

-1,0

-1,5

-2,0
Y

-1,0 -,5 0,0 ,5 1,0 1,5


3
X 3

2
2

1 1

0 0

-1
-1

-2
-2

-3
Y
-2 -1 0 1 2 3
-3
Y

-3 -2 -1 0 1 2
X

X
El contraste de la regresión: introducción

Yˆi  a  bX i

Yi

Xi
Componentes de variabilidad y bondad de ajuste

Yˆi  a  bX i
Yi

Y  Y   Yˆ  Y  Y  Yˆ 
i i i i
Desviación Desviación Desviación
total explicada residual

Xi
 Y  Y    Yˆ  Y    Y  Yˆ 
N 2 N 2 N 2

i i i
i 1 i 1 i 1

S
CtS
Cep
x S
Cre
s
Variación Variación Variación
Total Explicada Residual
Fórmulas para calcular las sumas de cuadrados en
puntuaciones directas y diferenciales:
2
 N 
  Yi 
 i 1 
2

SCt   Yi  Y    y
N N N
2
i  Y i
2

N
  N  1S y2
i 1 i 1 i 1

  N

2

   X  
   
2 2 i

 X  X   b 2  xi2  b 2   X i2   i 1    b 2 N  1S x2
N N N N
SCexp   Yˆ  Y b 2

i 1 i 1 i 1  i 1 N 
 
 

   e
N 2 N
SCres   Yi  Yˆi 2
i  SCt  SCexp
i 1 i 1
Componentes de variabilidad y bondad de ajuste

Fórmulas para calcular las sumas de cuadrados en


tipificadas:

S
CtS
Cep
x S
Cre
s

N
SCt   Z y2  N  1
i 1
N N
SCexp   Zˆ  r
i 1
i
2 2
xy  x xy N  1
Z 2

i 1
 r 2


SCres   N  1 1  rxy2 
SCt SCexp SCres
 
SCt SCt SCt

1  R 2  1  R2 

Bondad de ajuste o Coeficiente de


determinación

 Yˆ  Y 
N 2

b 2 X  X 
i 2
SCexp b 2 S x2
R 
2
 i 1
   rxy2
 Y Y   Y Y 
N N 2
SCt 2 2 Sy
i i
i 1 i 1
Representación en diagramas de Venn

r2xy= 0

Y X

r2xy= 1

Y X

r2xy

Y X
Validación del modelo

Esquema del Contraste de Hipótesis

Contrastar una Hipótesis


Estadísticamente es juzgar si
cierta propiedad supuesta para
una población es compatible
con lo observado en una
muestra de ella.
Elementos de una Prueba de Hipótesis

1.- Hipótesis Nula (H0), Hipótesis


Alternativa.
2.- Estadístico de Contraste (Discrepancia).
3.- Región de Rechazo (Región Crítica):
nivel de significación.
4.- Regla de Decisión.
1.- Hipótesis Nula (H0), Hipótesis Alternativa.

H 0 : E Y / X    0    Yi     i
H1 : E Y / X    0  1 X i  Yi   0  1 X i   i

2.- Estadístico de Contraste (Discrepancia).


2
SCexp rxy
2
S exp k K
F  2  
Sres SCres 1  rxy
2

N  K 1 N  K 1
3.- Región de Rechazo (Región Crítica):
nivel de significación.

Región de aceptación de H0

Región de rechazo de H0
1-
Fc
4.- Regla de Decisión.
Se rechaza la H0 si:
F >Fc
o de manera equivalente si:
p<

Por el contrario, se acepta la H0 si:


F ≤Fc
o de manera equivalente si:
p ≥
Tabla F
Tabla F
Intervalos de predicción:
 

Yo : Y  t , N  K 1 2 

Sres 1 
1

 X o  X  
2

 2
 X i  X  
N


N

 i 1
AJUSTE DE VARIABLES A FUNCIONES NO
LINEALES

• Hacer el diagrama de dispersión de las dos variables y evaluar si el


patrón resultante sigue la forma lineal o alguna otra función.

• Identificada dicha función, substituir los valores de una variable con


sus valores cuadrados, raíz cuadrada, logarítmicos o con alguna otra
modificación, y hacer de nuevo la matriz de correlación.

• Identificar la función que mejor ajuste por medio de un paquete


estadístico y determinar los coeficientes para la construcción de esa
ecuación.

FUNCIONES NO LINEALES

Exponencial: Logarítmica: Polinómica:


y = a + bx y = a + log b x y = a + b x + c x2
Ejemplo

S-ar putea să vă placă și