Analisis de Regregresionn

Dr.
Waldo Lavado Casimiro

waldo.lavado@gmail.com
CORRELACIÓN ENTRE VARIABLES CUANTITATIVAS
Se considera que dos variables cuantitativas están
relacionadas entre sí cuando los valores de una de ellas
varían de forma sistemática con respecto a los valores
homónimos de la otra. Dicho de otro modo, si tenemos dos
variables, A y B, existe relación entre ellas si al aumentar
los valores de A también lo hacen los de B, o por el
contrario si al aumentar los valores de A disminuyen los de
B.
• Para variables métricas, el gráfico de dispersión es la

manera más sencilla de comprobar la relación entre las
dos variables, pudiendo esta adoptar diferentes formas.
• El método más usual para medir la intensidad de la

relación lineal entre dos variables métricas es la
correlación momento-producto o correlación de Pearson.
CORRELACIÓN ENTRE VARIABLES
CUANTITATIVAS
Los componentes fundamentales de una relación entre

dos variables cuantitativas son:
La Fuerza El Sentido La Forma

CORRELACIÓN ENTRE VARIABLES CUANTITATIVAS
• La fuerza mide el grado en que los pares de
observaciones quedan representados en una línea. Si la
nube de observaciones es estrecha y alargada, una línea
recta representará adecuadamente a la nube de puntos
y a la relación y por tanto ésta será fuerte.
• El sentido de la relación se refiere a cómo varían los

valores de B con respecto a A. Si al crecer los valores de
la variable A lo hacen los de B, será una relación positiva
o directa. Si al aumentar A, disminuye B, será una
relación negativa o inversa.
• La forma establece el tipo de línea a emplear para

definir el mejor ajuste. Se pueden emplear tres tipos de
líneas: una línea recta, una curva monotónica o una
curva no monotónica.
GRÁFICOS DE DISPERSIÓN
Dadas dos variables X y Y tomadas sobre el mismo elemento de la población,
el diagrama de dispersión es simplemente un gráfico de dos dimensiones,
donde en un eje (la abscisa) se grafica una variable (independiente), y en el
otro eje (la ordenada) se grafica la otra variable (dependiente). Si las variables
están correlacionadas, el gráfico mostraría algún nivel de correlación
(tendencia) entre las dos variables. Si no hay ninguna correlación, el gráfico
presentaría una figura sin forma, una nube de puntos dispersos en el gráfico.
DIAGRAMAS DE DISPERSIÓN ESTADÍSTICA
Gráfico de puntos para variables cuantitativas
Disposición:
Eje de abscisas: variable independiente (X)
Eje de ordenadas: variable dependiente (Y)
Frecuentemente X es una variable controlada (no aleatoria)
Un punto por cada observación (par de valores X-Y)
Aproximación al tipo de relación existente entre las variables

FORMAS TÍPICAS DE LOS DIAGRAMAS DE
DISPERSIÓN ESTADÍSTICA
 X  X Yi  Y 
N
i
i 1 SPC
S xy  
N  1 N  1
La covarianza puede tomar valores entre (-∞,+∞) de manera que si:

Sxy= 0 independencia lineal
Sxy> 0 relación lineal directa o positiva
Sxy< 0 relación lineal inversa o negativa
Vamos a ver, utilizando el gráfico de dispersión, porque las relaciones

De orden anteriores están relacionadas con el tipo de relación lineal.
Análisis de datos I Análisis de datos II X-X Y -Y (X - X)(Y - Y )
1 2 -3.9 -2.3 8.97
2 1 -2.9 -3.3 9.57
3 3 -1.9 -1.3 2.47
4 4 -0.9 -0.3 0.27
5 2 0.1 -2.3 -0.23
0 3 -4.9 -1.3 6.37
7 5 2.1 0.7 1.47
8 6 3.1 S1.7
xy 5.27
9 8 4.1 3.7 15.17
10 9 5.1 4.7 23.97
Sumas 49 43 0 0 73.3
Medias 4.9 4.3 8.14444444
La covarianza: dependencia de escalas
El coeficiente de correlación de Pearson
 X  X Yi  Y 
N
S xy i 1
i
rxy  
Sx Sy
 X  X  Y 
N N
2 2
i i  Y
i 1 i 1
 1  rxy   1
rxy = 0
9 12
25
8 rxy = 0.88 10
20 7
6 8
15 5 6
4
10
rxy = 1
4
3
5 2 2
1
0 0
0 0 2 4 6 8 10 12
0 2 4 6 8 10 12 0 2 4 6 8 10
0
0 2 4 6 8 10 12
-5
-10 rxy = -1
rxy = -0.88
rxy = 0
-15
-20
 La correlación es una prueba de hipótesis que debe ser
sometida a contraste y el coeficiente de correlación
cuantifica la correlación entre dos variables, cuando ésta
existe.
 El coeficiente r de Pearson, por ser una prueba

paramétrica requiere de variables numéricas con
distribución normal.
Sociedad Peruana de Bioestadística

www.bioestadistico.com
INTERPRETACIÓN
El coeficiente correlación varía entre 0 y 1, pudiendo ser

positivo o negativo..
El valor numérico indica la magnitud de la correlación.

INTERPRETACIÓN
El signo indica la dirección de la correlación
Correlación directa (+) Signo positivo Correlación inversa (-) Signo negativo
 “a mayor X, mayor Y” ó  “a mayor X, menor Y” ó
 “a menor X, menor Y”  “a menor X, mayor Y”

Estructura de los modelos de regresión
Xi
predictora
Yi
criterio
 i
independiente dependiente
exógena endógena
explicativa explicada
Expresión matemática del modelo en la población
Yi  f  X i    i   0   1 X i   i  Yi   i
Yi   0   1 X i Puntuación predicha por la recta de regresión verdadera
  Y  Y
i i i Residuo o error de predicción
En el modelo hay dos variables observadas: X e Y y dos parámetros

la ordenada en el origen de la recta de regresión 0 y la pendiente 
1
Interpretación de los parámetros:
Ejercicio Consumo
Esperanza de tabaco Esperanza
físico
de vida de vida
 i
 i
Yˆ  0  1 X  70  0,3 X Yˆ  0  1 X  70  0,04 X
1. El término de Error es una variable aleatoria con media cero: E ( i )  0
2. Homocedasticidad: la varianza del término de error es constante: Var ( i )  

2
3. Los errores se distribuyen normalmente:  i  N (0, 2 )
4. Los errores son independientes entre sí.
Las hipótesis anteriores pueden formularse de manera equivalente

en términos de la variable criterio. Así,
E /( XY i)Xi
E(Y / Xi )    Xi
1’. La media de Y depende linealmente de X: E(Y / X i )    X i
2’. La varianza de Y es constante: Var (Y / X i )  

2
Var Y /( Xi)2
3’. La distribución de Y es normal para cada X: Y / X i  N (  X i ,  2 )
4’. Las observaciones Yi son independientes entre sí.

Resumen gráfico de las hipótesis básicas
formuladas en términos de la variable criterio
 y2/ x   y2/ x   y2/ x   y2/ x

1 2 3 4
Distribución Normal
X1, X2 , X3, X4

X1, X 2, X 3, X4
El objetivo del análisis de
regresión será estimar los
parámetros del modelo presentado
y contrastar las hipótesis de
partida todo ello a partir de una
muestra.
Partimos de una muestra de sujetos extraídos
de una población en la que se han tomado
valores de las variables X e Y. La situación
más frecuente es que los puntos estén
dispersos en el plano definido por X e Y. La
primera pregunta a plantearnos es de las
infinitas rectas que podemos ajustar a la nube
de puntos ¿Cuál estimará mejor los
parámetros?. Existen diferentes criterios.
8,00 
7,00 
Y: Análisis de Datos II
6,00 
5,00 
4,00 
3,00  
2,00  
1,00 
  e
Yi  a  bX i  ei  Yi i
1,00 2,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00 10,00
X: Análisis de datos I   e
Yi  b0  b1 X i  ei  Yi i
  b  b X
Yi 0 1 i

ei  Yi  Yi
Criterio de mínimos cuadrados:
Yi  Yi    Y 
 a  bX i 
N N N
e 
2 2
2
i i  min
i 1 i 1 i 1

 Y  a  bX i  
N
2
0
a i 1
i
 N

b i  1
Yi  a  bX i   0
2
La recta de regresión de mínimos cuadrados en puntuaciones
directas y principales propiedades
Recta de regresión mínimo cuadrática (puntuaciones directas):
a  Y  bX
 X  X Yi  Y 
N
i 1
i S xy Sy
b 2  2  rxy
 X  X
N
S x Sxº
i
i 1

Yi  a  bX i  Y  b X i  X 
x y XX Y Y ( X  X)2 XXYY
1 2 -4,5 -2,1 20,25 9,45
2 1 -3,5 -3,1 12,25 10,85
3 3 -2,5 -1,1 6,25 2,75
4 4 -1,5 -0,1 2,25 0,15
5 2 -0,5 -2,1 0,25 1,05
6 3 0,5 -1,1 0,25 -0,55
7 5 1,5 0,9 2,25 1,35
8 4 2,5 2,9 6,25 7,25
9 6 3,5 1,9 12,25 6,65
10 8 4,5 3,9 20,25 17,55
55 41 0 0 82,5 56,5
La recta de regresión de mínimos cuadrados en puntuaciones
directas y principales propiedades
Recta de regresión mínimo cuadrática:
a  Y  bX  4,1  0,743  5,5  0,021
 X
i 1
i  X Yi  Y 
56,50
b 2   0,743
 X  X
N
82,50
i
i 1
Yi  0,021  0,743 X i
Yˆ  0,021  0,742 X i
El contraste de la regresión: introducción
1,5
1,0
,5
0,0
-,5
-1,0
-1,5
-2,0
Y
-1,0 -,5 0,0 ,5 1,0 1,5

3
X 3
2
2
1 1
0 0
-1
-1
-2
-2
-3
Y
-2 -1 0 1 2 3
-3
Y
-3 -2 -1 0 1 2
X
X
El contraste de la regresión: introducción
Yî  a  bX i
Yi
Xi
Componentes de variabilidad y bondad de ajuste
Yî  a  bX i
Yi
Y  Y   Yˆ  Y  Y  Yˆ 
i i i i
Desviación Desviación Desviación
total explicada residual
Xi
 Y  Y    Yˆ  Y    Y  Yˆ 
N 2 N 2 N 2
i i i
i 1 i 1 i 1
S
CtS
Cep
x S
Cre
s
Variación Variación Variación
Total Explicada Residual
Fórmulas para calcular las sumas de cuadrados en
puntuaciones directas y diferenciales:
2
 N 
  Yi 
 i 1 
2
SCt   Yi  Y    y
N N N
2
i  Y i
2

N
  N  1S y2
i 1 i 1 i 1
  N

2

   X  
   
2 2 i
 X  X   b 2  xi2  b 2   X i2   i 1    b 2 N  1S x2
N N N N
SCexp   Yˆ  Y b 2
i 1 i 1 i 1  i 1 N 
 
 
   e
N 2 N
SCres   Yi  Yî 2
i  SCt  SCexp
i 1 i 1
Componentes de variabilidad y bondad de ajuste
Fórmulas para calcular las sumas de cuadrados en

tipificadas:
S
CtS
Cep
x S
Cre
s
N
SCt   Z y2  N  1
i 1
N N
SCexp   Zˆ  r
i 1
i
2 2
xy  x xy N  1
Z 2
i 1
 r 2

SCres   N  1 1  rxy2 
SCt SCexp SCres
 
SCt SCt SCt
1  R 2  1  R2 
Bondad de ajuste o Coeficiente de

determinación
 Yˆ  Y 
N 2
b 2 X  X 
i 2
SCexp b 2 S x2
R 
2
 i 1
   rxy2
 Y Y   Y Y 
N N 2
SCt 2 2 Sy
i i
i 1 i 1
Representación en diagramas de Venn
r2xy= 0
Y X
r2xy= 1
Y X
r2xy
Y X
Validación del modelo
Esquema del Contraste de Hipótesis
Contrastar una Hipótesis

Estadísticamente es juzgar si
cierta propiedad supuesta para
una población es compatible
con lo observado en una
muestra de ella.
Elementos de una Prueba de Hipótesis
1.- Hipótesis Nula (H0), Hipótesis

Alternativa.
2.- Estadístico de Contraste (Discrepancia).
3.- Región de Rechazo (Región Crítica):
nivel de significación.
4.- Regla de Decisión.
1.- Hipótesis Nula (H0), Hipótesis Alternativa.
H 0 : E Y / X    0    Yi     i
H1 : E Y / X    0  1 X i  Yi   0  1 X i   i
2.- Estadístico de Contraste (Discrepancia).

2
SCexp rxy
2
S exp k K
F  2  
Sres SCres 1  rxy
2
N  K 1 N  K 1
3.- Región de Rechazo (Región Crítica):
nivel de significación.
Región de aceptación de H0
Región de rechazo de H0
1-
Fc
4.- Regla de Decisión.
Se rechaza la H0 si:
F >Fc
o de manera equivalente si:
p<
Por el contrario, se acepta la H0 si:

F ≤Fc
o de manera equivalente si:
p ≥
Tabla F
Tabla F
Intervalos de predicción:
 
Yo : Y  t , N  K 1 2 

Sres 1 
1

 X o  X  
2
 2
 X i  X  
N

N

 i 1
AJUSTE DE VARIABLES A FUNCIONES NO
LINEALES
• Hacer el diagrama de dispersión de las dos variables y evaluar si el

patrón resultante sigue la forma lineal o alguna otra función.
• Identificada dicha función, substituir los valores de una variable con

sus valores cuadrados, raíz cuadrada, logarítmicos o con alguna otra
modificación, y hacer de nuevo la matriz de correlación.
• Identificar la función que mejor ajuste por medio de un paquete

estadístico y determinar los coeficientes para la construcción de esa
ecuación.
FUNCIONES NO LINEALES
Exponencial: Logarítmica: Polinómica:

y = a + bx y = a + log b x y = a + b x + c x2
Ejemplo

Analisis de Regregresionn

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Analisis de Regregresionn

Încărcat de

Drepturi de autor:

Formate disponibile

Dr.

Waldo Lavado Casimiro

• Para variables métricas, el gráfico de dispersión es la

• El método más usual para medir la intensidad de la

Los componentes fundamentales de una relación entre

La Fuerza El Sentido La Forma

• El sentido de la relación se refiere a cómo varían los

• La forma establece el tipo de línea a emplear para

Gráfico de puntos para variables cuantitativas

Frecuentemente X es una variable controlada (no aleatoria)

Un punto por cada observación (par de valores X-Y)

Aproximación al tipo de relación existente entre las variables

La covarianza puede tomar valores entre (-∞,+∞) de manera que si:

Sxy> 0 relación lineal directa o positiva

Sxy< 0 relación lineal inversa o negativa

Vamos a ver, utilizando el gráfico de dispersión, porque las relaciones

 El coeficiente r de Pearson, por ser una prueba

Sociedad Peruana de Bioestadística

El coeficiente correlación varía entre 0 y 1, pudiendo ser

El valor numérico indica la magnitud de la correlación.

Sociedad Peruana de Bioestadística

El signo indica la dirección de la correlación

Sociedad Peruana de Bioestadística

Expresión matemática del modelo en la población

En el modelo hay dos variables observadas: X e Y y dos parámetros

2. Homocedasticidad: la varianza del término de error es constante: Var ( i )  

3. Los errores se distribuyen normalmente:  i  N (0, 2 )

4. Los errores son independientes entre sí.

Las hipótesis anteriores pueden formularse de manera equivalente

1’. La media de Y depende linealmente de X: E(Y / X i )    X i

2’. La varianza de Y es constante: Var (Y / X i )  

3’. La distribución de Y es normal para cada X: Y / X i  N (  X i ,  2 )

4’. Las observaciones Yi son independientes entre sí.

 y2/ x   y2/ x   y2/ x   y2/ x

Recta de regresión mínimo cuadrática (puntuaciones directas):

Recta de regresión mínimo cuadrática:

a  Y  bX  4,1  0,743  5,5  0,021

Yi  0,021  0,743 X i

-1,0 -,5 0,0 ,5 1,0 1,5

Fórmulas para calcular las sumas de cuadrados en

Bondad de ajuste o Coeficiente de

Esquema del Contraste de Hipótesis

Contrastar una Hipótesis

1.- Hipótesis Nula (H0), Hipótesis

2.- Estadístico de Contraste (Discrepancia).

Por el contrario, se acepta la H0 si:

• Hacer el diagrama de dispersión de las dos variables y evaluar si el

• Identificada dicha función, substituir los valores de una variable con

• Identificar la función que mejor ajuste por medio de un paquete

Exponencial: Logarítmica: Polinómica:

S-ar putea să vă placă și