Unidad #5 Regresión y Correlación

Uno de los objetivos de la estadística inferencias está relacionado con la
relación que se puede establecer entre variables de forma determinista. Dicho

con tras palabras es la relación que pueden tener x y y de tal forma que
cuando tengamos el valor de x el valor de y estará determinado totalmente.
Si lo planteado anteriormente lo relacionamos con el proceso de

investigación, la variable que el valor lo define el investigar la llamaremos
variable independiente (x). De esta manera cuando fijemos x la segunda
variable será aleatoria y las misma será denominada como variable
dependiente (y).
La relación más sencilla entre dos variables x y y es la relación lineal la

cual podemos representar de la siguiente forma:
y  1 x   0
Donde:
1 Es la pendiente de la recta
0 Es el intercepto de la recta
MODELO DE REGRESIÓN LINEAL SIMPLE
Para este modelo primeramente si debe reconocer que:
Valores determinados Valores de los parámetros

x y, 1 ,  0 ,  2
La relación existen entre x y la variable dependiente esta dada

por medio de la siguiente
y ecuación
y  1 x   0  
La variable  de la ecuación anterior es una variable aleatoria, la cual se
supone que tiene distribución norma y se denomina desviación aleatoria.
Una interpretación de  se puede observar en el siguiente gráfico, en el
cual también se muestra la verdadera recta de regresión
7
Recta verdadera de
( x1 , y1 ) regresión
6
y  1 x   0
5 1
4
1
3
2
( x2 , y2 )
1
0
0 2 4 6 8 10 12
SUPUESTOS DEL MODELO DE REGRESIÓN LINEAL SIMPLE.
1.- Las variables aleatorias yi están distribuidas normalmente y son

independientes.
2.- La media de yi es 1 xi   0
3.- La varianza de yi es  2
ESTIMACIÓN DE LOS DIFERENTES PARÁMETROS DEL MODELO
Para comenzar el proceso de estimación de los diferentes parámetros de la

regresión lineal simple además de tener en cuenta los supuestos establecidos
anteriormente vamos a considerar que las variables x y y están relacionadas
por según un modelo de regresión lineal simple.
Por otro lado el investigador casi nunca conoce los y, 1 ,  0 , 
2
valores
de para la población objeto de estudio, lo que conoce de una serie de datos
muéstrales compuestos por n pares (x1, y1),, (xn, yn), con los cuales puede
realizar estimaciones de los parámetros poblacionales y partiendo del modelo
de regresión simple establecer la verdadera recta de regresión.
Se considera además que la mediciones realizadas han sido obtenidas de
manera independiente en si.
Teniendo en cuenta estas consideraciones se puede en este momento
establecer la forma en que se puede realizar la estumación de los coeficientes
del modelo.
ESTIMACIÓN POR EL MÉTODO DE LOS MÍNIMOS CUADRADO DE LOS
COEFICIENTES DEL MODELO E REGRESIÓN LINEAL SIMPLE.
 n  n 
Calculo de la pendiente:   xi   yi 
S xy   xi yi   i 1  i 1 
n
n
 x  x  y
i 1  y i 1 n
̂1  i 1 2
 n 
n   xi 

 ix  x 2
S xx   xi2   i 1 
n
i 1 n
i 1
ˆ S xy
1 
S xx
Calculo del intercepto: NOTA: Los cálculos de estos coeficientes

están implementados en el Excel y el
ˆ0  y  ˆ1 x
SPSS por explicaremos los mismos al
terminar todos los cálculos relacionados
con la regresión lineal simple.
REGRESIÓN Y ANÁLISIS DE VARIANZA (ANOVA)
Podemos en este establecer las diferentes formulas para calcular las sumas
de cuadrado para la regresión.
SUMA DE CUADRADO TOTAL: 2

 n

n   y i
SSTot    yi  y  S yy   yi2   i 1 
2 n
i 1 i 1 n
SSTot  S yy
La suma de cuadrado total es una medida cuantitativa de la magnitud

total de la variación en los valores y observados.
SUMA DEL ERROR:
n Valores estimados por el
SS E   ( yi  yˆ i ) 2
modelo de regresión
i 1 yˆ  ˆ1 x  ˆ0
Además:
SS E
ˆ 2 
n2
La suma cuadrado del error se interpreta como la suma cuadrada de los

residuos, siendo esto la diferencia entre la y observada y la estimada.
Por tanto la suma de cuadrado total se puede interpretar como la suma de

la desviación cuadradas alrededor de la media muestral de los valores de
y observados, mientras que la suma cuadra del error implicar restar cada
valor estimado de ŷ del correspondiente valor observado.
SUMA DEL LA REGRESIÓN:
La suma cuadrada de la regresión se entiende como
SS R  SSTot  SS E la cantidad de variaciones total explicada por el
modelo.
TABLA DE ANÁLISIS DE VARIANZA PARA LA REGRESIÓN LINEAL SIMPLE
Fuente de Grados de Suma de cuadrados Media de

variación libertad (SS) cuadrados F
(gl) (MS)
1 MS
Regresión SS R  SSTot  SS E MS R  SS R F ,1,n 2 
MS E
Error n2 SS E   ( yi  yˆ i ) 2 MS E 
SS E
i 1 n2
n
n 1 SSTot    yi  y 
2
Total
i 1
Para concluir lo referente a la regresión lo referente a la regresión lineal
simple se tratara el coeficiente de determinación que su valor permite llegar a
conclusiones sobre el grado en que el modelo determinado justifica la
variación de y. El mismos se calcula mediante la siguiente ecuación:
SS E
r  1
2
SSTot
Mientras mayor sea el valor de r2 el modelo de regresión lineal simple

determinado dará una mejor explicación a la variación de y
Bienestar _Psicológico Índice_Académico
5,23 4,24
4,97 3,99
5,02 4,19
4,61 3,88
4,27 3,73
3,83 3,34
4,18 3,6 Se realizó un estudio para ver la relación que
3,88
4,66
3,44
3,96
guarda el bienestar psicológico y el índice
4,42 3,79 académico de los estuantes para ello se tomo
4,38 3,76
4,26 3,7 una muestra aleatoria de una determinada
3,91 3,46
4,39 3,78 población en la cual se considera que estas
4,38
4,45
3,76
3,83
variables se distribuyen normalmente. Con los
3,84 3,38 resultados que se muestran procese la
4,43 3,82
3,2 3,29 información y llegue a conclusiones sobre la
5,19 4,2
3,88 3,44
relación existente entre las dos variables.
4,15 3,54
4,22 3,62
4,61 3,88
4,15 3,52
4,53 3,86
4,27 3,75
4,11 3,5
4,24 3,65
4,04 3,49
3,75 3,65
5,01 3,65
3,2 3,12
3,85 4,15
4,17 3,58
4,27 3,74
4,25 3,68
3,88 3,42
Para comenzar el estudio primero se debe realizar un diagrama de dispersión
que se puede realizar con el Excel, los resultados obtenidos se muestran a
continuación.
Gráfico del Bienestar Psicológico vs Índice Académico
4,5
Como se puede
observar en la
4
gráfica existen una
tendencia a un
comportamiento
Índice Académico
3,5
lineal en los datos
que se estudia.
3
Se esta ahora en
2,5
condiciones de
realizar el ANOVA de
la regresión.
2
0 1 2 3 4 5 6
Bienestar Psicológico
RESULTADOS DEL ANOVA DE LA REGRESIÓN
Significa que el 67,27% de las variaciones observadas del índice académico

es atribuida (se pueden explicar) por la relación lineal aproximada entre
r2 Índice académico y Bienestar Psicológico.
H 0 : 1  0 F0, 05,1,36
Se rechaza la hipótesis nula par un nivel de
significación de 0,05 se puede afirmar: El modelo de
H1 : 1  0 regresión lineal simple es util para representar la
relación entre el bienestar psicológico y el índice
académico.
Modelo de regresión lineal simple y  0,4626 x  1,7207

RESULTADOS DEL ANOVA PARA LA REGRESIÓN CON EL SPSS
Como se puede observar los

resultados son similares a los
obtenidos con el Excel, por lo
que se formulan las mismas
conclusiones.
En el caso de la regresión estudiamos como pronosticar el valor de una
variable partiendo de un modelo, pero existen otros casos con el objetivo
es investigar el comportamiento conjunto de dos variables para saber si
están relacionadas.
Esta relación entre variables se puede interpretar por medio del

coeficiente de correlación de Pearson, es un índice que mide
el grado de relación entre distintas variables relacionadas
linealmente. Este coeficiente puede ser determinado por la siguiente
ecuación: n
 n
 
  xi   yi 
S xy   xi yi   i 1  i 1 
n
S xy
rxy  i 1 n
S xx S yy
2 2
 n   n 
  xi    yi 
S xx   xi2   i 1  S yy   yi2   i 1 
n n
i 1 n i 1 n
Propiedades fundamentales del coeficiente de
correlación de Pearson
1.- El valor de r es independiente de cómo estén identificadas las variables.

2.- El valor de r es independiente de las unidades en que estén expresadas x y
y.
3.- Los valores de r están comprendidos ente -1 y 1.
4.- Si r = 1, todos los pares (xi, yi) coinciden en la recta con pendiente positiva.
5.- Si r = -1, todos los pares (xi, yi) coinciden en la recta con pendiente negativa.
6.- Un valor de r cercano a cero se interpreta como una ausencia de relación
lineal.
Analicemos el ejemplo estudiado par la regresión e interpretemos r:

RESULTADOS DEL ANOVA DE LA REGRESIÓN
Como se puede observar el valor de r es positivo y cercano a uno lo que

indica que hay una fuerte correlación lineal entre el bienestar psicológico y
el índice académico con una pendiente positiva lo que indica que cuando
uno aumenta de hecho el otro también aumenta. Resultado similares se
obtienen utilizando el SPSS.
PRUEBAS DE HIPÓTESIS RELACIONADAS CON EL COEFICIENTE
DE CORRELACIÓN
Pruebas para contrastar la correlación en un grupo

La hipótesis nula es que el índice de correlación sea 0
La hipótesis alternativa es que no lo sea.
El estadístico de contraste es el siguiente:
rxy n  2
t
1  rxy2
Si la hipótesis nula es cierta, dicho estadístico sigue una distribución t de

Student con n-2 grados de libertad.
DE CORRELACIÓN
Pruebas para contrastar dos correlaciones (grupos independientes)

La hipótesis nula es que ambos índices de correlación sean iguales
La hipótesis alternativa es que no lo sean.
z r1  z r2
z
1 1

n1  3 n2  3
Si la hipótesis nula es cierta, dicho estadístico sigue una distribución

Normal estandarizada. (zr hace referencia a Z de Fisher), el estadígrafo
de contraste es la distribución normal z.
DE CORRELACIÓN
Pruebas para contrastar dos correlaciones (grupos relacionados)
La hipótesis nula es que rxy1  rxy2

La hipótesis alternativa es que no lo sean.
r  rxy2  n  31  r 
t
xy1 y1 y2

2 1  rxy2 1  rxy2 2  ry21 y2  2rxy1 rxy2 ry1 y2 
Si la hipótesis nula es cierta, dicho estadístico sigue una distribución t
de Student con n-3 grados de libertad.
Ejemplo de la prueba de
hipótesis para dos
correlaciones dependientes
No se rechaza la hipótesis nulas, los resultados muestran evidencias

suficientes para afirmar que las correlaciones dependientes son
similares con un 95% de confianza.
POSIBLES BIBLIOGRAFÍA QUE PUEDEN SER UTILIZADAS EN EL CURSO.
 Murray Spiegel. Probabilidad y Estadística. Editorial McGraw.Hill. España 2010.
David Moore. Estadística Aplicada Básica. Editorial Mozart Art.S.L. España 2004.
Antonio Vargas. Estadísticas Descriptiva e Inferencial. Editorial Compobell. S.L. España 1995.
Elmer Mode. Elementos de Probabilidad y Estadística. Editorial Reverté. S.A. España. 2005.
Irwin Miller y John Freund. Probabilidad y Estadística para Ingeniero. Editorial Reverté. S.A.
México. 2004
2004. Juan Murgiondo y Javer Tejedor. Análisis Descriptivo de datos en Educación. Editorial
Murralla. S.A. España. 2005.
Roberto Pagano. Estadística para las ciencias del comporamiento. Editorial Thonson. México.
2003.
Geolfrey Norman y David Streiner. Bioestadística. Editorial Harcourt. España. 2005.
 Robert Soka y Rohlf F. Introducción a la bioestadística. Editorial Reverté S.A. España. 2002.
Sidney Siegel y John Castella. Estadística no paramétrica. Aplica a las ciencias de la conducta.
Editorial Trilla. México. 1998.
Jay Davore. Probabilidad y Estadística para Ingeniería y Ciencias. Editorial Thomson. México.
2001.
Susan Milton y Jesse Arnold. Probabilidad y Estadística con aplicaciones para la ingeniería y
ciencias computacionales. Editorial McGraw Hill. México. 2004
Eduardo Bologna. Estadística para Psicología y Educación. Editorial Brujas. Argentina. 2011.

Unidad #5 Regresión y Correlación

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Unidad #5 Regresión y Correlación

Încărcat de

Drepturi de autor:

Formate disponibile

Uno de los objetivos de la estadística inferencias está relacionado con la

relación que se puede establecer entre variables de forma determinista. Dicho

Si lo planteado anteriormente lo relacionamos con el proceso de

La relación más sencilla entre dos variables x y y es la relación lineal la

Para este modelo primeramente si debe reconocer que:

Valores determinados Valores de los parámetros

La relación existen entre x y la variable dependiente esta dada

1.- Las variables aleatorias yi están distribuidas normalmente y son

Para comenzar el proceso de estimación de los diferentes parámetros de la

Calculo del intercepto: NOTA: Los cálculos de estos coeficientes

SUMA DE CUADRADO TOTAL: 2

La suma de cuadrado total es una medida cuantitativa de la magnitud

La suma cuadrado del error se interpreta como la suma cuadrada de los

Por tanto la suma de cuadrado total se puede interpretar como la suma de

TABLA DE ANÁLISIS DE VARIANZA PARA LA REGRESIÓN LINEAL SIMPLE

Fuente de Grados de Suma de cuadrados Media de

Mientras mayor sea el valor de r2 el modelo de regresión lineal simple

Gráfico del Bienestar Psicológico vs Índice Académico

Significa que el 67,27% de las variaciones observadas del índice académico

Modelo de regresión lineal simple y  0,4626 x  1,7207

Como se puede observar los

Esta relación entre variables se puede interpretar por medio del

1.- El valor de r es independiente de cómo estén identificadas las variables.

Analicemos el ejemplo estudiado par la regresión e interpretemos r:

Como se puede observar el valor de r es positivo y cercano a uno lo que

Pruebas para contrastar la correlación en un grupo

El estadístico de contraste es el siguiente:

Si la hipótesis nula es cierta, dicho estadístico sigue una distribución t de

Pruebas para contrastar dos correlaciones (grupos independientes)

El estadístico de contraste es el siguiente:

Si la hipótesis nula es cierta, dicho estadístico sigue una distribución

Pruebas para contrastar dos correlaciones (grupos relacionados)

La hipótesis nula es que rxy1  rxy2

El estadístico de contraste es el siguiente:

No se rechaza la hipótesis nulas, los resultados muestran evidencias

S-ar putea să vă placă și