Sunteți pe pagina 1din 14

REGRESION LINEAL Y CORRELACION

INTRODUCCION

En muchas aplicaciones estadísticas se deben resolver problemas que contienen un


conjunto de variables y que se sabe existe alguna asociación entre ellas. En este conjunto
de variables muy a menudo se tiene una sola variable dependiente (o respuesta) Y, que
depende de una o más variables independientes o predictoras (o de regresión) X1, X2…., XK,
como por ejemplo , el salario, dependiente de: años de experiencia, grado de instrucción,
sexo. Etc.

La variable dependiente se mide con un error que no se controla en el experimento, por


tanto, Y es una variable aleatoria. Las variables independientes X1, X2…., XK se miden con
un error despreciable , que en la mayoría de los casos se controla en el experimento, y por
lo tanto, no tienen la propiedad de ser variables aleatorias

Existen dos formas distintas pero relacionadas del estudio de la asociación entre variables
a partir de una muestra aleatoria.

La primera forma, es determinar una relación funcional de la variable dependiente Y con


respecto a una o más variables independientes con el de predecir valores de Y. este método
es el análisis de regresión.

La segunda forma de estudio de asociación entre variables es, medir la magnitud relación
entre ellas, mediante un coeficiente o índice. A esta técnica se denomina análisis de
correlación.

Los métodos de regresión y correlación entre variables se clasifican por el número de


variables independientes, en simple y múltiple. El análisis de asociación se denomina simple,
si hay una sola variable independiente, si hay dos o más variables independientes se
denomina el análisis de asociación múltiple.

Por el tipo de función matemática que se puede ajustar a los datos, la asociación de las
variables puede ser lineal o no lineal como: parábola, polinomio, exponencial hiperbólica,
etc.
REGRESION LINEAL SIMPLE

1.1 MODELO DE REGRESION LINEAL SIMPLE

Ana variable dependiente Y con una sola variable independiente X. Representamos una
muestra aleatoria de tamaño n de (X, Y) por el conjunto de pares de datos: {(x,y) /i =1.2,…,n}.

Si se toman nuestras aleatorias adicionales utilizando exactamente los mismos valores de X, es


σ2de esperar que los valores de Y varíen. Por lo tanto, el valor (xi , Y2) será un valor de alguna
variable aleatoria Yi. Es decir, para cada valor X, hay un grupo de valores de Y

Por conveniencia, denotaremos por Y/X la variable aleatoria y dependiente de X, su media y


varianza se denotan respectivamente por µ y/x y por σ2 y/x

En particular el símbolo Y/ xi representa a la variable aleatoria Yi , cuando X = Xi. La media y


varianza de Y/ xi son respectivamente µy/xi y por σ2 y/xi

Los supuestos para el modelo regresión lineal simple son:

1) IGUALDAD DE VARIANZAS (Homoscedasticidad).

Para cada valor Xi de la variable independiente X, la distribución de la variable aleatoria


dependiente Yi tiene media µ y/xi y varianza σ2 y/xi. Se supone que cada una de estas
varianzas es iguales a la varianza común denominada varianza de regresión. Es decir, las
distribuciones de Yi tienen medidas diferentes, pero tienen la misma σ2

2) INDEPENDENCIA

Se supone que las Yi son variables aleatorias estadísticamente independientes.

3) LINEALIDAD

Se supone que la relación de Y con X es lineal, es decir todas las medias uy/xi deben estar en
una línea recta denominada línea de regresión poblacional, cuya ecuación es:

Uy/x = α+ βX

En la ecuación e regresión poblacional los coeficientes de regresión α y β son parámetros que


se estiman a partir de los datos de la muestra

El valor de α es la ordenada en el origen e indica el valor de Y cuando X = 0


4) NORMALIDAD :

Se supone que cada variable aleatoria dependiente Yi tiene distribución normal con media
µ y/xi y varianza σ2 . En consecuencia. La distribución de cada variable Ei es normal con media
0 y varianza σ2 .

DIAGRAMA DE DISPERSION
El primer paso de análisis de regresión, es construir una gráfica de los datos muéstrales en el
plano coordenado XY. Esta grafica es denominada diagrama de dispersión.

El diagrama de dispersión indica frecuentemente el tipo de tendencia de Y con respecto a X ,

Si la tendencia es lineal se puede ajustar una línea recta al diagrama de dispersión.

y y

x x

a) Lineal positiva b) lineal negativa

y y

c) no lineal x d) ninguna relación


1.2 ESTIMACION DE LA ECUACION DE REGRESION POBLACIONAL. METODO
MINIMO CUADRADOS

Es regresión lineal simple una muestra de n pares de observaciones solucionadas al azar de la


población (x, y) puede representarse por el conjunto: {(x,y)/ i = 1;2;…n}.

Si se trata de la ecuación de regresión poblacional µy/x = α+ βX. Cada dato ( Xi , Yi) satisface la
ecuación : Yi = α+ βi + £i en donde ei es el valor de £i cuando Yi toma el valor de yi.

Esta ecuación puede considerarse como el modelo para una sola observación Yi

La estimación de la ecuación de regresión poblacional es la ecuación de regresión muestral


Ŷ = a+bX
En donde Y es una estimación de Uy/x , a y b son las estimaciones de los parámetros α y β
Respetivamente.
Se denotara por ŷi el valor de Ŷ cuando X = xi

Cuando se considera la ecuación de regresión muestral cada dato ( xi , yi) de la muestra ,


satisface la ecuación:

Yi= a+bxi+ei

En donde ei = yi – ŷi se denomina residuo ( o residual) y describe el error en el ajuste del


modelo de regresión muestral en el punto i de los datos

Para determinar la ecuación de regresión muestral

Ŷ = a+bX

A partir de los datos de la muestra, utilizaremos el método de mínimos cuadrados.


1.2 METODO DE MINIMOS CUADRADOS

La recta de regresión de mínimos cuadrados de Y en X es aquella que hace mínima la suma


de los cuadrados de errores o residuos alrededor de la línea de regresión ( SCE) cuya
expresión es :

SCE ∑𝑛𝑖=1 𝑒𝑖2 = ∑𝑛𝑖=1( yi – ŷi )2 = ∑𝑛𝑖=1( yi – a − bxi )2

Luego, determinar una recta de regresión de mínimos cuadrados consiste en hallar los valores
de a y b de manera que hagan mínima, la suma:

SCE= ∑𝑛
𝑖=1[ yi − (a + bxi )]
2

Este requisito se cumple, de acuerdo con el teorema de Gass-Markow, si a y b se determinan


resolviendo el siguiente sistema de ecuaciones normales:

∑𝑛𝑖=1 𝑒𝑖2 = 𝑛𝑎 + 𝑏 ∑𝑛𝑖=1 𝑥𝑖

Estas ecuaciones se obtienen de igualar a cero las derivas de SCE con respecto a α y con
respecto a b respectivamente consideradas como variables ya que ( xi , yi) son
datos observados.

En efecto derivando con respecto de a y b ,se tiene :

Ә(SCE) / Әa= -2 ∑𝑛𝑖=1( yi − (a − bxi )

Ә(SCE) / Әb= -2 ∑𝑛𝑖=1( yi − a − bxi ) 𝑥𝑖

Resolviendo el sistema de ecuaciones normales para b se obtiene :

𝑛 ∑𝑛
𝑖=1 − ∑ 𝑥𝑖 ∑ 𝑦𝑖
𝑏=
𝑛(∑ 𝑥𝑖)2

Y dividiendo por n la primera ecuación normal se tiene:

a = ӯ-bẋ
Donde ẋ e ӯ son las medias de X e Y respectivamente.

Observe que :

NOTA 1: sustituyendo a = ӯ - bẋ en Y = a+bX , resulta


Y– ӯ= b(X-ẋ)
Esta es otra forma de expresar la recta de regresión. Observe que la recta de regresión al
punto ( X.Y) cuyas componentes son ,as medias de X de Y respectivamente.

NOTA 2: (Interpretación del coeficiente de regresión b)

El valor constante a de la ecuación de regresión muestral, es la ordenada en el origen.

El valor de la pendiente b es el cambio promedio en Y cuando X cambia una unidad de


medición.

Si b > 0, entonces la tendencia lineal es creciente es decir a mayores valores de X


corresponden mayores valores de Y , también a menores valores de X corresponden mayores
valores de Y .

Si b < 0 entonces la tendencia lineal es decreciente, es decir a mayores valores de X


corresponden menores valores de Y, también a menores valores de X corresponden mayores
valores de Y.

Si b = 0 entonces Y = a. luego, Y permanece estacionario para cualquier valor de X. es


decir, no hay regresión muestral.

Esta misma interpretación es válida para la pendiente β en la ecuación de regresión


poblacional.

EJEMPLO

El gerente de personal de la empresa agroindustrial ‘bajo mayo’ estudia la relación entre la


variable entre la variable dependiente: Y = gastos y la variable independiente X = salario, de su
personal obrero. Una muestra aleatoria de 10 obreros revelo los siguientes datos en dólares
por semana:
salarios 28 25 35 40 45 50 50 35 70 80
Gastos 25 20 32 37 40 40 45 30 55 60

a) Trace el diagrama de dispersión e indicar la tendencia.

b) Determine la línea de regresión muestral de mínimos cuadrados.

c) Estime el gasto que correspondería a un salario semanal de $90

SOLUCION
a) El diagrama de dispersión de la muestra de ingresos (x) y gastos (y) semanales

b) La línea de regresión estimada o ecuación de regresión muestral es:

Ŷ = 6.38 + 0.6991X

Esta ecuación puede ser obtenida usando una calculadora o un paquete de computo (por
ejemplo, el MCEST)

El cálculo en forma detallada es como sigue:

∑ 𝑥 = 458, ∑ 𝑦= 384
∑ 𝑥𝑦 = 19.550 ∑𝑥 2 = 23.784
ẋ = 45.8 ӯ = 38.4

La pendiente b se puede usando la fórmula de sumas

𝑛 ∑ 𝑥𝑦−∑ 𝑥 ∑ 𝑦
b= =
𝑛 ∑𝑥 2−(∑𝑥)2

O usando la formula de covarianza y varianza


Finalmente

c)el valor 0.6991 de la pendiente indica que para una aumento de $1 en los salarios semanales
corresponde un gasto promedio de 0.6991 $ en los gastos semanales . asi mismo un aumento
de $10 en los ingresos , corresponde un gato promedio de 0.6991x10$ = 6.99$ en los gastos
semanlaes.

d) para un salario semanal de $90 (x =90)se tiene un gasto estimado semanal de

Y = 6.38+0.6991x90 = $69.299

1.3ESTIMACION DE LA VARIANZA DE LA REGRESION POBLACIONAL σ2

Una vez hallada la línea recta de regresion muestral Y = a+bX nos interesa saber su utilidad . la
utilidad principal es predesir valores de Y para valres determinados de X

Si se hace una predicción nos interesa saber , ¿ que tan buena o confiable es esta preiccion? .
la respuesta a esta pregunta depende de la variabilidad de los valores de Y con respcto a la
recta de reresion
 Una media que indica el grado de variablidad o dispersión ( o concentración en torno a
la línea de regresion es la varianza de la regresion poblacinal que se denota por σ2 o
por σ2 y/x Y se define por :

Donde N es el tamaño de la población

La raíz cuadrada σ de esta varianza es la desviación estándar de la regresion en la población.

Una estimación inesesgada σ2 es la varianza de la regresion muestarl que se denota por s2 o


σ2 y/x se define por

Donde el numerador es la suma de cuadrados de los errores alrededor de la línea de regresion


y el denominador n-2 representa los grados e libertad ( a n se sustraen dos grados de libertad
que corresponden al numero de coeficientes de regresion)

Es decir que la varianza muestral s2 es una estimación insesgada de σ2 .para el calculo de s2


se utiliza de la siguente expresión:

ERROR ESTANDAR DE ESTIMACION

La raíz cuadrada de la varianza de la regresion muetsral es la desviación estándar muetsral de


la regresion denotada por s o por o y/i . este valor se denomina también error estándar de
estimación

INTERPRETACION DEL ERROR DE ESTIMACION

El error estándar de la estimación ( o la varianza ) es una medida da de la dispersión de los


valores observados alrededor de la ecuación de regresion muestral

Mientras mas pequeño sea el valor del error estándar de estimación s ( o de la varianza s 2) ,
mas cercanos a la línea de regresion estarán los valores Y.

Si la dispersión alrededor de la línea de regresiontiene distribución y el tamaño de la muestra


grande , entonces:
i)si se traza una línea paralela a la línea de regresion o y/x unidades mas abajo , entonces
aproximadamente el 68 % de los puntos del diagrama de esispersion caerán entre los valores

o y/x . es decir aproximadamente el 68% de los residuos son menores de σ y/x

ii)si se traza una línea paralela de regresion 2σ y/x unidades mas arriba y otra paralela 2 σ y/x
unidades mas abajo , entonces aproximadamente el 95% de los puntos del digrama de
dispersión caerán entre los vaores 2 σ y/x . es decir, aproximadamente el 95% de los residuos
son menores σ y/x

iii)si sse traza una línea paralela a la línea de regresion 3 σ y/x unidades mas arriba y otra
paralela 3 σ y/x unidades mas abajo, enotnses aproximadamente el 100% de los puntos del
diagrama de dispersión caerán residuos de 3 σ y/x

ejemplo 2

continuando co el ejemplo 1

a)calcule el error estanadar

b)determine los residuales muestrales.¿que porcentaje de estos residuales son menores que

σy/x? ilustre en una grafica

SOLUCION

a)en el ejemplo 1 se han obtenido las siguientes estadísticas:

Entonces la varianza estimada o varianza de la regresion muestral es :

El error estándar de estimación es σy/x o s =

b) la tabla que sigue muestra los valores observados , los valores predecidos y los residuales

Observada observada Estimada Residual


x
28.0000 25.0000
25.0000
35.0000
45.0000
50.0000
50.0000
35.0000
70.0000
80.0000

Como se observa el 70% de los residuales de la muestra son menores que el error de
estimación 2.51

1.4) INFERENCIAS ACERCA DE LOS COEFICIENTES DE REGRESION

Las inferencias acerca del parámetro carece de importancia pues α es la ordenada en el origen
y representa intersección de Y cuando X = 0

Nos referimos a las inferencias acerca del parámetro β la pendiente de la línea de regresion en
la población
Antes de utilizar la ecuación de regresion lineal muestral para realizar predicciones de Y a
partir de X , se debe primero determinar si el valor de la pendiente de la ecuación lineal
calculada de la muestra es significativa o no.

Debido a variaciones muestrales, la pendiente de la regresion muestral b puede asumir valores


positivos o negativos , pero la pendiente poblacional β podría ser igual a cero.

Si β = 0 , entonces no hay regresion Y con X en la población. Si esto ocurre la ecuación de


regresion muestral no se podría utilizar para hacer predicciones validas

. DISTRIBUCION MUESTRAL DE LA ESTADISTICA B

La estadística b se puede escribir como una combinación lineal de las variables aleatorias
independientes yi . esto es :

Si se supone que cada variable Yi tiene distribución , entonces la estadística b tiene


también distribución normal.

Tambien la media de la estadística b , denotada por ub o por E (b) es igual β , esto es:

E(b) = β

Asimismo se dice que la varianza de b denotada por σ2 o por V(b) esta dada por la
expresión :

La desviación estándar o error estándar de b es el valor

La variable aleatoria b tiene pues distribución normal n y la variable

Se disribuye como normal N (0,1)


Por otro lado la variable aleatoria (n-2) s2 /o2 ) tiene distribuion chicuadrado con n-2
grados de libertad . además b y s2 son independientes. Por sonsiguente , la variable
tiene distribución t-student con n-2 grados de libertad.

INTERVAÑO DE CONFIANZA DE β

El intervalo de confianza de ( 1-α) 100% para el parámetro β en la línea de regresion :

uy/x = α+ βX , se deduce de la distribución muestral del coeficiente b .este intervalo de


confianza , esta dado por la expresión:

Donde o2 es el error estándar de la estadística b

El valor t0 = t1- α/2.n -2 se busca en la tabla t.student con grados de libertad : n-2

Ejemplo 3
Continuando con ejemplo 1 desarrollle un intervalo para el parámetro β con nivel de
confianza 0.095. ¿ se puede concluir β = o?

Solución

S-ar putea să vă placă și