Sunteți pe pagina 1din 10

INSTITUTO TECNOLÓGICO SUPERIOR DE

ACAYUCAN

Docente: Ing. Víctor Martínez Molina

Materia: Estadística inferencial 2

ACTIVIDAD: Investigación de la unidad 2 (Regresión lineal


múltiple y correlación)

ALUMNA: Abigail Martínez Hernández

GRUPO: 505-G Dominical

Acayucan, Ver a 9 de Octubre del 2020


Regresión lineal múltiple y correlación

La regresión lineal múltiple es la gran técnica estadística para comprobar hipótesis

y relaciones explicativas. Ante de empezar, una serie de condiciones que se deben

cumplir para poder aplicar la regresión lineal múltiple:

La variable dependiente (resultado) debe ser escalar (numérica) o bien ordinal de

más de 5 categorías, es decir, las categorías de la variable dependiente deben tener

un orden interno o jerarquía, por ejemplo nivel de ingresos, peso, número de hijos,

justificación del aborto en una escala de 1-nunca a 10-siempre.

Las variables independientes (explicaciones) deben ser escalares (numérica),

ordinales (también se recomienda con más de 5 categorías, p.ej. nivel de ingresos)

o dummy (variables de dos categorías donde una indica existencia o otra no-

existencia, por ejemplo 1-ser soltero, 0-no ser soltero).

Hay otras condiciones como: las variables independientes no puede estar altamente

correlacionadas entre sí, las relaciones entre las variable independientes y la

variable dependiente deben ser lineales, todas variables (o mejor dicho sus

residuales) deben seguir la distribución normal y deben tener varianzas iguales.

Estas condiciones son importantes pero hay maneras de tratar los datos si se

incumple alguna de ellas. Es importante tener en cuenta que la magnitud de cada

coeficiente parcial de regresión depende de las unidades en las que se mida la

variable predictora a la que corresponde, por lo que su magnitud no está asociada

con la importancia de cada predictor.


Para poder determinar qué impacto tienen en el modelo cada una de las variables,

se emplean los coeficientes parciales estandarizados, que se obtienen al

estandarizar (sustraer la media y dividir entre la desviación estándar) las variables

predictoras previo ajuste del modelo.

Correlación

La correlación determina la relación o dependencia que existe entre las dos

variables que intervienen en una distribución bidimensional. Es decir, determinar si

los cambios en una de las variables influyen en los cambios de la otra. En caso de

que suceda, diremos que las variables están correlacionadas o que hay correlación

entre ellas.

2.1 Modelo de regresión múltiple

El objetivo del análisis de la regresión lineal es analizar un modelo que pretende

explicar el comportamiento de una variable (Variable endógena, explicada o

dependiente), que denotaremos por Y, utilizando la información proporcionada por

los valores tomados por un conjunto de variables (explicativas, exógenas o

independientes), que denotaremos por X1 , X2 , ....., X n

Ahora considere una variable dependiente (Y) y varias variables independientes (X1,

X2, etc.). Entonces la regresión múltiple, mide el comportamiento o actitud de la

variable Y con respecto a todas las variables X.


La relación entre las variables puede ser lineal o no lineal.

Considere solamente la regresión lineal múltiple de Y sobre X1 y X2 (pues se puede

generalizar fácilmente por inducción), que es una relación E (Y) = α + β 1 X1+ β2 X2.

Ajustando las observaciones (ternas ordenadas con representación gráfica de

puntos en un espacio tridimensional) a un plano de regresión, con ecuación:

Donde:

= Valor estimado de Y para valores dados de X1 y X2,

a = Intersección al origen del plano en el eje Y,

b1 = Coeficiente de regresión parcial (pendiente) de Y sobre X1, con X2 constante,

b2 =Coeficiente de regresión parcial (pendiente) de Y sobre X2, con X1 constante.

Para calcular estos parámetros muestrales, efectúe las siguientes operaciones a los

valores muestrales observados:


Donde el último renglón se obtiene de restar los dos anteriores; por ejemplo, en la

cuarta columna se tiene:

La barra de ajuste de los puntos al plano se mide con el error estándar de regresión

lineal múltiple de Y sobre X1 y X2

A continuación, basándose en los resultados muestrales, se puede hacer la

inferencia estadística para los parámetros poblacionales de las siguientes formas:

1) Prueba de hipótesis para el coeficiente de regresión parcial de Y sobre X1 con X2

constante en la población (β1). Se plantean las hipótesis

(u otro valor)

(u otro valor, con pruebas unilaterales también)

y se compara
donde: es la variación natural del estimador b1

2) Prueba de hipótesis para el coeficiente de regresión parcial de Y sobre X2 con X1

constante en la población (β2). Se plantean las hipótesis

(u otro valor)

(u otro valor, con pruebas unilaterales también)

y se compara:

( 0 u otro valor) con tt

donde:

es la variación natural del estimador b2

Si se desea en cualquier caso o si en los casos 1) y 2), la prueba resulta

significativa, se puede encontrar los intervalos de confianza respectivos.

3) Intervalo de confianza para estimar β1

4) Intervalo de confianza para estimar β2


Otro valor que se puede estimar es el valor individual Y, para valores de X1 y X2

dados.

5) Intervalo de confianza para estimar Y:

Donde es aproximadamente la variación natural del estimador Y.

2.2 Estimación de la ecuación de regresión múltiple

La ecuación de regresión indica el valor esperado o valor medio de la variable

dependiente y está relacionado con los valores de las variables independientes x1,

x2, …xp. Para obtener la ecuación de regresión estimada, se emplean los datos

muestrales y el método de mínimos cuadrados.

Para i = 1,2,….n. Escribiendo el modelo para cada una de las observaciones, éste

puede ser considerado como un sistema de ecuaciones lineales de la forma

2.3 Matriz de Varianza-Covarianza.

Cuando en un estudio se mide la relación variada entre más de dos variables,

frecuentemente la información se expresa en forma matricial. La estructura de esta

matriz, de naturaleza simétrica, y conocida como matriz de varianzas/covarianzas

es la siguiente:

X1 X2 X3
X1 S2x1 Sx1.x2 Sx1.x3
X2 Sx2.x1 S2x2 Sx2.x3
X3 Sx3.x1 Sx3.x2 S2x3
2.4 Pruebas de Hipótesis para los Coeficientes de Regresión.

H0 : = 0 (equivale a plantear que no hay relación entre Y y Xi )

H1 : 0 (equivale a plantear que sí hay relación entre Y y Xi )

Si se acepta la de hipótesis nula, se está aceptando que no hay relación entre Y y

Xi , por lo tanto, ésta variable se debe sacar del modelo.

La estadística de trabajo se resuelve suponiendo que la hipótesis nula (H0 ) es

verdadera. Dicha estadistica de trabajo es:

Regla de decisión . Si el número de observaciones es mayor que 30, los valores de

Z se hallan en la distribución normal. Si el número de observaciones es menor o

igual a 30 , los valores de Z se hallan en la distribución t con n-k-1 grados de libertad.

Siendo k el número de variables independientes en el modelo.

2.5 Correlación Lineal Múltiple

El coeficiente de correlación lineal múltiple es una medida del grado de

relación mutua entre la variable Y y las variables en la muestra. El

cuadrado del coeficiente de correlación lineal múltiple es el % de la

variación de Y, explicado por la regresión lineal múltiple con

Dicho coeficiente se calcula de la siguiente forma:


Donde:

Es el coeficiente de correlación lineal simple entre

Es el coeficiente de correlación lineal simple entre

Es el coeficiente de correlación lineal simple entre

Y sus cuadrados son los coeficientes de determinación,

que explican el % de variación de la primera variable, debido a la regresión lineal

simple con la segunda variable.

Otra forma (más simple) de calcular el coeficiente de correlación lineal múltiple es

utilizando los coeficientes de regresión parcial muestrales en la siguiente

fórmula:

También se puede calcular el coeficiente de correlación lineal múltiple como el


coeficiente de correlación lineal simple, que mide la relación entre
2.6 Aplicaciones
La regresión múltiple se utiliza para la predicción de respuestas a partir de variables

explicativas. Pero no es ésta realmente su aplicación más común en investigación.

Sus usos más comunes son los siguientes:

Identificación de variables explicativas. Nos ayuda a crear un modelo donde se

seleccionen las variables que puedan influir en la respuesta, descartando las que

no aporten información.

Detección de interacciones entre variables independientes que afectan a la variable

respuesta.

Identificación de variables confusoras. Aunque es un problema difícil, es de interés

en investigación no experimental.

S-ar putea să vă placă și