Sunteți pe pagina 1din 22

REGRESION LINEAL

MULTIPLE: Introducción
Mario Briones L.
MV, MSc

2005
obs loc tipo BIO SAL pH K Na Zn
1 OI DVEG 676 33 5 1441.67 35184.5 16.4524
2 OI DVEG 516 35 4.75 1299.19 28170.4 13.9852
3 OI DVEG 1052 32 4.2 1154.27 26455 15.3276
4 OI DVEG 868 30 4.4 1045.15 25072.9 17.3128
5 OI DVEG 1008 33 5.55 521.62 31664.2 22.3312
6 OI SHRT 436 33 5.05 1273.02 25491.7 12.2778
7 OI SHRT 544 36 4.25 1346.35 20877.3 17.8225
8 OI SHRT 680 30 4.45 1253.88 25621.3 14.3526
9 OI SHRT 640 38 4.75 1242.65 27587.3 13.6826
10 OI SHRT 492 30 4.6 1282.95 26511.7 11.7566
11 OI TALL 984 30 4.1 553.69 7886.5 9.882
12 OI TALL 1400 37 3.45 494.74 14596 16.6752
13 OI TALL 1276 33 3.45 526.97 9826.8 12.373
14 OI TALL 1736 36 4.1 571.14 11978.4 9.4058
15 OI TALL 1004 30 3.5 408.64 10368.6 14.9302
16 SI DVEG 396 30 3.25 646.65 17307.4 31.2865
17 SI DVEG 352 27 3.35 514.03 12822 30.1652
DESARROLLO DEL MODELO

Búsqueda de las variables a incluir en el modelo.

Se asume que hay un conjunto de variables candidatas o


disponibles, el cual presumiblemente incluye todas
las variables relevantes, a partir del cual un subconjunto de
r variables debe elegirse para la ecuación de regresión.
Las variables candidatas pueden incluir diferentes formas
de la misma variable básica, tales como X y X2 y el
proceso de selección puede incluir restriciones acerca
de las variables que pueden ser incluidas. Por ejemplo,
X puede ser forzada a incluirse en el modelo si X2 está en
el subconjunto seleccionado.
Hay 3 áreas problema relacionadas con esto:

1. Los efectos teóricos de la selección de variables


sobre la regresión resultante.

2. Los métodos de cálculo para encontrar el “mejor”


subconjunto de variables para cada tamaño de subconjunto.

3. La elección del tamaño del subconjunto (para el


modelo final), o regla de detención
Usos de la ecuación de regresión:

1. Proporcionar una buena descripción de la


conducta en la variable de respuesta.

2. Predicción de respuesta futura y estimación


de respuestas promedio.

3. Extrapolación o predicción de respuestas fuera del


rango de los datos.

4. Estimación de parámetros.

5. Control de un proceso por variación de los nivele de input.

6. Desarrollo de modelos realísticos del proceso.


Cada objetivo tiene implicancias diferentes en el modo
como se coloca el énfasis en la eliminación de variables
desde el modelo, o en cuan importante es que las
variables retenidas estén causalmente relacionadas con
la variable de respuesta.

Las decisiones acerca de causalidad y realismo deben


depender de información ajena al conjunto de datos.
Por ej., modalidad de recolección de los datos y
conocimiento fundamental acerca de la operación del sistema.
Objetivo: descripción de la conducta de la variable
respuesta en un conjunto particular de datos.

No tiene importancia la eliminación de variables, las


posibles relaciones causales o el realismo del modelo.

La mejor descripción de la variable respuesta, en


términos de mínima suma de cuadrados residuales,
estará dada por el modelo completo.
DEP VAR: BIO N: 45 MULTIPLE R: 0.823 SQUARED MULTIPLE R: 0.677
ADJUSTED SQUARED MULTIPLE R: .636 STANDARD ERROR OF ESTIMATE: 398.267

VARIABLE COEFFICIENT STD ERROR STD COEF TOLERANCE T P(2 TAIL)

CONSTANT 1252.575 1234.717 0.000 . 1.014 0.317


SAL -30.288 24.030 -0.171 0.451 -1.260 0.215
PH 305.483 87.882 0.577 0.300 3.476 0.001
K -0.285 0.348 -0.129 0.335 -0.819 0.418
NA -0.009 0.016 -0.090 0.300 -0.544 0.590
ZN -20.678 15.054 -0.259 0.232 -1.374 0.177

ANALYSIS OF VARIANCE

SOURCE SUM-OF-SQUARES DF MEAN-SQUARE F-RATIO P

REGRESSION .129849E+08 5 2596984.192 16.373 0.000


RESIDUAL 6186042.238 39 158616.468
Las ecuaciones de regresión con pocas variables :

Tienen el atractivo de la simplicidad.

Son económicas por baja información necesaria.

Eliminan variables irrelevantes.

Eliminan variables con bajo aporte a la


explicación de la variable dependiente.
Los usos de PREDICCION y ESTIMACION de
respuestas promedio son los más tolerantes a la
eliminación de variables. Al mismo tiempo, no es
importante si las variables están causalmente
relacionadas o el modelo es realístico.

Se asume que la predicción y la estimación van a


estar en el espacio de X de los datos y que el sistema
continua operando como cuando se recogieron los
datos.

Cualquier variable que contenga información predictiva


acerca de la variable dependiente y para la cual se pueda
obtener información a bajo costo, es una variable de
utilidad.
La extrapolación requiere más cuidado en la
elección de las variables.

Las variables retenidas deben describir de la


manera más completa posible la conducta del
sistema.
Las extrapolaciones más allá del ámbito de X son
siempre peligrosas.
Debe re analizarse y agregarse continuamente
información.
Estimación de parámetros:

Se debe tener precaución al sacar variables del modelo,


para evitar sesgo. Como ventaja, la eliminación de
variables realmente no relacionadas reduce la varianza
de las estimaciones.

Control de un sistema:

Implica una relación de causa efecto entre las variables


independientes y la variable de respuesta. Si se
eliminan las variables incorrectas conduce a una
falta de efecto de la intervención sobre el sistema.
El objetivo de la investigación básica es con
frecuencia la construcción de modelos realísticos
La meta final es la comprensión del proceso.
Existe siempre un interés en identificar las
variables importantes por su relación de causa
sobre el modelo.

La selección no puede basarse sólo sobre la


estructura correlacional. Este análisis sirve para
identificar clases de variables que promuevan
investigación posterior del tipo causa efecto.

En la medida que se necesita mayor conocimiento


del proceso, hay mayor interés en desarrollar modelos
cuya forma funcional refleje realísticamente la
conducta del sistema.
Cuando las variables independientes
en el conjunto de datos son ortogonales,
el resultado de mínimo cuadrado para cada
variable es el mismo independientemente
de cual otra variable se incorpore al modelo.

Entonces, el resultado de un solo análisis puede


ser utilizado para escoger las variables
independientes que permanecen en el modelo.

En datos observacionales y por pérdida en experimentos,


se produce falta de ortogonalidad y el resultado
de mínimos cuadrados de cada una es dependiente
de las otrad variables incluidas en el modelo.
Conceptualmente, la única manera de asegurar
que se escoge el mejor modelo para cada
subconjunto, es calcular todas las posibles
regresiones.

Se puede cuando el número de variables es


relativamente pequeño, pero si hay 10 variables
independientes hay 210-1 = 1023 posibles
modelos a evaluar.
PROCEDIMIENTO DE REGRESION STEPWISE

Este procedimiento identifica los modelos de los


subconjuntos agregando o borrando, según la
alternativa, la variable que tenga un mayor impacto
sobre la suma de cuadrados residuales.
Forward stepwise:

escoje los subconjuntos de modelos agregando una


variable a la vez al conjunto previamente elegido.
Este procedimiento comienza eligiendo como
subconjunto de una variable a aquella variable
independiente que explica la mayor parte de la
variación en la variable dependiente. Esta es
la con mayor correlación lineal con Y. En cada
paso sucesivo, se agrega al subconjunto aquella
variable QUE NO ESTABA en el modelo previo y
que produce la mayor reducción en la suma de
cuadrados residuales.
En la práctica, es la variable que tiene la mayor
correlación con los residuales del modelo actual.
Sin una regla de término, la selección continúa
hasta incluir todas las variables en el promedio.
Backward elimination:

Escoge el modelo comenzando con todas las variables


y eliminando en cada paso la variable cuya eliminación
cause el mínimo incremento en la suma de cuadrados
residuales.
Esta es la variable dependiente que en el modelo
actual tenga la más pequeña suma de cuadrados parciales.

Sin una regla de término, la selección continúa


hasta que el modelo incluye una sola variable.
Ninguno de los dos procedimientos toma en cuenta el
efecto que la adición o eliminación de una variable
puede tener en la contribución de las otras variables
del modelo.
Una variable agregada tempranamente al modelo
en Forward selection puede hacerse irrelevante más
adelante, a agregar otras variables o bien,
variables eliminadas tempranamente pueden
hacerse importantes después que otras se han
eliminado del modelo.

El método llamado stepwise es una selección


hacia delante que rechequea en cada paso la importancia
de las variables ya incluidas.
Si la suma de cuadrados parciales para cualquiera
de las variables incluidas previamente no
satisface un criterio mínimo para permanecer en el
modelo, el procedimiento cambia a eliminación
hacia atrás y las variables son eliminadas una a la
vez hasta que todas las variables satisfacen el
criterio.
Después de esto se reanuda la selección hacia
adelante.
CRITERIOS DE TERMINO DE SELECCION

SELECCIÓN HACIA ADELANTE:

Tasa de reducción en la suma de cuadrados residuales


producto de la incorporación de la siguiente variable

Nivel crítico de F para entrar o nivel de significancia


El proceso termina cuando ninguna de las variables
fuera del modelo satisface el criterio para entrar.

SELECCIÓN HACIA ATRÁS:

Test de F para la mayor suma de cuadrados residuales


de las variables que permanecen en el modelo.

S-ar putea să vă placă și