Sunteți pe pagina 1din 4

Anlisis de regresin

Genera una ecuacin para describir la relacin estadstica entre uno o ms predictores y la variable de respuesta y para predecir nuevas observaciones. La regresin generalmente utiliza el mtodo de mnimos cuadrados ordinarios, del cual se obtiene la ecuacin al minimizar la suma de los residuos cuadrados. Los resultados de regresin indican la direccin, el tamao y la significancia estadstica de la relacin entre un predictor y una respuesta. El signo de cada coeficiente indica la direccin de la relacin. Los coeficientes representan el cambio de la media en la respuesta para una unidad de cambio en el predictor mientras mantiene constantes otros predictores en el modelo. El valor p de cada coeficiente prueba la hiptesis nula de que el coeficiente es igual a cero (no tiene efecto). Por lo tanto, los valores p bajos sugieren que el predictor es una adicin significativa a su modelo. La ecuacin predice nuevas observaciones dados valores predictores especficos.

Por ejemplo, usted trabaja para una compaa de chips de patatas que analiza los factores que afectan el porcentaje de chips desmenuzados por contenedor antes del envo (la variable de respuesta). Usted lleva a cabo el anlisis de regresin e incluye el porcentaje de patatas con respecto a otros ingredientes y la temperatura de coccin (centgrados) como su dos predictores. A continuacin, se muestra una tabla simplificada de resultados. Ecuacin de regresin: %Chips rotos = 4.231 - 0.044(%Patata) + 0.023(Temperatura de coccin C) Predictor Coeficiente Constante 4.231 %Patata -0.044 Temp. de 0.023 coccin R-cuad. Los resultados de regresin indican que ambos predictores son significativos debido a sus valores p bajos. Juntos, los dos predictores conforman el 67.2% de la varianza de chips de patatas rotos. Especficamente: Se espera que, por cada aumento del 1% en la cantidad de patatas, el porcentaje de chips rotos baje en 0.044%. P 0.322 0.001 0.020

Por cada aumento de 1 grado centgrado en la temperatura de coccin, se espera que el porcentaje de chips rotos aumente en 0.023%. Para predecir el porcentaje de chips rotos para valores de configuracin de 50% de patatas y una temperatura de coccin de 175C, usted calcula un valor esperado de 4.831% de chips de patatas rotos. Nota Se hace referencia a los modelos con un predictor como regresin lineal simple, de otro modo se conocen como regresin lineal mltiple.

Comparacin y verificacin de modelos en la regresin de los mejores subconjuntos


tema principal

Utilice la regresin de los mejores subconjuntos para identificar grupos de predictores que sern analizados con mayor profundidad. Idealmente, debe seleccionar el subconjunto ms pequeo que satisfaga ciertos criterios estadsticos. Esto se debe a que un subconjunto de predictores puede estimar los coeficientes de regresin y pronosticar respuestas futuras con varianza ms pequea que el modelo completo utilizando todos los predictores [22].

Comparacin de modelos
Minitab muestra las estadsticas R , R ajustado , Cp de Mallows y S (raz cuadrada de MSE ), que usted puede utilizar para comparar modelos. Al comparar subconjuntos con el mismo nmero de predictores, puede considerar subconjuntos que provean el valor de R ms grande. Sin embargo, R casi siempre

aumenta con el tamao del subconjunto. Por ejemplo, el mejor modelo de 5 predictores casi siempre tendr una R ms alto que el mejor modelo de 4 predictores. Cuando se comparan modelos con el mismo nmero de predictores, elegir el modelo con el R ms alto es equivalente a elegir el modelo con la SSE ms pequea. Utilice R ajustado, Cp de Mallows y S para comparar subconjuntos con diferentes nmeros de predictores. Tenga en cuenta que la eleccin del modelo con el R ajustado ms alto es equivalente a elegir el modelo con el valor de S o el cuadrado medio del error (MSE) ms pequeos. R ajustado no necesariamente aumenta a medida que se agregan predictores adicionales al modelo. Slo aumenta cuando la reduccin del error es suficiente para compensar la prdida de un grado de libertad que se produce al agregar un nuevo predictor al modelo. En general, los mejores modelos tienen un valor de R ajustado ms alto y un valor de S ms pequeo. La estadstica Cp de Mallows est relacionada con el cuadrado medio del error de un valor ajustado. En general, debe buscar modelos en los que el valor de Cp de Mallows sea pequeo y est cercano a p, el nmero de trminos en el modelo, incluyendo la constante. Un valor de Cp pequeo indica que el modelo es relativamente preciso (tiene una varianza pequea) para estimar los coeficientes de regresin verdaderos y predecir futuras respuestas. Los modelos con falta de ajuste y sesgo considerables tienen valores de Cp mayores que p. Si usted desea utilizar su modelo para la prediccin, a veces es preferible aceptar un valor de Cp ms alto para reducir el error promedio de la prediccin. Tenga en cuenta que si en el modelo completo incluye predictores que no guardan relacin con la respuesta, los valores de Cp para los modelos de subconjunto pudieran ser artificialmente bajos. Para obtener informacin adicional, vase [22], [11], [31]. Los modelos con los valores de R ajustado ms altos y los valores de Cp ms bajos pudieran no ser el mismo modelo. La determinacin del modelo ms apropiado depende de las metas de su anlisis. Si usted est intentando obtener el modelo ms descriptivo, convendra que no eliminara muchas variables del modelo. Si est utilizando su modelo para predecir nuevas respuestas, podra ser aceptable que eliminara las variables que explican una parte pequea de la varianza, a fin de minimizar el error en la prediccin. Tambin debera considerar los valores de PRESS y R pronosticado . Si le interesa obtener estimaciones precisas de sus coeficientes, debe considerar el sesgo que se produce al eliminar predictores y los errores estndares de los coeficientes . Para obtener informacin adicional, vase [31].
2

Verificacin del modelo


Debe tener precaucin al utilizar procedimientos de seleccin de variables como Mejores subconjuntos y Regresin escalonada. Estos procedimientos son automticos y no toman en cuenta la importancia prctica de ninguno de los predictores. Adems, cada vez que usted ajusta un modelo a un conjunto de datos, la bondad de ajuste tiene dos fuentes principales:

1 La estructura subyacente de los datos (una estructura que aparecer en otros conjuntos de datos recopilados de la misma manera) 2 Las peculiaridades del conjunto de datos particular que usted analiza

Desafortunadamente, cuando usted analiza muchos modelos para encontrar el "mejor", el ajuste con frecuencia se basa en la segunda fuente. Debe verificar el modelo que elija de una de las dos maneras siguientes: Ejecute el modelo utilizando un nuevo conjunto de datos y compare los resultados con su anlisis original. Tome el conjunto de datos original y divdalo aleatoriamente en dos partes. Utilice el procedimiento de seleccin de variables en una parte de los datos para seleccionar un modelo y verifique el modelo utilizando la segunda parte de los datos. Tambin debe verificar la adecuacin de su modelo con grficas de residuos y estadsticas de diagnstico, a fin de asegurarse de que no contravenga los supuestos de la regresin.

S-ar putea să vă placă și