Sunteți pe pagina 1din 29

Garca / Confrontacin de Modelos de Regresin Lineal y Logsticos

25
Rev. Fac. Agron. (Maracay) 33:25-54. 2007.








Confrontacin de Modelos de Regresin Lineal
y Logstica en el estudio de variables de
rendimiento de Musa AAAB FHIA-21
Judith B. Garca J.*
ABSTRACT
In the development of this investigation yield components of the FHIA-
21 hybrid were used. Linear and logistic regression analyses were done over the
same data. The confrontation of the statistical analyses demonstrated that there
were many coincidences. There were some discrepancies and the models that
displayed remarkable differences for the maximum response, also presented
severe violation to the assumption of homocedasticity in the residuals obtained
with linear regression models. In these cases logistic regression models are
advised since linear models do not adequate. In the cases of violation to the
normality assumption (although in none of the cases this violation was severe),
the response at the critical point presented agreement. There was correspon-
dence between the variable selection methods both in linear regression and
logistic regression. It is well known that logistic regression is a powerful
statistical tool that has the best capacity to analyze data in which the response

A Ac ce ep pt ta ad do o: : 2 20 00 07 7
* ** * I In ns st ti it tu ut to o d de e A Ag gr ro on no om m a a, , F Fa ac cu ul lt ta ad d d de e A Ag gr ro on no om m a a, , U Un ni iv ve er rs si id da ad d C Ce en nt tr ra al l d de e V Ve en ne ez zu ue el la a, , A Ap pd do o. .
4 45 57 71 1. . M Ma ar ra ac ca ay y 2 21 10 01 1. . A Ar ra ag gu ua a. . V Ve en ne ez zu ue el la a. . E E- -m ma ai il l: : g ga ar rc ci ia aj j@ @a ag gr r. .u uc cv v. .v ve e
REV. FAC. AGRON. (MARACAY) 33 (1) 2007

26
presents dichotomy. It is also an alternative to analyze data that do not fulfill the
assumptions of the parametric analysis. It is recommended in cases of violation
to the assumption of homogeneity of variance for the errors and/or violation to
the assumption of normality of the errors.
Key words: Confrontation of models; Logistic and linear regression; Selection of
variables

COMPENDIO
En la presente investigacin se utilizaron algunos componentes del
rendimiento en el hbrido FHIA-21, se realizaron anlisis de regresin lineal, y
regresin logstica, sobre el mismo conjunto de datos. La confrontacin de los
anlisis estadsticos demostraron que existe coincidencia en los modelos
estudiados. Existen discrepancias pero an as, aquellos modelos que lo
hicieron, no presentaron discordancia en la respuesta mxima estimada. Los
modelos que presentaron desacuerdo en la respuesta estimada presentaron
tambin violacin severa al supuesto de homocedasticidad en los residuales
obtenidos con el modelo de regresin lineal. En estos casos los modelos de
regresin logstica son recomendables ya que los modelos lineales pueden
presentar respuestas estimadas errneas. En los casos, de violacin al supuesto
de normalidad (aunque en ninguno de los casos esta violacin fue severa), las
respuestas estimadas en el punto crtico dentro de la regin de exploracin,
presentaron acuerdo entre ambos modelos. Hubo correspondencia entre los
mtodos de seleccin de variables Stepwise y Backwards tanto en regresin
lineal como logstica. Es conocido que la regresin logstica es una poderosa
herramienta estadstica que posee la mejor capacidad para analizar datos
provenientes de cualquier rea en que la respuesta sea nominal dicotmica. Es
tambin una alternativa, para analizar datos en los que no se cumplen los
supuestos, y se recomienda en casos de violacin del supuesto de homocedas-
ticidad y/o violacin al supuesto de normalidad de los errores.
Palabras Clave: confrontacin de modelos, regresin logstica y lineal, seleccin de
variables


Garca / Confrontacin de Modelos de Regresin Lineal y Logsticos



27
INTRODUCCION
Las pruebas estadsticas paramtricas especifican ciertas condiciones o
supuestos en la poblacin de la cual se ha obtenido la muestra investigada.
La significacin de los resultados de las pruebas paramtricas dependen de
la validez de esas suposiciones. Muchas de ellas suponen que la distribucin
es normal y que la variable respuesta est por lo menos en una escala de
intervalo. Cuando alguno de estos supuestos no se cumplen, las pruebas no
paramtricas se presentan como una alternativa de anlisis, ya que estn
basadas en modelos que especifican condiciones muy generales y son de
distribucin libre. Por ello, antes de usar una herramienta estadstica es
importante considerar el cumplimiento de los supuestos, lo cual en muchas
investigaciones no se sealan y no permite conocer acerca de ellos. Tanto
los anlisis de varianza, como los anlisis de regresin lineal no escapan a la
existencia de supuestos y su incumplimiento (al menos uno de ellos),
invalida las pruebas de hiptesis y los estadsticos que se usan para su
comprobacin.
El planteamiento clsico del modelo de regresin supone que la
variable respuesta est medida en escala continua. Esta condicin se
present como una fuerte barrera para aplicar esta tcnica estadstica a los
problemas tpicos de las ciencias. En efecto, el ajuste de un modelo de
regresin lineal cuando la variable dependiente es dicotmica conlleva una
serie de anomalas en el modelo de regresin estndar. Estos problemas se
superaron aplicando transformacin logit a la variable dependiente y an
ms la teora estadstica se ha generalizado para el caso en que la variable
dependiente comprende ms de dos categoras. Como se puede apreciar,
avances sucesivos liberaron al modelo de regresin de lo que alguna vez se
consider su limitacin ms importante para aplicarlo al anlisis de muchos
problemas. Por ello, los mtodos de anlisis de regresin lineal son
apropiados para los casos en que las variables de respuesta estn en escala
de medida de proporcin o razn o al menos de intervalo y adems,
cumplan los supuestos para su realizacin; cuando sta no es la situacin, se
plante en este estudio el uso de los mtodos de regresin logstica como
una alternativa viable.
Existen muchos procedimientos de anlisis de datos provenientes de
ensayos biolgicos, en esta investigacin se probaron los relacionados al
REV. FAC. AGRON. (MARACAY) 33 (1) 2007

28
anlisis de regresin, con especial nfasis en la construccin e interpretacin
de los modelos que describen las relaciones y suministran un marco para la
realizacin de inferencias utilizando tanto los mtodos de regresin lineal
como los de regresin logstica en el mismo conjunto de datos. Se
consideraron dos mtodos de seleccin de variables y se investigaron las
combinaciones de las variables explicatorias que dieron un valor mximo
para la variable respuesta. Como un caso prctico se consider el estudio de
la poda controlada de manos (desmane) en el cultivo de hbrido de pltano
FHIA-21 en Venezuela, ello consisti en eliminar las ltimas manos de
cada racimo, prctica que se utiliza rutinariamente en los sistemas de
produccin de banano (Musa cv. AAA) para exportacin y ha sido objeto
de estudio por muchos investigadores (Haddad y Leal, 1996). Como el
tamao de la fruta es una caracterstica muy importante para los mercados
especializados de pltano, se determin el efecto de la eliminacin selectiva
de las manos, inmediatamente despus de la floracin, sobre componentes
de rendimiento en los frutos.
MATERIALES Y METODOS
Los datos analizados en el presente estudio, provienen de observaciones
realizadas en la Estacin Experimental Samn Mocho de la Facultad de
Agronoma de la Universidad Central de Venezuela, localizada en la parroquia
Tacarigua, municipio Carlos Arvelo, estado Carabobo. Se estudiaron
variables respuesta medidas en ensayo experimental, utilizando el hbrido de
pltano FHIA-21, las cuales se presentan en el Cuadro 1, para anlisis de
regresin lineal y en el Cuadro 2, para los anlisis de regresin logstica. Las
variables regresoras fueron NMA = nmero de manos, ALT = altura de la
planta y HAC = hojas activas en el momento de la cosecha, PER1 =
permetro de un dedo en la primera mano en centmetros, PER4 =
permetro de un dedo en la cuarta mano en centimetros. Las variables
originales se dicotomizaron de acuerdo a criterios que presentaron utilidad
prctica. Para el caso del pltano en el pas, se utilizaron algunas referencias de
estndares de calidad para frutos en mercados de exportacin.


Garca / Confrontacin de Modelos de Regresin Lineal y Logsticos



29
Cuadro 1. Definicin de las variables respuesta

Nomenclatura Variable respuesta
LEDE1 Longitud de un dedo externo en la primera mano en cm
LIDE1 Longitud de un dedo interno en la primera mano en cm
LEDE4 Longitud de un dedo externo en la cuarta mano en cm
LIDE4 Longitud de un dedo interno en la cuarta mano en cm
PT Peso total del racimo en kg
M1 Peso de la primera mano en kg
M2 Peso de la segunda mano en kg
M3 Peso de la tercera mano en kg
M4 Peso de la cuarta mano en kg
Fuente: propia
Cuadro 2. Nomenclatura y criterios de dicotomizacin para las variables
respuesta que se utilizaron en el anlisis de regresin logstica
mltiple

Variable
dicotmica
Variable
original
Rango Promedio
Desv.
Est.
Criterio
PTd PT
15.40-
31.60
22.29 4.19
Si PT 20 kg. PTd = 1
Si PT < 20 kg. PTd = 0
M1d M1
3.45-
7.50
4.69 1.06
Si M1 5.5 kg. M1d = 1
Si M1 < 5.5 kg. M1d = 0
M2d M2
2.85-
6.50
4.20 0.79
Si M2 5 kg. M2d = 1
Si M2 < 5 kg. M2d = 0
M3d M3
2.70-
5.75
3.85 0.72
Si M3 4.5 kg. M3d = 1
Si M3 < 4.5 kg. M3d = 0
M4d M4
2.40-
5.10
3.53 0.64
Si M4 4.5 kg. M4d = 1
Si M4 < 4.5 kg. M4d = 0

REV. FAC. AGRON. (MARACAY) 33 (1) 2007

30
Cuadro 2. Continuacin

Variable
dicotmica
Variable
original
Rango Promedio
Desv.
Est.
Criterio
LIDE1d LIDE1
18.25-
26.25
21.25 1.85
Si LIDE123 cm LIDE1d = 1
Si LIDE1<23 cm LIDE1d = 0
LEDE1d LEDE1
21.80-
29.75
24.92 1.96
Si LEDE126cm LEDE1d = 1
Si LEDE1<26 cm LEDE1d= 0
LIDE4d LIDE4
14.45-
23.70
19.18 1.78
Si LIDE419 cm LIDE4d = 1
Si LIDE4<19 cm LIDE4d = 0
LEDE4d LEDE4
20.30-
28.75
23.70 1.98
Si LEDE425 cm LEDE1d =1
Si LEDE4<25 cm LEDE1d =0
Fuente: propia

Es necesario describir las caractersticas de ambos modelos, por ello
se presentan en el Cuadro 3, las diferencias y similitudes de los mtodos de
regresin lineal con relacin a los de regresin logstica. En regresin lineal,
el mtodo de los mnimos cuadrados es usado para obtener estimadores de
1 0
y a partir de los datos. El mtodo consiste en seleccionar valores de
1 0
y tal que la suma de cuadrados de las desviaciones de las observacio-
nes de la lnea de regresin, esto es, funcin de regresin, sea mnima.
Cuando la variable respuesta es cualitativa, tomando dos o ms
valores posibles, el mtodo estndar de anlisis en esta situacin es la
regresin logstica (Cox, 1970). Lo que distingue un modelo de regresin
lineal de un modelo de regresin logstica es la naturaleza de la variable
respuesta, la cual es binaria o dicotmica en los modelos de regresin
logstica simple o mltiple y politmica en los modelos de regresin logstica
con la misma denominacin.
En el modelo de regresin lineal + = x) Y E( y , donde es el error
de una observacin de la media condicional o tambin el valor esperado de
Y dado un valor de x y viene dado por x ) x Y ( E
1 0
+ = , donde E(Yx)
es cualquier valor entre (- , ) as como tambin y = E(Y x) +. Se
asume que tiene una distribucin normal con media cero y varianza
Garca / Confrontacin de Modelos de Regresin Lineal y Logsticos



31
constante para todos los niveles de la variable independiente. Es por ello la
importancia del cumplimiento de los supuestos de normalidad de los errores
y la homocedasticidad. Es muy importante asegurar tambin la indepen-
dencia de los errores (autocorrelacin), analizar valores atpicos (outliers) y
detectar multicolinealidad; todo esto en aras de lograr el mejor modelo que
explique el comportamiento de los datos (Draper y Smith, 1981).
Cuadro 3. Comparacin de modelos

Modelo Regresion Lineal Regresion Logistica
Naturaleza de
la variable
respuesta
Cuantitativas Nominal dicotmica
Condiciones
del modelo
poblacional
En regresin lineal simple:
x E(Y/x)
1 0
+ =
En regresin linea l
mltiple:
p p
1 1 0
X ...
X E(Y/x)
+ +
+ =

E(Y/x) va de - a
(x) E(Y/x) =
) x ( g
) x ( g
e 1
e
) x (
+
=
En regresin logstica simple
x g(x)
1 0
+ =
En regresin logstica mltiple
p p 1 1 0
X ... X g(x) + + + =
g(x) va de - a
Supuestos
Y = E(Y/x) +
N (0,
2
)
(x)) - (x))(1 Bin(0,
(x) - 1 prob con (x) 0 Y
(x) prob con (x) - 1 1 Y
(x) Y

= =
= =
+ =

Mtodo de
estimacin de
parmetros y
de la varianza
Mnimos cuadrados
ordinarios
Mxima verosimilitud


REV. FAC. AGRON. (MARACAY) 33 (1) 2007

32
Por ello, cuando Y es dicotmico E(Yx) = (x), en el cual
y= (x)+ el modelo de regresin logstica simple ser:
) x ( g
) x ( g
x
x
e 1
e
e 1
e
) x (
1 0
1 0
+
=
+
=
+
+
, ahora
x ) x ( g ) e ln(
e 1
e
1
e 1
e
ln
(x) - 1
(x)
ln
1 0
) x ( g
) x ( g
) x ( g
) x ( g
) x ( g
+ = = =
(
(
(
(

+
=


y g(x) se denomina transformacin logit. La importancia de esta transfor-
macin es que g(x) tiene varias de las propiedades necesarias para un
modelo de regresin lineal. Esto es, lineal en sus parmetros, continua y
puede tomar valores de - a dependiendo del rango de los valores de x.
Luego puede tomar uno de los dos posibles valores:
Si y = 1 = 1 - (x) con probabilidad (x)
Si y = 0 = - (x) con probabilidad 1 - (x)
por lo tanto tiene una distribucin con media cero y varianza (x)| 1 -
(x)|. La variable respuesta o variable dependiente sigue una distribucin
binomial con probabilidad dada por la media condicional (x) (Hosmer y
Lemeshow, 1989).
En regresin lineal para estimar
0
y
1
se usa el Mtodo de los
Mnimos Cuadrados, se calculan los valores
0
y
1
que minimizan la suma
de las desviaciones cuadrticas entre los valores observados y los valores
predichos por el modelo. Estos valores para regresin logstica no renen
los requisitos requeridos, por lo tanto se usa el Mtodo de Mxima
Verosimilitud. La variable Y se debe codificar utilizando ceros y unos. Se
designa el vector

= (
0
,
1
) como el vector de parmetros. Se establecen,
P(Y=1 x) = P(1 x) = (x) y P(Y=0 x) = 1 - (x) crendose la
funcin de verosmilitud que se muestra a continuacin:
Garca / Confrontacin de Modelos de Regresin Lineal y Logsticos



33
| |
i i
y
i
y
i i
x x x

=
1
) ( 1 ) ( ) (

) (x = ) (
i
n
1 = i


l
si se aplican logaritmos neperianos a la funcin de verosimilitud se
desarrolla la funcin log-verosmil:
| | | | | | ) x ( 1 Ln ) y 1 ( ) x ( Ln y ) ( Ln = ) ( L
i i
n
1 i
i i
+ =

=
l
Cuando se deriva esta ecuacin con respecto a
0
y
1
y se iguala a
cero, se obtiene como resultado las ecuaciones de verosimilitud:
1)

=
=
n
1 i
i i
0 )) x ( y (
2)

=
=
n
1 i
i i i
0 )) x ( y ( x
Resolviendo estas ecuaciones, tal como lo demuestran McCullagh y
Nelder (1983), se obtienen las estimaciones del vector y se denota por

. Una consecuencia interesante de la primera de las ecuaciones de


verosimilitud es que la suma de los valores observados de y es igual a la
suma de los valores esperados o predichos por el modelo.

= =
=
n
1 i
i
n
1 i
i
) x ( y
Es conocido que en regresin lineal se usa el anlisis de la varianza
para probar la significacin de estos coeficientes; en regresin logstica el
principio que gua es el mismo (Garca, 2001). Para probar la significacin
de los coeficientes del modelo generado se responde la pregunta el modelo
que incluye cierta variable en cuestin explica mejor la variable respuesta
que un modelo que no incluya esa variable?. Para ello, se comparan los
REV. FAC. AGRON. (MARACAY) 33 (1) 2007

34
valores observados de la variable respuesta con aquellos predichos por los
dos modelos, el que contiene la variable en cuestin y el que no la contiene.
En modelos de regresin logstica se utiliza la funcin logverosmil D
denominada Deviance, para hacer la comparacin, McCullagh y Nelder
(1983), en cuyo caso se asume que los valores observados de la variable
respuesta coinciden con los provenientes de un modelo saturado,
conocindose por modelo saturado aquel que contiene un nmero de par-
metros igual al nmero de datos que se poseen. La funcin logverosmil
viene dada por la siguiente expresin:
(

=
saturado modelo del itud verosimil de funcin
actual modelo del itud verosimil de funcin
2Ln D

o tambin
) x ( donde
y 1
1
Ln ) y 1 (
y

Ln y 2 D
i i
n
1 i
i
i
i
i
i
i
=
(
(


+
(


=

=

Este estadstico cumple la misma funcin que la Suma de Cuadrados
del error en los mtodos de regresin lineal. Para el propsito de probar la
significacin de una variable independiente se compara el valor de D con y
sin la variable independiente en el modelo, obtenindose la prueba L
2
de
cocientes de verosimilitud.
variable) la con modelo el D(para - variable) la sin modelo el D(para L
2
=
o tambin
(

=
variable la con modelo el para itud verosimil de funcin
variable la sin modelo el para itud verosimil de funcin
2Ln L
2

Para el caso de una sola variable independiente es fcil mostrar que cuando
la variable no est en el modelo, el estimador de
0
es Ln (n
1
/ n
0
) donde
n
1
= y
i
y n
0
= (1 - y
i
) y que el valor predicho es constante, n
1
/ n.
Por ello el valor de L
2
ser:
Garca / Confrontacin de Modelos de Regresin Lineal y Logsticos



35
(
(
(
(
(


|
.
|

\
|
|
.
|

\
|
=

n
1 i
y 1
i
y
i
n
0
n
1
2
i i
0 1
) (1
n
n
n
n
2Ln L
o tambin
| | | |

+ + =

=
n
1 i
0 0 1 1 i i i i
2
) n ( Ln n ) n ( Ln n ) n ( Ln n ) 1 ( Ln ) y 1 ( ) ( Ln y 2 L
Bajo la hiptesis nula de que
1
es igual a cero, el estadstico L
2
sigue
una distribucin Ji-Cuadrada con un grado de libertad. Otras dos pruebas
han sido sugeridas para la significacin de los coeficientes, ellas son: la
Prueba de Wald y la Prueba Score. Estas pruebas son ampliamente
discutidas por Rao (1973).
RESULTADOS

Los anlisis de regresin lineal mltiple, estudiaron nueve variables de
respuesta, a las cuales se les aplicaron los mtodos de seleccin de variables
Stepwise y Backward, (Cuadro 4). Hubo correspondencia en estos
mtodos de seleccin de variables en ocho de los nueve modelos estudiados.
Las variables seleccionadas en cada caso fueron:
Para el peso total del racimo solamente el nmero de manos, esto es, a
mayor nmero de manos mayor peso total
Para el peso de la primera, segunda, tercera y cuarta mano solamente
nmero de manos, a mayor nmero de manos menor peso
Para la longitud de los dedos de la primera mano (externos o internos)
el nmero de manos y el permetro. La longitud de los dedos disminuye
si aumenta el nmero de manos (menor nmero de manos dedos ms
largos) y aumenta si se incrementa el permetro (dedos de mayor grosor
son ms largos)
REV. FAC. AGRON. (MARACAY) 33 (1) 2007

36
Para longitud de los dedos internos de la cuarta mano, la altura de la
planta al momento de la cosecha (plantas ms altas dan dedos ms
largos) y el permetro del fruto (dedos ms gruesos son ms largos).
Para la longitud de los dedos externos de la cuarta mano, el nmero de
manos y el permetro. Se argumenta que, si hay un buen desarrollo de
la planta se presenta un mejor desarrollo integral de los dedos tanto en
longitud como en grosor
En todos los modelos el valor p para cada uno de ellos es inferior a
0.05 lo cual indica que los modelos de regresin se ajustan bien a los
datos. Los R
2
son bajos con coeficientes de variacin altos, para las
variables relacionadas con pesos (PT, M1, M2, M3, M4) y altos con
coeficientes de variacin bajos, para las relacionadas con longitudes
(LIDE1, LIDE4, LEDE1 y LEDE4) (Cuadro 4).







Garca / Confrontacin de Modelos de Regresin Lineal y Logsticos



37
Cuadro 4. Modelos de regresin lineal completos y reducidos usando dos mtodos de seleccin de variables

Variable
Respuesta
Modelo R
2
aj (%)
Sig. en
pruebas
de t
C.V Normal Hom
Respuesta
Mayor
Estimada
(kg)
Completo PT = 7.97 + 2.00
NMA
+0.95ALT + 0.09HAC
37.09 NMA 14.9 Si
W=0.9781
p=0.2207

PT
Stepwise
y
Backward
PT = 10.85 + 2.06
NMA

39.08 Si
W=0.9728
p=0.0862
No
27.23 kg
Completo M1= 5.28 0.36
NMA
+0.40ALT + 0.05HAC
16.19 NMA 21.4 No
W=0.944
p=0.0025

M1
Stepwise
y
Backward
M1 = 6.70 0.36
NMA
17.98 No
W=0.9254
p=0.0002
No
5.28 kg
Completo M2 = 4.26 0.21
NMA
+0.35ALT + 0.02HAC
9.15 NMA 18.6 Si
W=0.9896
p=0.1730

M2
Stepwise
y
Backward
M2 = 5.30 0.20
NMA
10.99 Si
W=0.9819
p=0.1205
No
4.54 kg
REV. FAC. AGRON. (MARACAY) 33 (1) 2007

38

Cuadro 4. Continuacin

Variable
Respuesta
Modelo R
2
aj (%) Sig. en
pruebas
de t
C.V Normal Hom Respuesta
Mayor
Estimada
(kg)
Completo M3 = 3.90 0.14
NMA + 0.20ALT +
0.02HAC
2.58 NMA 19.02 Si
W=0.9896
p=0.8013

M3
Stepwise
y
Backward
M3 = 4.60 0.13
NMA
5.67 Si
W=0.9825
p=0.3443
No
4.06 kg
Completo M4 = 3.19 0.13
NMA + 0.26ALT +
0.05HAC
4.64 NMA 18.29 Si
W=0.9822
p=0.3744

M4
Stepwise
y
Backward
M4 = 4.22 0.12
NMA
6.11 Si
W=0.9778
p=0.1774
No
3.73 kg
LIDE1 Completo LIDE1=6.32 0.38
NMA+0.50ALT+0.05
HAC+1.04PER1
72.45 NMA
y PER1
4.72 Si
W=0.9872
p=0.6626
Si


Garca / Confrontacin de Modelos de Regresin Lineal y Logsticos



39
Cuadro 4. Continuacin

Variable
Respuesta
Modelo R
2
aj (%) Sig. en
pruebas
de t
C.V Normal Hom Respuesta
Mayor
Estimada
Stepwise
y
Backward
LIDE1 =7.60 0.35
NMA + 1.06 PER1
73.11 Si
W=0.9928
p=0.9428
22.48cm
Completo LEDE1=14.27 0.66
NMA+0.06ALT+0.01
HAC+0.96PER1
77.34 NMA 3.85 No
W=0.9432
p=0.0023

LEDE1
Stepwise
y
Backward
LEDE1=13.75
0.59NMA +0.99 PER1
78.57 No
W=0.9394
p=0.0010
Si
29.25cm
Completo LIDE4=1.59 + 0.07
NMA+0.78ALT+0.17
HAC+0.98PER4
37.70 PER4 7.41 Si
W=0.9908
p=0.8736

LIDE4
Stepwise LIDE4 =3.34 +
0.90ALT+ 0.94 PER4
39.85 No
W= 0.7890
p=0.063
Si
22.85cm
Completo LEDE4=7.69 0.35
NMA+0.69ALT+0.16
HAC+1.05PER4
49.77 NMA
y PER4
6.05 No
W=0.9421
p=0.0020

LEDE4
Stepwise
y
Backward
LEDE4=9.65 0.27
NMA + 1.10 PER4
50.42 No
W=0.9320
p=0.0004
Si
27.77cm
REV. FAC. AGRON. (MARACAY) 33 (1) 2007

40
Los anlisis de regresin logstica mltiple, estudiaron las mismas
nueve variables de respuesta pero dicotomizadas, a los cuales se les aplic
los mtodos de seleccin de variables Stepwise y Backward (Cuadro 5). La
correspondencia entre estos dos mtodos fue del 100% y tienen coincidencia
con los resultados de la prueba de Wald. Las variables seleccionadas en
cada caso, se presentan a continuacin:
Para el peso total del racimo: la variable de mayor importancia es
nmero de manos, g (X) aumenta si el nmero de manos se incrementa
Para el peso de la primera, segunda y tercera mano la variable de
mayor importancia es el nmero de manos,

g (X) disminuye si el
nmero de manos se incrementa
Para el peso de la cuarta mano la altura de la planta es de mayor
significacin, esta variable no haba sido considerada en ninguno de los
modelos anteriores. El peso de la cuarta mano tiene probabilidad de
ser mayor en plantas de mayor altura
Para la longitud de los dedos internos y los externos de la primera
mano y tambin de la cuarta mano, la variable de mayor importancia es
el permetro
En todos los modelos, el valor p para cada uno de ellos es inferior a
0.05 lo cual indica que los modelos de regresin se ajustan bien a los
datos, usando tanto la prueba log-verosmil (-2logL) como la prueba
Score
La probabilidad de obtener la respuesta mayor dentro del grupo de
datos es muy alta, mayor de 0.90 en la mayora de los casos, indicando
que existe una tendencia alta de obtener estos valores.



Garca / Confrontacin de Modelos de Regresin Lineal y Logsticos



41
Cuadro 5. Modelos de regresin logstica completos y reducidos usando dos mtodos de seleccin, en nueve variables de
respuesta dicotmicas
Variable
respuesta
Modelo
Sig. En pruebas de
1) -2logL
2) Store
Variable Sig.
para la
prueba de
Wald
Respuesta
Mayor
estimada
Completo
g (X) = -3.73 + 0.71 NMA + 0.16
ALT + 0.001HAC
1) 0.008**
2) 0.012*
NMA
g (X)=2.4728
y
= 0.923
PTd
Stepwise y
Backward
g (X) = -3.27 + 0.71 NMA
1) 0.0006**
2) 0.0009**

g (X)=2.3735
y
= 0.915
Completo
g (X) = - 3.11 0.55 NMA+ 1.24
ALT + 0.26 HAC
1) 0.0195*
2) 0.0223*
NMA
g (X)=1.1193
y
= 0.754
M1d
Stepwise y
Backward
g (X) = 2.04 0.54 NMA
1) 0.0105*
2) 0.0129*

g (X)=-0.105
y
= 0.4735


REV. FAC. AGRON. (MARACAY) 33 (1) 2007

42
Cuadro 5. Continuacin

Variable
respuesta
Modelo Sig. En pruebas de
1) -2logL
2) Store
Variable Sig.
para la
prueba de
Wald
Respuesta
Mayor
estimada
Completo
g (X) = - 0.98 0.64 NMA+ 0.35
ALT + 0.38 HAC
1) 0.0129*
2) 0.0150*
NMA
g (X)=1.0887
y
= 0.748
M2d
Stepwise y
Backward
g (X) = 2.45 0.60 NMA
1) 0.0042**
2) 0.0056**

g (X)=0.0435
y
= 0.5108
Completo
g (X) = -1.06 1.09 NMA+ 1.16
ALT + 0.33 HAC
1) 0.0002**
2) 0.0006**
NMA
g (X) = 1.357
y
= 0.795
M3d
Stepwise y
Backward
g (X) = 4.42 1.09 NMA
1) 0.0001**
2) 0.0002**

g (X) = 0.053
y
= 0.5135



Garca / Confrontacin de Modelos de Regresin Lineal y Logsticos



43
Cuadro 5. Continuacin

Variable
respuesta
Modelo Sig. En pruebas de
1) -2logL
2) Store
Variable Sig.
para la
prueba de
Wald
Respuesta
Mayor
estimada
Completo
g (X) = -7.69 + 0.10 NMA+ 1.97
ALT + 0.23 HAC
1) 0.057ns
2) 0.069ns
ALT
g (X)=1.6424
y
= 0.838
M4d
Stepwise y
Backward
g (X) = -5.84 + 2.07 ALT
1) 0.013*
2) 0.015*

g (X) =1.007
y
= 0.502
Completo
g (X) = -42.13 + 0.45 NMA+
0.48 ALT + 0.29 HAC + 2.29
PER1
1) 0.0001**
2) 0.0001**
PER1
g (X) =5.061
y
= 0.990
LIDE1d
Stepwise y
Backward
g (X) = -30.47 + 1.91 PER1
1) 0.0001**
2) 0.0001**

g (X) =4.066
y
= 0.983
LEDE1d Completo
g (X) = -28.36 0.20 NMA+
0.66 ALT 0.50 HAC + 2.00
PER1
1) 0.0001**
2) 0.0001**
PER1
g (X) =6.779
y
= 0.998
REV. FAC. AGRON. (MARACAY) 33 (1) 2007

44
Cuadro 5. Continuacin

Variable
respuesta
Modelo Sig. En pruebas de
1) -2logL
2) Store
Variable Sig.
para la
prueba de
Wald
Respuesta
Mayor
estimada

Stepwise y
Backward
g (X) = -35.85 2.13 PER1
1) 0.0001**
2) 0.0001**

g (X) =5.623
y
= 0.996
Completo
g (X) = -17.40 - 0.01 NMA - 0.15
ALT + 0.04 HAC+ 1.26 PER4
1) 0.0007**
2) 0.0033**
PER4
g (X) =4.597
y
= 0.99
LIDE4d
Stepwise y
Backward
g (X) =-17.55+ 1.25 PER4
1) 0.0009**
2) 0.0009**

g (X) =4.36
y
= 0.987
Completo
g (X) = -17.13 +0.0004 NMA-
0.58 ALT - 0.03 HAC + 1.226
PER4
1) 0.0002**
2) 0.0004**
PER4
g (X)=3.694
y
= 0.786 LEDE4d

Stepwise y
Backward
g (X) = 18.53 + 1.24 PER4
1) 0.0001**
2) 0.0001**

g (X)=3.189
y
= 0.961
Fuente: Clculos propios
* Significativo
** Altamente significativo
ns: no significativo
Garca / Confrontacin de Modelos de Regresin Lineal y Logsticos



45
La confrontacin de los resultados de los anlisis estadsticos en los
modelos de regresin lineal mltiple y de regresin logstica mltiple
(Cuadro 6) demostr:
Cuadro 6. Confrontacin de los resultados en los modelos completos de
regresin lineal y logstica
Variable Correspondencia
entre los
coeficientes
Significacin Homoge-
neidad de
varianzas
Norm. Correspondencia
en la prediccin
de la respuesta
en el punto con
el mayor valor
PT Perfecta Perfecta No Si Acuerdo
M1 Perfecta Perfecta No No Acuerdo
M2 Perfecta Perfecta No Si Desacuerdo
M3 Perfecta Perfecta No Si Desacuerdo
M4 NMA no coincide No
coinciden
No Si Desacuerdo
LIDE1 NMA no coincide NMA no
coincide
Si Si Acuerdo
LEDE1 Perfecta NMA no
coincide
Si No Acuerdo
LIDE4 NMA y ALT no
coinciden
Perfecta Si Si Acuerdo
LEDE4 NMA, ALT y
HAC no coinciden
NMA no
coincide
Si No Acuerdo
Fuente: propia
Se demostr para los modelos completos
En PT, M1, M2 y M3 hay correspondencia perfecta en todos los
signos de los coeficientes, igualmente, la significacin de los coeficientes de
regresin en ambos modelos coinciden perfectamente. Es de notar, que en
ninguno de los casos se tom el intercepto en consideracin para las
confrontaciones.
Para M4, no hay correspondencia en los signos de los coeficientes,
igualmente, la significacin de los coeficientes de regresin difiere. Para
REV. FAC. AGRON. (MARACAY) 33 (1) 2007

46
LIDE1, hay correspondencia en los signos de los coeficientes y en la
significacin de los coeficientes de regresin con excepcin de la variable
nmero de manos. Para LEDE1, hay correspondencia en los signos de los
coeficientes pero la significacin de los coeficientes de regresin difiere en la
variable nmero de manos. Para LIDE4, hay correspondencia en los signos
de los coeficientes con excepcin de las variables nmero de manos y altura
de la planta. La significacin de los coeficientes de regresin en ambos
modelos coincide perfectamente. Para LEDE4, no hay correspondencia en
los signos de los coeficientes ni en la significacin de los coeficientes de
regresin.
En forma general, existe coincidencia entre los modelos estudiados
con relacin a los signos de los coeficientes y su significacin. Hay algunas
discrepancias pero an as aquellos modelos que lo hicieron no presentaron
discordancia en la respuesta mxima estimada.
Es de notar que los modelos que presentaron desacuerdo en la
respuesta estimada en el punto crtico presentaron tambin violacin severa
al supuesto de homocedasticidad en los residuales obtenidos con el modelo
de regresin lineal. Se argument que en estos casos los modelos de
regresin logstica son recomendables ya que los modelos lineales presentan
respuestas estimadas errneas.
Las respuestas estimadas en el punto con el valor mayor dentro del
grupo de datos, presentaron acuerdo entre ambos modelos an en los casos
de violacin al supuesto de normalidad, pero en ninguno de los casos esta
violacin fue severa. Los errores estndar para los coeficientes de regresin
en los modelos de regresin logstica fueron mayores que en los modelos de
regresin lineal en ocho de los nueve modelos estudiados.
Para los modelos reducidos
Estos son los modelos obtenidos usando las variables escogidas por los
mtodos de seleccin Stepwise y Backward, los cuales se visualizan en los
Cuadros 4 y 5. Para PT, M1, M2 y M3 tanto en los modelos de regresin
lineal como logstica se seleccion la misma variable (NMA), los signos
para los coeficientes de regresin y la significacin de los coeficientes de
regresin coincidi perfectamente. Los valores estimados en cada uno de los
modelos tiene una significacin diferente y es difcil la comparacin entre
Garca / Confrontacin de Modelos de Regresin Lineal y Logsticos



47
ellos. Sin embargo, en este caso se dedujo que las respuestas estimadas en
el punto de mayor valor mostraron todos acuerdos con excepcin de uno
(LIDE1d).
Se denomin acuerdo, los casos en los que la respuesta mxima
estimada por el modelo reducido present por ejemplo, para PT un valor
de 27.23 kg en el modelo de regresin lineal y en regresin logstica la
probabilidad de y = 1 es de 0.915; note que 20 kg fue el valor escogido
para dicotomizar esa variable, por ello; un valor de g (X) = 2.3735
sustituyendo da un valor estimado 0.915 (columna 6 en el Cuadro 5) se
interpreta como la probabilidad estimada de que un racimo de FHIA21
con esos valores en la variable regresora (ocho manos), obtenga un peso
total de racimo mayor o igual que 20 kg.
En el caso de LIDE1d el modelo reducido present un valor mximo
de 22.48 cm en el modelo de regresin lineal y en el modelo de regresin
logstica la probabilidad de obtener un valor mayor de 23 cm es 0.983, lo
cual obviamente es un desacuerdo.
Para M4, existen diferencias en las variables seleccionadas en el
modelo de regresin lineal y logstica, sin embargo, las predicciones de la
respuesta en el punto crtico mostraron acuerdo. Para LIDE1, LEDE1,
LIDE4 y LEDE4 existieron diferencias en las variables seleccionadas por
los modelos de regresin lineal y logstica, pero la variable que coincidi en
la seleccin, tiene igual signo. La significacin de los coeficientes de
regresin fue la misma para la variable que coincidi. Las predicciones de la
respuesta en el punto crtico mostraron acuerdo.
Se infiere que la mayora de las variables relacionadas con peso, tanto
en los modelos de regresin lineal como logstica, lograron significacin en
NMA y con excepcin de PT todas alcanzaron un mximo relativo cuando
la poda se realiz en la cuarta mano.
Para los modelos cuadrticos
En regresin lineal, los modelos cuadrticos (Cuadro 7), usando la
variable escogida por los mtodos de seleccin de variables, aumentaron
considerablemente la determinacin de los modelos y corrigieron el problema de
heterogeneidad de varianzas en los residuales. En el anlisis de sus puntos
REV. FAC. AGRON. (MARACAY) 33 (1) 2007

48
crticos se encontr que los menores rendimientos se obtienen con poda a la
quinta y sexta mano, por ello se recomienda no podar o, poda a la cuarta
mano. En regresin logstica, para PT el punto crtico es cinco manos. Para
las otras variables, no se recomienda la poda a la sexta mano, ya que es el
punto mnimo. Estos resultados coinciden exactamente con los de regresin
lineal. Los resultados mostraron excelente correspondencia en todos los
signos de los coeficientes. Igualmente, las significaciones de los coeficientes
de regresin en ambos modelos coincidieron perfectamente. Los puntos
crticos (con excepcin de M1) y todas las respuestas mximas estimadas
presentaron perfecta correspondencia.












Garca / Confrontacin de Modelos de Regresin Lineal y Logsticos



49
Cuadro 7. Confrontacin de los modelos cuadrticos en regresin lineal y logstica
Variable
respuesta
Modelo Valor p y R
2
Pto. Min Respuesta mxima
estimada
Normalidad
y homogeneidad
PT = 46.63 11.05 NMA
+ 1.14 NMA
2

0.0001**
R
2
=0.5800
4.845manos,
PT=19.88 kg
- Con 4 manos,
PT = 30.82kg
Sin poda y con 8 manos,
PT = 31.19 kg
W = 0.9807
P = 0.2699

Es homognea
PT
g (X) = 60.15 - 25.12 NMA
+ 2.53NMA
2

0.0001**

4.965manos,
0.099 y =
- Con 4 manos,
0.53 y =

Sin poda y con 8 manos,
1 y =

M1 M1 = 18.17 4.59 NMA
+ 0.37NMA
2

0.0001**
R
2
=0.4495
6.206 manos,
M1 = 3.95 kg
- Con 4 manos,
M1 = 5.73 kg
Sin poda y con 8 manos,
M1 = 5.13 kg
W = 0.9672
P = 0.0379

Es homognea


REV. FAC. AGRON. (MARACAY) 33 (1) 2007

50
Cuadro 7. Continuacin
Variable
respuesta
Modelo Valor p y R
2
Pto. Min Respuesta mxima
estimada
Normalidad
y homogeneidad

g (X) = 28.91 10.54 NMA
+ 0.87NMA
2

0.0001** 6.066manos,
0.0452 y =


- Con 4 manos,
y
= 0.66

Sin poda y con 8
manos, 0.554 y =


M2 = 14.49 3.56 NMA
+ 0.29 NMA
2

0.0001**
R
2
=0.4233
6.146 manos,
M2 = 3.57 kg.
- Con 4 manos,
M2 = 4.41 kg.
- Sin poda y con 8
manos,
M2 = 4.57 kg
W = 0.9512
P = 0.0041

Es homognea
M2
g (X) = 30.36 10.99 NMA
+ 0.90 NMA
2

0.0001** 6.08 6 manos,
y
= 0.043

- Con 4 manos,
0.69 y =

- Sin poda y con 8
manos,
0.55 y =
= 0.55



Garca / Confrontacin de Modelos de Regresin Lineal y Logsticos



51
Cuadro 7. Continuacin
Variable
respuesta
Modelo Valor p y R
2
Pto. Min Respuesta mxima
estimada
Normalidad
y homogeneidad
M3 = 12.34 2.97 NMA
+ 0.25 NMA
2

0.0001**
R
2
=0.3288
5.946 manos,
M3 = 3.52 kg
- Con 4 manos,
M3 = 4.46 kg
- Sin poda y con 8 manos,
M3 = 4.58 kg
W = 0.9858
P = 0.5208

Es homognea
M3
g (X) = 25.05 8.95 NMA
+ 0.78 NMA
2

0.0001** 5.73 6 manos,
0.36 y =
- Con 4 manos,
0.849 y =

- Sin poda y con 8 manos,
0.967 y =

M4 = 11.73 2.87 NMA
+ 0.24 NMA
2

0.0001**
R
2
=0.3865
5.976 manos,
M4 = 3.15 kg
- Con 4 manos,
M4 = 4.09 kg
- Sin poda y con 8 manos,
M4 = 4.13 kg
W = 0.9706
P = 0.0618

Es homognea
M4
g (X) =28.59 10.70 NMA
+ 0.95 NMA
2

0.0001** 5.63 6 manos,
0.193 y =
- Con 4 manos,
0.73 y =

- Sin poda y con 8 manos,
0.98 y =

Fuente: clculos propios
* Significativo
** Altamente significativo
REV. FAC. AGRON. (MARACAY) 33 (1) 2007

52
CONCLUSIONES
- En los anlisis de regresin lineal mltiple, hubo correspondencia en los
mtodos de seleccin de variables en ocho de los nueve modelos
estudiados. Los modelos cuadrticos, usando la variable escogida por
los mtodos de seleccin de variables, aumentaron considerablemente la
determinacin de los modelos y corrigieron el problema de heteroge-
neidad de varianzas en los residuales. En el anlisis de sus puntos
crticos se encontr que los menores rendimientos se obtienen con poda a la
quinta y sexta mano, por ello se recomienda que no se realice poda o sta
sea hecha a la cuarta mano
- En los anlisis de regresin logstica mltiple, la correspondencia entre
los dos mtodos de seleccin de variables fue del 100%. Hubo algunos
acuerdos en los resultados con los del anlisis de regresin lineal, no as
para el peso de la cuarta mano en el cual la altura de la planta fue de
mayor significacin, esta variable no haba sido considerada en ninguno
de los modelos anteriores. Tampoco hubo acuerdo en las variables:
longitud de los dedos internos y los externos de la primera mano y de la
cuarta mano, en los cuales la variable de mayor importancia fue el per-
metro. En los modelos cuadrticos, los modelos de regresin se
ajustaron bien a los datos. Los puntos crticos coincidieron exactamente
con los encontrados en regresin lineal
- La confrontacin de los resultados de los anlisis estadsticos en los
modelos de regresin lineal mltiple y de regresin logstica mltiple
demostr que en forma general, existi coincidencia entre los modelos
estudiados con relacin a los signos de los coeficientes y su significacin.
Hubo algunas discrepancias y los modelos que presentaron desacuerdo
en la respuesta estimada en el punto crtico presentaron tambin
violacin severa al supuesto de homocedasticidad en los residuales
obtenidos con el modelo de regresin lineal. En estos casos los modelos
de regresin logstica son recomendables ya que los modelos lineales
pueden presentar respuestas estimadas errneas. En los casos de
violacin al supuesto de normalidad (aunque en ninguno de los casos
esta violacin fue severa), las respuestas estimadas en el punto crtico
presentaron acuerdo entre ambos modelos
Garca / Confrontacin de Modelos de Regresin Lineal y Logsticos



53
- La confrontacin de los modelos reducidos, mostr que la mayora de las
variables relacionadas con peso, tanto en los modelos de regresin lineal
como logstica, lograron significacin en NMA y con excepcin de PT
todas alcanzaron un mximo cuando la poda se realiz en la cuarta mano
- Es conocido que la regresin logstica es una poderosa herramienta
estadstica que posee la mejor capacidad para analizar datos prove-
nientes de cualquier rea en que la respuesta sea nominal dicotmicos.
Es tambin una alternativa viable para analizar datos en los que no se
cumplen los supuestos y se recomienda en casos de violacin del
supuesto de homogeneidad de los errores y/o violacin al supuesto de
normalidad de los errores.

REFERENCIAS BIBLIOGRAFICAS

Cox, D. 1970. The Analysis of Binary Data. London, Methuen. 300 p.
Draper, N.; H. Smith. 1981. Applied Regression Analysis. 2 ed. New
York, John Wiley. 709 p.
Garca, J. 2001. Modelos Loglineal y de Regresin Logstica y su
optimizacin con variable respuesta cualitativa en la Investigacin
Agrcola. Tesis Doctoral. Maracay, Venezuela. Facultad de
Agronoma, Universidad Central de Venezuela. 178 p.
Haddad, O.; F. Leal. 1996. Situacin actual de la produccin de cambur
de exportacin y otras musceas en el estado Aragua. Papeles de
Fundacite Aragua. 41 p.
Hosmer, D.; S. Lemeshow. 1989. Applied Logistic Regression. New
York, John Wiley. 307 p.
McCullagh, P.; J. Nelder. 1983. Generalized Linear Models. London,
Chapman and Hall. 420 p.
Rao, C. 1973. Linear Statistical Inference and its Applications. 2 ed.
New York, Wiley. 580 p.

S-ar putea să vă placă și