Sunteți pe pagina 1din 105
CAPITULO Anilisis de regresién multiple OBJETIVOS DE APRENDIZAJE * Diferenciar las técnicas de andlisis de regresion de otras técnicas multivariantes. = Determinar cuando el andlisis de regresion es la herramienta estadistica apropiada para analizar un problema. | = Entender cémo nos puede ayudar la regresion para hacer predicciones usando el concepto de minimos cuadrados. * Ser consciente de los importantes supuestos que subyacen en el anailisis de la regresion ¥ estar preparado para instrumentar las soluciones cuando se incumplen tales supuestos. «= Interpretar los resultados de la regresiOn tanto desde un punto de vista estadistico como empresarial = Aplicar los procedimientos de diagnéstico necesarios para evaluar las observaciones influyentes. = Explicar las diferencias entre las regresiones simultaneas y por pasos. ® Usar las variables ficticias y comprender su interpretacion. Exe capitulo describe el andlisis de regresin miltiple tal y como se emplea para resolver im- portantes problemas de investigacién, particularmente en e! mundo empresarial. El andlisis de re- aresién es con mucho la técnica de dependencia més versétil y ampliamente utilizada, aplicable en cualquier Ambito de la toma de decisiones en los negocios. Sus usos van de los problemas més ge- nerales a los mas espeeificos, relacionando en cada caso un factor (o factores) con un resultado es- pecifico. Por ejemplo, el andlisis de regresiOn es el fundamento de los modelos de previsién eondmica, que van desde los modelos evonoméiricos de prediccin de a evonomia nacional ba- vy 144 ANALISIS MULTIVARIANTE. sados en ciertos inputs (niveles de rents inversion a en sLerheryprnered i tn, mn el mercado si se sigue una estrategia a Los . impresiones o actitudes. Otras aplicaciones incluyen la eval selon a ea éctcrin . efectividad de un programa (por ejemplo, qué factores ay sa day sews! bifidad de un nuevo producto o el rendimiento esperado de una nwene Aint Hs Cotza en Incluso, aunque estos ejemplos ilustren solo un pequene sut a nto de tod aplicacong mest que el anilisis de regresion es una poderess hea sefada pane (pos de relaciones de dependencia._ re a awn en pe relaciones entre una tinica variable criterio y varias variables in¢ 7 10 Seseiaie el Capitulo 1, su formulaci6n bisica es: y, =XtXte +X, conenicay —' (ria) itulo presenta las lineas generales para juzgar la conveniencia de la regresin my ple rope ‘varios tipos de problemas. Se van a proporcionar sugerencs pra interreig Foltados de su aplicacién tanto desde un punto de vista estadistico como de toma de decisions ‘Gxaminaran las posibles transformaciones de los datos para remediar las violaciones de ls dng, Sos suptestos, junto con una serie de procedimientos de diagnéstico que identfican obsenarg yes con tna influeneia particular sobre Ios resultados. Muchos lectores que ya tengan conocimim, previos de los procedimientos de regresién miiltiple pueden obviar la primera parte del capi Pero para aquellos que estén menos familiarizados con la materia, este capitulo proporcionan lioso fundamento para el estudio del andlisis multivariante de los datos. El andlisis de regresién miltiple es una técnica estadistica que puede utilizarse para analizaras lacidn entre una Gnica variable criterio (criterio) y varias variables independientes (predicions El objetivo del analisis de regresi6n miltiple ¢s usar las variables independientes cuyos valorsst cconocidos para predecir Ia tnica variable criterio seleccionada por el investigador. Cada varit predictor es ponderada, de forma que las ponderaciones indican su contribucién relativa als diccién conjunta. Al calcular las ponderaciones, el procedimiento del andlisis de regresionsse> ra la méxima prediccién a partir del conjunto de variables independientes. Estas ponders facilitan también la interpretacién de la influencia de cada variable en la realizacién de lap cién, aunque la correlacién entre las variables independientes complica el proceso de inter ci6n. El conjunto de variables independientes ponderadas es conocido también como valor te de la regresiOn, una combinacién lineal de las variables independientes que predice mejor!" riable criterio el Capitulo 1 contiene una explicacién mas detallada del valor tebrico). Lae de regresién, también denominada como el valor teérico de la regresién, es el ejemplo de teérico més ampliamente reconocido entre todas las técnicas multivariantes. Como ya se mencioné en el Capitulo 1, el andlisis de regresién miiltiple es una técicad®™ pendencia. Por tanto, al uilizarla, deberiamos de ser capaces de dividir las variables en pendientes y dependientes. El andlisis de regresin es también una herramienta estadistica beta mle Slo cuando tanto ls variables dependientes como la independientes sn deocea ere fale certas circunstancias, es posible incluir datos no métricos para ls Vat" Bee Cenetormando los dats ordinals © los nominales en variables ficticias) “ ay le una i Lic i i Ein resumen a aplgas oh ree medida binaria en la técnica especial del regres" 5 oi piadamente transformados y (2) oe regresion miiltiple: (1) los datos deben ser bet ee? d antes de derivar la ecuacién de | investigs cidir qué variable vaa ser dependientey cudl de ls estantes eareeine ca independi® Fijando una linea de base: prediccion sin variable indepen ANALISIS DE REGRESION MULTIPLE 145 : te ion simple mplica dos c sd ita eon ae en ine tudio de ocho familias y su uso de tarjetas de crédito. Se identificaron tres factores potenciales (ta- mato familiar, ingresos familiares y el nimero de automéviles poseidos), y se recogicron datos de cada una de las ocho familias (véase Tabla 41), En la terminologia del andlisis de regresion, a va- riable criterio (Y) es el nimero de tarjetas de crédito utilizado y las tres variables (VV, V,) 1€- presentan el tamafio de familia, los ingresos familiares y el mimero de automéviles poseidos, respectivamente. La exposicién de este ejemplo se divide en tres partes para ayudar a entender cémo la regresién estima la relacién entre la variable independiente y Ia variable eriterio, Los tres temas gue se van a tratar son (1) predicin sin una variable independiente, ilizand slo una medida ‘nica —la media, la prediccién usando una tinica variable independiente —regresién simple, y (3) prediccién usando varias variables independientes —regresién miltiple. ‘sesonsine TABLA 4.1. Resultados de la encuesta sobre ol uso de tarjetas de crédito Renta ‘Niimero de é Tamaio familiar posesin de Familia tarjetas de crédito de familia (0008) ‘automaviles ID Yy vy, ¥, ¥, 1 4 2 4 1 2 6 2 16 2 3 6 4 4 2 4 7 4 7 1 5 8 5 Is 3 6 7 3 2 2 7 8 6 7 1 8 10 6 25 2 inte .cién con la primera ecuacién de regresion, empecemos con el calculo de ta nes tinca con la que ‘yompararemos la capacided de pediccién de nuestos modelos de re- gresién. La linea basica deberia representar nuestra mejor prediccién sin el uso de variables inde- pendientes, Podriamos usar cualquier nimero de opciones (por ejemplo, la prediccién perfect, un Valor especificado previamente o una de as medidas de tendencia central, como la media, la me- diana o la moda), sin embargo la linea predictor uilizada en la regresin es la media simple de la ‘variable dependiente, lo cual tiene varias propiedades deseables. En nuestro ejemplo, la media ant ndtioa del nimero de tarjetas utilizadas es siete. Nuestra prediccién podria ser «el nimero medio de tarjetas de erédito mantenidas por una familia es sietev. También podriamos poner esto como la siguiente ecuacién de regresion: Prediccién del nfimero de tarjetas de crédito = Nimero medio de tarjetas de crédito bay \ Prediccién mediante una unica variable in Regresién simple 146 “ANALISIS MULTIVARIANTE. de base con al uso de la media de fa variable criteria a TABLA 4.2, Prediccion de la lin Valor tebrico deregesion: Y= y icciGn: a Ecuacién de prediccién: - a pias der a Error de elevado al é jon de ror de a Familia tarjetas de crédito Preiss a a 1 -1 1 4 ; - 1 3 é ; i i i 5 ; 1 rs 1 ‘ 7 7 0 ° 5 8 7 +1 ! : 10 7 “ 2 Total 56 6+ 8= 7, . le dependiente menos el valor de prediccién. T amero medio de tarjetas de exit utlizadas + eae Pista ee lara dela ari -ontestar todavia una cuestiOn: aut Lager piraiaraiasd aig aus ln medi or oa resin Fo econ ques pra a ao cna ok a manera de valorar la , eta ins de base como con los modelos de regesion que creamos, El a habia de m Tua la adecuacin de una variable predictor es examinar ls erores en a predicciGn de la vai eriterio cuando se usa para la prediceién, Por ejemplo, con nuestra predici6n decimos que cai imilia usa siete tarjetas de crédito, de forma que estamos sobrestimando el niimero de tarjetas de dito utilizado por a familia | en tres (véase Tabla 4.2) Por tanto, cl error es +3. Si este procedimicis fuese seguido para cada familia, algunas estimaciones serian demasiado altas, otras serian dems siado bajas y a la vez otras podrian ser correctas. Aunque podriamos esperar la obtencién dew medida itil de exactitud de prediccién con una simple suma de los errores, esto no seria de uli porque los errores que proceden del uso del valor medio siempre sumarian cero. Por tanto, lasint simple de errores munca cambiaria, independiente del grado de éxito que tuvimos con la predictér de la variable criterio con el uso de la media, Para solucionar este problema, elevamos al cual el error y sumamos los resultados. El total, denominado como la suma de los errores al cuadrt | do (SSE), proporciona una medida de la precisién predictiva que varia segin la cantidad de er res de prediccién, El objetivo es obtener la suma de los errores al cuadrado més pequetia posi. dado que esto indicaria que nuestras predicciones serian las més precisas. F Elegimos la media aritmética porque siempre produciré una suma de errores al cuadrado nis Pequefia que cualquier otra medida de tendencia central incluida la mediana, la moda, cualquie otro valor tinico o cualquier otra medida estadistica més sofisticada. (Se anima a los lectores int resados a observar si pueden encontrar un mejor valor de la prediceién que la media.) Ports para nuestra encuesta de ocho familias, la utilizacién de la media como nuestra linea basica de P* diccién nos proporciona el mejor predictor tnico del nimero de tarjetas de crédito con und U de errores al cuadrado de 22 (véase Tabla 4.2), En nuestra discusién de la regresién simple 0° tiple, utilizaremos esta prediccién a partir de la media como argumento para la comparacié", ue representa la mejor prediccién sin utilizar variables independientes, Pero el investigador debe c dependiente. Como investigadores, siempre estamos int iteresad a . sect precedente aprendimos que la media es el mejor pred rs Beedicciones En Tg 1 mejor predictor si no utilizamos otras variables ANALISIS DE REGRESION MULTIPLE 147 pendientes. Pero en nuestra encuesta de ocho fam medidas que podrian actuar como variables in una de estas variables independientes nos a la regresin simple. La regresién simple es otto procedimiento para predecir datos (al igual que la media predice datos), y utiliza la misma regla —minimizar la suma de los errores cuadrados de la prediccién. Sa- bbemos que sin utilizar el tamafo de la familia podemos describir mejor el niimero de tarjetas de crédito mantenidas como cl valor de la media, siete, El objetivo del investigador para la regresion simple ¢s encontrar una variable independiente que mejore la prediccién de la linea de base. ilias también recogimos informacién sobre otras ndependientes. Determinemos si el conocimiento de ryudard en nuestras predicciones por lo que se refiere a El papel del coeficiente de correlacién Utilizando nuestra informacion sobre el tamaiio de la familia, podriamos intentar mejorar nuestras predicciones reduciendo nuestros errores de prediccién. Para hacerlo, los errores de prediccién en el nimero de tarjetas de crédito mantenidas debe estar asociado (correlacionado) con el tamafio de 1a familia. El concepto de correlacién, representado por el coeficiente de correlacién (r), es fun- damental para el andlisis de regresién y describe la relacién entre dos variables. Se dice que dos variables estin correlacionadas si los cambios en una variable estin asociados con los cambios en la otra variable, De esta forma, a medida que una variable cambia, sabriamos como est cambiando {a otra. Si cl tamaiio de la familia est correlacionado con el uso de tarjetas de crédito, escribiria~ mos entonces la relaci6n como sigue: Niimero previsto de = Cambio en el nimero de x Valor de ¥, tarjetas de crédito tarjetas mantenidas asociadas con cambio unitario en V, i En la Tabla 4.3 se muestra una ilustracién del procedimiento para algunos datos hipotéticos con una unica variable independiente X,. Si encontramos que conforme aumenta X, en una unidad, TABLA 4.3. Mejorando la exactitud de prediccién con la adicién de una constante en una ecuacién de regresién PARTE A: PREDICCION SIN LA CONSTANT. Ecuacién de prediceién: Y= 2X, Valor de Variable Error de a dependiente Prediccién prediceiin 1 4 2 2 2 6 4 2 3 8 6 z 4 10 8 2 5 2 10 2 PARTE B: PREDICCION CON UNA CONSTANTE DE 2,0 ¥=2.0+ 2%, Variable Error de dependiente Prediccién prediccién 4 2 ° 5 : ° 10: i . 148 ANALISIS MULTIVARIANTE 3s podriamos hacer predic, i erio (sobre la media) por: dos, entonce: i ec aunt ri oe independiente vor ejemplo, cuando X ine un valor ted nts cada valor i 7 valor de 8 (véase Parte A, Tabla 4.3). Por tanto, ¢l valor de prediccin ya icon ra calor de, (2X, Sin embargo, muchas veees, nos encontramos Qu ye ei vevads po a adicin de un valor constante, En la Parte A de a Tabla 4:3 podem st rnplprediccion de dos veces XI es erznea en cada caso. Por tanto, si cambiamy, roan ign para afadir una constante de dos a cada prediccién, nos proporciona preg tra deseripe casos (vase Pare B, Tabla 4.3) Observaremos que cuando seing”® rfectas en todos los aeuacién de regresidn, normalmente merece la pena incluir una constante. Especificacion de la ecuacion de regresién simple Podemos seleccionar la «mejor» variable independiente en nuestro estudio del uso de tarjeas crédito en base a las coeficientes de correlacién dado que cuanto mas alto es el coeficiete correlacion, mis fuerte es la relacién y por tanto més grande es la exactitud de predicci, ‘Tabla 4.4 contiene una matriz de correlaciones entre la variable criterio (Y) y las variables ‘ind. pendientes (V, V0 V,), Observando la primera columna, podemos ver que el tamaiio de fami, tiene la correlacién més alta con la variable criterio y por tanto es la mejor candidata para nuety primera regresién simple. La matriz de correlacién también contiene las correlaciones entre isa riables independientes, aspecto muy importante en la regresién miiltiple (dos 0 més variables dependientes). Ahora podemos estimar nuestro primer modelo de regresin simple para la muestra de ochy familias y ver eémo se ajusta la descripcién a nuestros datos. El procedimiento es como sigue ‘Nimeto previsto = Constante + Cambio en el nimero —-X ~—_(Tamafio de familia) de tarjetas de tarjetas de crédito crédito mantenidas con diferentes tamaiios de familia En la ecuacién de regresién, representamos la constante como b, inaci ; y la denominacién b, se a Coeficiente de regresién, denotando el cambio estimado en la variable criterio por un catmbio wi ANALISIS DE REGRESION MULTIPLE 149 LA 4. si6n si A TABLA 45. Ro ‘resion simple con el uso del tamaio de familia como la variable Valor tebrico deregresion: = ¥= 5, + hy Ecuacién de prediccién: Y= 2387 +'olo7y, ‘Mimero de Tamaho——_—Predice Famila tala dcrétio defamiia—devepeten —Enorae gel 1D uilizadas wv) simple prediceién al ewadrado 1 4 2 481 -081 0,66 2 § 2 481 19 142 3 4 675 075 036 4 7 4 615 0.25 0.06 5 8 5 7,72 0,28 0,08 6 7 5 772 0,72 0,52 7 8 6 869 0,68 048 8 10 6 8,69 131 172 Total 5350 se puede interpretar la constante 2,87 dentro de la gama de valores para la variable independien- te. En este caso, un tamaiio de familia de cero no es posible, por lo que la constante por si sola no tiene un sentido practico. Sin embargo, esto no amula su uso, dado que ayuda en la prediccién de uso de tarjetas de crédito para cada tamatio de familia posible (en nuestro ejemplo de 1 a 5). En los casos en los que las variables independientes pueden adquirir valores de cero, la constante tie- ne una interpretacién directa. Para algunas situaciones especiales donde se conoce que la relacién specifica pasa por el origen, la denominacién de constante podria ser eliminada (denominado «re- sgresi6n en el origen»). En estos casos, la interpretacién de los residuos y los coeficientes de regresion cambia ligeramente. Se muestra la ecuacién de regresién simple y las predicciones y residuos para cada una de las ocho familias en la Tabla 4.5 Dado que hemos utilizado el mismo criterio (minimizar la suma de los errores al cuadrado 0 ‘minimos cuadrados), podemos determinar si nuestro conocimiento del tamafo familiar nos ha dado a predecir mejor la posesién de tarjetas de crédito cuando se compara la prediccién de regres simple con la prediecién de la linea basica. La suma de los errores al cuadrado utilizando la me- dia era 22, Ahora, la suma de los errores al cuadrado es 5,50 (véase Tabla 4.5). Utilizando el pro- ccedimiento de los minimos cuadrados y una tinica variable independiente, vernos que nuestra nueva aproximacién, la regresién simple, es mejor que usar s6lo la medi La creacién de un intervalo de confianza para la prediccién Dado que no podemos conseguir predicciones perfectas de la variable dependiente, podriamos de- sear i anes de valores que la variable a predecir puede tomar, en lugar de basarnos ex- clusivamente en una estimacién simple (puntual). La estimacién puntual ‘€s nuestra mejor estimacién de la variable dependiente y puede demostrarse que va a ser la mejor prediccién para cualquier va- lor dado de la variable independiente. Utilizando esta estimacién puntual, podemos calcular el ran- 20 de los valores a predecir baséndose en una medida de los errores de prediccién que esperamos realizar, Conocide como el error estandar de Ia estimacién (SEE), esta medida es, sencillamente, la desviacin estindar de los errores de prediccién. Recordemos dela estadistica elemental que po demos construir un intervalo de confianza para una variable sobre su valor medio aftadiendo (mas ‘© menos) un cierto niimero de desviaciones estindar. Por ejemplo, afiadiendo (mas sence) 196 desviaciones estandar de la media, se define un rango que incluye el 95 por ciento de los valores. de una variable. is ANALISIS MULTIVARIANTE it é similar las pt i , o cinta tel et a nro ma oe ee tinar dla estimacion (dependiendo del nivel secon anza desea ts = sim as ‘ama aa pene) erov gatindar de la estimacion (SEE) se caleula mediante riable(s) in . cua Suma de errores al cuadrado ‘Tamafio muestral ~ 2 Error estindar de estimacién (SEE) 6 EE utilizados para derivar el intervalo de confianza se determina por lj, de pation) y el tamafio muestral (N), que da un valor f. El inservato de contin ala enfonces con el limit inferior siendo igual al valor previsto menos (SEE * valor) yseq cula el limite superior como el valor previsto més (SEE X valor‘). Para nuesto ejemplo regresin simple, SEE = 0,957 (la raiz cuadrada del valor 5,50 dividido por 6). Se constryes|, tervalo de confianza para las predicciones seleccionando el niimero de errores estindar asia, (nis/menos) mediante la bisqueda en una tabla para la distribucién ¢y la selecci6n del valorpy, una nivel de confianza dado con 6 grados de libertad (tamafio muestral menos el nimero dec. ficientes,o 8 - 2= 6) es 2,447. La cantidad afiadida (mis/menos) al valor previsto ¢sentonces(1§ X 2,447), 0 2,34. Si sustituimos el tamafio medio de las familias (4,25) en la ecuacién de sion, entonces el valor previsto es 6,99 (difiere de la media de siete s6lo en una centésima). Elo. go esperado va entonces de 4,65 (6,99 — 2,34) a 9,33 (6,99 + 2,34). Para una discusién ng detallada de estos intervalos de confianza, véase Neter et al. [11]. Valoraci6n de la exactitud de prediccién Si la suma de los errores al cuadrado (SSE) representa una medida de nuestros errores de pres cién, deberiamos ser capaces de determinar una medida de nuestro éxito predictivo, que llanae ‘mos la suma de los cuadrados de la regresién (SSR). Conjuntamente, estas dos medidas debe igual a la suma total de los cuadrados (TSS), el mismo valor que nuestra predicién de lie! de base. En la medida en que el investigador afiade variables independientes, el total dela de los cuadrados puede ahora dividirse en (1) la suma de los cuadrados prevista por la variable dependiente, también conocida como la suma de los cuadrados de la regresién y (2) la sumadels crores al cuadrador LO w & Vow © Lo.» TSS & SSE 1 SSR ‘Suma total % Suma de los errores | Sur de los cuadrad de los cuadrados al cuadrado. de la regresion. * donde = media de todas las observaciones _¥;= Valor de las observaciones individuales 3 = valor previsto para la observacién Podemos utilizar esta divisi siderarse también por su c sine desde alguna de esas tes perspectives ig ite Bretacién del valor tedrico puede fom tradas © las interrelacionee 8 de las variables independientes, los tipos de relaciones encon cine ables independientes, . rare enpruelOn ms directa de valor tebrico de laregresién es una determinaciin dei a inter \diente en la prediccién de la medida independ portancia relativa de cada variable independie: de la medida indepen todas las aplicaciones, la seleccién de variables independientes se basari sus Telaciones ign cas con la variable dependiente, El andlisis de regresi6n proporeiona un medio de evalua vamente la magnitud y direccién (positiva 0 negativa) de cada relacién con i independiente. El caracter de la regresion miltiple, que la diferencia de sus cont ‘on riantes, es la evaluacién simulténea de relaciones entre cada variable independiente y ls de la dependiente. Al realizar esta evaluaciGn simultanea, se determina la importancia rene cada predictor. ; oe ‘Ademas de evaluar la importancia de cada variable, la regresin miltiple permite tani investgador la evaluacion de la naturaleza de las relaciones entre las variables independnsy Ja variable dependiente. La relacién supuesta es una asociacién lineal basada en correlacionee tre las variables independientes y la variable dependiente. Pero también se disponen de tens maciones para evaluar i existen ottostipos de relacin, particularmente las relaciones curvilinalg Esta flexibilidad asegura que el investigador pueda examinar la verdadera naturaleza de sich cciones més alld de la supuesta relacién lineal Finalmente, la regresién miiltiple proporciona también tna idea de las relaciones ent lise gre iple prop lables independientes en sus predicciones de la variable dependiente, Estas interpretacione sn iy dos razones. En primer lugar, la correlacién entre las variables independieniesp de hacer que algunas variables sean redundantes en su esfuerzo predictivo, Como tal, no sone ‘cesarias para producir una prediccién optima. No se trata de reflejar sus relaciones individuals at {a variable criterio sino que indica que en un contexto multivariante, no son necesarias si see ariables independientes para explicar esta varianza, El investigador debe i asad la vais plea otro conjunto de v s independi ir uso del scalassumadas, tl y como se abord en el Capitule 2. Ps s* Puen suaeri Especificacién de la relacién estadistica Una regresién miiltiple es a dic ne ten jrniada Cuando el investigador esté interesado en una relaciéa Jemplo, examinemos la siguiente relacién Coste total = Coste variable + Coste fijo Si el coste variable es de 2S por unidad, el coste fj wie , ijo es de 00S y producimos 100 cansade por aeons lta srk exactamente 7008 y que cuales Gene ee es 10082 ‘causada por nuestra incapacidad para medir el eoste “ ue la relacién entre costes es fit ANALISIS DE REGRESION MULTIPLE 157 Coote ea Names de tages de Pre, (4) Welacitn tanenah FIGURA 4.2. Compsraci6n de las relaciones funcionales y estadisticas. tele denomina una relacin funcional porque esperameos que no exstr un eroren muestra pe- ci Pero en nuestro ejemplo anterior sobre la muestra de datos que representa el comportamiento bu- mano, estébamos suponiendo que nuestra descripcién del uso de las tarjetas de crédito era s6lo apro- ximada ¥ no una prediccién perfecta. Se pensaba que era una relacion estadistica porque siempre cexistiria un componente aleatorio en la relacion examinada. Encontramos dos familias con dos miem- bros, dos con cuatro miembros, etc., que tenian distinto nimero de tarjetas de crédito. En una rela- cidn estadistica se observaré mas de un valor de la variable dependiente para cualquier valor de una variable predictor. La variable criterio se supone que es una variable aleatoria, y para un predictor dado slo podemos esperar estimar el valor medio de la variable criterio asociado con él, En nues- tro ejemplo de la regresion simple, las dos familias con cuatro miembros mantienen una media de 6,5 tarjetas de crédito, y nuestra prediccién era de 6,75. Nuestra prediccién no es tan precisa como deseariamos, pero es mejor que usar nada mas que la media de 7 tarjetas de crédito. Se supone que el error es el resultado de un comportamiento aleatorio entre los poseedores de las tarjetas. En resumen, una relacién funcional calcula un valor exacto, mientras que una relacién estadistica estima un valor medio. A lo largo de! libro, nos centraremos en las relaciones estadisticas. Los dos tipos de relacion se representan en la Figura 4.2 Seleccién de variables dependientes e independientes EI «éxito» final de cualquier técnica multivariante, incluyendo las regresiones miltiples, comien- 7a con la seleccién de las variables que se van a usar en el analisis. Dado que la regresion milti- ple muestra una relacién de dependencia, el investigador debe especificar qué variable es 11 exponen el papel de la teoria en el andlisis multivariate, y todos aquellos asuntos fuertemen- te relacionados con la regresion maltiple. El investigador debe tomar las decisiones fundamenta- les de la seleccidn de variables, incluso aunque tenga muchas opciones y comandos de programas para ayudarle en la estimacién del modelo. Si no emite juicios durante la seleccién de la variable Y en su lugar (1) selecciona las variables indiscriminadamente 0 (2) permite que la seleccidn de una Variable independiente se base exclusivamente en bases empiricas, se incumpliran varios de los prin- cipios basicos del desarrollo del modelo. 158 ANALISIS MULTIVARIANTE 4 siendo estudiado. Si la variabl consistente del concepto que esté sient ado te american ee independientes pueden sr incapaces d conseguir nveles aeptabies depression peta ne s (véase Capitulo | para una discusin més de de medida puede venir de diversas fuentes (véase im El enor de medida que es problemitio puede ser abordado mediante 0 de ls ea vas tal como se comenta en ls Capituos 1 y 3. El investigador debe siempre interesane pt obtencién de la mejor medida de las variables dependientes ¢ independientes, basadas ante factores empiricos y conceptuales. uf tiene cierto ir inrelevante no sesgue los resultados de la otras variables independientes, tiene cierto impag 5. tre ellos. En primer lugar, reduce la parsimonia del modelo, que puede ser critica en la tacién de los resultados. En segundo lugar, las variables adicionales pueden enmascarat 0 dsp. los efectos de variables ms itiles, especialmente si se uiliza alguna forma jerarquica de esing Dados los problemas asociados con la adiciOn de variables irrelevantes, {debe fijarse el vestigador en las variables relevantes excluidas? La respuesta es definitivamente si, porque lag. clusién de las variables relevantes puede sesgar seriamente los resultados y afectar negativanexe ‘cualquier interpretacién de ellos. En el caso més simple, las variables omitidas no estén cores cionadas con las variables incluidas, y el ‘inico efecto es reducir la precisién predictiva conjra del andlisis. Pero cuando existe correlacién entre las variables incluidas y las omitidas, ls ef tos de las variables incluidas pueden verse segados en la medida en que estiin correlacionades cn 'as variables omitidas. Cuanto mayor sea la correlacién, mayor seré el sesgo. Los efectos esins dos para las variables incluidas representan ahora no s6lo sus efectos reales sino también lose ‘tos que las variables incluidas comparten con las variables omitidas. Esto nos puede llevar a seris Problemas en la interpretacién de los modelos y en la evaluacién de la significacién estadisica prictica. El investigador debe ser cuidadoso en la selecci6n de las variables para evitar ambos tpt errores de especificacién. Quizé los mayores problemas consistan en la omisién de las varbis relevantes, dado que los efectos de las variables no pueden evaluarse sin su inclusién. Est int sifica la necesidad de un soporte practico y tebrico de todas las variables incluidas o excluides® un andlisis de regresién miltiple. Los errores de medida afectan también a las variables independientes reduciendo su poder pe dientes, deberian utilizarse los modelos de tratar los errores de medida de ecuaciones estructurales (Capitulo 11) como un wed! en la estimacién de los efectos de las variables independiente Enel disefio de un ands o ‘estigador debe considerar asuntos tales, vauble pus epee «ls variables independiente y la posible reecion de Al hacerlo, debe cebeciales elaciones entre las variables dependientese independi™ i ° io de las regresiones miliples para realizar mucky en °a°i0n prictica y estadistica Lact, is de regresion miltiple, el investi ANALISIS DE REGRESION MULTIPLE 159 lizado en la regresién mit i i ' re iple ¢s quizA el elemento aislado més influyente bai eador en el disefo del andlisis. Los efectos del tamaio muestal se ver més directamente en la potencia estadistica del test de signitrescre i Itado, Trataremos ambos asuntos en las secciones siguiente," Senerlizacion del resultado. Potencia estadistica y tamafio muestral El tamatio muestral tiene un impacto directo en la conveniencia y la potencia estadistica de la re- gresi6n miiltiple. Muestras pequefias, habitualmente caracterizadas Por tener menos de 20 obser- vaciones, son apropiadas sélo para andlisis de regresién simple con una tnica variable independiente. Incluso en estas situaciones, slo se pueden detectar relaciones muy fuertes con cier. to grado de certidumbre. De la misma forma, las muestras muy grandes, de 1.000 observaciones ‘© mas, hacen los test de significacién estadistica demasiado sensibles, indicando que casi cualquier resion miltiple se refiere a la probabilidad de detectar como estadfstica- mente significativo un nivel especifico de R? o un coeficiente de regresin para un nivel de signi- ficacién especificado y un tamatio de muestra especifico (véase Capitulo | para una discusién mas dctallada). El tamafio muestral tiene un impacto directo y cuantificable sobre la potencia. La Ta- bla 4.7 ilustra la interacci6n entre el tamafio muestral, el nivel de significacién (a) elegido y el ni ‘mero de variables independientes para detectar un R? significativo. Los valores de la tabla son el minimo R? que el tamafio muestral especificado detectaré como estadisticamente significative y el nivel alfa especificado con una probabilidad (potencia) de 0,80. Por ejemplo, si el investigador em- plea cinco variables independientes, especitica el nivel de significacién de 0,05 y est satisfecho al detectar e1 R? del 80 por ciento de las veces que ocurre (correspondiente a una potencia de 0,80), luna muestra de 50 encuestados detectard valores de R? del 23 por ciento y superior. Si la muestra aumenta en 100 encuestados, entonces se detectarin valores del R? del 12 por ciento o superiores. Pero si los 50 encuestados es todo lo que tiene el investigador y quiere un nivel de significacion del 0,01, el investigador detectaré valores de R’ sélo por encima del 29 por ciento. El investigador ” PoT® & los programas &¢ ANALISIS DE REGRESION MULTIPLE 161 La elacionhisca renresentada en la regresign miitiple es la asociacin lineal entre variables de- peruones¢ independents méiricasbasada en la correlacion momento-producto, Muchas veees tos investigadores se enfentan al problema de incorporar datos no metros, tales come genero pacion, n de regresién, Sin embargo, tal y como hemos visto anteriormente, la regresiOn se limita a los datos métricos. Ademas, la incapacidad de la regresién de modelizar di- rectarente las relaciones no lineales puede suponer una restriccin para el investigador cuando Se enfenta con situaciones en las que una relacién no lineal (por ejemplo, en forma de U) es suger da por la teoria 0 es detectada cuando examina los datos. tanto las variables dependiente como las independientes por una de estas dos razones: mejorar 0 modificar la relacién entre las variables dependientes 0 independientes o permitir el uso de varia: bles no métricas en el valor teérico de la regresién. Las transformaciones de los datos pueden ba- sarse en razones tanto «tebricas» (transformaciones cuya conveniencia es sugetida estrictamente por la naturaleza de los datos) 0 wdlerivadas de los datos» (transformaciones sugeridas estrictamente por el examen de los datos). En cualquier caso el investigador debe proceder muchas veces por en- sayo y error, evaluando constantemente las mejoras frente a la necesidad de transformaciones adi- cionales. Exploraremos estos supuestos con discusiones acerca de las transformaciones de los datos ‘que permitan al andlisis de regresidn representar de la mejor forma posible los datos reales y dis- cutir la creacién de variables que complementen a las variables originales, ‘Todas las transformaciones descritas se pueden realizar facilmente mediante las funciones de Jos programas de estadistica més extendidos. Nos centramos en transformaciones que puedan cal- cularse de esta forma, aunque existen otros métodos de transformacién de los datos més sofisti- cados y complicados (por ejemplo, véase Box y Cox [4)) Incorporacién de datos no métricos con variables ficticias Una situacién comin a la que se enfrentan los investigadores es la presencia de variables inde- pendientes no métricas. No obstante, hasta ahora todas nuestras explicaciones han suptesto me- i les dependientes. Cuando la dora mis categorias? En el Capitulo 2 se introdujo el concepto de las variables dicotOmicas, rocides como variables ficticias, que actian en lugar de las variables independiente. Cada va- rere oresenta una categoria de variable independiente no méticaycuslquer variable no-métrica co orias puede representarse como uns variable ficticia k ~ 1. a mis comin es la codificacién de dieador en la que se representa la categoria por | 00. Los coeficientes de regresién para la va- lable ficticia representan desviaciones para cada grupo de ‘encuestados formado por una variable Feticia de la categoria de referencia (es deci, cl grupo omitido que recibe todos los ceros) res- seve a variable dependiente, Estas diferencias de grupo pueden sr valoradas iresianene, dado rr los coeficientes estn en ias mismas unidades que la varab’e dependent Esa forma de co- sees oes ale iticia puede ser mostada como atajos diferentes de ls grupos (véase Figura 4.3), En este ejemplo, se representa una ‘variable no métrica de tres categorias por dos va- ear ee ay yb.) dando valores alos grupos | y 2, respecto del grupo 3 a eatekor de ifenencia Los cocticientes de regresion son 2,0 para D, y 3,0 para D,, Estos coeficientes se tra ducen en tres lineas paralelas. El grupo de referencia (en este caso el grupo 3) se define por la ecua- tion de regresion con las dos variables fieticias igual a cero. La linea del grupo 1 esti dos unidades por encima de la linea para el grupo de referencia. La linea del grupo 2 esta tres unidades por de~ bajo de la linea det grupo de referencia 3. Las Tineas paralelas indiean que las variables fieticias | Gpo = Cops | Gro: r 0 %——— 7 8OCU x euasones de eresin con variables ftcias (Dy Dy) esis Yaa bX +byD, by Estimadas tobales Ye2412K+20,-30, xpecitea de grape Grp 1 (0, = 1.0, + hax 20) Gnpo2(0)=0.D.=1) Ye2eiax — ~34) Gnpo3(D)=0,Dy"0) _Ya2+ 12K FIGURA 4.3. La incorporacién de variables no métricas mediante variables ficticias. No cambia la naturaleza de la relacién, pero solamente estipula los atajos diferentes entehs grupos, Esta forma es mas apropiada cuando existe ion Logis ee in Ktemativo de codificacion de variable ficticia es lajeoaiienelin(a efectos. £5 tamente igual que la codificacién de indicador excepto que el omitido 0 de | aract gr dnd lesson ce) ara el alr del en ar de par ts 52 iss. Asi los coeficientes represent cias para cualquier grupo respecto de la 0s los grupos (en vez de la media del grupo omitido). Ambas formas de variable fiticia de cxaclamente los mismos resultados predictivos, coeficientes de determinacién y coeficien® regresién de las variables continuas. Las tinicas diferencias estarin en Ia interpretacién & coeficientes de la variable fit Representacién de efectos curvilineos con polinomios Existen varios tipos de transformaciones de datos ‘propiados para convertir en lineal uns! a " sr curvilinea Los métodos directs, discutidos en el Capitulo 2mplicen sndfeariones & ANALISIS DE REGRESION MULTIPLE 163 lores a través de ciertas transformaciones aritméticas (por ejemplo, calculando la raiz cuadrada 0 el logaritmo de las variables). Sin embargo, tales transformaciones tienen varias limitaciones. En primer lugar, son utiles sélo en relaciones curvilineales simples (un relacién con slo un punto de giro 0 inflexién). En segundo lugar, no ofrecen medios estadisticos para evaluar si el modelo lineal o curvilineal es el mas apropiado, Finalmente, s6lo se pueden utilizar para relaciones uni- variantes y no para la interaccién entre variables cuando nos encontramos con mas de una varia- ble independiente. Discutiremos a continuacién un medio de crear variables que modelizan explicitamente los componentes curvilineales de la relacién y ponen de manifiesto las limitacio- nes inherentes a las transformaciones de los datos. Los polinomios son transformaciones potenciales de una variable independiente que afiaden una componente no lineal para cada potencia adicional de la variable independiente. La potencia de | (X') representa el componente lineal y es la forma que vamos a discutir a lo largo de este ca- pitulo. La potencia segunda, la variable al cuadrado (X*), representa el componente cuadratico. En términos gréficos, X? representa el primer punto de inflexi6n. Un componente ciibico, represen- tado por Ia variable elevada al cuadrado (X*), afiade un segundo punto de inflexién. Con estas va~ riables e incluso con potencias superiores, pueden incluirse relaciones mas complejas de las que son posibles explicar s6lo con transformaciones. Por ejemplo, en un modelo de regresién simple, ‘un modelo curvilineal con un punto de giro puede modelizarse con la ecuacién: Yo by +6, +b b= constante bX, = efecto lineal de X, b,X}= efecto curvilineal de X, ‘Aunque puede afiadirse cualquier ntimero de componentes no lineales, el término cibico es la mayor potencia utilizada habitualmente, A medida que cada nueva variable entra en la regresién, podemos realizar un test estadistico directo de los componentes no lineales que no podemos hacer con las transformaciones de los datos. En la Figura 4.4 se muestran tres relaciones (dos no lineales y una lineal). A efectos interpretativos, l término cuadratico positivo indica una curva en forma de U hacia arriba, mientras que un coeficiente negativo indica una relacién con la © hacia abajo. 0 Positva de segundo grado » y Lineal 10 [Negative de segundo grado oO x FIGURA 4.4, Representacién de las relaciones no linesles con polinomios. 164 ANALISIS MULTIVARIANTE can cuando la eovacin de la e881 contig j,, variables independents. Seguimos el mismo procedimino TS crear Emin - ites ro ahora debemos crear adem cin Si ech as poe ee eee alitivriantes. En terminos gréfics, un polinomio multivariante de dos va.* sesenta como una superficie con un pico oun valle. Para polit Sipe Jerhacer a imerpretacion dibujando la superficie desde los valores previstos, aintostemminos deberian atadtse? Una préctica comin es empezar con el compen realy entonces tad secuencialmentepolinomios de orden superior hasta Ques leur i Senificacidn, El uso de los polinomios no esté exento de problemas pot : les. En primer lupe cel termino adicional requiere un mayor grado de libertad, que puede ser particularmenie trictivo con tamafios muestrales pequefios. Est ta limitacién no ocurre con las transformacions Ios datos. Asimismo, se introduce la multicolinealidad en los términos adicionales y hace qu, comprobacidn de la significacién estadistica de los términos de los polinomis sea inapopiais St lugar, el investigador tiene que comparar los valores R? del modelo de ecuacién con os iy, nos lineales con la R? para la ecuacién con Jos términos de los polinomios. Las pruebas paral nificacién estadistica del R en aumento representan la manera apropiada de valorar el impacto je los polinomios. Los polinomios multivariantes se cre Representacion de la interaccién o efectos moderadores Las relaciones no lineales arriba mencionadas requieren la creacién de una variable adicional (pr ejemplo, el término al cuadrado) para representar un cambio de pendiente en Ia relacidn sobred rango de la variable independiente. Esta se centra en la relacién entre una tinica variable indepen. diente y la variable dependiente. Pero ;qué ocurre si una relacién de variable dependientelinie- pendiente se ve afectada por otra variable independiente? A esto se le llama el efecto moderads {que ocurre cuando la variable moderador, una segunda variable independiente, cambia la ormaée larelaci6n entre otra variable independiente y la variable criterio. También se conoce como un¢ft- ‘0 interaccién y es similar al término interaccién que se encuentra en el andlisis de la varianz) ¢l analisis multivariante de la varianza (véase Capitulo 6 para mAs detalles acerca de los témise de interaccién). El efecto moderador més comiinmente empleado en la regresién miiltiple es el moderador cs ‘10 bilineal, donde la pendiente de la relacién de una variable independiente (X,) cambia ja con los valores de la variable moderador (X,) [7, 14]. En nuestro ejemplo anterior del uso d= Jetas de crédito, supongamos que la renta familiar (X,) se encontr6 que era un moderador pos Vo de la relacién entre el tamaio de la familia (X,) y el uso de tarjetas de crédito (¥). 65" significaria que el cambio esperado en el uso de tarjetas de crédito basado en el tamaio de ale tmilia (b,, el coeficiente de regresién de X,) podria ser menor para familias con rentas bajas Y™ Yor para familias con rentas altas. Sin el efecto moderador, suponemos que el tamaiio fami ia tiene lun efecto «constante» sobre el niimero de tarjetas de crédito utilizadas. Peto lst" minos de interaccién nos: ats ie reien ambi seeun el nivel de renta de la fain los efectos del tar liar ‘mismos no sean importantes, sino que el término de interaccién omlconene cuenta resenta en la regresién multiple por un término bastante silt? ara representar efectos no lineales. El término mode or la multiplicacién de xX, por el moderador X, . que em sl emino no lineal puede ser considerado como una te se «modera a sj mi andose al cut néenedints se « isma, elevando es una variable compuesta formada la ecuacién de regresion. De hecho, de interaccién, donde la variable in (,X). La relacién moderadora se Yy= byt bX, + OX, + OX, ANALISIS DE REGRESION MULTIPLE 165 donde b, = constante efecto lineal de X, efecto lineal de X, efecto moderador de X, sobre X, Dada la multicolinealidad entre las variables antiguas y nuevas, se emplea un enfoque pareci- do a la comprobacién para la significacién de efectos polinomiales (no lineales). Para determinar si el efecto moderador es significativo, el investigador debe estimar en primer lugar la ecuacion original (sin moderar) y a continuaci6n estima la relaci6n moderada. Si el cambio en el R? es es- tadisticamente significativo, entonces nos hallamos en presencia de un efecto moderador signifi- cativo. Por lo que solamente se valora el efecto de incremento, no las variables individuales. La interpretacién de los coeficientes de regresién cambia ligeramente en las relaciones mode- tadas. El coeficiente b,, el efecto moderador, indica que el cambio unitario en el efecto de X, cuan- do X, cambia. Los coeficientes , y b, representan los efectos de X, y X,,respectivamente, cuando el resto de las variables independientes es cero, En la relacin sin moderar, el coeficiente 6, re- presenta el efecto de x, para todos los niveles de X, y viceversa para b,. Por tanto, en la regresion sin moderar, los coeficientes de regresién b, y b, se «promedian» respecto de los niveles del res- to de las otras variables independientes, mientras que en una relacién moderada se separan del res- to de las variables independientes. Para determinar el efecto total de una variable independiente, se deben combinar los efectos separados y moderados. El efecto total conjunto de X, para cualquier valor de X, se puede calcular sustituyendo el valor de X, en lo siguiente: 1 + OX, Por ejemplo, supongamos una regresién moderada que se resuelve en los siguientes coeficientes: b, = 2,0 y b, = 0,5. Si el valor de X, puede tomar valores entre uno y siete, el investigador puede caleular el efecto total de X, para cualquier valor de X,. Cuando X, es igual a 3, el efecto total de X, ¢s 3,5 [2,0 + 0,5(3)]. Cuando X, llega a 7, el efecto total de X, es ahora 5,5 [2,0 + 0,5(7)]. Po- demos ver en accién al efecto moderador, haciendo que la relacién de X, y la variable criterio cam- bie, dado el nivel de X,. Podemos encontrar una excelente discusién de las relaciones moderadas en varias fuentes [5, 7, 14] Resumen La creacién de nuevas variables proporciona al investigador una flexibilidad enorme en la repre- sentacién de una amplia gama de relaciones dentro de los modelos de regresién. No obstante, de- masiadas veces el deseo de obtener un ajuste mejor de un modelo lleva a la inclusion de estas relaciones especiales sin apoyo terico. En estos casos, el investigador corre un riesgo mayor de encontrar resultados con poca o ninguna generalizacién. En su lugar, con el empleo de estas va- riables adicionales, el investigador tiene que estar guiado por una teoria respaldada por el andlisis empirico. De esta manera, se puede alcanzar tanto la significacién practica como estadistica. aE Ena iA ee deregresionm Hemos mostrado cémo son posibles mejoras en la prediccién de la variable criterio afiadiendo va- tiables independientes ¢ incluso transforméndolas para representar aspectos de las relacién que no son lineales. Pero para hacerlo debemos hacer varios supuestos sobre las relaciones entre las va- riables dependientes e independientes que afectan al procedimiento estadistico (minimos cuadra- dos) utitizado para la regresién multiple, En las siguientes secciones discutiremos la contrastacion de los supuestos y las acciones correctivas que se deben tomar si se incumplen los resultados. 166 valoracién de las varial ANALISIS MULTIVARIANT E bles individuales frente al valor teorico ion miltipe se aplican tanto a las variables indivi, Los supuestossubyacentes de a rearesion MTT nel Capitulo 2s examina de las variables individuales, Pero en ig (Gependientes e independientes) como : Se ape ponchos oe an eaane ie Sion mult er cndent. Este hecho implica que se deben evaluat os puesis no, de les arabes individuales sino del valor tebrico en si mismo. Esta seccion se centra en ¢| ‘nen del valor te6rico y de su relacidn con la variable dependiente en el eu mpi debra Frias dla regresion mip, Estos andlisis ben realizarse spas 6° She tay ein Etmodelo de regresién en el paso cuarto, Por tanto, la contiasiacion Xt er pes Tugar no solo en las fsesiniciales de la regresi6n sino también después de que el modelo we ¢stimado. jn bisica es si ene proceso de céleulo de los coeficientes de regresion y predic dela variable eriterio, se cumplen los supuestos del andlisis de la regresiOn. ,Som los erores aj prediccion un resultado de una falta efectiva de relaciOn entre variables o son provocados pore. tas caracteristicas de los datos no contemplados por el modelo de regresién? Los supuestos ques van a examinar son los siguientes: + La linealidad del fendmeno medido + La varianza constante del término de error + Laiindependencia de los terminos de error + La normalidad de la distribucién del término de error La medida principal del error de prediccién del valor tebrico es el residuo —Ia diferenciaes tre los valores observados y las predicciones de la variable criterio. Los graficos de residuos y Jas variables independientes o de las predicciones constituyen el método basico de identifica de los incumplimientos de los supuestos para el conjunto de la relacién. Cuando se examinanis residuos, se recomienda cierta forma de estandarizacin, con el fin de hacer los residuos dite ‘mente comparables. (En su forma original, los valores con sobreprediccién tienen mayores f+ ‘Examinar la conveniencia porn aie f elle de regreson No umn a ables sna FIGURA 4.7. Disgrama de ujos del procadimiento de estimacién por etapas. Continia este procedimiento examinando todos las variables independientes no press fen el modelo para determinar si deberian incluirse en la ecuacin. Si se incluye um Ja variable independiente, hay que examinar todos los predictores previamente ic fen el modelo para juzgar si se deben mantener. Existe un sesgo potencial en el miento por etapas que resulta de considerar sélo una variable a seleccionar cada ve. pongemos que las variables X, y X, explicaran ‘conjuntamente una parte significative vvarianza (cada una considerando la presencia de Ia otra), pero no son significatives poe solas. En esta situacién, ninguna deberia ser considerada para e1 modelo final: La adiclén progresiva (forward) y la ellminacién regresiva (backward) 11s progresiva y Ia eliminacién regresiva son fundamentalmente procesos de ensayo y err parol car los mejores estimadores de la regresién, E] modelo de adicién progresiva es similar al > dimiento por etapas arriba explicada, mientras que el procedimiento de elimina A implica calcular una ecuacién de regresién con todas las variables independientes, paras ruaci6n i eliminando ls variables independientes que no contribuyan signficativamen ee tincién principal de la aproximacién por etapas respecto de los procedimientos de adicion Pr A y eliminacién regresiva es su capacidad de afiadir 0 eliminar las variables en cada etaP® ie {que se aflade o elimina una variable en las esquemas de adicién progresiva 0 Sfiminocion *2 ‘a, no existe posibilidad de revert la aceidn posteionmente. | od ANALISIS DE REGRESION MULTIPLE 173 Aavertencias sobre los métodos de busqueda secuenciales El investigador debe ser consciente de dos advertencias cuando se usa cualquier procedimiento de biisqueda secuencial. En primer lugar, la multicolinealidad entre variables independientes puede tener un impacto sustancial sobre la especificacién final del modelo. Examinemos esta situacién con dos variables altamente correlacionadas que tienen similares correlaciones con la variable independiente. El criterio de inclusién o eliminacién en estas aproximaciones es maximizar el incremento de potencia predictiva de Ia variable adicional. Si una de estas variables entra en el modelo de regresién, os muy. probable que la otra variable también ene, dado que estas variables estin al ionadas y existe poca verianza sin v debate mas adelante sobre la mulieolinealidad) ler para cade arabe pr separa (vas Por esta razén, se deben evaluar los efectos de la multicolincalidad en Ia interpretacién del mo- delo y examinar las correlaciones directas de todas las variables independientes potenciales. Esto ayudaré a evitar concluir que las variables independientes que no entren en el modelo no sean tras- cendentes cuando en realidad estan altamente relacionadas con la variable dependiente, pero tam- bién correlacionadas con las variables ya existentes en el modelo. Aunque las aproximaciones de biisqueda secuencial maximizarén la capacidad predictiva del modelo de regresién, el investiga- dor debe ser cuidadoso en la interpretacién del modelo, Una segunda advertencia pertenece prin- cipalmente al procedimiento por etapas. En esta aproximacién, los test de significacién miltiple se realizan en el proceso de estimacién del modelo, Para asegurar que la tasa de error conjunto a lo largo de todos los test de significacién es razonable, el investigador deberia emplear umbrales ‘muy conservadores (por ejemplo, 0,01) al afiadir o destruir las variables. Métodos combinatorios Los métodos combinatorios son fundamentalmente un proceso de bisqueda generalizada a lo lar- {g0 de todas las combinaciones posibles de variables independientes. El procedimiento més cono- cido es la regresi6n parcial combinando variables, que es exactamente lo que su nombre indica. ‘Se examinan todas las combinaciones posibles de las variables independientes para identficar el conjunto de variables que mejor se ajusta. Por ejemplo, en un modelo con diez variables indepen- dientes, existen 1.204 regresiones posibles (una ecuacién con una tinica constante, 10 ecuaciones con una Gnica variable independiente, 45 ecuaciones con todas las combinaciones posibles de dos variables, etc.). Con procedimientos de estimacién informaticos, este proceso se puede gestionar incluso para problemas muy grandes, identificando la mejor ecuacién de regresién conjunta para ‘cualquier nimero de medidas de ajuste predictivo. El investigador debe recordar que supuestos ta- les como la multicolinealidad, la identificacion de atipicos y observaciones influyentes y la inter- pretacién de los resultados no estén orientadas a la seleccién del modelo final. Cuando se han considerado estos supuestos, la «mejor» ecuacién puede tener problemas serios que afecten a su conveniencia, pudiendo ser elegido en ultima instancia otro modelo. Perspectiva de las aproximaciones de la seleccién de modelos ‘método combinacional, de biisqueda secuencial o confir- rmatorio. el eriterio més importante es el conocimiento sustantivo del investigador de la situacién, que es Io que determina las variables que se van incluir asi como los signos esperados y la mag itud de sus coeficientes. Sin este conocimiento, la regresién resultante puede tener una elevada precision predictiva sin relevancia terica o gerencial, Fl investigador no deberia guiarse comple {amente por estos métodos sino queens lugar deberauilizarls después de una cuidadosacon- Sideracién de las aproximaciones alternativas para a continuacién aceptar los resultados s6lo después de un cuidadoso escratinio. Independientemente de que se elija un 174 ANALISIS MULTIVARIANTE Contrastacién del cumplimiento de los supuestos de regresion vi \dientes seleccionadas y los coeficientes de regresién est Seria ahs chow alae el modelo estimado a Ia hora de cumplir los supuestos subye en la regresién miltiple. Como se discutié en el paso tercero, las vau iables individuals deh plir los supuestos de linealidad, varianza constante, independencia y normalidad, = ‘variables individuales, el valor tedrico de la regresién debe también cumplir: estos Supustos, a test de diagndstico expuestos en el paso tercero pueden aplicarse a la evaluacién del efecto," tivo del valor te6rico a través del examen de los residuos. Si se encuentran incumplimienos tanciales, el investigador debe tomar medidas correctivas para posteriormente volver a estimarg modelo de regresi6n. Examen de la significacién estadistica de nuestro modelo Si fuéramos a tomar muestras repetidas de ocho familias y preguntéramos cuéntos miembros la familia y tarjetas de crédito tienen, rara vez obtendriamos exactamente los mismos valores Y= b, + 6,¥, para todas las muestras. Esperariamos variaciones al azar causadas por ls diem, cias entre fas muestras, Generalmente tomariamos solo una muestra y basariamos sobre ella ma. tro modelo predictivo. Con una sola muestra y modelo de regresién, necesitamos comprobu hipétesis con relacién a nuestro modelo predictivo para asegurar que representa la poblacién dete. das las familias que tienen tarjetas de crédito en lugar de representar s6lo a nuestra muestra dey familias. Estos test pueden tomar una 0 dos formas bésicas: un test de varianza explicade (ci ciente de determinacién) y los test de coeficientes. Signiticacién del modelo en su conjunto: El coeficiente de determinacién Para contrastar la hipétesis de que la cantidad de variacién explicada por el modelo de regesix es més que la variacién explicada por la media (es decir, que R? es mayor que cero), se utliaé ratio F. La prueba del estadistico de la F se define como: Suma de los errores al cuadrad0 epee Ratio F = Grados de libertad, = SSEryetd Gage ‘Suma de los errores al cuadradOwy SSE a/df easy Grados de libertad... donde Grados de libertad, ‘imero de los coeficientes estimados (incluida la constante)~! Grados de libertad... = Tamaflo muestral ~ el ntimero de los coeficientes estimados (incluida la constante). Deben destacarse dos importantes caracteristicas de este ratio: 1. Cada si cuadrados se divi , ti decors dopcso, 7 ee Morin, E ist 2. Intuitivamente, si el ratio de la varianza os bésica (alrededor de la media) es alto, ” lor significativo en la explicacién de t explicada respecto a la varianza sobre el valor teérico de regresién tiene que ten" 1 variable dependiente. ANALISIS DE REGRESION MULTIPLE 175 En nuestro ejemplo, el ratio F del modelo de regresién simple discutido previamente en el ca- pitulo es (16,5 + 1)/(3,50 + 6) = 18,0. La tabla del stadistice de laFdel bon seis ‘erados de li- bertad para un nivel de significacién de 0,05 proporciona 5,99. Dado que el ratio F es mayor que el valor de tabla, rechazamos la hip6tesis de que la reduccién en el error que obtenemos uilizan. do el tamafio de la familia para predecir la posesin de tarjetas de crédito era un producto del azar. Este resultado significa que, considerando la muestra utilizada para la estimacién, podemos explicar 18 veces més variacién que cuando utilizamos la media, y que esto no es muy probable que ocu- ra por azar (menos del 5 por ciento de las veces). De la misma forma, el ratio F del modelo de re- gresion miiltiple con dos variables independientes es (18,96 ~ 2)(3,04 + 5)= 15,59. El modelo de regresion miltiple es también estadisticamente significativo, indicando que la variable inde- Pendiente adicional era sustancial al afadirse a la capacidad predictiva del modelo. Sabemos que 2 esté influenciado por el numero de variables predictor relativas al tamatio mues- tral. Se han propuesto varias reglas, que van desde 10 a 15 observaciones por predictor @ un mi- rnimo absoluto de 4 observaciones por variable independiente. A medida que se llega a estos limites, necesitamos ajustar la inflacién del R? del wsobreajuste» de los datos. Como parte de to- dos los programas de regresién, se da un coeficiente de regresién ajustado (R? ajustado) junto con los coeficientes de determinacién. Interpretado igualmente que el coeficiente de regresién sin ajustar, el R? ajustado se hace més pequetio a medida que tenemos menos observaciones por riable independiente. El K? ajustado es particularmente util para comparar las diferentes ecuacio- nes de regresiOn estimadas con distintas variables independientes o diferentes tamafios muestrales, dado que marca limites para el nimero especifico de variables independientes y para el tamaio muestral sobre el que se basa cada modelo. En nuestro ejemplo del uso de tarjetas de crédito, el R? para el modelo de regresién simple es de 0,751 y el R? ajustado es 0,709. Conforme afiadimos la segunda variable independiente, el R? aumenta a 0,861, pero el R? ajustado solo aumenta a 0,806. En los dos casos, el R? ajustado refleja el ratio descendiente de los coeficientes estimados al tamafio muestral y compensa un «sobre ajuste» de los datos. Test de significacién de los coeficientes de regresién La prueba de significacién estadistica de los coeficientes estimados del andlisis de regresin es apro- piada y necesaria cuando el andlisis se basa en una muestra de la poblacién y no es un censo. Cuan- do utilizamos una muestra para estimar el modelo de regresién, el investigador no esta interesado en la regresi6n estimada s6lo para la muestra, sino en la generalizacién de los resultados para la poblacién. Para cada muestra extraida de la poblacién, se obtendré un valor diferente. Para mues- tras pequefias, los coeficientes estimados variarén ampliamente de muestra a muestra, Pero a me- dida que el tamafio muestral aumenta, las muestras se hacen més representativas de la poblacién y la variacién en los coeficientes estimados para estas muestras mayores se espera que sean més pequefias. Esto es verdad hasta que se estima cl andlisis utilizando la poblaci6n. En este caso, no hay necesidad para la significacién estadistica porque la «muestra» es igual a, y por tanto perfec tamente representativa de la poblacién. La variacién esperada de los coeficientes estimados (tan- to los coeficientes constantes como de regresién) se denomina el error estiindar de los cocficientes.. La significacidn estadistica de los coeficientes de regresién proporciona una estimacién pro- babilistica de fundamento estadistico sobre si los coeficientes estimados a lo largo de un gran ni- mero de muestas de un cierto tamao sen diferentes de cero, Sie tamatio muestra es pequef, lavaracin puede ser muy grande como para deci on el necesaro grado de cerns (que nos vamos a referir como el nivel de significacion) que el cocficien no es igual cer: ne mbargo, si el tamafio muestral es grande, el test tiene una mayor precision porque la variacié ficientes es menor, Muestras mas grandes no garantizan que los coeficientes no sean iguales a cero, pero hacen los test mas precisos. coeficiente de regresion Para ilustrareste a varlacién muestral en un pe ea “20 muestras aleatorias de cada uno de les custo lanaios noes (10, 25, $0 y 100 encuestados) de una gran base de datos. Se realiz6 una regresio 176 ANALISIS MULTIVARIANTE regresionestimados se registrant en te a ¥ Como seme ts, la variacior cientes estimados es mayor para muestras uestados, que ae lots bajo 220 al mis elevado de 6,06. A medida ue. bee nuestra an tate D5 50 encuestados ls variacion de los coeficientes bale cOMSCT A CT Fil racers de 100 encuestados tienen un rango de casi fa mitad que Wt MATE CF I encue ato ene a 3.86), Con esto podemos ver que la capactdad de Jo les! TY Scacion pay ferminar siel coeficiente es realmente mayor que cero es mas Pree Muestraess periores. tra y los coeticientes de tes de regresién estimada Variacién muestral para los coeti TABLA 4. Tamaio muestral 258 2,52 297 wo 245 2,81 291 * 38 33 358 a 6.06 5.64 5,00 4 2,59 4,00 4,08 Me 5,06 3,08 3,89 ih ass 38 Sor is éo0 an ses a 391 4,05 4,62 ay 3,04 3,04 3,68 an 3,74 3,45 4,04 38 5,20 419 443 3B 5,82 4,68 5,20 Ty 2,23 3,77 3,99 4 5,17 4,88 4,76 4m 3,69 3,09 4,02 uw 30 3a 251 ir 2,63 3,55 3,72 a4 349 5,02 5,85 a 4,57 361 512 a 2,20 2,52 291 20 6,06, 5,64 5.85 49 3,86 312 294 2) 1,28 085 083 ws Contrastes de signiticaci6n en el ejemplo de regresién simple Cuando abordams! modelo de reresin staple para el ejemplo de uso de tarjeta de crédito, dijimos que a ecu? egresion para el niimero de tarjetas de crédito es Y= b, + 6,V, = 2,87 + 0,971 (tamaiio deb fr milia). Contrastaremos dos hipStesis para este modelo de regresién: Hipétesis 1. El valor de la constante 2,87 se * te real propiado para vobligg debe al error muestral, siendo cero el término cor Con esta hips is i ‘ipotesis, estariamos comprobando simplemente si el término constante deberi*™ siderarse apropiado para nuestro : See ec es © modelo Predictivo. Si se encuentra que no es significati ° - -vos. El contraste apropiado es el lidelnn Constante no se utlizaria para propésits Ph programas informaticos de regresion, El gue Se encuentra habitualmente en la mayoria™ m. El valor ¢ de un coeficiente es el coeficiente dividido Programa ‘ de 50, Par dete nen, un coficente de 2,5 con un error estanda de 0,3 tend "5 Og Pare determin sie cacticiente es diferente de cero de forma significativa, ¢ "ey ‘or de la tabla para el tamaiio tmuestral y el nivel de confianza $2 ANALISIS DE REGRESION MULTIPLE 177 nado, Si nuestro valor es ) que el coefici 'Yor que el valor de la tabla, podemos estar s ros (en nuestro nivel fenle Lene un efecto estadistico significative en el valor teérico de re~ de con! gresion. Desde punto dle vista prictico, este test rara ver es necesario Silos datos utilizados para de- sarrollar cl modelo no incluyeron ciertas observaciones con todos os medios para cero. el erin constante esta «fueray de los datos y aetia a 4 c Y acta s6lo para posicionar al modelo. No sera necesario en- tonces contrastar el modelo. Mipotesis 2. El eoeficiente 0,971 indica que un aumento de u cia con un aumento en el riimera medio de tarjetas de coeficiente también difiere significativamente de cero, tna unidad en ef tamario familiar se aso~ crédito mantenidas por 0,971 y que este Si asi ocurriera por un error muestral, concluiriamos que el tamaio de la familia no tiene im- q pacto sobre el niimero de tarjetas de crédito mantenidas. Téngase en cuenta que este no es un test de un cierto valor exacto del coeficiente sino més bien de si debicra utilizarse. Otra vez, el test apro- Piado es el test de la ¢. El investigador debe recordar que el test estadistico de los coeficientes de regresiOn sirve para asegurar que para todas las posibles muestras que pudiesen extraerse, el coe- fictente de regresién deberia ser diferente de cero, En nuestro ejemplo, el error estindar del tamaiio de familia en el modelo de regresién simple es 0,229. El valor calculado es 4,25(0,971 + 0,229), lo cual tiene una probabilidad de 0,005. Esto significa que podemos estar seguros con una alta nivel de exactitud (99,5 por ciento) que el coeficiente deberia ser incluido en la ecuacién de re- resin. Resumen Los contrastes de significacién de los coeficientes de regresién proporcionan al in- | vestigador una valoracién empirica de su «verdadero» impacto. Aunque no constituye una prue- 4 ba de validez, determina si los impactos representados por los coeficientes son generalizables para ] otras muestras de esta poblacién. Muchas veces los investigadores olvidan que los cocficientes es- ) timados en el analisis de regresion son especificos para la muestra utilizada en la estimacién. Re- | presentan las mejores estimaciones para aquella muestra de observaciones, pero como muestran | los citados resultados, los coeficientes pueden variar notablemente de una muestra a otra. Esto in- | dica la necesidad de una actuacién coordinada para validar cualquier andlisis de regresién sobre | muestra(s) diferente(s). De esta manera, el investigador tiene que esperar que cambien los coefi- cientes, pero el intento es para demostrar que generalmente se mantiene la relacién en otras mues- | tras para que se pueda suponer que los resultados sean generalizables para cualquier muestra | obtenida de la poblacion. i } | | } 1 } Identificacion de observaciones influyentes Hasta ahora nos hemos centrado en la identificacién de pautas generales en el conjunto de obser- vaciones. Aqui desviaremos nuestra atencién a las observaciones individuales, con el objetivo de encontrar las observaciones que caen fuera de las pautas generales del conjunto de datos o que ejer- ‘cen una fuerte influencia en los resultados de la regresién. Recordemos que estas observaciones no son necesariamente malas en el sentido de que deban ser omitidas. En muchos casos representan los clementos diferenciadores del conjunto de datos. Sin embargo, debemos identificarlas y evaluar su impacto antes de empezar. La siguiente seccién introduce el concepto de observaciones influyen- tes y su impacto potencial sobre los resultados de la regresin, mientras que el Apéndice 4A con- tiene una discusion mas detallada de los procedimientos para identificar observaciones influyentes. Las observacionesinfluyentes se clasifian en tes casos: fpcos, punts de apslaneamiento ¢invluyentes Lo atipicas son observaciones que tienen grandes valores residues pueden iden tffcarse solo con respecto a un modelo de regresién especifico. Los atipicos han sido tradicional- mente la iniea forma de observaci6n influyente considerada en los modelos de regresi6n, y se han desarrollado aétodos de regresin especiticos (regresidn robusta) para tratar especificamente con to Bos resultados de la regresidn [1, 12]. En el Capitulo 2 se ofrecieron fimpacto deatpicas sar Jo tenia aipicos. Los puntos de apalancamiento son obser 178 ANALISIS MULTIVARIANTE es de los valores de las variables indepen, vaciones diferentes del resto de las observaciones 42°" Wor. de una sai " fic vacines din arent desscad 108 oe ctajen de son i tes en s dictor. Finalmente, las observaciones infor sen jos dela represion, Las obsess’ cones que tienen un efecto despropor" tos de apalancamiento, sino que ‘ : ialmente atipicos y pun sino que sis inert yor Famente observaciones influyentes. . esas observaciones influyentes pueden poset esi +8 mS fomas de observaciones infuyentes ¥ Su comesPOT ETT ca of punto ala linea del rep, duo de los puntos influyentes (la distancia perpendicular desde op ina de ep ; nuyentes (ey grande como para clasificarse Como aipico, Por no ge, ii ey Eanes sats gm vesnales. En la Figura 48a, el punto de influencia es cbueno” reforzando la pauta genera di, datos y reduciendo el error estandar de la prediccién y los coeficientes. Es Yn Punto de apalan. datos» eee valor residual pequeio o cas ceo, en a medida en ave 65 Yi reich, ae i gion, in embargo, los puntos influyentes pueden tenet tambien un leo ge cam esta general de los datos restates y sin embargo tener resiuos peau f, se Figura 4.8b y 4.8c). En la Figura 4.8b, dos observaciones influyentes son las que cuentan cx 2: Fie io yaralaelcion observa dado qu sin lls no surge una pata rel esd Foe er Fentifcariantampoco si solo se considerasen los residuos grandes, dado que sun, aos oval sera pequeto En la Figura 48c, se ve un efecto incluso ms profundo donde sx eicees nfluyentes contrarestan la pauta general del resto de los datos. En este cas, los, Serene rian mayores residvos que 10s puntos influyentes «alos». Las observaciones in Sentcs pueden afeta slo ana parte dels resultados, como en la Figura 4.84, donde lapeiext eTmaece constante pero se desplaza la constante, Finalmente, los puntos influyentes mis eden refozar el mismo resultado. En la Figura 48e, dos puntos influyentes pueden tener ans are relacion relativa, haciendo la deteccién més dificil. Y en la Figura 4.8f, los puntos influyens tienen posiciones muy diferentes pero un efecto similar los resultados. Esto ejemplos ilustange ddebemos deserrollar un instrumental superior de métodos para identificar estos casos influyes: ‘Los procedimientos para identificar todo tipo de observaciones influyentes son muy mint rosos aunque estin peor definidos que muchos otros aspectos del analisis de regresién, TodsIs programas informaticos ofrecen un analisis de residuos de los que aquellos con mayores vaats (particularmente los residuosestandarizados mayores que 2,0) pueden identificarse feimente Mi alin, la mayoria de los programas informaticos ofrecen hoy en dia al menos alguna medida d= dit néetico pare a ientiicaien de los puntos de apalancamiento y otras observaciones inluyets wpe neers a generalizacién de los ; las conclusiones sustantivas (la importancia de las variables, nivel de aust, et.) puede weit carse por un niimero relativamente pequetio de observaciones. Sean «buenas» (acentuando I sultados) 0 mala» (cambiandosutancialmente os resultados), estas observaciones evaluar ; en alguna de iecuto ae ents atipicos y puntos de apalancamiento 1. Unerror en la entrada de observaciones o datos. Una observacion vali i . . 7 diame Vélida aunque excepcional que es explicable por una situacion e"™ Una observacion excepcii i peional sin una explicacié i 4. Una observacin ordinata en sus caractvistcns nafobivy i oa , ott binasion te ccencearin racteristicas individuals pero excepeional €% Pueden recomendarse vari ie 0s cursos de acc 7 tos diferentes tines, Par ney Cursos de accién para tratar con las observaciones int tos alee ara un em observacién se puede corregi imino vaca Co cbseracione vais pero excepcionales (condicion 2), “stories ae? cerca menos que las varies que reflejan la stucinextaorinaria incite acion inexplicable (condicién 3) presenta en un proble™ ANALISIS DE REGRESION MULTIPLE 179. y i i o “ © 0 sssesees endinte de a regresén sin unlayentes © Observacin tpica — Printed io regrenin com mnfluyentes © Observaci6ninflayente do las observaciones influyentes. cial, dado que no existe razén para eliminar el caso, aunque su inclusion no puede justificarse. Fi- nalmente, Ia observacién que es ordinaria en una variable aunque excepcional en su combinacion de caracteristicas (condicién 4) indica modificaciones para la base conceptual de! modelo de re- gresidn y deberia retenerse. En todas las situaciones, se recomienda al investigador que elimine las observaciones verd: dleramente excepcionales pero que esté en guardia contra la destruccién de observaciones que, aun aque diferentes, sean representativas de la poblacién. Recordemos que el objetivo es asegurar el modelo mas representativo para la muestra de datos de tal forma que refleje de la mejor forma po- sible la poblacién de la que se ha extraido. Esto se extiende incluso al mejor ajuste predictivo, dado qe ciertos aipicos pueden ser casos vélidos que el modelo intentaria predecir, aunque sea pobre- mente, El investigador deberia ser consciente de los casos donde los resultados cambiarian sus- tancialmente destruyendo s6lo una observacién aislada 0 un njimero muy pequenio de observaciones. i \diente. Como veremos i timados para la explicacién dela variable depenc csc deren clr ons ean ve1 de variables independientes que se omitieron si se empled una basqueda secuencial. En esas aproximaciones, Ja multicolinea- | La siguiente tarea del investigador es interpretar el valor te6ric® de la regresién evaluando los se estim6 sino también el poten aproximacién combinatorial 0 d¢ 180 ANALISIS MULTIVARIANTE altima instanei las variables incluidas en altim: ene ay afectar sustancialmente @ id a ln wae a regreion Por tanto, ademas de evaluar los coeficientes estimados, invesignage caluar tambien el impacto potencial de las variables omitidas para asegurar que la signs i fc prictica se evalia a la vez que la significacién estadistica. e Utilizacién de los coeficientes de regresion fi f alores de la predicciér mntes de regresién estimados se usan para calcular los valo Sp, hseraciony ‘para cxpresar el cambio esperado de la variable ae para a Unidad deat bio en las variables independientes. Ademés de hacer la predicein, nos gustaria saber qué, ble independiente es la més itil en la prediecion de la variable dependiente, En el cempl i, regresion milple dscutido antriormente, nos gustaria saber qué variable el tamafo ei, tmilia o la renta familiar— es més itil en la prediccion del nimero de tarjetas de crédito man, das por una familia. Desafortunadamente, los coeficientes de regresién (b,, b, y B;) no nos oftecen esta in Para ilustrar por qué, podemos utilizar un caso bastante obvio. Supongamos que deseamos ps. cir los gastos mensuales de los jovenes en CD (¥), utilizando dos variables independiente , la renta de los padres en miles de délares y X, es la asignacién mensual de los adolescentes nj, da en délares, Supongamos que encontramos el siguiente modelo por un procedimiento de os. nimos cuadrados ordinarios: ¥=-0,01 +X, + 0,001X, Puede asumirse que X, es mas importante porque su coeficiente es 1.000 veces mayor ued coeficiente de X,, Este supuesto es cierto, desde luego. Un incremento de 108 en la renta de lop Gres produce un cambio en 1X 10$ ~ 1.0008 en las compras medias de CD (dividimos 105 yr 1.000 porque el valor X, se mide en miles de délares). Un cambio en 10$ en la asignacién me. sual de los j6venes produce un cambio de (0,001 X 108) en los gastos medios en CD o un canhi de 0,01 en el niimero medio de CD (porque la asignacién de los jévenes se mide en délares) \s cambio de 108 en la renta de los padres produce el mismo efecto de un cambio de 10S en aig nacién de los jévenes. Ambas variables son igualmente importantes, pero los coeficientes de ‘gresidn no revelan directamente este hecho. Podemos resolver este problema mediante cl woit tun coeficiente de regresion modificado llamado el coeficiente beta. Estandarizacién de los coeficientes de regresion: Los coeficientes beta Si cada una de nuestras variables predictor ha sido estandarizad, it ia : v 1a antes de estimar la ecu regresin, nos encontrariamos con diferentes coeficientes de regresin, Los eoefiients rei" tts d los datos estandarizados se denominan coeficientes beta. Su valor reside en que eii®® redeit por las variables independ ‘ronna te oe ed ape autvidad de HATCO. Las siguientes siete variables se incluyeron cone i. as perc riables independicntes: X, Velocidad de entrega X, Nivel de precios ‘XX, Flexibilidad de precios X, Imagen del fabricante X, Servicio X, Imagen de la fuerza de ventas X, Calidad del producto La relacion entre las siete variables predictor y la fidelidad al producto se asumia que eng, tadistica y no funcional, dado que suponen percepciones acerca de la actividad que incluyen er. tes del nivel de medida. Segundo paso: Disefio de la investigacién mediante el anilisis de regresion multiple Tercer paso: Elestudio de HATCO obtuvo 100 encuestas del total de su base de clientes. Los 100 encuesids Proporcionaron respuestas completas, resultando 100 observaciones disponibles para el ans La primera cuestin a responder en relacién con el tamaiio muestral es el nivel de relacion (qe puede ser razonablemente detectado con el analisis de regresi6n propuesto. La Tabla 4.7 noi ca que la muestra de 100, con siete variables potencialmente independientes, es capaz.de dt! ‘elaciones con valores de R? aproximadamente un 30 pot ciento para una potencia de 0,80 cin nivel de significacién fijado en 0,01. Si el nivel de significacién se Telaja a 0,05, entonces ela lsisidentficard relaciones que expliquen cerca del 13 por ciento de la varianza, El analiss ie sresién propuesto se considerd suficiente para identificar no solo relaciones estaistiam® significativas sino también relaciones que tu La muestra de 100 observaciones también ct Supuestos del anilisis de regresi6n multiple tenn cami os supuestos isis resin para asegurar tanto que Jos reso {ores resultados posibles Con oreesemtativos de la muestra come ‘que hemos obienido 6 ‘regirsesies posible, Plena Ue asceaenlimieato serio de los supuestos debe dees) anuss de egesién impinge oe 8°80 Que la investigncign - cumple los. Spe : variables dependientes dedicda ala cvahncton deh con Seuss dela este @ ANALISIS DE REGRESION MULTIPLE 189 Los tres supuestos imputados a las les. ivi i sna nel Actos lin erepion esanien ane el Capitulo 2 detallando el examen de las variables dependionne ¢ independientes. En primer i. bles indivi indican la e no lineales ent as variables dependents is indepenicnce Leste de oes arin que oe de las variables (x) incumple este supuesto. Finalmente, en los test de nor- aa see indicator log ees & las variables (X;, X, y X,) incumplian los test estadisticos. En coda caso, se indicaron las transformaciones logaritmicas, Las series de test de estos tres supuestos sub- yacentes a los andlisis de regresion indicaban que habia que centrarse en la normalidad de ls tres variables independientes. Aunque el andlisis de regresion se ha mostrado bastante robusto, inclue so cuando se incumple el supuesto de normalidad, los investigadores estimarian el andlisis de re- z e S & & & 3 g & a Cuarto paso: Estimacion del modelo de regresién yvaloracién global del ajuste Con el anélisis de regresion especificado en términos de variables dependientes e independientes, la muestra considerada adecuada en funcién de los objetivos del estudio y los supuestos evalua- dos para las variables individuales, cl proceso procede ahora a la estimacién del modelo de regre- sién y la evaluacién del ajuste total del modelo. A efectos expositivos, se emplea el método de regresién por etapas para seleccionar las variables a incluir en el valor tedrico de la regresién. Des- pués de que el modelo de regresidn se ha estimado, el valor tedrico seré evaluado para ver el cum- plimiento de los supuestos del analisis de regresién. Finalmente, se examinaran las observaciones para determinar si cualquier observacién deberia considerarse influyente. Cada uno de estos su- puestos se discutira en las secciones siguientes. La estimacion por etapas: Seleccién de la primera variable La Tabla 4.10 muestra todas las correlaciones entre las siete variables independientes y sus corre- laciones con la variable dependiente (Y). El examen de la matriz de correlacién indica que el pre- dietor 5 (X,) esté mas correlacionado con la variable dependiente (0,70). Nuestro primer paso es construir un modelo de regresién utilizando este mejor predictor, Obsérvese que la correlacién del predictor I con la variable dependiente es 0,68. Sin embargo, X, estd correlacionado (0,61) con X,, TABLA 4.10, Matriz de correlacién: Datos HATCO Predictors Protos i Variables b Ks i Predictores 4, Velocidad de entrega 100 2, Nivel de precios ) + 049 1.00 2, Flexibilidad de precios toy 012100 2, Imagen del fabricante ooo? 030 1,00 2X, Servicio global 19-003 079 024 1.00 2X; Imagen del personal de ventas uy 2045 020-005 OB 1.00 X; Calidad de producto Dependiente HX) Nivel de uso 008 = 0,56 0220.70 0.26 ~0.19 \ 190 ANALISIS MULTIVARIANTE i regresién malt TABLA 4.11. Resultados del ajemplo: Primer PHS del ejemplo de re9resién mainte dy yy, ee Variable introducida: X, servicio global H RMiltiple oot REMiltiple ee R Ajustado on Error estindar de la estimacion Andlisis de ta varianza Suma de k ‘Cuadrado . cadredoe st ‘media Ratio F Regresion 3.92731 1 3.927,31 94,53 Residuos 4.071,69 98 4155 Variables en ta ecuacién Variables n Coeficiente cn la eouaie Error (beta) de =e estindar del regresién Valor Correlacin Variables Coeficiente “Coeficiente estandarizado parcial parcial tir Constante 21,653 2,596 8341 X, Servicio global 8,384 0,862 0,701 (9,722 X, Velocidad de entrega 0,439 aan , Nivel de precios =0,453 ~S0ih “X, Flexibilidad de precio 0720 at 2X, imagen det fabricante 2 xingent 022 al ‘personal de ventas 06 8 % Calidad de producto 0216-20 Esta es nuestra primera pista de que el uso conjunto de los dos predictores (X, y X,) puede ms apropiado dado que estan altamente correlacionados entre si tanto como lo estan con la vie dependiente. Los resultados de este bin 4.11 son los siguientes, primer paso aparecen en la Tabla 4.11. Los conceptos dela A milltiple R miltiple es cl cocficiente de correlacion (en este paso) de la regresion simple tele es varbles indivdales, tiene signo més o menos porque en el anliss miltile loss de asociacién. pueden variar, de tal forma que los coeficientes reflejan Reuadrado EIR cuadrado (R?) n también denominado como do el $1 soefcieate de correlacién al cuadrado (0,701 * ae faci determinacién. E ‘eae ‘eo orators orescence ene crite Uthzando los vooses oe na ilizamos sélo la media de ¥ para predecir avai 0491). Feduce este eror en un 49,1 por ciento (3.92731 7 Error esténdar de la estim: " aclén Elerror ee terete ncaa los de libertad (/4,071 = de los valores dependientes chet ecu a epresenta unt finci6n ‘ s efecti a estimacién de la desviocio™ yb variacién alrededor de la nea deeper de la linea de regresién; esto es, und M™' ioe sion. El error estindar de la estimacion puede #™ ANALISIS DE REGRESION MULTIPLE 191 visto como la desviacién estindar de los errores de predi res de prediccién y se convierte en una medida de eva- tuacion del tamafio absoluto del error de prediccién, Se utiliza también en la estimacién del tamaiio del intervalo de confianza para las predicciones. Vé e in cci6n con este procedimiento, ase Neter et al, [11] para més detalles en rel Variables en la ecuacién (primer paso) Enel i primer paso, una tinica variable predictor (X,) seuiliza para calcular Ia ecuacién de regresién con el fn de predect la variable dependiente, Para cada variable de la ecuacién, se requiere definir varias medidas: e! coeficiente de regresidn, el co- eficiente del error estandar y los valores t de las variables de la ecuacién, ean El coeficiente de regresién El valor 8,38 es el coeficiente de regresion (b,) de la variable prediior (X,). Por tanto el valor de la prediccin para cada variable Xela consti mde aor de la variable predictor por el coeficiente de regresion (21,65 + 8,38X,). El coeficiente de regresion estandarizado, o valor beta, de 0,70, es el valor calculado a partir de [os datos estandarizados. Con solo una variable independiente, el coeficiente beta al cuadrado iguala al coeficiente de determinacién. Fl valor beta nos permite comparar el efecto de X, sobre ¥asi como el efecto sobre Y del resto de las variables predictor en cada paso, dado que este valor reduce el coeficiente de regresion a una unidad comparable, el nimero de desviaciones estindar. (Nétese que hasta ahora no tenemos otras variables para comparar) Error estandar del coeficiente El error estindar del coeficiente es el error estindar de la esti- macién de 6,. El valor de 8, dividido por el error estindar (8,38 = 0,86 = 9,74) es el valor f cal- culado en un test t de hipotesis b, = 0. Un error estindar mas pequefio implica una prediccién mas segura. Por tanto, prefeririamos tener errores estindar pequetios y menores intervalos de confian- za, Este coeficiente es denominado también como el error estindar del coeficiente de regresién; es una estimacién de la medida en que el coeficiente variaré entre muestras del mismo tamaiio ob- tenidas de la misma poblacién; esto es, si se fueran a tomar multiples muestras del mismo tama- jio de la misma poblacién y utilizarlas para calcular la ecuacién de regresién, constituiria una estimacién de cémo cambiaria el coeficiente de muestra a muestra, Valores t de las variables de la ecuacién El valor t de las variables de la ecuacién mide la significacién de la correlacién parcial de la variable reflejada en el coeficiente de regresién. Es par- ticularmente util en el quinto paso de la Figura 4.7 en la decisién sobre si una variable deberia sa- lirde la ecuacién una vez que se ha aiiadido. También se muestra en la tabla el nivel de significacién, {que se compara con el umbralfijado por el investigador para eliminar la variable. En nuestro ejem- plo, hemos fijado un nivel en 0,10 para eliminar las variables de la ecuaci6n. El valor critico para in nivel de significacién de 0,10 con 98 grados de libertad es 1,658. Por tanto, X, cumple nues- tros requisitos para incluirla en la ecuacién de regresi6n, En este punto se dan a menudo los valo- res F en lugar de los valores t. Son directamente comparables, en la medida en que el valor s la raiz cuadrada del valor F. Variables no presentes en la ecuacién Aunque se ha incluido X, en la ecuacién de regresion, quedan otras seis variables potencialmente independientes que se pueden incluir para mejorar la prediccién de la variable dependiente. Para esos valores, tenemos dos medidas para evaluar su con- tribucin potencial: correlaciones parciales y valores t. i i én parcial es una medida de la variacién de ¥ que no se tiene rec ar ea erin (00 X en el primer paso) que pueden explicarse por cada una de estas variables adicionaes. Por ejemplo, el valor 0,720 representa la correlacin par- cial de X,, dado que X, esté en la eeuacin. Recor ue te oa ne i a =a lexpretada, i jicamos un 72, iamente t Fi ee 1S par lent (0.7202 ~ 0318 eoeficiente de comcacin parcial) de Ta varianza no explicada (no el total) puede explicarse mediante 7, Dado que #20, rieon ya se explicé mediante X,, 26,4 por ciento (1 — 0.491) * 0,518 del total de la varianza plicarse afadiendo la-vartable X,. Un diagrama de Venn ilustra perfectamente este concepio: 192 ANALISIS MULTIVARIANTE AQ a como una proporeién del érea sombreada de Y representa ac ciong secate con Tinto X,, Esto Representa la varianza en X, (después de elimina . tos de. sobre X) en comin con la varianza restanteen Y (despues de éliminar ls efectos sobre Y), El céleulo de la varianza tnica asociada con la entrada e-, puede deteminaseny, vvés de la correlacion parcial, como se describe en el Documento 4. variables no presentes en la ecuacién La columna de valores 1 mide la Tewlon is tas orelacions parciales de las variables no presentes en la ecuacién, Esus ecg ‘culan como una ratio de la suma de los cuadrados adicionales explicados por la inclusién dy Variable particular y Ia suma de los cuadrados que queda después de afiadir Ia misma variable este valor f no supera un nivel de significaci6n especificado, no se permitiré a la variable entarg, la ecuacién. Los valores t de la tabla para un nivel de significacién de 0,05 con 97 grados dei bertad es de 1,98. Mirando en la columna de valores ten la. Tabla 4.12, nos damos cuenta quece. tro variables (X, XX, y X;) superan este valor y resultan ser candidatas a la inclusién, TABLA 4.12. Resultados del ejemplo: Segundo paso del ejemplo de regresién multiple de HATH) Variable introducida: X, lexibilidad de precios R Miltiple 0,869 REMiltiple 0.755 FP Ajustado 0,750 Enrorestindar de la estimacion 4,498 Analisis de la varianza ‘Suma de los Cuadrado cuadrados al media Ratio F Regresion 6.0365 2 3.01826 14 Residuos 1:962,5 7 20,23 in Variables en ta ecuacién Variables no pret Coeficiente en feo extintar det fete vate - tindar del regresién Vale relacion Variable Coeficiente coeficiente estandarizado parcial ca hi Constante “3489 3,057 A, Flexibilidad de precio 3336 Y % Servicio global 3508 Ons 0,515 10,210 A Velocidad de entrega . o666 13221 om % Nivel de precios, oot ay Imagen del oar fabricante # X, Imagen del aut" Personal de ventas u %, Calidad de producto 0236 js! ed ANALISIS DE REGRESION MULTIPLE 193 La Tabla 4.11 muestra que la correlacién simple de X, con la variable independiente era de 0,68, pero era solo de 0.56 para X,. Por tanto, se podia haber pensado que la variable X, estaria incluida en el siguiente modelo. Pero al decidir qué variables adicionales se van incluir en la ecuacion, se- Icceionariamos en primer lugar la variable independiente que muestra la mayor correlacién parcial con la variable dependiente (no la mayor correlacién con ¥). La correlacién parcial de X, es el ma- yor (0.720) y por tanto s¢ consideraré la inclusién de X, (e incluso X,) al modelo antes que X,. Sabemnos ahora que una parte significativa de la varianza de la variable dependiente se expli- ca mediante X,. Podemos también ver que X, tiene el mayor coeficiente de correlacién parcial con la variable dependiente, y que el valor «es significativo en el nivel 0,05. (Es significativo también en el nivel 0,01). Podemos ahora observar el nuevo modelo utilizando tanto X, como X,, Estimacion por etapas: Adicién de Xx, Los valores del R miltiple y del R cuadrado han aumentado con la inclusion de X, (véase Tabla 4.12). ELR’ ha aumentado en un 26,4 por ciento, la cantidad que predecimos cuando examinamos el co- eficiente de correlacién parcial de X,, que es de 0,720. El aumento en el R? de un 26,4 por ciento se deriva de multiplicar el 50,9 por ciento de la variacién que no se explicé después del primer paso por el cuadrado de la correlacién parcial: 50,9 x (0,720)? = 26,4; esto es, de un 50,9 por ciento que no se explicaba con X,, (0,720) de esta varianza se explicaba afiadiendo X,, arrojando un rendi- miento sobre la varianza total explicada de 0,755 —esto es, 0,491 + [0,509 x (0,720)'} El valor de b, ha cambiado muy poco. Esto es una indicacién de que las variables X, y X, son telativamente independientes (Ia correlacién simple entre las dos variables es 0,07). Si el efecto de X, sobre Y fuera totalmente independiente del efecto sobre X,, el coeficiente b,no cambiaria nada Los valores de la t parcial indican que tanto X, como X, son predictores estadisticamente signifi- cativos de ¥. El valor 1 de X, es ahora 13,221, siendo 9,772 en el primer paso. El valor ¢ para X, examina la contribucién de esta variable teniendo en cuenta que X, ya esta en la ecuacién. Note- se que el valor f para X, (10,210) es el mismo valor mostrado para X, en el primer paso bajo el ti- tulo «variables no incluidas en la ecuacién» (véase Tabla 4.11). Dado que X, y X, tienen contribuciones significativas, ningia la explicacién de la variacién de la variable independiente, podemos preguntarnos si existen otros predictores. Observando las co- rrelaciones parciales de las variables no presentes en la ecuacién de la Tabla 4.12, vemos que X, tie- ne la mayor correlacién parcial (0,236). Esta variable explicaria el 5,6 por ciento de la hasta ahora no explicada varianza (0,236? = 0,056) 0 1,4 por ciento de la varianza total ((1 ~ 0,755) x 0,56= 0,14], Se trata de una contribucion muy modesta al poder explicativo de nuestra prediccién, inclu- so aungue la correlacién parcial sea significativa a un nivel de significacién del 0,05. (Nota: el va- lor t de la tabla para 96 grados de libertad para un nivel de 0,05 es 1,98 mientras que el valor r para X,e5 2,378). Estimacién por etapas: Afiadimos la tercera variable X, Con a inclusion de X, en la ecuacién de regrsion se muestran los resultados en la Tabla 4.13. El valor de R? aumenta en un Iy4 por ciento. Ademas, el examen de las correlaciones parciales de X,, XX, X, indica que no se obtendrin genancias adicionales introduciéndolas en la ecuacién de prediccion, Estas correlaciones parciales son muy pequefias y tienen unos valores parciales de aso Grados a ellos que no son estadisticamentesigniicaivos para el nivel de (0,05) elegido para este modelo. Evaluacién del valor tedrico respecto de los supuestos del andlisis regresivo ‘Alevaluar la ecuaci6n estimada, hemos dirigimos a otros dos asuntos elementales: considerado la significacién estadistica. Debemos también (1) cumplimiento de los supuestos subyacentes en la re- 194 ANALISIS MULTIVARIANTE : aso del ejemplo de regresion mi TABLA 4.13, Resultados dol ejemplo: Tercer paso de! ejomPle iN ty ‘Variable introducida: x, imagen del personal de ventas) ‘RMiltiple oar? ReMiltiple oes BR Ajustado ors Error estindar de la estimacién Anélisis de la varianza Cuadrado ‘adres al meta. RatioF eres _t__inetia “Rate F Regesiin 61457 a Residuos 18533, 96 Variables en la ecuacién Error (beta) de ‘estindar del regresién Valort — Correlacién Variables Coeficiente “cooficionte estandarizado parcial parcial tip —levebes__Coaiclene_covfciente estonarizdo parcial _paril Wy Comiane 6520 X, Flexibilidad de precio 3376 0320 0,521 10,362 2 Sem loa Yer Oo? 8372347 tmogen ‘personal de ventas 1,406 0,591 0,121 2,378 LX, Velocidad de entrega 0,040 aH X, Nivel de precios 0,041 ~ts W liagen et tbesante 1, Calidad de producto to a gresién y (2) identificacién de los datos inf i esi) denen influyentes. Consideraremos cada uno de estos ass Los supuestos a examinar son linealidad, homocedasticidad, i ; ; , I, independencia de los resi) normale. Lay Principal medida utilizada en la evaluacién del valor tedrico de la regresion¢ ; seo erencia. cote Avvo jepenticate efectiva y su valor predictivo. A efectos Para siduo basado en la 1 de Student. En la Figura 4.10 se muestra in bio 7 gro de residuos. Como podemos ver, los residuos entran dentro de una 2 maroria, muy similar al grafico de no-correlacién de residuos de la Figura 45 embargo, debemos reali ; incumplimientos. | “SPecificos para cada supuesto para comprobar los a_i ANALISIS DE REGRESION MULTIPLE 195 2, 3 @ | 7 30 |. i. @ 20) 30 40 30, oO ne FIGURA 4.10. Anilisis basado en la tde Student de los residuos. Homocedasticidad El siguiente supuesto hace referencia a la constancia de los residuos para Jos valores que van tomando las variables independientes. Nuestro andlisis se lleva a cabo de nue- vo mediante el examen de los residuos (Figura 4.10), que no muestra una pauta de aumento o dis- minucién de los residuos. Este hallazgo indica homocedasticidad en e| caso multivariante (el conjunto de las variables independientes). Independencia de los residuos El tercer supuesto hace referencia a los efectos de la iner- cia de una observacién @ otra, lo que hace que los residuos no sean independientes. Cuando se en- cuentra este efecto inercia en casos tales como las series temporales, el investigador debe identificar las potenciales variables secuenciales (tales como el tiempo en un problema de series temporales) yel gréfico de residuos de la variable en cuestién. Por ejemplo, supongamos que el ntimero de iden- tificacién representa el orden en que recogemos las respuestas. Podemos realizar el grafico de los residuos y observar si surge algun modelo o pauta. En nuestro ejemplo, se intent6 con varias va~ riables, incluyendo el niimero de identificacién y cada variable independiente, y no se encontré una Pauta consistente. Recordemos que estamos utilizando los residuos en este andlisis y no los valo- res de las variables dependientes originales, dado que nos centramos en los errores de prediccién, no en la relacién obtenida en la ecuacién de la regresién. Normalidad El ultimo supuesto que vamos a contrastar es la normalidad del término de error del valor tedrico con un examen visual de los graficos de probabilidad normal de los residuos. Como ‘se muestra en la Figura 4.12, los valores se sitian a lo largo de la diagonal sin alejamientos sustan- 3 3 3 1X (Nivel de vs0) 24012 3 2g (magen de persona de ventas) 410 tas zao 123 % (exiiidad de precio) Xs (Servicio global 411. Graficos de regresién percial estandarizada. 196 ANALISIS MULTIVARIANTE 100 g 07 dest os C3 oo a 00 Togo? oo po, 025050075 LO Prediecién Modificado K-S (lliefors): 0,0688 (p> 0,2000) FIGURA 4.12. Gratico de probabilidad normal: Residuos estandarizados, ciales osistemséticos; por tanto, se considera que los residuos representan una distribucién nm ‘Asi pues, encontramos que el valor teérico de Ia regresion cumple el supuesto de normalidat Soluciones para el incumplimiento de los supuestos Después de contrastr sin cumplimientos de los cuatro supuestos basicos de las regresiones multivariantes tanto parse Flables individuales como para el valor teérico, el investigador deberia evaluar el impacn cualquier solucién sobre los resultados. Con el examen de las variables individuales en el Can lo 2, los tinicos remedios necesarios fueron la transformacién de X,, X, y X,, com el fin de ies ' fguir la normalidad. Si sustituimos esas variables por sus valores originales y reestimanas ecuacién de la regresi6n, conseguiremos resultados casi idénticos (véase Tabla 4.14). Ents ‘mismas variables en la ecuacién, siendo la tinica diferencia sustantiva el ligeramente més pot coeficiente para la transformacién de la variable X, y una ligera mejoria en el valor de R (7 contra 0,768). Las variables independientes no presentes en la ecuacién mostrarén todavia me les no significativos al entrar en la ecuacién, incluso aquellas que fueron transformadas. Pt to, en este caso, las soluciones al ineumplimiento de los supuestos mejoran ligeramente i presi pero no alteran los hallazgos sustantivos. Identificacion de los casos atipicos como observaciones influyen En nuestro analisis final, intentaremos identificar cualquier observ i sea influyete net un impacto desproporcionado sobre los resultados de la regresi Dy date 8 1) y determinar sid cluirse del andlisis, Aunque existen procedimi és : ci ° 5 ci atipicos como observaciones intluyentes, nes centranen eee ecos aa la identifi: ‘os centraremos en la siguiente seccidn en el Us ANALG DE PEGE ION MULTIPLE 197 TABLA 4.14. fRosultado del sjompta: Rasultarios in tn ragtosidas wiitiple dae 8 de aplicat low fsolucionos corraspondiantes al ing jonta de uestos re Maltiple Owe ReMiltiple om He Ajustado 0.104 Error estindar de la estimacidi AOK Analisis de la varianea Suma de los Cuadrade cuadrados wl media Ratio F Reegresion 6.1671 3 20557140774 Restduos, 18319 96, 19,04 Variables en la ecuactin Varvables no presente Coeficiente ‘nla ecuarvin bron thetay de estdndar del regrestim Vaart Correlactin Variables Coeficiente coeficiente extandarizado parcial — parcial Valor Constante 6.192 3.226 au X, Flexibitidad de precio 3,409 0319 0,526 40.70 1X, Servicio global 7640 0.599 06399 12.75 Jog. X, Imagen del personal de ventas 3,953 1st 6.51 262 1X, Velocidad de entrega 0.04% 0.469 log 2, Nivel de precios 0.075 0.737 log. Imagen del fabricante 0047 0463 X, Calidad de produeto Oe 1163 Resaduos basados en lade Student ‘Umbra feror 1S 0 19 17 DE-25.29 33 47 AT AS 49 85 87 61 65 69 79 77 BI BS BO 99 97 Observe FIGURA 4.13. Grético de os residuos basados on ta de Studont 198 Quinto paso: Interpretacion del ANALISIS MULTIVARIANTE Jizarse tambien a través de graficos de El examen de los residuos puede real identificar situaciones influyentes nate oot non tr na aban en lacion variable ine ‘slados y diferenciados (observaciones 7, 11, 14, 100) pan ee ml, tn sanju de puntos asad OT enados po eacn POs tno oki i Sy reaton se discute un analisis més detallado para. é “Apendice 44 : bien a la relacion cial. Enel e ta = si cualquiera de ” Pare pservaciones puede clasificarse como Un observacién inluyeng "= | resultado teorico Con lestimacién del modelo finalizada, el valor eOTE™. de la regresion especifiais yg, comastes de diagnéstico aplicades que confirman 18 conveniencia de tes resultados, pens coninar nuestra ecuacion de prediccién, que inelUye X,, X,y X,, La seocién dela Tabs litulada «variables de la ecuacion» ofrece la ecuacion de prediccién a partir a columns ing, acoeficiente». Desde esta columna, Jeemos el término constante (-6,520) y los coeficientes Sealy 1406) para las variables 3,5 y 6, respectivamente, La ecuacién predictiva se eseain, =~ 6,520 + 3,376X, + 7,621X, + 1,406%, Con esta ecuacién, el nivel de fidelidad esperado de cualquier cliente podria calcularse si Hare) corociors sus valoraciones. A efectos ilustrativos, supongamos que un cliente evalia a HAT(Os in valor de 4,0 para cada una de estas tres medidas. BI nivel de fidelidad al producto para secx ssumidor seria: Nivel previsto de fidelidad al producto = - 6,520 + 3,376(4,0) + 7,621(4,0) + 1.406) = 6,520 + 13,504 + 30,484 + 5,624 = 43,902 ‘Ademis de proporcionar bases para predecir los niveles de fidelidad al producto los coef de regresion proporcionan también un medio de evaluacién de la importancia reativa ds riables individuales en la prediccién conjunta del producto. En esta situacién, todas ls wits estén expresadas en la misma escala y pueden realizarse comparaciones diectas. Pero en muds casos los coeficientes beta se usan para comparaciones entre variables independientes. Enble bila 4.13, los coeficientes beta se enumeran en la columna titulada «coeficiente de regs = tandarizadon. El investigador puede hacer comparaciones directas entre las variables pare <5" su importanca relativa en el valor teérico de la regresién. En nuestro ejemplo, x, (servicio amis important, semide de cerca por X, (lexibilidad de precios). La terera vansbi ve imagen de los vendedores tena una importancia notablement bj Esoee cox proves ocrhenmd explicada y la reducida correlacién univariante con ¢! Us ee iomcedionen’ a, X,no merece la atencién que debe dirigirse a las otras 408 Medidas del grado y efecto de la multicolinealidad En cualquier interpetacin del valor tebri - cei mee ttrreacién del valor eric de Ia reresin, ef investigador dees cone " idad. C¢ lineales pueden distorsi ‘omo se ha discutido previamente, variables ts, 0 generalizable Encontenres aos sustancialmente o hacerios muy ines@ble oe edidas ; (gina ee acento In variana de a variable enplicada ee ea eel valor de tleranciaes 10s FS ges oa variable explicads por ls otras variables independientes, Por Map tna reducida colineaidad,y valores de tolerancia cercamos4°™ ANALISIS DE REGRESION MULTIPLE 199 TABLA 4.18. Contrastes para | ¥ de tolerancia, ee mamtical a Variable lidad: Valoracién de los valores VIF X, Flexbilidad de precio 0,99287009 1,00718111 X, Servicio global 0,93639766 1,06792236 1X, Imagen del personal de ventas 093946418 106443654 can que la variable est4 casi totalmente tenida en cuenta por las otras variables. El factor de infla- cin de la varianza (VIF) es el reciproco del valor de tolerancia; asi que buscamos valores bajos de VIF como indicacién de reducidas correlaciones entre variables. En nuestro ejemplo, los valo- res de tolerancia superan todos el valor 0,93, indicando niveles de colinealidad muy reducidos (véase Tabla 4.15). De la misma forma, los valores del VIF estin muy proximos a 1,0. Estos re- sultados indican que la interpretacién de los coeficientes del valor tedrico de la regresién no de- berian verse afectados negativamente por la multicolinealidad. Una segunda aproximacién para jidentificar la multicolinealidad y sus efectos es mediante la descomposicién del coeficiente de la varianza, Se recomienda al investigador explorar esta técnica y las ideas adicionales que se ofte- cen sobre la interpretacién de la ecuacién de regresin. Los detalles sobre este método se discu- ten en el apéndice de este capitulo. Mientras que la multicolinealidad no tiene una influencia sustancial en el valor teérico de la regresion estimada, si lo tiene en la composicién del valor tedrico. Después de X, (Ia primera va- riable incluida en el valor tebrico de la regresién), la segunda variable con una correlacion més alta con la variable dependiente es X,, Sin embargo, X, tiene también un elevado nivel de colinealidad (0,61) con X,. Dado que X, entré en el valor tedrico de la regresién en primer lugar, segtin el pro- cedimiento por pasos, no existe una varianza Unica suficiente en X, para justificar su inclusién. Por tanto, sélo ¥, entraria en el valor teérico de la regresi6n. Sin embargo, seria sustancialmente in- correcto infetir de estos resultados que X, no tiene efectos sobre la fidelidad al producto cuando de hecho era la variable independiente con la segunda correlacién bivariante mas elevada con la variable dependiente. La interpretacién correcta seria que X, 0 X, muestran una elevada influen- cia, pero que la igualdad de sus efectos sobre el nivel de fidelidad al producto (elevada colineal dad) dita que s6lo se necesita una de ells para el proceso de regresién. El investigador nunca debe aceptar que un procedimiento de estimacién dicte la interpretacién de los resultados, sino que debe Ser conseiente de los resultados de la interpretacién que acompaiian cada procedimiento de esti- rmacién, Por ejemplo, si las siete variables independientes hubieran enfrado en el valor teérico de Ia regresign, el investigador habria tenido que enfrentarse con los efectos de Ia olincalidad sobre Ia interpretacién de los coeficientes de X, y X, pero de forma diferente que si se hubiera utilizado el procedimiento por pasos. Sexto paso: Validacién de los resultados ta que se enfrenta el investigador consist en el proceso de validacién del modelo towne interés primordial de este proceso es seguar que los resultados som generliza. bles @ la poblacién y que no son especificos de la muestra utili pare acs es Laser 7 macion mas directa para la yalidacién es obtener otra muestra de la pobl ‘ee m xine ‘die correspondencia de los resultados ‘obtenidos de las dos Lowel ausencia vest asad licio- nales, se puede evaluar la validez de Tos resultados de varie fora Seer % (encom retin men del valor dl ajustado. En esta situated mado no est £0 ‘con un valor del R? de 0,768; véase Tabla 4.14), lo que indica que el "i ooorvad ruuedeaenlel breajustadg en relacién con la muestra y mantiene un adecuad ratio de 0 roses variables en el valor teérico. 200 ANALISIS MULTIVARIANTE dividir la muestra en dos submucstiayy mando el Modelo der sion de cada submuestra y compara [os resus Ta oe dele en ah, v pasos mas los resultados a partir de los "no in = 50. peervaciones ada una, La comparacion del ajuste del moe conjunt demise de reel de similtud de Ios resultados en termine ele alustadoY eo eng Ja estimacidn. Pero al comparar el cocficienté individual, aparece una iferencia n la muest, ieeetimmtea en [os resultados por pasos mientras ve © ighace en lamusia dos en aca, ome errgn de X, en na de la submuestras confirms 3 ‘ye trataba de un predictor marginal, coy. jadicaba el bajo nivel de beta y los valores ¢ ‘del modelo conjunto. Una segunda forma es jmacién por etapas TABLA 4.16. alidacin con division la muestra 0° la est Global Muestra | Componente del modelo (m = 100) (n = 50) Variables independientes X, Flexibilidad de precio Coeficiente de regresién 3,376 3,108 Coeficiente beta 0521 0,506 Valor 10,582 6,803 LX, Servicio global Coeficiente de regresién 7,621 8278 Coeficiente beta 0,637 0.710 Valor 12,547 9,555 AX, lagen del personal de ventas ‘Coeficiente de regresién 1,406 ‘No ineluido Coeficiente beta 0,121 Valor 1 2378 Aste del medslo —_ 0,768 o7a1 Recorregido one on Error esténdar de I estimaci6n 4394 See Evaluacion de modelos de regresi6n alternativos mod: ‘ , ea rotations por pasos examinado en la discusién anterior proporcion6 una eva puesto a evaluar ma de nvetigacién tal como se formul6, pero el investigadoresth siempre Pues evalua modelos de regesén alermativos en busca de una capaciad expla ic" adicionales: un modelo. resultados previos. En esta secci6n, examinamos dos modelos de que incluye la totalidad de las siete variables independientes en utc aque de confirmacié sae ge cramaci6n, y un segundo modelo que afiade una variable no métrica (X,)@ través Modelo de regresién confirmatorio Una primera alternativa al métod firmatoria, en la cual el investi 7 1 en la cual el investi de i . gador oneatnn de la regresién por pasos es la aproximaciet e dor specifica ls variables indepenentes ae © 6 investigador mantiene un pleno control sob én. Esta En esta situacién, la \ Perspecti 4 - ceptivas come vadatien peePeetiva confirmatoria implica la inclusion de las site m2 in dependientes. Estas son las mismas variables consideradas &° 201 ANALISIS DE REGRESION MOLTIPLE ‘de estimacion por pasos, pero en este 880 saan mismo tiempo, Aqui, el investigador pant sifnctidad al seleccionar las variables independ corelo de inclu ls siete variables vos resultados de la Tabla 4.17 Son simi = directamente en la ecuacién de regre- gar los efectos potenciales de la multi- ¥ el efecto sobre el ajuste global del ajustado al comparar valores tebricos \dientes. Otro indicador del ajuste glo- SEE (de 4,394 a 4,424), Esto ilustra que Predictiva debido a que est influido por independientes, ion, donde la multicolinealidad afecta al ni- €1 ? global no deberia ser el ‘nico crterio de capacidad muchos factores, uno de ellos el niimero de variables i La otra diferencia es el valor tedrico de la represi mero y relevancia de las variables significativas. En primer hgar, solo dos variables (X"y X) son estadisticamente significativas, mientras que el modelo por pasos contiene una tercera variable (A), En el modelo por pasos, X, era la variable menos significativa, con un valor de ¢ de 2.378. Cust, do se utiliza la aproximacion confirmatoria, la multicolinealidad de X, con %,, que ahora est in TABLA 4.17, Resultado del ejemplo: Resultados de Ia regr confirmatorio con las siete variables independientes \6n multiple utilizando un enfoque RMiltiple 0,880 R’Miltiple 0,775 RAjustado 0,758 Enror estindar de la estimacion 4424 Anélisis de la varianza Cuadrado ‘madredoe gl men —_‘RaF _ewadrados st media’ Ratio F Regresion 6.198,68 7 885,53 45,25 Residuos 1.800,32 2 19,57 Variables en la ecuacién Coeficiente ta) de . nda: Yalort —_esadistica Variables Coeficiente coeficiente _estandarizado se ne we out a 0,008 0,029 0,977 trega 2,013 ,( oo Pawan teen 21090 “9,093 -0.333 940 Ane pesios r oll 0520 8191 \ lexibilidad de precio 3,3 Y * “ 0,667 0,005 0068 ome fabricante 0,042 eer oo : "i “e ; 1352 0,180 "runic ba a 1595 old Personal de ventas 1,281 . a b %, Calidad de producto 0567 0355 202 ANALISIS MULTIVARIANTE ia nica de X, resultando ctuida en la ecuacién de regresio efi st esto de van Pein, Sess ng a MPOINE SY ig ignifcacion eta on Gisminuye en el modelo confirmator!o, Los valores de ty 12 EC estos esl de ine sisi te aunque se manera SENT Muencia de a mul sun Laatidad con las variables no significa 0 Finalmente, 1 inn ee Mla entre X, y X, impide Ia inclusion ae, nal modelo Po olinealidad también esta refae”™ correlae re variable dependiente. Por tanto, rn lees oan oe : on. xy niin * firmatoria proporciona al investigador control sabre ae tio regresién, pero al coste de una ecuacion de regresion con menor capac ida re tia yet teatesion, er ar no examina con atencin 1s Testa 8 contains: va eventan con importantes puntos debiles y fucies 2S Ty n considers en sun, Seto pradente emplear ambas para aprovechar las Vent cada una. gn, disminuye la in! Inclusion de una variable independiente no métrica sscusion previa se centré en el método de estimacibn confirmatorio como altemativa pany, La discal Teme la capacidad predictva y explicativa, pero el investigador ambi ae ae acable mejora al aad variables independientes no métricas. Comoe dsuén corn re pacnay enel Capitulo 2, las variables no métricas no pueden incluirse diretnexes eee ar de resesion, sino que, en su lugar, deben estar representadas por una serie ds aes areiei oreadas, denominadas variables fcticias. En este ejemplo, la variable de tamain ek Empress (1), que euenta con [as dos categorias de grandes y pequeiias empresas, se afisk caersancitreeresion. La variable ya esta codificada de forma conveniente para las grand ce presas como un | y para las pequefas como un 0. La variable puede incluirse directamene ek cevacion de represion y representard la diferencia en la variable dependiente entre grants y7¢ qquefias empresas. Concretamente debido a que las grandes empresas tienen el valor |, ase as empresas actian como categoria de referencia. El coeficiente de regresion se interest ‘como el valor de las grandes empresas comparado con el de las pequeiias. Un coeficinte pst vo indicaré que las grandes empresas cuentan con un nivel de fidelidad mayor al de las pequeis empresas, mientras que un coeficiente nagativo indicard que las pequeiias empresas cue o* ‘un mayor nivel de fidelidad. La Tabla 4.18 contiene los resultados de afiadir X, a los resultados finales por pasos. Fer men 7 tees de ajuste global indica una mejora sustancial, con todas fas medio ado parla si on ) mayores respecto al modelo por pasos (véase Tabla 4.13). Esto viene 4” yyado por la significacin estadistica del coeficiente de regresién de X, a un nivel que excede‘l® El valor positivo del coeficiente (3,852) indica que l ‘ 4 seit sobre ls oa te variables independiente en In ecuschow tenen ena de dela ae cuacién, tienen un nivel de fi oe 1 por Siento mayor. y que ésta es una diferencia estadisticamente significative Lash iustal forma en que el nvesigador pond ore yon a Bregunta de a investi en el valor tebrico de la regresin'y maj ede afadir variables no micas las variables “orar tanto la explicacién como la prediceién. Una visi6n gerencial de los resultados luyendo la evaluacié; . i iG: ,qué factores afectan a la Adelie] on age ementaria el mode cone debe considerar dos aspect: ie wegen al Producto? Al formolar una respuesta, ity modelos de regresion fewen prediceiin y la explicacién. En términos de prediceo™ i anzan all Plicada excede el 75 por ci Nos niveles de capacidad predictiva, ee ge la tase de errr esperada de cualquier prediccidn & 3 Iquier predic ANALISIS DE REGRESION MULTIPLE 203 TABLA 4.18. Resultado del ejemplo: Re: cut P LA ae oma une Yorba deere agutados del rgrosion multiple ahadiendo X, tamaho de on la utilizacion de una variable ficticia RMiltiple 0,890 RMiltiple 0,793 RAjustado 0,784 Error estindar de la estimacién 4177 Anélisis de ta varianza —_____ Artis dela varianea ‘Suma de los Cuadrado cuadrados gl media Ratio F Baio F 6341,826 4 1585457 90,889 1657,174 95 17,444 Variables en la ecuacién Coeficiente Error (beta) de esidindar del regresién Significacion Coeficiente coeficiente estandarizado Valor! _estadistica 16,335 4254 -3,840 0,000 X, Flenibilidad de precio 4.245 0399 0655 10,630 0,000 28 Servicio global 8,055, 0,592 0,673 13,613, 0,000 2, Imagen del personal de ventas 1462 0,562 0,125 2,602 ou X,Tamafo de la empresa (grande) 3,852 1149 o2ui 3,353 0,001 ciento. En este contexto de investigacién, estos niveles, aumentados por los resultados que apoyan Ja validacién del modelo, proporcionan los mayores niveles de seguridad en los modelos de re- gresién como fundamento para desarrollar estrategias de empresa. En términos de explicacién, todos los modelos estimados Megan esencialmente a los mismos resultados: dos influencias destacadas (Ia flexibilidad de precios y el servicio global) y una influencia algo menor (imagen de los vendedores) sobre la fidelidad al producto. Incrementos en cualesquiera de estas tres variables resultardn en aumentos correspondientes de la fidelidad al producto. Por ejem- plo, un aumento de un punto en la percepcién del cliente sobre el servicio global resultaré en un incremento medio de al menos un 8 por ciento en Ia fidelidad al producto. Se comprueban resul- tados similares para las otras dos variables. Ademés, al menos una caracteristica de la empresa, el tamafo de la empresa, demuestra un efecto significativo sobre la fidelidad al producto. Las gran- des empresas tienen niveles de fidelidad casi un 4 por ciento mayores que las pequefias empresas. Estos resultados proporcionan a la gestién un marco para desarrollar estrategias que mejoren los niveles de fidelidad al producto, Las acciones dirigidas a incrementar las percepciones de HATCO pueden justificarse a la uz de los correspondientes aumentos de la fidelidad al producto. ‘Antes de desarrollar cualesquiera conclusiones o planes de empresa a partir de estos resulta- dos, cl investigador deberia darse cuenta, sin embargo, de que dos de las influencias (Ia flexibili- dad de precios y la imagen de los vendedores) estén incluidas en las dos dimensiones perceptivas identificadas en el Capitulo 3. Estas dimensiones, que representan medidas amplias de las per- cepciones de los clientes sobre HATCO, deberian por tanto ser consideradas en las conclusiones. Establecer que sélo estas tres variables especificas influyen sobre la fidelidad al producto seria una falsa afirmacién de los patrones més complejos de colinealidad entre las variables. Por tanto, es- tas variables se ven mejor como representativas de las dimensiones perceptivas, debiendo consi- derar también las otras variables en cada dimensién en cualesquiera conclusiones derivadas de estos 204. ANALISIS MULTIVARIANTE isis objetivo que confirma no s6lo la influ. un a ies perceptivas que deben tenerse eng irigidas a infin la delet ps % ibn cuenta cor ‘o tambien las dimensiones ‘a que incluya estrategias (i resultados. Ahora la gest creta de variables clave, sin cualquier plan de la empres i én simplificada a la ldgica y Conceptos fundamentals, de 3 ple, Pon ‘de manifiesto que los andlisis de egresén p> ae ‘én entre dos o mas variables. Ademés, cl angi fe pueden deseribir y predecir la relacién en bles. Ademés, lat regresién miiltiple, que puede: ser utilizado para examinar el —. pen © swine eer ne variables, representa una gran mjora respecto del enfodue Cet AN ls Souencal ce mrio gon las tenicas univariantes. Pueden utilizarse tanto Tas teonicas simulténeas como i pasos, y bajo cierta circunstaneias pueden incluirse en la ecuacién de regresion variables no, ree dodificadas como ficticias. Finalmente, hemos visto que existen numerosas tenis Giagnéstico para contrastar tanto los supuestos subyacentes al anilisis de la regresion como: tear eneta de casos que ejercen una influencia indebida en las prediccién de la ecuacitn ey ante, Fste capitulo ha proporcionado una presentacién fundamental de cOmo opera la regres, To que se puede conseguir con ella. Familizarizarse con los conceptos presentados en est cps to ayudaré al lector a entender mejor las presentaciones técnicamente mas complejes y detalsig de otros textos ademas de proporcionar un fundamento para el analisis de regresién que el ine. tigador deba llevar a cabo. Este capitulo presenta ‘yacentes en el andlisis {Cémo explicaria la importancia relativa de las variables independientes utilizadas en wnaea ‘in de regresion? 2, {Por qué es importante examinar el supuesto de linealidad cuando se utiliza la regres? 3. {Como puede corregirse o tenerse en cuenta la linealidad en la ecuacién de regresin? ‘encontrar una ecuacion de regresién que fuese aceptable en términos de signifies distca y, sin embargo, no oftecer un valor interpretable para la gestion préctica? 5. {Cuil es la diferencia de interpretacién entre los coeficientes de regresién asociados cot co ‘ables independents de escala-intervalo y variables independientes codificadas como fit cias (0, 7 6, {Cuéles son ls diferencias entre las variables independientes interactivas y corrlacions6 cAfeca alguna de estas diferencias a su interpretacion de la ecuacion de la regresion” {Deben omitirse siempre los casos influyentes? Off , iDebe omiive sempre 1y6 recer ejemplos de ocasiones en las We or eee ne now en eee ' a 1, Bamett, V, and T. Lewis (1984), Outliers i Data, 244 New York Wiley. Static Transformations” Journal ofthe Royal Sis” ciety B 26: 211-43, 2. Belsley, D. A., E. Kuh, and R. E. Welsch (1980), Re- sression Diagnosis: [denying Influental Dag ma Sources of Collinearity. New York: Wiley, 3. BMDP Statistical Software, Inc. (1991), SOLO Pow Analysis. Los Angeles: BMDP. “ 4, Box, G. E. P and D. R. Cox (1964), “An Analysis of cite Cohen J, and P. Cohen (1983), Applied Mii sression/Correlation Analysis for the BehaviO™ ces, 2d ed. Hillsdale, N.J.: Lawrence © Associates, a Daniel, C., and FS, Wood (1980), Fiting £4 Data, 2d ed. New York: Wiley-Intersciet®® a Turis, and C. K, Wan (1990), Intera +a 21, ptltipie Regression. Beverly Till, son Publications. Ieee oesevand D. W. Wicher (1982), Applied 8. ase te Static Analysis. Upper Sade River, “ie sole Hall NJ. Peau vand W. D. Perreault, J. (1991), “Coll 9, Maso et and Interpretation of Multiple Regres- seAnalysis.” Journal of Marketing Research 28 (august: 268-80. ANALISIS DE REGRESION MULTIPLE 208 Mosteller, F., and J. W: Tukey (1977), Data Analysis and Regression. Reading, Mass.: Addison-Wesley Neter, 3, W. Wasserman, and MH. Kutnet (1989), Applied Linear Regression Models. Homewoost, Il Irwin, Rousseeuw. PJ. and A.M. Leroy Robust (1987), Re: gression and Outher Detection, New York. Wiley Seer. G. A. F (1984), Multivariate Observations. New York: Wiley APENDICE Validaci6n avanzada en el andlisis pe de regresion multiple OBJETIVOS DE APRENDIZAJE = Comprender cémo el indice de condicionamiento y la matriz de descomposicion de la varianza del coeficiente de regresiOn aislan los efectos, silos hay, de la multicolinealidad de los coeficientes de regresién estimados. «= Identificar aquellas variables con niveles inaceptables de colinealidad 0 multicolinealidad. «= Identificar las observaciones con un impacto desproporcionado sobre los resultados de la regresion milttiple. «= Aisiar las observaciones influyentes y evaluar las relaciones cuando se eliminan las ‘observaciones influyentes. Provabiemente, Ja técnica estadistica mas utilizada es la regresién miltiple, y la regresion mal- tiple ha dirigido ol movimiento hacia una mayor utilizacion de las técnicas multvariantes. Al des Dplazarse de ia regresién simple ala miiltipe, la mayor potencia analitica de la forma multivariate Tequiere tambien diagnésticos adicionales para tratar con las correlaciones entre las variables y las Sbuewacones con us impacto sustancal sobre los resultados. Este apéndice describe dos téenicas avanzadas de diagndstico para evaluar: (1) el impacto de la multicolinealidad y (2) la identifica- cién de las observaciones influyentes y su impacto sobre el andlisis de regresion miltiple. Mien tras que el Capitulo 4 trata con los diagnésticos basicos de estos conceptos, aqui discutiremos procedimientos mas avanzados que se han propuesto recientemente para las situaciones multiv antes. Estos procedimientos no son refinamientos de los procedimientos de estimaci6n, sino que ‘irigen la cueetign a la interpretacin de los resultados obtenidos con multicolinealidad y abser- vaciones influyentes. 208 ANALISIS MULTIVARIANTE. lineaidad y multicolinslidad pueden tn: re la regresion multiple, tanto en la interpretacio 10s resultado, trees sn ine se predictores hace necesaria la evaluacién de la correlacién multiple entre las variables indepg® ‘como medio para evaluar la multicolinealidad. Pero esto no es posible examinando S60 Lae de correlacién (que muestra slo correlaciones simples entre dos variables). Vamos a et aun método desarrollado especificamente para diagnosticar la extensiOn de la multcoing Como discutimos en el Capitulo 4, la col tt iticolinealidad. Todos los princi presente y las variables que exhiben una mayor multicolinealidad. Toc ay vee catadisticgs tienen andlisis opcionales que proporcionan diagnosticos dela coineag, Un proceso en dos partes El método tiene dos componentes. El primero es el indice de condicionamiento, que la colinealidad de las combinaciones de variables en el conjunto de datos (en realidad el tas, relativo de los autovalores de la matriz). El segundo es la matriz de descomposicién del, rrianza del coeficiente de regresi6n, que muestra la proporcién de la varianza de cada cote te de regresién (y su variable asociada) atribuible a cada indice de condicionamiento (autora ‘Combinamos éstos en un procedimiento en dos partes: 1. Identificar todos los indices de condicionamiento que estén por encima de un valli te, Este umbral esta comprendido habitualmente en un rango entre 15 y 30, con 30om el valor ms utilizado habitualmente. 2. Para todos los indices de condicionamiento que excedan el umbral, identificar variables ca proporciones de la varianza por encima del 90 por ciento. Se indica un problema deai- nealidad cuando un indice de condicionamiento identificado en el primer paso, pores ma del valor de umbral tiene en cuenta una proporcién sustancial de la varianza (0° mas) de dos o mds coeficientes. El jemplo que se muestra en la Tabla 4A. ilustra este procedimiento basico y muesta ln dices de condicionamiento y los valores de descomposicién de la varianza. Primero, e unbal 30 del indice de condicionamiento, seleccionamos tres de estos indices (u,, us, u,). Sezunb™ Coeficientes que exceden el umbral del 0,90 para estos tres indices de condicionamiento sot)! 5, con u,; by b, y b, con u, y b, con uw, (véanse los valores subrayados en la Tabla 4A.!). Se Dargo, u, tiene sélo un dnico valor (b,) asociado con él; por tanto no se observa colinelitl#” este coeficiente. Como resultado, intentariamos remediar las correlaciones significativas et" dos conjuntos de variables: (V,, V,) y (Vy, V, V,). TABLA 4A.1. _Anélisis hipotético del i sente conde? pease la descomposicién de la varianza del coeficiente co! eS Intends Propocin de a vrera del cosficine: 4 , , , be 10 u, 0,003 0,001 0,000 0,003 oan 40 u, 0,000 0021 0,005 0,003 0,000 165 0,000 0.012 0,003 0,010 0,000 a 10 u, x 0,002 0,000 0,009 os 122.0 u, 0991 0,001 . i VALIDACION AVANZADA EN EL ANALISIS DE REC ESION MULTIPLE 209 empl de evaluacion de la multicolinealidad él - . Enel Capitulo 4, discutiamos el uso de ta regresién miiltiple en la prediccién del nivel de uso d Jos productos de HATCO entre sus clientes. El procedimiento por pasos identifico tres prdictores significativos: X,, X, y X,, Sin embargo, antes de aceptar estos resultados de la regresién como vi- lidos, debemos examinar el grado de multicolinealidad y sus efectos sobre los resultados. Para ha- cerlo, empleamos los indices de condicionamiento y la descomposicién de la varianza de los coeficientes y realizaremos comparaciones con el factor de infla iz corte crancia yr de icin de la varianza (VIF) y los r t { i | i { Como se expuso en el Capitulo 4 y presente también en la Tabla 4A.2, los valores de toleran- cia VIF indican una colinealidad sin consecuencias. Ningiin valor del VIF excede 10,0 y se observa en los valores de tolerancia que en ningiin caso la colinealidad explica més del 10 por ciento de la varianza de cualquier variable independiente. Esta conclusién se ve corroborada cuando emplea- ‘mos el procedimiento en dos pasos. En primer lugar, examinamos los indices de condicionamien- to, No iriamos més alla del primer paso, en la medida en que ningun indice de condicionamiento ¢s mayor que 30,0. Incluso si fugramos a utilizar un valor umbral de 15 para el indice de condi- cionamiento, seleccionariamos sdlo w, y s6lo un coeficiente (la constante) lo sobrepasaria. Por tan- to, no podemos encontrar evidencia que apoye la existencia de multicolincalidad en estos resultados de regresién, tal y como se indica por las medidas de tolerancia y VIF. | | k | TABLA 40.2. Contraste de la multicolinealidad en la regresién miltiple ARTE A. VALORACION DE LOS VALORES VIF ¥ TOLERANCIA Factor de la inflacién Variable Tolerancia de la varianza (VIF) x, 0,993 1,007 x 0,936 1,068 x 0939 1064 PARTE B. UTILIZACION DE LOS INDICES DE CONDICIONAMIENTO ¥ DESCOMPOSICION DE LA MATRIZ. DELA VARIANZA DEL COEFICIENTE Proporeién de la varianza del coeficiente Indice de Mimero Autovalor _condicionamiento Constante x% x, x, 1 3,882 1,000 0,001 0,002 0,004 0,005 2 0,060 8,046 0.014 0,110 0,021 0.850 3 0,045 9,246 0,020 0.136 0,909 0,042 4 0,012 17,719 0.965 0,753 0,066 0,103 Los. * Los valores subrayados exceden el nivel de 0,90. alae Cellet LCN cast 7 is Jo una aproximacién para identificar observaciones influyentes, Fret Cai amin a pa cna oh embargo, hay casos que segi este método pueden clasificarse como influyentes aunque no sean Teconociglos como casos atipicos. De hecho, muchas veces una observacién de influencia no ser identificada como un caso atipico porque ha tenido influencia en la estimacién de regresion hasta | tal punto que su residuo resulta insignificant. Por tanto, necesitanos examina procedimienios mis i especificos para medi a influencia de una observacin en ls diversos aspectos dela regresin mil- tiple [2], Es la siguiente exposicion, discuiremos un proceso de cuatro pasos para la identificacion de atipicos, puntos de apalaneamiento y observaciones influyentes, Como se abservé previamen- 210 ANALISIS MULTIVARIANTE tas categorias, y €n este caso 6 ecer a una o varias de est en este ee te, una abservacion puede Pe ne Jeni disponible, ef que eleBira el curso qe del investigador, a la luz de la mej Ms tomar. Primer paso: Examen de los residuos Los residuos son fundamentales en la d elo y también juegan un papel importa picos de Ia variable dependiente. Empleares ¥ eraficos de regresién parcial. reteccidn de los incumplimientos de los supuestos i ‘ten la identificacin de observaciones que son eayy® ‘mos dos métodos de deteccién: el andlisis de Te, Andlisis de residuos de clasificar una observacin como un caso atipico, El exis, 1 residuo es la manera principal peel asin eens ieeicula como los valores reales menos los valores de predic para la i-ésima observacién se calcul la variable dependiente, 0: Residuo,= ¥,-¥, Sin embargo, el residuo y sus miltiples formas se basan realmente en dos procedimientos: bs. 50s utilizados para calcular el valor predictor y la utilizacién (o no utilizacién) de algin mois estandarizacién, Ya hemos visto cémo calculamos el residuo, pero una segunda forma, el resides eliminado, es diferente del residuo normal porque se omite la i-ésima observacién cuando s.s- tima la ecuacién de regresién utilizada para calcular el valor predictor para aquella obserstix Por tanto, cada observacién no tiene impacto sobre su propio valor predictor en el residuo ein: nado, Se utiliza el residuo eliminado menos frecuentemente, aunque tiene la ventaja de reducr influencia de la observacién sobre su célculo. El segundo procedimiento en la definicion de un residuo implica la cuestion de estandariz no los residuos. Los residuos que no son estandarizados estén en la misma escala que l vate dependiente, lo que es itil en cuanto a la interpretacién pero no nos proporciona una compres de lo que significa demasiado grande o suficiente pequefio para no tenerlo en cuenta, Los resides estandarizados son el resultado de un proceso de creacién de una escala comin con la dvs de cada residuo por la desviacién estindar de los residuos. Después de la estandarizaciéa, bs soo farhirepsers de 0 y una desviacién estindar de 1. Con un tamafio muestral bata = que los revichos residuos estandarizados siguen aproximadamente la distribucién ¢, deta om 420,03) pueden eroonsdersdne umbral como el de 1,96 (el valor eritico 1 al nivel de confit 005) considerados estadisticamente significativos. Las observaciones que 10 HB? umbral son estadisticamente significativas en su diferencia de 0 y pueden ser considerados™™ casos atipicos. Esto significa que el valor predictor también es diferente de forma signiicati#® valor real al nivel de 0,05. Se ha propuesto un test mas estrict teen cuenta coor 1,089 sombrero) Q 2 $033 oon ») COVRATIO ra : 3 6564 ott 0011 sorrir & ‘SDPBETA 5 a 2453 0,002 0,051 097s constante_X, 2 sas so 0066 eer 5 : ¢ 1020 0,900 0.025 1am ai3 rar a ; 7 72s ORE 42-08? Sic gee 0079 > § Tat 0,201, 0.010 147 0,105 0,020 ees 0,080 0,052 » 9 TTS oor 0,073, Ha hae a 0.162 ' 0 2l0 0,018 0019 in as a oe ie 016 1 b 2301 0,016 0.018 7,012 0937 038 0,001 0,000 a 7 Bb 0,801 080 0,024 0.964 208, 57-0402 9,010 07 nl a 3,222 0,003 0,023 0.999 0272 oir Is 050 1 1s 2,566 oe 2.08 0,842 es ee ol? 0011 5 16 2,095 0.053 033, a et 2031 48 0,100 ‘ 0 5163 .o00 0,026 ri 90m? 3492 1 18 3,541 one 0,021 0.847, fog on “oon -0008 ‘ » 3438 025 0,032 ee 1005 9001 008 1 0 4412 0,036 0,036 1,088 0,024 an es 0,003, i a “ein 0,035 rose 303 ois m0 0,169 i 2 2,255 0,001 0,045 0.959 oe oo -0'006 0,000 ' B 5,908 0,000 0,021 1,083 ae a 0247 2000 5 4 1971 0,004 0.023 1,070 160, He 0030 148 i 25 2,432, 0,000 0,060 1078 ees ue 0,093 ase 6 0,596 0,002 0,020 1M ‘002 0,00 0053 2 n 0.417 0,002 0,025 1,074 ais eH 0,001 ool Bw 2,548 0,000 0,006 1071 026 001 0,020 eo »o 4,425 0,003 0,004 1,043, 208 He 0013 ae 30 3,748 0,003, 0.026 1.055 ec i uM 4.055 0,010 0,045 1,069 0.027 0,004 0,033 ast 32 2079 0,001 0,038 1,092 a han 3 pet B 1,132 0,001 0,041 1,058 ws 0083 0,043 ous uw ate 0.2 Mast an ones toe 35 2421 0,006 oul Lom oar 012 0128-008 36 5,491 0,000 0,023 1,066 oe 0.030 0,049 0, 83 ” 0421 0,001 0,024 1049 som Coe -do4s 000 38 39 0,001 0.055 er oe oor 7 faa one 0,001 9 1,331 0,000 0,004 1113 Coes 0,003 0077 fod 40 6,388 0,000 0,040 1046 -0,06' 0.042 0,012 a 4 2,359 0,000 0,013 1,096 tout 0036 ~0,003 So 42 0,227 0,018 0,065 1,068 on00s 9.018 0,013 toes 3 goo G0) ooo a a ome 030 -n028 4 oo oor 0,002 we goo. -0.003 0023 4s 03 0,001 0,081, 1,042. 69 0238 0,002 3 i me et out «| yas .001 0.038 aay -0,020 28 Gal 47 S735 0,002 0,004 Tis 0072 0014 eo Coat 8 3393, 0,002 0,028 vost 0.04 0007 2008 tooo % ae 0,058 1075 a gan7 20m ome 0 ent 0,034 ila yt 2018, 2010 $327 0,012 0,045 1062 0,172 0.014 a “pid 0,002 0,006 1103 -0,003 0,094 ‘031 0,047 0,054 0932 0, 3 ~0,002 O31 0,06 1,107 hoor sono “too. 1,067 097001 0112 ox ae toe 0,003 0,062 Coz 8,008 3 1,270 0000 . 0013 220 ANALISIS MULTIVARIANTE TABLA 40.4. (Continuacion) i lancamiento Distancia de Distancia Apalé em covRATION SDFFIT. SDFBETA ~~ vervaciin Mahalanobis de Cook (valores -sombr Ly ~ oul 1,063 0,029 =0,006 0.003495 7 rd f {1099 0.139 0,004 0,070 ~pog, “Ms 8 rte ove 0960-0225 -0,165 0.132 opm HS 3s 0989 0012 0.010 0960 oe foe ooig oat 55 3.639 0,001 0937 109, NS 00s our at te 7 et toss Lio 0196-0081 -0031 935 [i S eb 0,034 ows 0221-0161 04121 O35 ° oie 600 0,002 1955 -0.007, -0.002 0002 0002 Ga 7 ” ( y 040 0 a 0,020 ~gi, 008 1058 Og 1020 ae a eee @ 2086 0,010 0021 12201198 6 1,473 0,000 0015 1068 0.027 4 3,676 0,021 0,037 1,018 = -0, 65 4,496 0,025, 0,045 1,029 0,314 66 0,978 0,001 0,010 1,055 ay 67 3,505 0,010 0,036 1,057 01 68 1288 0,006 0013 11020 0,160 69 2,186 0,019 0,022 0,980 0,275 70 0,346 0,000 0,003 1,052 0,037 n 7.034 0,004 0,071 A126 —0,124 n 5257 0,001 0033 L110 0,067 3 2996 0,000 0,030 oss 0,032 4 0,964 0,012 0,010 0,958 0,225 15 1292 0,003 0013 104 O.t11 76 1278 0,006 0013 1022 -0,155 7 1,054 0,000 oot 106s 0,003 7B 3,916 0,008 0,040 1,068 = =0,183 19 4,808 0,028 0,049 1,026. 0,339 30 Kot 0.012 0010 0967 0218 al 2014 00014 0,020 0998 0,236 2 8911 0,005 0,090 Liso -0.137 3 4964 00015 6.050 i068 0241 4 0129 ait 001 0897-0212 85 0.284 0,005 0,003, 0987 0.146 86 0,809 0,001 0,008 1,057 0,045 37 0,250 0,004 0,003 1,004 88 0363 0,009 0,004 0947 89 1612 0,003 016 051 0 4176 0,010 0,042 1,068 a1 2230 0,000 0023 1,076 2 31682 0,035 0.037 0970 93 7266 0,001 0073 Le 94 5,030 0,026 0.051 17,039 95 1,862 0,009 0,019 1019 96 9485s 096 3 a 1099 0,012 0011 0973 8 4,101 0.018 0,041 1041 9 1,015 0,001 0,010 Loss 100 2,186 0,062, 0,022 ome Minimo 0.129 0,000 0.001 oom 3SH Maximo 9485 0,201 0,096 1390339 ae "Note: Los valores que exceden de los umbrales estin subrayados, VALIDACION AVANZADA EN EL ANALISIS P EGRESION MULTIPLE 221 oa a2 Valor o8 0 0S 1 1S 20 25 0 39 40 aS 50 SSG 65 1 75 MD BS WO 95 100 ‘Observacion 'SOFBETA para la constante X,, Xv X 020 020 ous ous 3 é $ oo cad 3 a 0s 9s 0.00 oes 0 2 30 35 a0 45-50 55 GD G5 70 75 80 ESB 95 100 Observacién FIGURA 48.8. Distancia de Cook. 22 "ANALISIS MULTIVARIANTE covRATIO. 07 = TOTO ‘Umbra inferior Le, Laas a eae eet ee ott Observacion FIGURA 4A.6. COVRATIO. 06 oa e & DFFIT basado en la ¢ de Student & 8 ‘Umbral inferior VALIDACION AVANZADA EN EL ANALISIS DE REGRESION MULTIPLE 23 gi Aans._Fesuman dol prudbs cagnSstcas para ls cbsevacionas interes v Valor ae umbral — Observaciones que suse grrs meio del vor unbra caleulado exceden el umbval= sets Valor critica un nivel de a 1,96 confianza especificado pre latde Student Valor ¢critico a un nivel de +196 pass confianza especificado — = ate Student posados en af Valor ¢ eri on lor tcritico a un nivel de 2196 7411.14.84, iim confianza especificado ieee polencoiento ‘res sombrero ‘Muestra pequefia: 3(&11)/n 012 Ninguna “Muestra mediana/grande: 2(11)/n 008 5,42, 82,96 Distacia de Mabelanobis Evaluar la distribucion de los valores Ninguna _Las diez primeras observaciones: 96, 82, 5, 2, 93, 7, 71, 57, 3,39 eidas de caso tinico SDFBETA Muestra pequefia: valor criticoaun 1,96 —-Ninguna nivel de confianza especificado Constante: 7,40, 94, 98, 002 —_X:7, 17, 40, 64, 94, 98, 100 “Muestra mediana/grande: 2Vn X/: 11,65, 79, 100 4 (7, 14, 18, 92, 100 Distancia de Cook won 0,042 7411, 14, 100 ‘coVRATIO 14 4D Superior: 1,12 Superior: 3, 5,39, 42,71, 82, 93, 96 Inferior: 0,88 Inferior: 7, 11, 14, 100 SDFFIT 0408 711,14, 100 * Observaciones con valores méximos aparecen en megrita, n= Tanafo muestra. ‘mero de variables independientes Cuarto paso: Seleccion y tratamiento de los casos influyentes i ic ic decidir después: ‘Aungue no existe un procedimiento ‘nico para identifcar los casos influyentes y So tun caso de aceign, la premisa basica es muy simple. En ausencia de errores de entrada de datos O de otras medidas de corecién, deberiancxaminarseaentarente los casos nlayentes que son sustancialmente diferentes del resto de los datos de una o varias variables. Sis llega a la conclusidn de que un caso no es representativo de lapoblacion general, debe- tia eliminarge. Nuestro objetivo es estimar la ecuaci6n de regres sobre una muestra represen- tativa para obtener resultados generalizables. Si la muestra contiene una 0 més observaciones que i impide conseguir nuestro objetivo. . “nefecton de a enposicign,selecionarems ‘cuatro casos (7, 11, 14y 100) para su eliminaci6n. mente. los andlisis de diagnéstico y se consideran jelog casos fueron consistent identi Ty ecunién. La Tabla 46 muestra el modelo Timinados. Comparando estos resultados con aquellos en joras en todos los aspectos. Se mejora la prediccién con- ademas del efecto que obtenemos de la adicién de de regresién final con estos cuatro casos ¢1 Capitulo 4, observamos sustanciales me} junta, con un R? que cambia de 0,768 2 0.833, [ANALISIS MULTIVARIANTE ns ‘on multiple después do eliminar custo op TABLA 4A.6. Resultados de le regresion multip! ser influyontes Resultados de! modelo de regresion conjunta ae 0913 RMAluple fae R Multiple 0,828 RA 3,698 Enrorestandarde laestimacion OPE Andlisis de la varianza Smadelos Grados de Cuadrado eo libertad media __Ratio 20073 153,37 Regresién 1g 3 : Variables en la ecuacién Error Coeficiente estindar del de regresién ey Variables Coeficiente eoeficiemte _estandarizado pag Constante 9,645 2,803 se X, Flexibilidad de precio 3,719 0,274 0,582 ss & Servicio global 7,094 0,521 0,601 Bais Imagen del * personal de ventas 2,337 0,521 0,198 4a Variables no presentes en la ecuacién Correlacién parcial Valor ¢ X, Velocidad de entrega 0,004 ~0,036 X, Nivel de precios 0019 7 2X; Imagen del fabricante 0.116 “117 2, Calidad de producto 0136 1311 Ja tercera variable (X,) a la ecuacién. También, el error estindar disminuye de 4,39 a 69,1 we jora del 16 por ciento. Ademis, cada coeficiente mejora en significacién estadistica, indcan fortalecimiento de las elaciones al eliminar estos casos atipicos influyentes. Visién panordmica La identificacién de los casos influyentes en un , son de tados del anal : paso esencial en la interpreta resultados del andliss de regresin, El investigador debe tener cuidado, sin embargo. © 2% nacidn diserecional de los casos considerados como influyentes, Si ed cualquier poblacién y se debe recortar el conjunto de datos ‘ialeee oe ce pate Pre unos buenos resltados. No obstante, se debe intentar conseguir la mejor representa relacién de la muestra, y la infTuencia de unos pocos easos puede distorsicnar inhibi Ry mente la consecucién de este objetivo. Por tanto, recomendamos que se utilicen cts &™ conocimiento rca Precaucién, en la medida en que pueden representar tanto beneticios co VALIDACION AVANZADA EN EL ANALISIS DE REGRESION MULTIPLE 25 Bn la medida en que el andlisis de regresign aum cesencial explorat los asuntos de este apéndice, tieolinealidad pueden tener un impacto sustanci argo, avances recientes en las técnicas de di renta tanto en aleance como en complejidad, se hace Tanto las observaciones influyentes como Ia mul- ial sobre los resultados y su interpretacin, Sin em- ecientes lagnéstico como las que se han expuesto anteriormente cionan al investigador un método simplifcado de realizacion de los avlieis que identifica- ran los problemas en estas areas. Dondequiera que el andlisis de regresién encuentre una de estas. ‘reas de problemas, se anima al invest ° igador a investigar las cuestiones expuestas aqui y ad jas soluciones adecuadas si fuera necesario, ‘puestas aqui y adoptar 1, Deseriba las razones para no depender solamente en la matriz de correlacién univariante para el diagnéstico de la multicolinealidad. 2. {En qué casos la deteceién de casos atipicos potencialmente pierde otras observaciones in- fluyentes? 3. Describa la diferencia en el uso de los residuos (incluyendo los residuos Basados en lat de Student) frente a los diagndsticos de caso tinico de DFBETA y DFFIT. 4. {Qué criterios sugeriria para determinar si una observacién se tiene que eliminar del and- lisis? V, and T, Lewis (1984), Outliers in Statistical 3. Rousseeuw, P. J, and A. M. Leroy (1987), Ro- “me Rew York Wiley. baat egeaien and Outer Detection, New You 2 Belley, D. A. E. Kuh, and R. E. Welsch (1980), Wiley. : Regression Diagnostics: Kdentifying Influential Data and 4, Weisberg, S. (1985), Applied Linear Regression. New Sources of Collinearity. New York: Wiley. York: Wiley. 7 LECTURA COMPLEMENTARIA Relacion entre concentracion y pre cj en el comercio minor: Informacion Comercial Espanola ICE, n.° 739 Marzo 1995 ee ._ TS fe Jacién entre tamafio, concentracién y poder de mercado apical, En l presente aril oe aa cll, se exponen algunos rasgos diferenciales caratetsics de bt mex é i i \den aproximar la concentracién del sey, distribucién en general, asi como algunas medidas que preten 1 t ‘ sweat ais El tabajo se completa con un andlsis empirico en el que se estudia la rlacion ent cine, cin y precios en el comercio de alimentacién espafiol. de la distribucién minorista. Para ello, s€ € Palabras clave: comercio interior comercio minorista, alimentos, concentracién industrial, marcas, preciso petencia, modelo econométrico, Espaita. 1. IMPORTANCIA DEL ANALISIS. Y MEDICION DEL GRADO. DE CONCENTRACION DE LOS MERCADOS Las proposiciones sobre la eficiencia de los sistemas com- petitivos, procedentes de la Teoria del Bienestar', aseguran que el sistema de precios garantiza que la asignacién al- canzada en la economia es Optima en el sentido de Pareto. En mercados de competencia perfecta, los consumidores, btienen los productos deseados en las mejores condiciones de precios posibles y las empresas alcanzan beneficios nor- ‘males, ya que la actuacién dela libertad de entrada y salida en los mercados, conduce a que a largo plazo desaparezcan {os beneficios extraordinarios. Por el contrario, en mercados de competencia imperfecta, modelo més realista, las pro- Posiciones tebricas muestran que existen incentives, en tér- ‘minos de mayores beneficios conjuntos, para que las, empresas lleven a cabo procesos de concentracién econé- mica y/o estrategias eooperativas con otras empresas que las dirijan hacia posiciones de dominio en los mercados. Pues- to que la cooperacién entre empresas genera mayores pre- cis, mayores beneficios y menores cantidades producidas, seestima que los intereses de los consumidores no se verdin satisfechos en mercados fuertemente concentrados, | ae os as de ARROW (1951, DEBREU (989 OOPMANS (1837 prea as poposicansy i es ils imporants den conemi el ino, M.* JEsUs Yacig Guy, Universidad Auténoma yey. Estos resultados teéricos sugieren que si hy poss presas en el mercado y no existe Ia presién delenit ‘nuevos competidores, las instaladas obtendrin une i nes precio coste marginal positivos, garantizando lace cucién de beneficios supracompetitivos?, Por tat ‘empresas desarrollarin estrategias tratando de aproveris® ‘oportunidades que les brinda la estructura de compe propia de su mercado, buscando formas de poder mis®® centrado y en iltima instancia de monopolic. No obstante, en los modelos tebricos se recone ® ciertos grados de imperfeccién y en el extremo el 90™f lio, son justificables, por ejemplo, en base al nto de economias de costes: escala,aleance0**% zaje’. Es por esta razén, por lo que no existe & pri Presuncién de que las posiciones de dominio eas, riamente malas, sino que lo no deseable es el ab situacién dominante’ J. ? Este resultado puede no ser cierto si las empress its tuaciones por objetivo distntos de a maximizacén ‘como por ejemplo la maximizacién de la penetracion 1 » Existen otras situaciones que pueden justia ne Poder de monopoto caso de as patents consti Sor lusraién. A eon paz puede ser eet ie ih bre ciertas majoras tecnolégicas se difunda rpidame™® Poy ‘tro lado si no se garantiza una recuperacin de asim {empresas no tienen incentivos para innova wt 1A este respecto, necesario tomar en consider DPucstas derivadas dela literatura de mereados ot VALIDAC VALIDACION AVANZADA EN EL ANALISIS DE REGRESION MULTIPLE seseevenci, dad It important que los modeloy a eee a next competi de os merce see a adn de once, pr expicalos et Refs deficiency de bieestar alana = Hams, es crucial para la toma de devisiones de ide las autoridades piblicas, disponer de ins- se raltcos y empiricos que permitan transformar ees absracos qe caracterizan alos mereados, en oer operativas precisas, capaces de serutilizadas para sp medit, mediante indicadores objetivos, la in- deem Ta validad en los mises. mando se wat de disponer de herramientas operativas ifes para analizar las estructuras de competencia de los ws Jos es prevso recurira las aportaciones procedentes ‘Gy economia Industrial y derivadas de su paradigma bi- ie pestactur-conducta-resultados* La mayoria de los tra- s esoricos y empiricos, desarrollados en torno a este igma han tenido por objeto el estudio de los mercados Mapas, Sélo recientemente, desde otros campos de la dmvestgacién econémica, Se estan aplicando el paradigma y log resultados procedentes de la Economia Industrial a mer- ‘cados de servicios” Las dos posturas radicalmente distintas, estructuralista y copductista, aparccidas en la interpretacion del paradigma, tdorgan un papel protagonista a la concentracién, como va~ ‘able determinante, en un caso, 0 proxy, en el otro, de los re- ‘iltados, Segun la primera, en los mercados mas concentra- ‘dos se alcanzan tasas de beneficios significativamente superiores que en los mercados menos concentrados. La va- Idscon empirica de esta hipstesis desde los trabajos pione- 108 de Bain (1951,1956 y 1959) ha consistido en establecer ‘uma asociacion positiva y estadisticamente significativa, principalmente sobre bases de datos transversales, entre al gin indicador de! nivel de concentracién de los mercados y su§ margenes medios de beneficio?. Aunque la mayoria de los ‘tmbajos han confirmado la hipotesis de partida, la valoracion 4éela elacion encontrada ha dado lugar a un profuundo debate ‘qe secentra en los siguientes aspectos: 8) Cuando los precios de los bienes son observables y or ello directamente comparables, el estudio de la relacion ‘ancentracién-poder de mercado debe realizarse sobre di- «hos datos. 5) Cuando la relacién debe estudiarse mediante marge 1s de beneficio, surgen dos interpretaciones contradictorias ‘sabre el sizno positivo, la de ejercicio de poder de mono- Palio y la de obtencién de mayor eficiencia. si! $ uray la lteratura de Direccién Estrategia ha aportado un conceptual para el andlisis de la rivalidad en los cleo Competitivo de Porte, en nuestra opinign este nev ‘Peco de ailisis debe entenderse. més como una reformulacién 7tesion del paradigma de la Economia Industrial que coma Un radicalmente diferente gta boos epresenativs de a aplicacin de la Beane, {iittala os servicios de comercio minorista son: NELSO CRU PERRY 1991), SHAFFER (1991), NOOTEBOOM (1985), AREE y THURIK (1990), STEINER (1993). ue Fe » Roy vision puede consultarse SCHERER. (1980), SCHE- ROSS (1990) y SCHMALENSEE (1989) hen 27 spears mihos etuios, la relacinencontrada es esa seamente dbl y In magnitud de coefcient es baja. do ea ttee never el estudio del lac inciyen- : interactivos que reconozcan que el efecto de la “oneentracién sobre los beneficios de monopotio solo pue- de perdurar sia la vez existen o se generan barreras a la en- El analisis tebrico y la evidencia empirica no son en solo conchyetes sobre sila eseci de empress de fran tamafo en los mercados, y la clevada concentracin que pueden suponer tienen efectos nctamente positivos o nega- tivos sobre su grado de eficiencia estatica y/o dinimica’ En este trabajo no pretendemos aportar elementos que cie- tren dicha discusién. Por el contrario, se trata de plantearel problema de la relacién entre tamafio, concentracién y po- der de mercado en un contexto diferente al de los mercados industriales,en concretoen los mereados de distribuein mi- norista, donde las dificultades de tratamiento conceptual y ‘empirico son todavia mas acusadas. En el epigrafe segundo abordaremos algunos rasgos di- ferenciales que caracterizana los mercados de distribucién Enel tervero, plantearemos algunas medidas que pretenden aproximar la concentracién actual en el sector de la distri- bucién en Espafia; y en el cuarto y tltimo presentamos un analisis empirico en que se estudia la relacion entre con- centracién y precios en el comercio de alimentacién en ‘nuestro pais. 2, LOS MERCADOS DE DISTRIBUCION MINORISTA El estudio del grado de competencia en los mercados de dis- tribucién no puede realizarse mediante la mera traslacién de los argumentos te6ricos y de los instrumentos empiricos tradicionalmente aplicados a los mercados industriales. Aun- ue son miltipls los rasgos diferenciales entre ambos tipos ddemercado, aqui sdlo presentaremos aquellos que, en mues- {ra opinin, son més relevantes desde la perspectiva del anilisis concurrencial. En primer lugar, es preciso comenzat definiendo la acti- vidad y el producto de las empresas minoristas. Aunque durante mucho tiempo este tipo de empresas ha sido con ‘cebido como tn mero intermediario entre fabricantes y con ‘Sumidores, con escasa capacidad decisoria, puesta en la nayor parte de las ocasiones al servicio de ls objetivos € Jntereses de os fabricantes, en Ia actualidad hay unanimidad tenre los autores al definr la actividad minorista como la presiacién de un conjunto de servicios l consumidor que te- Fen por objeto reducir los costes en los que éste debe incu- ‘rir para transformar los productos elaborados por las Empresas de fabricacin en uilidades o satisfaccién. Si- ang iti —iaseammranta tite Semen: nee cece re ee inconvenient ia de las empre- i i oe

S-ar putea să vă placă și