Sunteți pe pagina 1din 15

Guía para la elaboración

de propuestas de
investigación cuantitativa
Elaborado por: Alejandro Granda Sandoval
5. Problemas y recomendaciones al momento de estimar resultados

Debido a la automatización e incremento en la capacidad de procesamiento de


datos por parte de los computadores, en la actualidad la estimación de una
regresión no resulta un problema complejo. En ese sentido, el proceso de
estimación podría reducirse a bajar datos, aplicar un botón y observar un par
de indicadores. Pese a ello, como se presentó en la sección anterior, la calidad
de los datos no siempre es la misma por lo que los investigadores deben estar
al corriente de las características de muestreo. Si bien un investigador cuenta
con indicadores como el coeficiente de determinación ajustado (R cuadrado),
además de los criterios de información de Akaike (1974) y Schwarz (1978), su
mirada debe concentrarse en el problema de estudio y la calidad de los datos
disponibles1.

El investigador debe ser consciente de las limitaciones de cada uno de los


métodos de regresión que se plantee trabajar. Esto es, puede que el
especialista tienda a emplear los métodos que más conoce en lugar de emplear
el método más apropiado considerando el evento que piensa evaluar. De
acuerdo a ello, si bien el método de Minimización de Residuos al Cuadrado
(MCO) muestra buenos resultados al estimar relaciones lineales empleando
muestras pequeñas, el método descansa en supuestos que no
necesariamente reflejan la dinámica real del evento social que se intenta
explicar.

A continuación, se presentan los problemas más frecuentes que acompañan al


método de regresiones, incluyendo además algunas recomendaciones para
hacerles frente. Debido al interés de la guía por facilitar conceptos aplicados en

1
Al respecto, Intriligator, Bodkin y Hsiao (1996) indican que alrededor del 80% del material de
libros de textos en econometría concentran su atención en técnicas, mientras sólo el 20% son
aportes aplicados a modelación.

1
lugar de marcos conceptuales teóricos, se ha evitado emplear
representaciones algebraicas2.

5.1 Errores de medida

Es importante recordar que, si bien nos encontramos interesados en la


repercusión de una determinada variable en otra, no siempre dichas variables
se encuentran medidas correctamente. Por ejemplo, el desempeño de un
estudiante de primaria puede ser medio a través del indicador de aprobación
del grado de estudios, esto es, aquellos alumnos que aprueban un curso son
considerados de mejor de desempeño que sus pares. Sin embargo, en
escuelas primarias con estudiantes de alta vulnerabilidad la mayor parte de
alumnos normalmente aprueba el año sin mayores problemas. En ese sentido,
un estudiante aprobado que vive en una zona con alta vulnerabilidad no
necesariamente muestra el mismo desempeño que un estudiante aprobado en
una zona con mejores condiciones de vida.

Incluso, este indicador puede diferir por aula dependiendo del maestro que
determina la aprobación del estudiante. Efectivamente, al emplear el indicador
de aprobación de curso enfrentamos un problema de error de medida en
relación a la variable desempeño escolar.

La relevancia del problema de error de medida dependerá en primer lugar del


lugar que ocupe la variable en el modelo de regresión, esto es, si es una
variable dependiente o explicada, o si es una variable independiente o
explicativa.

En el caso en que el error de medida se encuentre en la variable dependiente,


existen dos posibilidades. Por un lado, si el error de medida se encuentra
correlacionado a la variable de interés, MCO no permitirá identificar el real
impacto de la variable de interés, con lo cual, dicho método resulta ser

2
Para un mayor detalle cuantitativo sobre los problemas con regresiones, puede consultarse:
Kennedy (2008), Verbeek (2004) y Franses (2002).

2
inconsistente3. Por ejemplo, supongamos que se intenta estimar el impacto de
los ingresos familiares en el desempeño de los estudiantes. Dado que el error
de medida en el indicador empleado (aprobación de grado) se encuentra
potencialmente correlacionado con el nivel socioeconómico de las escuelas, es
muy probable que el error de medida se relacione con el ingreso de las familias
(variable dependiente), con lo cual, MCO deja de ser un método consistente.

Por otro lado, en el caso en que el error de medida de variable dependiente no


se encuentre correlacionado a la variable de interés, MCO seguirá siendo
consistente e insesgado4, sin embargo, será ineficiente debido a que la
varianza del componente no explicado de la regresión acumulará
adicionalmente la varianza del error de medida, el cual sabemos que es
positivo. En este caso, la ineficiencia lleva a sobreestimar el error estándar de
cada parámetro estimado, con lo cual cualquier inferencia tenderá a no
rechazar hipótesis nulas. Por ejemplo, supongamos que el investigador se
plantee estudiar el impacto del cambio climático y los ingresos familiares en el
nivel de desnutrición de los niños. Para tal fin, el investigador emplea un
indicador para la variable desnutrición basado en el tamaño de los niños de
acuerdo a su edad. Efectivamente la medición de los niños puede ser inexacta,
sin embargo, este error de medida no se relaciona al cambio climático o al
ingreso de las familias. En ese sentido, los impactos de ambas variables son
posibles de identificar a través de MCO, sin embargo, dado que los errores
estándar se encontrarán sobredimensionados, los investigadores tenderán a
inferir que los impactos son nulos5.

3
Incluso empleando muestras grandes el resultado seguirá siendo el mismo. Para mayor
detalle ver, Johnston y Dinardo (1997)
4
Es importante señalar que si el error de medida se encuentra relacionado a alguna otra
variable independiente o explicativa, el método no permitirá identificar el real impacto de la
misma. En cualquiera de los casos, el parámetro constante no puede ser estimado de manera
consistente salvo en el caso en que el error de medida tenga como promedio cero.
5
En particular, al sobredimensionar los intervalos de confianza, es probable que los mismos no
excluyan al valor cero, con lo cual, la hipótesis de impacto nulo no podría ser rechazada.

3
En el caso en que el error de medida se encuentre en la variable independiente
o explicativa, el impacto en la variable dependiente no podrá ser realmente
estimado a través de MCO, incluso en el caso en que el error sea
independiente de la variable de interés. Pese a ello, en este caso el
investigador podrá estar consciente de la direccionalidad del sesgo generado,
en particular se encontrará frente a un sesgo de atenuación. Esto es, los
parámetros de las variables explicativas con errores de medida muestran
siempre valores por debajo de los que realmente deberían ser reportados6.

5.2 Variables omitidas

Uno de los casos más frecuentes que encuentra un investigador, es el


encontrarse frente a un evento en el que existen variables explicativas
relevantes pero complejas de capturar. Esta complejidad se debe a la
inexistencia de las mismas en las bases de datos o la dificultad de reflejar en
indicadores algunas variables de naturaleza cualitativa7.

Efectivamente, la inclusión de todas las variables determinantes de un evento


es una actividad, por decir lo menos, imposible de realizar en la mayor cantidad
de casos. En efecto, MCO no descansa sobre un supuesto de inexistencia de
variables omitidas para la identificación consistente de los parámetros
estimados, MCO descansa en el supuesto que el componente no explicado no
se relacione con las variables explicativas. Esto es, dado que las variables
omitidas formarán parte del componente no explicado, MCO dejará de ser un
método consistente cuando las variables omitidas se relacionen con las
variables de interés en nuestra investigación.

6
Esta atenuación será proporcional a la variabilidad del error de medida.
7
Para efectos prácticos se obvia el caso en que el investigador haya pasado por alto alguna
variable relevante. En este caso, la clara solución es la incorporación en el modelo de dicha
variable, claro está, siempre que la misma se encuentre disponible.

4
En este punto es importante recordar que la investigación formula una hipótesis
en relación una las variables explicativas8, el resto de variables son
consideradas variables control. En ese sentido, el problema de variable omitida
que debe motivar la atención del investigador es el problema generado por la
omisión de un control que se encuentre relacionado a la variable de interés del
estudio.

Por ejemplo, si un investigador se planea analizar el efecto de la inversión en


capacitación en la productividad de una microempresa, debe evaluar qué
posibles variables que explican productividad potencialmente se encuentran
omitidas, como el caso de las habilidades blandas. En una segunda etapa de
análisis, el investigador debe evaluar la posibilidad que dichas habilidades se
encuentren relacionadas a la inversión en capacitación (por ejemplo, ¿los
microempresarios que invierten más en capacitación son aquellos que cuentan
con mayores habilidades blandas?). En el caso en que exista una correlación
entre ambas variables, MCO no podrá estimar el verdadero impacto de la
inversión en capacitación en la productividad. En la práctica, el parámetro
estimado por MCO que acompañaría a la inversión en capacitación muestra el
impacto de tener habilidades blandas e invertir en capacitación, no sólo el
impacto del segundo factor.

Por razones obvias, no podremos evaluar la relación potencial entre la variable


de interés (inversión en capacitación) y la variable omitida (habilidades
blandas), en ese sentido, el investigador debe buscar evidencia de la nula,
negativa o positiva relación entre ambas variables a partir de otras fuentes de

8
En general, como se indicó en el apartado de delimitación del problema de investigación, la
formulación del problema de investigación debe decantar en la formulación de una o más
hipótesis siempre que las mismas guarden bastante relación y se apoyen una a otra. Esto es,
el investigar evitar evaluar múltiples hipótesis inconexas, las cuales difícilmente podrá cubrir
debidamente con un marco teórico y conceptual.

5
información9. Incluso, de existir un problema de variable omitida relevante, el
marco teórico y conceptual podría intuir la dirección del sesgo generado.

En muchos casos las variables omitidas responden a características bastante


particulares de los individuos, los distritos o las empresas, en ese sentido se les
conocen como “heterogeneidades omitidas”. Como se verá más adelante,
convendrá distinguirlas en dos grupos, aquellas heterogeneidades que con
constantes en el tiempo y aquellas que cambian en el tiempo.

5.3 Simultaniedad

Otro problema bastante común al trabajar temas de desarrollo productivo y


social es el de simultaniedad. Efectivamente, el hecho de asumir que las
variables del lado derecho de una ecuación son exógenas, es un supuesto
bastante endeble en la medida en que todas las variables surgen de una gran
función de densidad poblacional. Sin embargo, es posible definir
direccionalidades en función de impactos directos.

Por ejemplo, un investigador se encuentra interesado en evaluar el efecto de la


intensidad del Fenómeno del Niño (FEN) en la productividad de las empresas
del norte del país. Efectivamente el FEN puede afectar el desempeño de las
empresas y es poco probable que la productividad de las empresas afecte la
intensidad FEN. En este caso, la exogenidad del FEN permite identificar
claramente la dirección del evento.

Sin embargo, no siempre la direccionalidad es clara. Por ejemplo, una


propuesta que tiene por objetivo evaluar el impacto en gasto de alimentos
nutritivos en la salud de los niños ofrecerá mayores dificultades. Ciertamente, la

9
Si bien en estricto no existen test de variables omitidas, es común el empleo del test de wald
evaluando la hipótesis de no significancia de variables que efectivamente no deberían ser
incluidas por lógica en el modelo. El rechazar dicha hipótesis daría la idea que alguna de las
variables explicativas efectivamente se encuentra omitida.

6
dirección del impacto también ocurre en sentido inverso, esto es, los hogares
con niños en peores estados de salud tienen a gastar en alimentos nutritivos
mucho más que el resto de hogares.

Del mismo modo, considerando el ejemplo de la sección anterior, no sólo la


mayor inversión en capacitación puede llegar a afectar la productividad,
también es cierto que las empresas con mayor nivel de productividad puede
tener mayores motivaciones para invertir en capación.

En el caso de relaciones de simultaniedad, MCO deja de ser consistente e


insesgado, por lo cual el investigador deberá migrar a otros métodos de
estimación.

5.4 Sesgo de selección

Es usual que un investigador enfrente un divorcio entre el problema que desea


estudiar y las bases de datos disponibles. En algunos casos los investigadores
sólo cuentan con un subgrupo de observaciones en lugar de la muestra
representativa del evento a estudiar.

Como se mencionó en el capítulo anterior, si la información excluida de la


muestra fue retirada de manera aleatoria, esto es, si la información faltante no
muestra un patrón sistemático, la submuestra sigue siendo insesgada 10. Sin
embargo, en algunos casos la información fue excluida de manera no arbitraria.

Por ejemplo, siguiendo con el ejemplo de la sección anterior, el investigador


busca estimar el impacto de la inversión en capacitación en la productividad de
las microempresas. En este caso, el investigador debe ser consciente que, al
emplear únicamente la información de aquellas empresas que ejecutan gastos
en investigación, el trabajo sesga la muestra potencialmente a empresas con

10
Es importante señalar que, debe existir un filtro anterior que asegure que los datos siguen
siendo representativos, esto es, los resultados siguen permitiendo inferencias sobre la
población.

7
mayores habilidades para capacitar trabajadores, mejores proyectos de
capacitación o mejores oficinas de recursos humanos.

Del mismo modo, un investigador que plantee estimar el impacto de los años
adicionales de escolaridad en los salarios reales11 enfrenta un problema de
sesgo de selección debido a que solamente observa la información de los
individuos con mayores habilidades y mayores niveles de educación dado que
excluye a aquellos que no trabajan. Esto quiere decir que, los salarios reales
observados no son una muestra aleatoria de la población.

Este problema es conocido como sesgo de selección pues efectivamente los


datos no se distribuyen de manera aleatoria, se encuentran truncados, esto es,
se selecciona un grupo con características bastante específicas12. De acuerdo
a ello, los parámetros estimados con MCO no corresponden a los impactos
reales de la inversión en capacitación ni a los años adicionales de estudio.

5.5 Multicolinealidad

Un problema común en las variables explicativas es la relación potencial entre


las mismas. Este problema ocurre con mayor frecuencia en bases de datos
socioeconómicos o las relacionadas a desarrollo productivo. Si este problema
con los datos no afecta la consistencia de MCO, afecta la eficiencia de los
parámetros y consecuentemente cualquier inferencia que se realice sobre los
mismos.

11
Para mayor detalle del ejemplo, puede consultarse Behrman y Oliver (2000).
12
Es importante diferencias el problema de variable truncada, en el que no existe información
que permita inferir el comportamiento del resto de la muestra, y el caso de variable censurada,
en el que la información existe pero la variable dependiente se reporta en un intervalo cerrado
(por ejemplo, test sicológico de ansiedad con variable continua de 1 a 4). En este último caso, a
todos los individuos que muestren niveles de ansiedad bastante superiores al límite superior (4)
se les asigna dicho puntaje debido al intervalo de censura.

8
Por ejemplo, un problema de investigación intenta estimar las determinantes
más importantes de la escolaridad de las mujeres en zonas rurales. El trabajo
considera como determinantes el acceso a servicios básicos, así como los
años de educación del padre y el de la madre. Dado que existe cierta evidencia
sobre la fuerte correlación entre los niveles de escolaridad en las parejas
(emparejamiento selectivo), potencialmente las variables de escolaridad del
padre y la madre se encuentren correlacionadas. Del mismo modo, ambas
variables pueden estar correlacionadas con el acceso a servicios básicos del
hogar, con lo cual las tres variables son potencialmente multicolineales.

La detección de este problema no es compleja, una simple evaluación de


significancia del coeficiente de correlación bastaría para evidenciar el grado de
asociación entre las variables. Sin embargo, la literatura econométrica permite
analizar el grado de relevancia del problema de multicolinealidad. En ese
sentido, una segunda manera de detectar un problema de multicolinealidad
pasa por observar un nivel alto del coeficiente de determinación (R cuadrado)
acompañado de la falta de significancia de las variables explicativas. Este
ejercicio equivale a comparar un alto nivel del estadístico F con bajos niveles
de los estadísticos t.

Una tercera forma de detectar este problema pasa por analizar el factor de
inflación o factor de incremento de varianza de cada variable 13. Una última
manera de detección y probablemente la más efectiva, es el empleo de
autovalores, la multicolinealidad será alta en la medida en que los autovalores
sean más pequeño14.

Sin embargo, como se verá más adelante, la solución de la ineficiencia


generada no será sencilla. Una solución que debe ser descartada en primer

13
Para mayor detalle puede consultarse Belsley (1991).
14
En la práctica se genera un rato entre el máximo autovalor y el mínimo autovalor de la matriz
de datos de variables explicativas. Luego de ello se aplica una raíz cuadrada para estimar el
número de la condición. Si este resultado es mayor a 30 se considera que existe una alta
multicolinealidad.

9
plano es el retiro de una de las variables multicolineales debido a que
podríamos generar un problema de variable omitida que haría totalmente
inconsistente a MCO.

5.6 Heterocedasticidad

De acuerdo a los supuestos de MCO, la varianza del error debe ser constante,
esto es, la variancia del componente no observado debería es independiente
de las variables que se consideran en el análisis. Pese ello, la varianza del
error estimado puede seguir un patrón de dependencia con alguna variable del
modelo provocando la ineficiencia en los estimadores.

A diferencia de los casos anteriores, la detección de la heterocedasticidad


puede ser realizada a través de test estadístico. Por un lado, se tiene el test de
Multiplicador de Lagrange (LM)15 en el que se evalúa el potencial patrón de
heteocedasticidad a partir de diferentes variables explicativas. Por otro lado,
algunos investigadores aplican en este campo las diversas modalidades del
test de White (1980) el cual emplea como determinantes de la varianza del
error términos cruzados y formas cuadráticas16.

Sin embargo, pese a que este problema ocurre frecuentemente en


estimaciones de corte transversal, no afecta la consistencia ni la insesgadez de
los parámetros estimados a través de MCO. En ese sentido, la
heterocedasticidad debe ser corregida en la medida en que afecta la
evaluación de hipótesis dado que afecta a la eficiencia de los test de hipótesis.

15
Propuesto al mismo tiempo por Breusch y Pagan (1979), Godfrey (1978) y Cook y Weisberg
(1983).
16
Una de las debilidades de dicho test en el caso de modelos que emplean gran número de
variables, es la potencial pérdida de grados de libertad, la cual reduce la eficiencia del test. Una
alternativa al test de White es el aplicar la modificación propuesta por Baum, Cox y Wiggins
(200), la cual emplea proyecciones.

10
5.7 Valores atípicos

Un problema menos usual pero importante de citar es la existencia de valores


atípicos o outliers. Estos datos generalmente provienen de errores en el tipeo
de datos o por la falta de un protocolo de consistencia que incluya macro y
micro ediciones de la base de datos antes de hacerla pública. Por ejemplo, una
pequeña empresa con niveles de ventas por encima de rango oficial de las
grandes empresas o un ratio de número de alumnos por docentes inferior a tres
desviaciones estándar en relación al promedio observado, pueden ser
considerados potenciales valores atípicos.

En primer lugar, para la detección de un valor atípico el investigador debe


considerar rangos esperados para la variable a analizar. Esta evaluación debe
ser acompañada por gráficos de dispersión y gráficos a caja (box plot)
considerando el segmento en que se encuentra el potencial outlier. En este
punto, es muy importante evitar confundir problemas de dispersión usual con
problemas de valores atípicos, debido a ello es importante analizar los datos
con algunas transformaciones, por ejemplo, la información brindada en
unidades monetarias debería ser evaluada en logaritmos con el objetivo de
evitar errar en el diagnóstico.

En segundo lugar, el investigar debe analizar la relevancia del valor atípico


observado17 la cual no dependerá de la distancia con el promedio o el número
de valores atípicos. En particular la relevancia se evalúa por la influencia del
dato en el resultado final de la estimación. En ese sentido, una primera opción
es evaluar los residuos estandarizados, una segunda opción es emplear el
indicador de influencia de una determinada observación (DFITS) de acuerdo
con lo propuesto por Welsch y Kuh (1977) y Belsley, Kuh, y Welsh (1980). Una
opción complementaria al DIFTS permite analizar en qué parámetro resulta ser
mucho más influyente el valor atípico.

5.8 Soluciones convencionales


17
Algunos valores atípicos puede afectar solamente la eficiencia de los estimadores.

11
En el caso de problemas de error de medida teóricamente si el investigador
tuviera conocimiento de la varianza de la variable no observada, los parámetros
podrían ser estimados de manera consistente y eficiente a través del método
de momentos generalizados empleando factores de escala. Sin embargo, este
camino es probablemente el menos factible. De acuerdo a ello, lo
recomendable es el empleo del método de variables instrumentales18. Una
tercera opción sería el empleo de datos de panel, estimando los parámetros a
través de efectos fijos19.

Por su parte, el problema de variable omitida puede ser resuelto a través del
empleo del método de variables instrumentales o de estimación de efectos fijos
con datos de panel. Paralelamente, los problemas de ecuaciones simultáneas
pueden ser resueltos con el empleo del método de mínimo cuadrado en dos
etapas, el cual en la práctica es una generalización del método de variables
instrumentales.

En el caso del sesgo de selección la solución común pasa por emplear el


método de Heckman (1979) en dos etapas. En una primera etapa, el
investigador debe estimar a través de un modelo tipo logit o probit una
ecuación de selección, esto es, estimar una ecuación que explique el por qué
algunos individuos trabajan y otros no, o por qué algunas empresas invierten
en capacitación y otras no. En una segunda etapa el investigador genera un
factor llamado inverso del ratio de mills, el cual se basa en los residuos de la
primera etapa (probit o logit). Este factor se incorpora como una variable
adicional en la ecuación principal de estudio, garantizando con ello el control
del sesgo de selección.

18
Para mayor detalle del método de variables instrumentales y del método de mínimo cuadro
en dos etapas, puede consultarse Wooldridge (2010). En el mismo texto se pueden consultar
los diferentes test de evaluación de ganancia al emplear una o más de una variable
instrumental.
19
Para mayor detalle sobre el empleo de estimaciones de efectos fijos con datos de panel,
puede consultarse Baltagi (2011).

12
En el caso del problema de multicolinealidad existen tres potenciales salidas:
(a) el investigador puede generar una nueva especificación del modelo para
reducir la dependencia lineal, en la práctica se pueden emplear cocientes de
variables o componentes principales. Sin embargo, la nueva especificación del
modelo puede generar problemas adicionales de heterocedasticidad, ello sin
contar el hecho que el empleo de componentes principales trae consigo un
problema de interpretación de resultados20, (b) el investigador puede incorporar
datos adicionales o una base mucho más amplia, ello debido a que la relación
lineal entre variables en muchos casos es el resultado del empleo de bases de
datos con poca información, (c) debido a los potenciales riesgos al manipular
las variables explicativas, un camino válido es no hacer nada considerando el
potencial problema de retirar una variable que sea relevante.

En el caso de problemas de Heterocedasticidad, existen diversos métodos que


permiten manejar de manera eficiente la varianza, algunos de ellos implican
generar factores que ponderan las variables considerando un patrón de
varianza estimado. En otros casos se consideran patrones de clusters. Pese a
ello, la mayor parte de investigadores emplea el estimador robusto de White
(1980) o el método de remuestreo (bootstrapping) para la corrección de la
varianza estimada21.

Por último, no existe una regla general para el trabajo de bases de datos con
valores atípicos, sin embargo, si se cuenta con una base de datos grande,
excluir observaciones que resulten influyentes podría ser conveniente. Es
importante tomar en cuenta que casi siempre, al retirar valores atípicos, una
nueva evaluación da cuenta de nuevos valores atípicos. Una solución que si
bien no es totalmente aceptada es la imputación de valores siempre que los
mismos no cambien el promedio estimado de la muestra sin incluir valores
atípicos.

20
Para mayo detalle se puede consultar, Hill y Adkins (2003).
21
Para mayor detalle puede consultarse Greene (2011).

13
14

S-ar putea să vă placă și