Sunteți pe pagina 1din 12

BREVE APUNTE SOBRE LA ESTIMACIN DE LOS PARMETROS MCO Y MXIMA VEROSIMILITUD Ramn Maha Noviembre 2009 I.

- Planteamiento Sea el Modelo Bsico de Regresin Lineal (MBRL) definido como:


y i = 1 + 2 x 2i + 3 x3i + ........ + k x ki + U i

donde los parmetros cuantifican la relacin parcial de cada variable exgena X con la endgena Y. Partimos de que se ha completado la etapa de especificacin del modelo economtrico y son conocidos por tanto los valores de la Y y las X para la muestra temporal o transversal seleccionada. Se plantea ahora la siguiente pregunta cmo obtener una buena estimacin de esos parmetros a partir de los datos disponibles para Y y para cada una de las X? II.- Estimador de Mnimos Cuadrados Ordinarios Uno de los procedimientos ms conocidos es el denominado Estimador de Mnimos Cuadrados Ordinarios (MCO). Este procedimiento plantea utilizar, como estimacin de los parmetros, aquella combinacin de 1, 2, k que minimice los errores que el modelo cometer. Qu significa esto?. Est claro que, si dispusiramos a priori de los parmetros estimados podramos escribir el MBRL NO como:
y i = 1 + 2 x 2i + 3 x3i + ........ + k x ki + U i

sino como:
y i = 1 + 2 x 2i + 3 x 3i + ........ + k x ki

y, por tanto, podramos computar el error o residuo que el modelo comete en la estimacin de cada valor de la endgena comparando, de forma inmediata, el valor real de la endgena en cada observacin con el valor estimado:
ei = y i y i = = y i ( 1 + 2 x 2 i + 3 x 3i + ........ + k x ki )

Este error dependera, evidentemente, del valor asignado a las estimaciones de los parmetros ; pues bien, el mtodo de MCO sugiere utilizar aquella combinacin de parmetros estimados que
Pg.1/12

minimice la suma al cuadrado de todos los errores cometidos para las n observaciones disponibles: MCO min( S ) = min ( ei ) 2
i =1 n

Para obtener algebraicamente una expresin de clculo operativa para los estimadores MCO, procedemos de la siguiente forma: Desarrollo 1: Derivacin NO MATRICIAL de la expresin de los estimadores MCO

La expresin a minimizar es:


2 ( S ) = ( ei ) = y i 1 2 x 2i 3 x 3i ........ k x ki i =1 i =1 n n

Para obtener los valores de cada uno de los k parmetros j que minimizan esta expresin derivamos con respecto a cada uno de ellos e igualamos a cero, obteniendo k expresiones del tipo:
n (S ) = 2 y i 1 2 x 2i 3 x 3i ........ k x ki ( x ji ) = 0 i =1 j

Estas expresiones, se denominan ecuaciones normales. En este sistema de las ecuaciones normales las incgnitas son los parmetros j a estimar y los valores conocidos son los datos muestrales recogidos de la y y de las x. Observadas una a una, para cada parmetro, las expresiones de las ecuaciones normales son:
n n n n n

y i x1i = 1 x1i x1i + 2 x 2i x1i + 3 x3i x1i + ........ + k x ki x1i

y x
y x
i =1 i i =1 n i

i =1 n

2i

= 1 x1i x 2i + 2 x 2i x 2 i + 3 x 3i x 2i + ........ + k x ki x 2 i = 1 x1i x 3i + 2 x 2i x 3i + 3 x 3i x3i + ........ + k x ki x3i


i =1 i =1 i =1 i =1 i =1 n i =1 n i =1 n i =1 n

i =1 n

i =1 n

i =1 n

i =1 n

3i

+ ........
i =1

+ ........ + ........ + ........ + .......... + .......

Pg.2/12

y i x ki = 1 x1i x ki + 2 x 2i x ki + 3 x3i x ki + ........ + k x ki x ki


i =1 i =1 i =1 i =1 i =1

Lo que, teniendo en cuenta las expresiones matriciales del vector endgeno Y y de la matriz de variables exgenas X, puede expresarse matricialmente como:
X ' Y = X ' X

De donde se obtiene fcilmente (despejando) la expresin final matricial1 del vector de parmetros estimados : X ' Y = X ' X ( X ' X ) 1 X ' Y = ( X ' X ) 1 X ' X 1 = ( X ' X ) X 'Y

Desarrollo 2: Derivacin MATRICIAL de la expresin de los estimadores MCO Puede comprobarse cmo podramos haber planteado el desarrollo de la expresin de los estimadores la estimacin utilizando exclusivamente lgebra matricial. Efectivamente, la minimizacin de residuos puede plantearse a partir del vector de residuos e como:
min( e' e) = min Y X ' Y X = min Y ' Y Y ' X ' X ' Y + ' X ' X

((

)(

))

min(e' e) = min Y X ' Y X = min Y ' Y Y ' X ' X ' Y + ' X ' X = min Y ' Y 2 ' X ' Y + ' X ' X

((

)(

))

' Obsrvese cmo los productos matriciales Y ' X y X ' Y son en realidad el mismo e iguales a un escalar: efectivamente, la primera expresin es la transpuesta de la segunda y dado que el orden de cada una de ellas es (1x1), es decir, un escalar, estamos viendo en realidad dos expresiones equivalentes del mismo nmero (escalar). ' As pues, podemos escribir Y ' X + X ' Y como 2Y ' X bien ' cmo 2 X ' Y de modo que tenemos:

m e' e) = m Y ' Y 2 ' X ' Y + ' X ' X in( in

Pg.3/12

Ara resolver ahora la minimizacin, recurrimos de nuevo al concepto de derivada (necesariamente parcial) para lo que, en el caso de las matrices, debemos recordar una propiedad de utilidad: para cualquier par de matrices A y B se cumple que:
( A' BA ) = 2 BA = 2 A' B A
' En nuestro caso, debemos derivar respecto a ( ) tres ' X ' X) para dnde sumandos, y es para el tercero de ellos ( debemos recordar la propiedad matricial anterior (en nuestro caso, A es la matriz y B es la matriz XX).

min( e' e) =

(e' e) Y ' Y 2 ' X ' Y + ' X ' X =0 = 0 0 2 X ' Y + 2 X ' X = 0

de donde nuevamente obtenemos:


= ( X ' X ) 1 X ' Y

III.- Estimador Mximo Verosmil Una segunda aproximacin consiste en utilizar lo que se conoce como planteamiento de estimacin mximo verosmil. La idea del estimador mximo verosmil es sencilla de intuir. Un estimador MV de un parmetro desconocido es aquel valor que maximizara la probabilidad de observar una determinada muestra obtenida suponiendo una serie de hiptesis de partida. As, por ejemplo: 1.- Si obtenemos una muestra de la altura de 150 personas y suponemos (esto es importante) que la altura se distribuye conforme a una distribucin normal, la media muestral es un estimador mximo verosmil del verdadero valor de la media poblacional de la altura: si se extraen 150 datos de una poblacin normal, el valor ms probable de la media muestral es el valor de la media poblacional. 2.- Cmo se determina (aproxima) el nmero de peces que pueblan un lago?. Suponiendo que la distribucin de los peces es uniforme a lo largo del lago (y que los peces no tienen memoria y por tanto pueden picar una y otra vez) Se pescan 100 peces del lago Se marcan y sueltan

Pg.4/12

Se vuelven a pescar otros 100 peces inmediatamente Tomando entonces la frecuencia muestral de peces marcados en la segunda pesca, el nmero de peces (ms verosmil) en el estanque es

PecesTotal = 100 es

dos PecesMarca 100

Para determinar un estimador MV debemos ser capaces de: 1. Determinar con claridad las hiptesis relativas a la distribucin terica del parmetro en la poblacin 2. Expresar matemticamente la probabilidad de obtener una determinada muestra, en funcin de las hiptesis asumidas, de modo que esa expresin sea matemticamente maximizable en funcin del parmetro muestral de inters. En nuestro caso, este planteamiento propone utilizar como estimadores de los parmetros aquel conjunto de parmetros poblacionales que hara ms probable observar una muestra de errores como los que nos hemos propuesto: normales, con media nula y varianza constante. Es decir, un conjunto de errores que van a distribuirse conforme a una determinada funcin de densidad conjunta con una determinada media y desviacin tpica. Entre las hiptesis bsicas formuladas para el MBRL establecimos que nuestros errores U seguiran una distribucin normal con media nula y varianza constante, es decir:
u i N ( o, 2 )

o bien para todo el vector de perturbaciones aleatorias:


U N ( o, 2 I )

As pues, la funcin de densidad de cada uno de los errores ser: f ( ui ) = 1 1 1 u i2 exp 2 2 2

Por lo que, tomando la funcin de densidad conjunta para cualquier normal multivariante tenemos que2:

En realidad, la expresin genrica correcta para esta funcin es:

Pg.5/12

L = f ( u ) = f (u i ) = ( 2 )
i =1

n / 2

( )
2

n u i2 n / 2 exp 1 i =1 2 2

Se trata, por tanto, de obtener el conjunto de parmetros que hacen mxima la funcin (probabilidad) de densidad conjunta: n n / 2 max( L) = max f (u i ) = ( 2 ) 2 i =1
n u i2 n / 2 exp 1 i =1 2 2

( )

Con el fin de computar la derivada parcial de esa expresin L con respecto a los parmetros estimados, linealizamos la expresin obteniendo:

Ln( L) = n ln( 2 ) n ln 2 1 2 U 'U 2 2 2


o lo que es igual, considerando ahora errores muestrales y no las perturbaciones aleatorias poblacionales:

L n( L) = n ln( 2 ) n ln 2 1 2 e' e 2 2 2 2 Ln( L) = n ln( 2 ) n ln 1 2 y X ' y X 2 2 2

)(
)]

Es evidente que maximizar esta probabilidad con respecto a implica minimizar el ltimo de los sumandos, esto es:

max [ Ln ( L)] min y X ' y X

[(

)(

Que como se ve, es lo mismo que plantear el estimador de Mnimos Cuadrados Ordinarios revisado anteriormente. Es decir, el estimador
n u i2 n / 2 exp 1 i =1 2 2

L = f ( u ) = f (u i ) = ( 2 )
i =1

n / 2

donde es la matriz de varianzas y covarianzas de las variables aleatorias normales multivariantes. No obstante, y a pesar de la prdida de precisin de la notacin, se mantiene la referencia a 2 por sencillez expositiva y porque, evidentemente, no afecta al resultado final que se pretende ilustrar. Pg.6/12

Mximo Verosmil va a coincidir para el Modelo Bsico de Regresin Lineal con el estimador de Mnimos Cuadrados Ordinarios. IV.- Interpretacin intuitiva de los estimadores MCO en la regresin mltiple La interpretacin del significado de los estimadores MCO es mucho ms interesante que los detalles tcnicos sobre su derivacin. Qu representa un parmetro estimado j ? Si imaginamos una ecuacin estimada con dos variables exgenas ms un trmino independiente, el modelo estimado sera:
y i = 1 + 2 x 2i + 3 x3i

Imaginemos una muestra temporal donde i representa el paso del tiempo. Si expresamos ahora el modelo en diferencias, es decir, si al valor estimado de y en el perodo i ( y i ) le restamos el valor 1 estimado de y en el perodo i-1 ( y i ) tenemos que:
y i y i 1 = 1 + 2 x 2i + 3 x3i 1 + 2 x 2i 1 + 3 x3i 1 y i = 2 x 2i + 3 x3i

) (

Qu representa por tanto 2 ?. Una forma simple de expresar 2 es:

x3i = 0

y i = 2 x 2i

Es decir, 2 permite computar el cambio obtenido en y producido por un cambio en x2 mantenindose x3 constante. Es decir: los coeficientes de la regresin mltiple son coeficientes ceteris paribus o, ms propiamente dicho, coeficientes de correlacin parcial.

El punto clave, como seala Wooldridge3, es que la estimacin de estos coeficientes parciales (o cteris paribus) se obtiene an cundo los datos no se hayan observado o recogido en esas condiciones. Es decir, la regresin mltiple nos permite imitar () lo que los cientficos hacen en los entornos (experimentales) controlados de laboratorio: conservar fijos otros factores. Imaginemos, por ejemplo, el resultado obtenido en la estimacin de una regresin que relaciona las ventas mensuales de nuestra empresa con los cambios en los precios y en la publicidad:
Vi = 2 0,5 Pr i +1,3Pub i
3

Introduccin a la econometra. Un enfoque moderno. Ed. Thomson. Pg.7/12

Si las ventas y la publicidad estn medidas en millones de euros y los precios en euros por unidad: El parmetro -0.5 de los precios indicara que por cada incremento de un euro en el precio unitario, nuestras ventas se reduciran en medio milln de euros siempre y cuando se mantuviese constante el presupuesto en publicidad. El coeficiente de 1.3, positivo, indica que, si no variamos el precio de venta, un incremento de 1 milln de euros en publicidad genera un incremento de ventas de 1.3 millones. Evidentemente, la empresa nunca movi slo los precios o slo la publicidad, sino que todos los aos hizo, probablemente, ambas cosas: sin embargo, la regresin mltiple permite aislar ambos efectos. Una observacin de inters es: qu sucede si slo utilizamos una de las dos variables en la regresin?. En ese caso, puede observarse que los resultados de las dos regresiones individuales son:
Vi =1,9 0,38 Pr i Vi =1,6 3,9 Pub i

Los resultados de la regresin sobre el precio son similares a los obtenidos en la regresin mltiple pero qu ha sucedido con los resultados de la regresin sobre la publicidad?. Utilizando los mismos datos, el signo de la Publicidad en su relacin con las ventas es ahora negativo cmo podemos explicar esto?. Observemos la evolucin de las ventas, los precios y la publicidad en los aos utilizados para la estimacin.

9 8 7 6 5 4 3 2 1 0 -1 -2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 ventas precio publicidad

Cuando tomamos slo los datos de la publicidad y las ventas, observamos que, efectivamente, a lo largo de los ltimos 15 aos la publicidad se ha incrementado notablemente pero, sin embargo, las

Pg.8/12

ventas han disminuido; sin embargo, durante este mismo perodo, los precios han crecido tambin de forma muy significativa, de modo que el efecto tericamente positivo de la publicidad se ha visto anulado por un incremento descontrolado de los precios. Si slo observamos la relacin entre ventas y publicidad, subestimamos clamorosamente el efecto de la publicidad; del mismo modo, si slo observamos la relacin entre ventas y precios, subestimamos tambin el efecto negativo de un alza en los precios (la realidad es que, si no hubisemos elevado la publicidad a lo largo de estos 15 aos, la cada de las ventas ante tal incremento de los precios hubiera sido algo mayor). La anterior exposicin nos obliga a plantearnos algunas preguntas: Si slo estamos interesados en el efecto de una variable explicativa en su relacin con la endgena (y) Es necesario incluir en la regresin mltiple otras variables que son potencialmente relevantes para observar adecuadamente ese nico parmetro de inters? As es, el ejemplo anterior demuestra que, aunque nuestro inters se centre en una variable exgena, debemos recoger informacin de las dems variables que han podido variar durante el perodo muestral, de otro modo, no podemos aislar, distinguir del resto, los efectos de la variable que nos interesa. Este es, sin duda, el precio a pagar en la regresin a cambio de evitar diseos experimentales ceteris paribus. Tcnicamente esto resultaba previsible si recordamos las condiciones ideales supuestas en el Modelo Bsico de Regresin Lineal para derivar la insesgadez del estimador MCO. Esas dos condiciones era, la nulidad en media de la perturbacin aleatoria U y la ausencia de relacin entre los regresores X y las perturbaciones aleatorias U. De hecho, partiendo de esta segunda condicin (formulada a partir de la covarianza), tenemos:
Cov (u , x) = 0 Cov ( y x, x) = 0 Cov ( x, y ) Cov ( y, x ) V ( x) = 0 = V ( x)

Es decir, el parmetro de una regresin simple puede obtenerse a partir de la covarianza (x,y) slo s asumimos Cov (u , x ) = 0 . En caso de que la Cov (u , x ) 0 ocurre que el parmetro ya no puede aproximarse slo por la covarianza (x,y) dado que en realidad es:

Pg.9/12

Cov p (u , x) = Cov ( y x, x) = Cov ( y, x) V ( x ) = = Cov ( x, y ) + V ( x) V ( x)

Existe alguna excepcin a lo anterior?. Es decir, es posible obtener resultados correctos (no subestimados ni sobreestimados) en las regresiones individuales?. Si. El problema reside, en realidad, en la existencia de correlacin entre las variables explicativas utilizadas en el ejemplo. Por qu?. El problema de una muestra en la que existe correlacin alta entre las explicativas (positiva o negativa) es que la muestra no permite aislar el efecto de cada una sobre la endgena, porque, imaginando que la correlacin fuera positiva, cada vez que una creci (respecto a su media), la otra tambin lo hizo. Digamos que la muestra es lo contrario al tipo ceteris paribus que necesitaramos para observar el efecto individual de las exgenas. Ahora bien, si en nuestra podemos encontrar crecimientos de una exgena que se hayan combinado con incrementos y disminuciones de la otra de modo que entre ambas no exista una correlacin sistemtica, la muestra es ideal para observar los efectos de forma individual (sin recurrir a la regresin mltiple) porque los efectos de subestimacin y sobreestimacin en esas estimaciones individuales aparecern compensados, resultando nulos o poco significativos. En trminos tcnicos, lo que sucede cuando no existe relacin ntrela variable incluida y la omitida, es que no existe tampoco relacin entre esa variable incluida y la perturbacin aleatoria (u) que aglutina las variables omitidas, de modo que vuelve a verificarse Cov p (u , x) = 0 Si la regresin mltiple permite separar sin sesgos los efectos de las distintas variables an cuando las muestras no sean ceteris paribus. Por qu es importante que no exista correlacin muestra entre las exgenas?. Por qu se formula la hiptesis de ausencia de multicolinealidad?. Efectivamente, la regresin mltiple permite separar los efectos de cada exgena sin cometer sesgos de sobre o sub estimacin an cuando las muestras sean desfavorables en ese sentido (es decir, an cuando las exgenas estn muy relacionadas). Sin embargo, la existencia de multicolinealidad implica un precio a pagar inevitable: una menor precisin en la estimacin de los parmetros (una mayor varianza en la estimacin). Esto puede entenderse intuitivamente: si las

Pg.10/12

variaciones de una variable X2 se ven sistemticamente acompaadas de la variacin de otra variable X3 resulta difcil separar con precisin qu parte de los efectos sobre Y se deben a los movimientos de X2 y que parte a los de X3. Adems de la explicacin intuitiva veremos en el tema de la Multicolinealidad como tcnicamente, la varianza de un parmetro depende de tres factores y uno de ellos es, precisamente, el grado de correlacin que existe entre cada variable exgena y el resto: a mayor relacin, menor precisin en la estimacin. V.Interpretacin intuitiva estimadores MCO de la expresin de los

Visto todo lo anterior, una pregunta razonable es: cmo se las ingenia el mtodo de estimacin MCO para separar los efectos parciales de dos o ms explicativas?. Imaginemos el independiente): caso de dos explicativas (ms un trmino

y i = 1 + 2 x 2i + 3 x 3i El parmetro para la variable 2 deber medir los cambios en Y ante

variaciones en X2 mantenindose X3 constante. Si slo conocisemos la regresin simple (no mltiple) cmo podramos estimar este parmetro? Un punto de partida razonable ser estimar cul es el grado de relacin entre X2 y X3 dado que al fin y al cabo, slo si existe un alto grado de relacin tenemos necesidad de estimaciones parciales. Una forma de calcular el grado de relacin es, precisamente, realizar un anlisis de regresin entre X2 y X3:
x 2i = 1 x3i + wi

El residuo de esta regresin contendra, precisamente, aquella parte de X2 que no puede explicarse observando X3;
wi = x 2i x 2i = x 2i ( 1 x3i )

de hecho, si X2 y X3 no tuviesen ningn tipo de co-relacin, el coeficiente estimado para 1 sera nulo y el residuo de la regresin contendra an toda la informacin de X2.
Por tanto, si wi contiene toda la informacin de X2 que no covara con X3 tenemos ahora en wi una muestra depurada (cteris paribus) de X2. Si hacemos entonces ahora la regresin original

Pg.11/12

sobre Yi usando slo como explicativa esa nueva versin ( wi ) de X2, tendremos entonces el coeficiente de correlacin parcial entre Y y X2. y i = 2 wi + u i

Este es, efectivamente, el mecanismo tcnico que se esconde en la expresin matricial del estimador de MCO:
= ( X ' X ) 1 X ' Y

La matriz ( X ' X ) 1 permite tener en cuenta no slo la cuanta de la varianza de cada una de las variables explicativas X (en la diagonal principal) sino la intensidad de la relacin entre cada par de explicativas X (fuera de la diagonal principal). De ese modo, cada uno de los coeficientes j estimados, no se calculan slo como en el caso de la regresin univariante:
y i = + xi + u i

en dnde:
=

Cov ( y, x ) Var ( x )

Sino que en el clculo se implica tambin la covarianza entre las propias variables explicativas.

Pg.12/12

S-ar putea să vă placă și