Sunteți pe pagina 1din 4

Resumen capı́tulo 2 de Gujarati

All you need is love

24 de abril de 2019

Análisis de regresión con dos variables: algunas ideas básicas.


Definiciones a tener en cuenta:
• Los valores esperados condicionales son valores medios que dependen de los valores de la
otra variable, como es el caso de que el consumo depende de un cierto nivel de ingresos.

• Los valores esperados incondicionales es la media obtenida obviando los valores de la


otra variable, como serı́a el caso de tener de obtener la media de consumo de una población,
en este caso estamos omitiendo los ingresos de las familias.

Simbologı́as importantes
• Valor Esperado Condicional E(Y |X)

• Valor Esperado Incondicional E(Y )

Gráficamente si unimos los valores medios condicionales de Y correspondiente a sus respectivos


valores de X, obtenemos la lı́nea de regresión poblacional (LPR) o Curva de regresión
poblacional. Es decir, la regresión de Y sobre X.

Concepto de función de regresión poblacional (FRP)


Otra forma de expresar las medias condicionales es la siguiente:

E(Y |Xi ) = f (Xi ) se conoce como Función de esperanza condicional (FEC), Función de regre-
sión poblacional o regresión poblacional (RP), por lo que se afirma que la media de Y varı́a con X.
Donde f (Xi ) denota alguna función de la variable explicativa X.

La forma de la función de regresión poblacional.

Como primera hipótesis decimos que será una función lineal de Xi del tipo:

E(Y |Xi ) = β1 + β2 Xi

recibiendo el nombre de Función de regresión poblacional lineal o modelo de regresión.


Donde β1 y β2 son parámetros pero fijos que se denominan coeficientes de regresión; β1 y β2
se conocen como coeficientes de intersección y de pendiente, respectivamente. Como punto
central del análisis de regresión es estimar la FRP, es decir, estimar los valores no conocidos de β1
y β2 con base en las observaciones de Y y X.

1
Significado del término lineal
Linealidad en las variables: El primer significado, y tal vez el más natural, de linealidad es
aquel en que la esperanza condicional de Y es una función lineal de Xi , por lo cual, geométricamente,
la curva de regresión en este caso es una lı́nea recta.E(Y |Xi ) = β1 + β2 Xi esa es una función lineal,
mientras que E(Y |Xi ) = β1 + β2 Xi2 no es una función lineal.

Linealidad en los parámetros: La segunda interpretación de linealidad se presenta cuando


la esperanza condicional de Y, E(Y |Xi ), es una función lineal de los parámetros, los β; puede ser
lineal o no lineal en la variable X. de acuerdo con esta interpretación, E(Y |Xi ) = β1 + β2 Xi2 es un
modelo de regresión lineal (en el parámetro).

Las dos interpretaciones de linealidad, la linealidad en los parámetros es pertinente para el


desarrollo de la teorı́a de regresión que presentaremos en breve. Por consiguiente, en adelante, el
término regresión lineal siempre significará una regresión lineal en los parámetros; los β (es decir, los
parámetros) se elevan sólo a la primera potencia. Puede o no ser lineal en las variables explicativas
X.

Especificación estocástica de la FRP


El consumo de una familia en particular se agrupa alrededor del consumo promedio de todas
las familias en ese nivel de Xi , es decir, alrededor de su esperanza condicional. Por consiguiente,
expresamos la desviación de un Yi en particular alrededor de su valor esperado de la siguiente
manera:
ui = Yi − E(Y |Xi )
Yi = E(Y |Xi ) + ui
Donde la desviación ui es una variable aleatoria no observable que adopta valores positivo o nega-
tivos, por lo cual, se le conoce como perturbación estocástica o término de error estocástico.

Se puede decir que el gasto de una familia en particular, según su nivel de ingreso, se expresa
como la suma de dos componentes: 1) E(Y |Xi ), que es la media del consumo de las familias con el
mismo nivel de ingreso. Este componente se conoce como componente sistemático, o determi-
nista, y 2) ui que es el componente aleatorio o no sistemático.

El termino estocástico es la representación de todas las variables omitidas que pueden afectar a
Y pero que no se incluyen (o no pueden incluirse) en el modelo de regresión.

2
Demostración:

Si suponemos que E(Y |Xi ) es lineal en Xi podrı́amos escribir la ecuación anterior de la siguiente
manera:

Yi = E(Y |Xi ) + ui
= β1 + β2 Xi + ui
Dicha ecuación nos plantea que el consumo de una familia se relaciona linealmente con su ingreso
más el termino de perturbación.

Ahora si tomamos el valor esperado de la ecuación en ambos lados, obtenemos:

E(Yi |Xi ) = E[E(Y |Xi )] + E(ui |Xi )

E(Yi |Xi ) = E(Y |Xi ) + E(ui |Xi )


Donde sabemos que el valor esperado de una constante es la misma constante. Obsérvese con aten-
ción que en la ecuación se tomó la esperanza condicional, condicionada a las X dadas.

Como E(Yi |Xi ) es lo mismo que E(Y |Xi ), la ecuación implica que

E(ui |Xi ) = 0

Por lo cual definimos que el supuesto de que la lı́nea de regresión pasa a través de las medias con-
dicionales de Y, implica que los valores de la media condicional ui (condicionales al valor dado de
X) son cero.

¿Por qué no se introducen estas variables omitidas en el modelo? ¿por qué no se crea un modelo
de regresión múltiple con tantas variables como sea posible? Las razones son muchas.

1. Vaguedad de la teorı́a: Generalmente la información que determina el comportamiento de


la variable Y, está incompleta, por lo cual estamos ignorando variables que afectan a Y. Por
consiguiente, ui sirve como sustituto de todas las variables excluidas u omitidas del modelo.

2. Falta de disponibilidad de datos: Aunque se conozcan algunas variables excluidas y se


considerará por tanto una regresión múltiple en lugar de una simple, tal vez no se cuente con
información cuantitativa sobre esas variables.

3. Variables centrales y variables periféricas: la influencia conjunta de todas o algunas de


estas variables sea muy pequeña, o a lo mejor no sistemática ni aleatoria, y que desde el punto
de vista práctico y por consideraciones de costo no se justifique su introducción explı́cita en el
modelo. Cabrı́a esperar que su efecto combinado pueda tratarse como una variable aleatoria
u.

4. Aleatoriedad intrı́nseca en el comportamiento humano: Aunque se logre introducir


en el modelo todas las variables pertinentes, es posible que se presente alguna aleatoriedad
intrı́nsecaen Y que no se explique, a pesar de todos los esfuerzos que se inviertan. Las pertur-
baciones, u, pueden reflejar muy bien esta aleatoriedad intrı́nseca.

3
5. Variables representantes (proxy) inadecuadas: Básicamente se hace alusión a los errores
de medición, por ejemplo, si se desea trabajar con el ingreso permanente, como la información
de esta variable no es observable se utilizan variables representantes (proxys) como el consumo
actual, este tipo de acciones genera errores de medición, por lo cual, nuevamente u representa
estos errores.

6. Principio de parsimonia: Si se puede explicar el comportamiento con solo dos variables,


¿Cuál es la necesidad de agregar más variables? resumen, no te compliques la vida, busca la
manera más fácil. Eso sı́, no omitas detalles importantes.

7. Forma funcional incorrecta:En algunos casos es difı́cil saber el comportamiento de la


función, si es lineal o cuadrática, cuando ya hay muchas variables esta tarea se complica porque
es imposible graficar en múltiples dimensiones. Por todas estas razones, las perturbaciones
estocásticas u asumen un papel muy valioso en el análisis de regresión, que apreciaremos a
medida que avancemos.

Función de regresión muestral (FRM)


Ya en el mundo real se trabaja con muestras y no con poblaciones, por lo cual la estimación de
la FRP se basa en información muestral. La lı́nea de regresión muestral. Se supone que representan
la lı́nea de regresión poblacional, pero, debido a fluctuaciones muéstrales, son, en el mejor de los
casos, sólo una aproximación de la verdadera RP.

Ahora, igual que la FRP en la cual se basa la lı́nea de regresión poblacional, se desarrolla el
concepto de función de regresión muestral (FRM) para representar la lı́nea de regresión muestral.la
cual se escribe como:
Yb = βb1 + βb2 Xi
donde Yb se lee Y gorra

Ybi = estimador de E(Y |Xi )

βb1 = estimador de β1

βb2 = estimador de β2

Advierta que un estimador, conocido también como estadı́stico (muestral), no es más que una
regla, fórmula o método para estimar el parámetro poblacional a partir de la información sumi-
nistrada por la muestra disponible. Un valor numérico particular obtenido por el estimador en un
análisis se conoce como estimación. Cabe señalar que un estimador es aleatorio, pero una estimación
no. La FRM en su forma estocástica de la siguiente manera:

Yb = βb1 + βb2 Xi + ubi


donde, además de los sı́mbolos ya defi nidos, ubi denota el término residual (muestral). Conceptualmente,ubi
es análogo a ui y se considera una estimación de ui , que se introduce en la FRM por las mismas
razones que se introdujo ui en la FRP.

S-ar putea să vă placă și