Sunteți pe pagina 1din 22

Variables Dummy

(parte I)

Fortino Vela Pen


Universidad Autnoma Metropolitana
fvela@correo.xoc.uam.mx

Octubre, 2010
19/10/2010 Mxico, D. F. 1
Introduccin
 Algunas de las variables son por su naturaleza propia
cualitativas.

 Ejemplos de este tipo son: Hombre/Mujer; Unido/ No


Unido, Rural/Urbano; Jefe/ No jefe.

 Su participacin en un modelo de regresin puede


considerarse:

nica Yi = 1 + 2Urbanoi + ui
cmo variable
independiente
mixta Yi = 1 + 2Urbanoi + 3 X 3i + ui
Variable Yi = 1 + 2Urbanoi + ui interaccin
cualitativa Yi = 1 + 2Urbanoi + 3 X 3iUrbanoi + ui

cmo variable dependiente


Urbanoi = 1 + 2 X i + ui
19/10/2010 2
 Estas variables reciben el denominativo de variables
dummy, artificiales o indicadoras.
 Recordemos que dentro de las variables cualitativas se
encuentran:
Nominales
Ordinales

 En cualquiera de los casos, cuando la variable solo


presenta dos categoras, se trata de una variable
dicotmica.
 Una forma de volver numrica a una variable cualitativa,
por ejemplo, el gnero, es:
1 , si es mujer
D1 =
0 , cualquier otra cosa (coc)

19/10/2010 3
 No obstante, una variable cualitativa puede presentar
ms de dos categoras, es decir, puede ser
multicategrica, por ejemplo:
1. Soltero No Unido
2. Casado (civil, iglesia o ambos)
3. Unin
4. Separado o divorciado Alguna vez unido
5. Viudo
 En este caso se puede considerar

1 , soltero 1, unin 1 , viudo


D1 = D3 = D5 =
0 , coc 0, coc 0 , coc
1 , casado 1 , separado o divorciado
D2 = D4 =
0 , coc 0, coc
19/10/2010 4
i) Modelos ANOVA
 Tcnica estadstica que se utiliza para comparar dos o
ms valores medios o promedios.
 En el contexto de regresin lineal corresponde a

Yi = 1 + 2 D1 + ui
donde
1 , presencia atributo
D1 =
0 , ausencia atributo
 Pudiera coexistir ms de una variable dummy.
 Su interpretacin indica el diferencial en el valor
promedio de Y.
 Interesa saber si es estadsticamente significativo ese
diferencial.
19/10/2010 5
Ejemplo: Son los autos importados ms caros?
 Se desea conocer si el precio de los autos difiere segn
su procedencia (local / extranjera).
 Considere el archivo autos.dta que ofrece Stata.
 Es posible obtener el precio promedio simple segn el
lugar de fabricacin, esto es:
sum price if foreign==1

Variable | Obs Mean Std. Dev. Min Max


-------------+--------------------------------------------------------
price | 22 6384.682 2621.915 3748 12990

. sum price if foreign==0 Observe que 6384.682-6072.423= 312.259

Variable | Obs Mean Std. Dev. Min Max


-------------+--------------------------------------------------------
price | 52 6072.423 3097.104 3291 15906

 Es estadsticamente
19/10/2010 significativa esta diferencia?
6
Son los autos importados ms caros?
 Sea el modelo de regresin lineal siguiente:

pricei = 1 + 2 foreign i + ui
donde 1 , local
foreign = D1 =
0 , importado
regress price foreign

Source | SS df MS Number of obs = 74


-------------+------------------------------ F( 1, 72) = 0.17
Model | 1507382.66 1 1507382.66 Prob > F = 0.6802
Residual | 633558013 72 8799416.85 R-squared = 0.0024
-------------+------------------------------ Adj R-squared = -0.0115
Total | 635065396 73 8699525.97 Root MSE = 2966.4

------------------------------------------------------------------------------
price | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
foreign | 312.2587 754.4488 0.41 0.680 -1191.708 1816.225
_cons | 6072.423 411.363 14.76 0.000 5252.386 6892.46
19/10/2010 7
------------------------------------------------------------------------------
 La forma de asimilar este resultado es

E ( pricei \ D1 ) = 1 + 2 D1 + ui

Si D1 = 1 entonces E ( pricei \ D1 = 1) = 1 + 2 D1
pero si D1 = 0 entonces E ( pricei \ D1 = 0) = 1

 Grficamente

19/10/2010 8
Diagrama de dispersin

15,000
10,000
Price
5,000
0

0 .2 .4 .6 .8 1
C ar type

19/10/2010 9
Diagrama de dispersin y recta de ajuste (yhat)

15,000
10,000
5,000
0

0 .2 .4 .6 .8 1
C ar type

Price Fitted values

19/10/2010 10
Diagrama de dispersin y diferencial
sc price foreign, yline(6072.423 ) yline( 6384.682)

15,000
10,000
Price
5,000
0

0 .2 .4 .6 .8 1
C ar type
19/10/2010 11
Variables Dummy en Stata
 Suponga un archivo con 5 observaciones como el
siguiente:
id Salario gnero
1 4500 Mujer
2 12000 Hombre
3 8000 Hombre
4 5210 Mujer
5 6804 Mujer

 La idea es crear una nueva variable numrica


asociada a la variable gnero.
encode genero, generate(genero2)
list genero genero2, nolab

id Salario gnero genero2


1 4500 Mujer 2
2 12000 Hombre 1
3 8000 Hombre 1
4 5210 Mujer 2
19/10/2010 5 6804 Mujer 2 12
 Ahora se crea en Stata a la variable D11 donde

1 , hombre
D11 =
0 , mujer
siguiendo la siguiente sintaxis:
tab genero2, gen(D1)
list genero genero2 D11 D12
+------------------------------+
| genero genero2 D11 D12 |
|------------------------------|
1. | Mujer Mujer 0 1 |
2. | Hombre Hombre 1 0 |
3. | Hombre Hombre 1 0 |
4. | Mujer Mujer 0 1 |
5. | Mujer Mujer 0 1 |
+------------------------------+

 Podemos eliminar a la variable genero2 mediante


drop genero2
19/10/2010 13
Ejercicio 1: Salarios de maestros de escuelas por
regin. Gujarati y Porter (2010:278)
 Retome los datos de la tabla 9.1 y replique los
resultados encontrados por Gujarati y Porter (2010:
278-280) .
 Datos www.mhhe.com/gujarati5e (no olvide
eliminar las comas de los datos).
 El modelo a considerar esta dado por:

salary i = 1 + 2 D2i + 3 D3i + ui


donde 1 regin noreste o norte-centro
D2 i =
0 coc
1 regin sur
D3i =
19/10/2010 0 coc 14
 Los resultados que se obtienen son:
regress salary d2 d3

Source | SS df MS Number of obs = 51


-------------+------------------------------ F( 2, 48) = 1.10
Model | 98985177.3 2 49492588.6 Prob > F = 0.3399
Residual | 2.1523e+09 48 44839670.6 R-squared = 0.0440
-------------+------------------------------ Adj R-squared = 0.0041
Total | 2.2513e+09 50 45025787.3 Root MSE = 6696.2

------------------------------------------------------------------------------
salary | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
d2 | 1524.099 2363.139 0.64 0.522 -3227.311 6275.509
d3 | -1721.027 2467.151 -0.70 0.489 -6681.566 3239.512
_cons | 48014.62 1857.204 25.85 0.000 44280.46 51748.77
------------------------------------------------------------------------------

 Cmo se interpretan?
19/10/2010 15
 Grficamente se tiene
twoway (sc salary d2) (sc salary d3)

70000
60000
Salary
50000
40000
30000

0 .2 .4 .6 .8 1
Salary Salary

19/10/2010 16
dis 48014.52 - 1524.099 = 46490.421
dis 48014.52 - -1721.027 = 49735.547
twoway (sc salary d2) (sc salary d3), yline (48014.62)
yline(46490.421) yline(49735.547
70000

Comparacin de medias: los resultados indican


que no son significativas las diferencias, es
decir, los profesores de las distintas regiones
60000

ganan en promedio lo mismo.


Salary
50000

49735.55 = Noreste y norte


48014.52= Oeste

46490.42= Sur
40000
30000

0 .2 .4 .6 .8 1
S a lar y Sa la ry
19/10/2010 17
Ejercicio 2: Salarios por gnero. Fox (2008)
 Retome los datos correspondientes a la Encuesta de la
Dinmica Laboral y de Ingreso de Ontario, Canada (Survey of
Labour and Income Dynamics).
 http://socserv.socsci.mcmaster.ca/jfox/Books/Applied-
Regression-2E/datasets/index.html (SLID en formato txt).
 Seleccione el Data Set Canadian Survey of Labour and
Income Dynamics (SLID) y el Data File SLID-Ontario.txt.
 Las variables incluidas en ese archivo son:

age: edad en aos.


sex: Hombre (Male) o Mujer (Female).
compositeHourlyWages: Tasa salarial por hora,
en dlares.
yearsEducation: aos completos de educacin.

 Se busca establecer si existe discriminacin salarial por


gnero y si
19/10/2010 existen rendimientos a la educacin.
18
 Una vez que tenga los datos en formato Stata, se le
pide estimar los siguientes modelos.
wages i = 1 + 2 D2 i + ui Modelo 1
donde
1 mujer
D2 i =
0 hombre
wages i = 1 + 2 D2 i + ui Modelo 2

1 secundaria o ms
D3i =
0 coc

wages i = 1 + 1 D1i + 2 D2i + ui Modelo 3

 Interprete sus resultados. Qu concluye acerca del


objetivo
19/10/2010
inicial de anlisis? 19
Construccin del archivo
 A continuacin se presenta la sintaxis para la estimacin de
los modelos.
encode sex, generate (genero)
list sex genero, nolab
tab genero, gen(D)
tab2 sex D1 D2
list genero D1 D2

 Para construir a D3 se considera que la primaria es


equivalentes a 6 aos completos de estudio. Por lo tanto, un
nivel educativo mayor a la primaria es una cantidad de aos
mayor a 6 aos.
sum education
recode education (1/6=0) (7/20=1), gen(D3)
tab education
tab D3
19/10/2010 20
Modelos
 Modelo 1: reg wages D1
Source | SS df MS Number of obs = 3997
-------------+------------------------------ F( 1, 3995) = 198.86
Model | 11697.7866 1 11697.7866 Prob > F = 0.0000
Residual | 235000.144 3995 58.8235655 R-squared = 0.0474
-------------+------------------------------ Adj R-squared = 0.0472
Total | 246697.931 3996 61.7362189 Root MSE = 7.6697

------------------------------------------------------------------------------
wages | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
D1 | -3.421517 .2426289 -14.10 0.000 -3.897205 -2.945829
_cons | 17.26262 .171929 100.41 0.000 16.92555 17.5997
------------------------------------------------------------------------------

 Modelo 2: reg wages D3


Source | SS df MS Number of obs = 3997
-------------+------------------------------ F( 1, 3995) = 7.08
Model | 436.573061 1 436.573061 Prob > F = 0.0078
Residual | 246261.358 3995 61.6423924 R-squared = 0.0018
-------------+------------------------------ Adj R-squared = 0.0015
Total | 246697.931 3996 61.7362189 Root MSE = 7.8513

------------------------------------------------------------------------------
wages | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
D3 | 2.695896 1.013011 2.66 0.008 .709828 4.681963
_cons | 12.88984 1.005252 12.82 0.000 10.91898 14.86069
19/10/2010 21
------------------------------------------------------------------------------
 Modelo 3: reg wages D1 D3

Source | SS df MS Number of obs = 3997


-------------+------------------------------ F( 2, 3994) = 103.93
Model | 12203.9999 2 6101.99996 Prob > F = 0.0000
Residual | 234493.931 3994 58.71155 R-squared = 0.0495
-------------+------------------------------ Adj R-squared = 0.0490
Total | 246697.931 3996 61.7362189 Root MSE = 7.6623

------------------------------------------------------------------------------
wages | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
D1 | -3.432063 .2424244 -14.16 0.000 -3.90735 -2.956776
D3 | 2.903281 .9887444 2.94 0.003 .96479 4.841772
_cons | 14.40895 .9869135 14.60 0.000 12.47404 16.34385
------------------------------------------------------------------------------
 Conclusiones
Si hay discriminacin por gnero (las mujeres ganan en
promedio menos que los hombres) controlando por educacin.
En promedio los ms educados ganan ms que los menos
educados (el diferencial de ingresos por nivel educativo es
19/10/2010
significativo) controlando por gnero. 22

S-ar putea să vă placă și