Sunteți pe pagina 1din 70
r 188 CUAPERKOS METODOLOGICOS 45 ner el inicial, habria que repetir la fnstiuccién gréfica, introducien- doa orden de nuevo o solicitandolo mediante ment, 6.7. Ejercicios 1. Utilize ichern i794 del hardimetra de marzn de 2009 del CIS y representa en tres gréficos diferentes el sexo, la edad y los estudlios al canzados por el entrevistado. = Com ol mizino fichero oi794 haz un. de barras con los usoe ‘gue la gente hace de Inemet (P27CI-P27C10). Finalmente, con el edi tor, mejora el grafico para una correcta presentacién, (Sugerencia: cam. bia Ins ctiguetas de la leyenda en legenthey regisr/labe( 3. Emplea altora la base de datos mundial (mundo2005). Hay. sendos gr- ficos de eajas com las variables esperanca de vida all nacer y asa bruta de naralidad y combinalos en un solo grafico. Comenta la diferente dist ‘ion de ambas. ¢Por qué no aparece ninglin punto en las extremidades ‘de ambos grficos? Cambiales el aspectoaplicandole un esquema distine to del que tengns por defecto 4 Uslizando la misma base de datos de patses representa una nube de puntos con las variables cldfonos por mil habicantesy renta nacional ba {a per cipita en unidades de poder adqusitive. Dibuja sobre la misma representacin wn ajuste lineal y otro Guadrético. x 2) hyip 0,35 co Antes de proceder a Ia ejecucién del programa propio de la prucba de hhipétesis, es necesario realizar ciertos ajustes a la variable con la que se est trabajando, Pues, inicialmente, en el cuestionario se trata de una variable nominal con muchos valores, algunos de los cuales no deben ser tenidos en cuenta = 192 ‘CUADERNOS METODOLOAICOS 45 ILUSTRACION 7.1. Pregunta sobre intencién de voto en el estudio del CIS ‘mmero 2884 (2000) P13 Suponiendo que maftana se velctasoe elecones generales, € deci, al Parlamento expat, ca qué partido o coalicién votaria Ud.? Ww 1 —12 APR D3 CPP ee 13 NV 24 "PSOE, 03 14 = PSPC ns 25 CEA. 08 “15 = Otro ag CPNVo U6 16 En bianco 96 = Gw. 07 17 = No votarla..97 ERC 08 18 = No sabe 98 ENG. 0% ae) SNC 99 PA 10 2 2 Sec. a En esta pregunta el valor correspondiente al PP, partida sabre ol que se va a comprobar la hipétesis es el 2, por ella se debe generar una variable ficticia con valores O/1, sobre todos aquellos que supuestamente van a Volar Por ello, se consideran como datos perdidos los valores 97 y 99 de la varia ble P13, y con el resto se construye la nueva dicotomizada, mediante las siguientes instrucciones: use panel7, clear fenerate intpp-(intvoto==2) if Gntvoto <97 | intvoto label var intpp “Intencién de voto al PP* Para comprobar el resultado de las instrucciones anteriores es itil una tabla que cruce la antigua con la nueva variable: tabulate intvote intpp, missing En la tabla resultante (ilustracién 7.2) se puede ver emo s6lo tienen el valor 1 en Ia nueva variable aquellos que tenian 2 en la original y, ademés, s6lo son considerados casos no validos en la nueva variable 4.616 individuos de Ia muestra que no contestan a Ja pregunta 13 0 que dicen que lo mis probable es que uv voteu en las proximas elecciones |ANALISIS DE DATOS CON STATA 193 TLUSTRACION 72. ‘Tabla de distribucién de freeuencias del voto AA partir de este punto, ya se puede realizar la prueba de significacion cn relacién con las hipotesis nul y altemativa, Para ello basta indicar la primera precedida de la orden priest rest intpp==.35 BI resultado muestra, ademés del test propiamente dicho, los si- guientes estadisticos de la muestra: niimero de casos, media, desviacién tipica, error upico e tntervalos con un nivel de confianza del 95%, por defecto. 194 CUADERNOS METODOLOGICOS 45 La clave de la prueba de hipétesis paramétrica esté en el error ty ue.5¢ halla dividiendo la desviacin tipica por la rir endrada do me ste ceous, © de manera mas directa a traves dela sipuionte foray an Ese error tipico (Std. Br), en este caso muy bajo (0,003) por el alto raimero de entrevistados, representa la desviacion tipiea de la distsiouces, Inucstral del estadistico y por tanto, se utiliza en la construction de Co intervalos de confianza. En la salida del ejemplo, con el 37,89 de los enti Vistados¥ que tienen intencién de dar su voto al PP en la muestra, se ponte 1 nine uando, en a primera parte de la ilustracion 7.3 se encuentra el numero de casos y mas abajo la media —en este caso proporcion yc ‘ror tipico junto con el intervalo de confianza de la medi 7s) Et ita et progr poner aloe # os qe nisran su inten de so {BFF Jos seuads sptecen on proprcone oon arte Ha we 400 pars coset onde opto cope [ANALISIS DE DATOS CON STATA 195 ‘Sin embargo, lo que vatia es la sigificacién. Como en este caso la al- temativa es unidireccional —se ha establecido que fuera mayor quese ha de prestar atencién a la columna de la derecha. Se obtiene que, en el caso {de que la hipdtesis mula fuera cierta, la probabilidad de encontear en una muestra ese valor es fnfima (menor que 0,0000), por tanto, se puede recha. zr con bajo riesgo de equivocacién, 7.1.2. Prueba paramétrica de medias Esta misma hipétesis con una sola variable también podria funcionar con ‘medias en lugar de proporciones, pero, en lugar de operar con proporcio- es, se tabaja con promedios y, como no suele disponerse de la varianiza de la poblacién, se recurre a Ia cuasivarianza obtenida con los datos de la ‘muestra. Por ello, la frmula del error tipico presenta notables diferencias con el de las proporciones. vn~ (7.9) ome paris el ore os sn so te prod formulas ls hipstesis ya analiza los resultados, En este caso, en lugar de Ivara eae de vtec na tomar do oboe sabato soto. se plantea convo hipotesls que la probabilidad dl mismo pertigo es 425, en una excala de 0a 10. En consecuercla, la formilacin de las hipStesis mula y alternativa sera come sigue ine (7.10) Consecuentements, a estes hipétesis se debe introductr la siguiente ins: ‘rucciOn, a la que se le afiade la opcion level, para que aparezcan los inter- ‘alos con un nivel de confianza del 99%, en lugar del 95% que aparece por defector [stemmmsioney El resultado de la instruccisn se muestra en la siguiente ilustracién: 190 ‘CUADERNO' METODOLOGICOS 45 ILUSTRACION 7.4, Prucba de una media en una muestra ‘aeiy's.e) = 1.0008 En este ejemplo se ve cémo, atm considerando un riesgo de equivoca- ‘igs huferior al 1% (el complementario del 99% del intervalo de confianza), Ia hipétesis nula ha de ser rechazada, puesto que lo mas probable es que el dato de la poblacién esté comprendido entre 4,6 y 4,8. Esto mismo se hace ppatente en la columna central del segundo blogue de la sala, donde se ve ‘que con un valor de f de -11,3, su significacién es tan baja que es posible cl rechazo de la hipétesis nula pricticamente sin ningin error. Por tanto, ‘puede decirse que en la poblacion la probabilidad de votar al PF no puede ser igual a5, 7.1.3. El test de los signos Si se desea utilizar en el caso de una muestra un test no paramétrico, es de- cir, que no parta de la suposicién de que la variable original en la poblacién tiene distribucién normal, puede utilizarse el test de los signos, que esta sustentado en la probabilidad binomial En este caso, la hip6tesis no se refiere a la media, sino a la mediana, De este modo, In formulacion de Ia hipstesis mula serfa como sigue: hot we = x eu Si la mencionada hipétesis fuera cierta, entonces la mitad de los casos de la muestra caerfan por debajo del valor xy la otra mitad por encima. Para ver la distribuciOn ha de emplearse la instruccién tabulate [comer 7] Considerando el ejemplo anterior y paitiendo de la distribucion de fre euencias de la variable puotopp (probabilidad otorgada de voto al PP). s° v6 |ANALISIS DE DATOS CON STATA ist ‘que, de los 20.533 casos de los que se compone la muestra, 2.871 coinciden, Sonia mediana (zero sign), cuyo valor es el de 5. ILUSTRACION 7.5. Distribucién de freeuencias de la variable a ‘comprobar Por debajo del valor mediano (negative sign) hay en Ta distribucion em- pirica de la muestra 8.748 casos (5.680 + 600 + 828 + 781 + 859), mientras {que por encima (positive sign) del 5 se sitian 8.914 observaciones (1.365 P1483 + 2.028 + 876 + 3.162). Es obvio que en el caso de que la medians. fuera, como se ha establecido en ta hipotesis, igual 25, entonces se tendria | quehaber encontrado igual niimero de casos por debajo que por encima del thencionado valor El test de los signos averigua cul es la probabildad de | encontrar un mimero igual 0 superior de casos por encima de la mediana (observaciones de signo positiv), para el caso de que la hipétesis alterna tia sea unidiveccional de signo “mayor que" 0 por debajo de le medians (observaciones de signo negative), en el supuesto de que la alternativa sea de naturaleza “menor que” ‘Te probebilided de Ia prucba con altemativa unidireecional se obtiene aplicando la distibucién binominal al nmero de observactones positives (@914) 0 negativas (8.748) con un numero de casos igual al de Tos que no siguen Ia mediana (8.914 + 8.748, en el ejemplo que se considera) y una probabilidad de 0,5. Por su lado, la prucba bidireccional se obtiene multi- Dlcando por 2 el valor dela probabilidad menor de las anteriores (0,107, en te caso, que se converte en 0,214). 1a interpretacin es simple y sigue la norma de todos Tos test de hipste- sis, Siempre y cuando la probabilidad obtenida sea menor de 0,05, se puede rechazar la hipotesisnula con una seguridad mayor del 95%. En el ejemplo contemplado se ve que no puede ser rechazada la hipétesis de que la me diana en a poblacién hava sido igual a5. en ningsin caso, sea cual fuere la alternativa propucsta, Para obtener del ordenador este test, debe escribirse la orden signtest Semuida del nombre de lr warinble, ol sign igual y el valor de Tn hipstesis 198 CUADERNOS METODOLAICOS 45 ‘ula, Siempre la‘safida en pantalla muestra el resultado del test en los tres supuestos de hipotesis alternativa, iene 7.2. Comparacién de dos variables Cuando se desea comparar dos variables procedentes de la misma pobla- cién se esta ante el caso de pruebas en muestras dependientes. Reciben este nombre porque cada caso posce un par de valores conectados de cada una de las vatiables en cuestion, ‘De modo paralelo al de los test anteriores, se van a presentar estos anéli- sis en tres apartados: en el primero se comparan proporciones, en el segul do se equiparan medias y en el tercero se contempla el test no parametrico de Wilcoxon o prucha de los rangos con signo. [ANALISIS DE DATOS CON STATA 1 12.1. Comparacién de dos proporciones en muestras 724" ependientes tn lugar de contrastar tina proporcién con ttn valor, se trata de compare ‘dos proporciones obtenidas de la misma base, esto es, con idéntico denorni- ‘nador En esta ocasion, en lugar de formular la hipStesis con una cantidad, Paulizan doe variables Bcticne, puesto que al igual que ocurria en la prue ‘a'con una variable, se ha de proceder como si fueran medias de variables {on dos valores O/1 6 0/100. Matemticamente, la formulacton de la hipste- ‘So pala co la siguiente: Iho : He = Wy a2) Supéngase que se desea contiastar con Ios datos de la muestra sila in- tencign de voto a dos partidos es igual o si sigue habiendo diferencia a favor Gel que en tiempo pasado era superior (de este modo la alternativa es unidi- reccional). La variable que representa la proporcién del partido previamente ‘iperior sera Hamada y la del inferior como 9. Por tanto, la alternaciva, debe aparecer como: hy Th, > Thy (73) ‘Ambas pueden convertirse en igualdades o desigualdades en las que en uno de los dos términos aparezca el valor nulo. hig : Hl, ~ Hy =0 hy: Tl, ~Tl, > 0 ay Para efectuar con Stata el correspondiente test estadistico es preciso uti- lizar la instruceién test, seguida de las dos variables proporcion separadas por el signo igual. Fl resultado es similar al obtenido en el caso de una sola muestra ae 200 CUADERNOS nmTODOLOaICOS 43 TLUSTRACION 7.7. Prueba de comparacién de dos proporciones (muestras dependientes) re {a diferencia bésica respecto a la thistraciSn 7.3 6 que, en lugar de apa, ecer tna sola linea com la variable, aparecen cuatro: una para cada vavishis ‘ontrastad, una tercera para una nueva variable, que es la diferencia sare Ambas, lo que slo se manifieis on Ia media y en los intewalos, Ya cua a zamero de observaciones es légicamente el mismo, y una cuarta gue clea £2 SioF tiPico en el supuesto de que las medias de ambas fuera igusieg lo que genera un pequefio cambio wn valor”, cuyo edleulo esronie E siguiente formula: as, EL PP tiene una intencién de voto del 37.8%, mientras que la del PSOE 5 del 22,80 la diferencia es cercana al 150 Mirando low intcwvalen de oor fanza para la diferencia se aprecia que estén situados eutre cl 14,1969 el 15.9%, Obviamente, es inasumible la hipstesis nula de que la proporeiGn de intencion de voto de ambos partidos pucliers wer klong A esta misma conclusion se llega con el examen atento del estadistco 4 aleulado y de su significacién. Como la hipotesis alternativa era del tipo “mayor que”, se ha de prestar etencién a la Columna de la derécha deen aparece una significacién sustancialmente inferior al convencional lite del 0.05. Por tanto, estos datos dicen que en la poblacidn, en el moments [nmucsra Para stacer eta spin, x bene p come prominin ‘asa yotra variable. En este ejemplo tenia el valor de Os _axALsts DF DATOS CON STATA 201 realizacin del estudio, habia una diferencia signficativa en ta intencion dkclandn de voto favor del PP 7.2.2 Comparacién de dos medias en muestras dependientes ltest de comparacién de medias sigue exactaneute las mismas pauias que aide proporciones, puesto que en realidad este es una adaptacién de acl, ‘que se consigue convirtiendo uno de los valores de una variable cualitativa ‘Se trata, por tanto, en este tipo de pruebas de comparar las medias de os variables aan Si se toman las probabilidades do 0. 10 que cada persona se atribuye de ‘tara dos partidos distintos en unas préximas clecciones, continuance eons Pare obtener loo resultados estadistics, se ha de recurrir a la misma ins- tuccién que en el ejemplo anterior, utilizando la instrucei6n ites! para come Parar dos variables cuantitativas (pvotopp y pyotopsoe, en esta ocasion) eo ) re er 202 ‘CUADERNOS METODOLOGICOS 45 ‘Tras Jo cual aparece una tabla con similar aspecto al de la diferencia de proporciones ALUSIKALION 7.8. Prueba de comparncién de dos medias ‘Gmuestras dependientes) Srey = ade Eset nee | pe ee ee | Estoe reeultado muectran cémo la media para el PP (pvotopp) « sig nificativamente més alta que la correspondiente al PSOE (pvotopsoe). Se diferencian entre ellas 35 centésimas, pero, al tratarse de una muestra de tamafio superior @ 20.000 casos, esa pequena diferencia no puede haberse debido a errores de muestreo, siempre y cuando este haya sido aleatorio. Obsérvese, ademas, cémo los intervalos de confianza de una y otra variable xno se superponen. La puncuacion del intervalo inferior para el FP es de 46, ‘mientras que la del superior para el PSOE es de 4,4. En consecuencia, los cextremos de los intervalos de las diferencias son ambos positives, por lo que puede rechazarse la hipstesis nula, 7.2.3. Comparaciones no paramétricas de dos variables Para estas circunstancias, el programa Stata ofrece un par de alternativas, ‘Como en el caso de una sola variable, puede utilizarse la prueba de los sig nos y puede también emplearse una prueba de rangos. En el primer caso. el procedimiento es similar al que ya se estudis en la prueba paramétrica de una sola variable. Pero en lugar de compararse los datos con un solo valor —el de la hip6tesis— como punto de referencia, compara con el de Ia otra variable en el mismo caso, Como resultado dela comparacién puede obtenerse un empate, caso de que ambos valores sean idénticos, que la primera variable tenga el valor més alto 0 —por el contra vio que 2ca la segunda Ia de mayor valor Si se sigue con el ejemplo contemplado en la comparacién paramé- ttica de medias con las variables relativas a Ia probabilidad personal en ANALISIS DE DATOS CON STATA 208 tuna escala de 0 a 10 de votar a das partidos, cada caso (individuo) puede UBF Gasificado en tres Upos: aquellos que dan la misma probabllidad de Soto a los dos partidos (zero), los que dan mayor probabilidad al primero (positive) y, en tercer lugar, los que dan mayor probabilidad al segundo fhegative). Es evidente que si hubiera equilibrio entre las dos variables, Elnamero de sujetos del segundo y del tercer tipo deberfa ser similar, si ‘ idéntico. ° Para la obtencién de este andlisis, basta con emplear la instruccién signtest, escribiendo a continuacién las das variables que quieren compa- arse separadas por el signo igual E] resultado (ilustracién 7.9) clasifica de la forma sefialada los casos y cestablece las probabilidades binominales correspondientes a las tres hipote- ‘is alternativas posibles. ‘Como puede apreciarse. hay 4.534 casos. de los 20.310 que compo- nen Ja muestra, que comparten el mismo valor en las variables corres- pondientes a los partidos implicados. Pero hay 8.717 que asignan mas probabilidades de voto al primero (PP) que al segunds-(PSOE) y sélo 7059 que —al contrario— dan mas al segundo. En consecuencia, se puc- de descartar de entrada la hipétesis alternativa de que la probabilidad ‘de que ae vote al partido de izquierda roa mayor que al partido de la de- recha, como se pone de manifiesto en el resultado practicamente igual ala unidad de la probabilidad de obtener un valor igual o superior a 7.059. En cambio, si ¢ observa la primera de las pruchas realizadas, lade que al PP se le da mayor probabilidad de ser votado, entonces la significacion, obtenida a partir de los 8.717 casos que dan’ mayor valor fcste partido, sale inferior al punto crftico del 5%. Asimismo, sale esta disticamente significativa la prucba si se opta por una hipétesis alterna- tiva bidireccional, - os ‘CUADERNOS METODOLOGICOS 45 ILUSTRACION 7.9. Prueba de los signos para muestras dependientes ‘Mntatste 2 1st, say in deine, «Ia vate de low reuliaos mostrados, puede concuse con tranguldad queen ln pobacion el numero de votans qu dan major probubildad al Patido Popular superior numero de vant ue sla longa al Por Socata, ero et pt el mtn tipo de datos gue incoepora mas informacign en la media en gue tambien ene ex cuenta el ranged la erences ene Ins dos varias cs eles deh signo de los ranges. Con soja de etedar tsteprocedimient,adesado en el supucsto de gus ames sstcions Sean insncas, seta a conser ta sell Je odes prineros cans Ta siguenc tabla muestra os valores de probabil en a escala dl Oa to atrbuidon al Partido Poplar (PP) yal Partido Socials (PS) des det primers catos metas, nl alana siguiente i) aparceen as eee Sis entre os valores de ambas arable, Para calla rango hay cue con Siler aor abeoto de et dieoncin Hs lve gu lor ase oe uc tips valores dein wails son deics son lo que psec i derela Solu menor po tanto alo aparecen en ln clus Rang) con el velo ‘tatat 1 Coto con sino, ec lee sundnae por al senge trometer 5°45 eto es, 3. Adena, se encuentran tee diferencias poses (3, ayes ranges suman 23 (10, 6 y 7) y ds noatvs con un fol de ran 17 (9 y 8), yy me wee sara, 205 xsutst8 DE DATOS CON LUSTRACION 7.10. Rangos de las diferencias entre dos variables (PP-PS) © PP PS dif ifl R Cero Too 0 6 1 3 210 0 103010 © 10 300 0 01 3 408-8 8 9 9 500 0 012 3 600 0013 705-5 5 8 8 855 0 07 3 985 336 6 yo73 447 7 is 3377 | cesperados en El valor de los rangos tanto positives como negativos espe cl supuesto de que fuera cierta la hipétesis mula de que no hublera Giterncins entre une y otra variable se obtiene aplicando la siguiente femmala: n(n +1) ~ 25 Ha) a 718) siendo Re el nimero de rangos positives, n el nimero de casos y S. Ia suma de los rangos O (es deciz te +12). En este ejemplo, tentendo tn cuenta que hay 10 casos (ry 5 empates (ry), la suma de Tos rangos co” frespondientes a la diferencia 0 (S) es igual a 15 y l valor esperado de los Tangoe positivos EO) es de 20. Es abvio que el valor esperado de la suma {de rangos negativos (RE) ha de’ser igual que la de Tos positivos (Re) y se ‘aumple Ta igualdad nin) - Sy BAR.) + BCR) . 2 (Bs) ( 19) sda a sun tle or ng dn a (5 a sua de vs ls ce dae aes eat Fae reer hela arco sans ih por ee eee peel unl Pr compe a ma — 206 ‘CUADERNOS METODOLOOICOS 45 ralera de esa prucha, se va a realizar en primer lugar la instruceién cont diez primeros casos aparecidos en la anterior tabla: ‘es A wrt de lo cual aparecen ls sigucotessesltadusaplicados los ca sos de la muestra numerados del 1 al 10. * ve ignrank protopp-protopioe im 10 ‘Ademds de Ia suma de rarigos, el programa calcula su varianza (ajustada por posibles rangos empatados y por los primeros rangos provedentes de ‘ariahles con al mitt lo) pa obtener Ie wasabi Sa ae sete Uormalmente. Pores, en ete chmplo, con tan sola des aon, no seta res echarria ip uly quc sa (08) ten ue spice (0,78) superior a la conan Son hte scp de a errores de tipo I (0,05). * “ onde ero, sugar de pedir el anliss para Tos die primers casos, se sais pars spun la stro" 301) a Som Se aes ‘condmica, el valor de lo sufictentemente alto pera rechaea a eee ‘ula con un nivel de significacién de 5%. pe | signrank puotopp=pvotopsoe [ANALISIS DE DATOS CON STATA 207 ILUSTRACION 7.12. Prucha de Wilcoxon para muestras dependientes 7.3. Comparaciones de dos muestras (independientes) Acaban de explicarse las prucbas con muesiras dependents o paralelas, que Comparan dos variables procedentes de la misma poblacién en donde cas ‘flor dc una variable ests ligado al de la otra por pertenecer al mismo caso de {atudlo, Las situaciones en fas que se ha de comparar una medida de los mis- tnos sujetos en dos momentos temporales son las ms ices de este tipo de pruebas, augue no ls ices, como se ha visto en los ejemplos expuestos En Eambio, si sc pretende efectuar la comparacion con el mismo extaditico en oe musttras dstntas para ver ol proceden de pablaciones similares, se est ane Ins pruebas con muestras independientes, como, por ejemplo, puede se in comparacign de la intencion de voto entre mujeres y hombres “Al Igual que se hiclere en ol apariado anterior, ce va a eubdividir este apartado en distintas secciones. En primer lugar, se procederé a la compara clon de proporciones; seguidamente, se pasaré la comparacion de varian- Sas ya que ce paso provie para optar por una u otra frmtla de comparecioa de medias, que sera abordada ch la tcreera parte y finalmente se abordars ia confeccion de prucbas paramétricas con muesiras independientes, 73.1. Comparacién de dos proporciones (on wuostras independientes) En el fondo, no existe un procedimiento especifico de comparacién de pro- porciones, pun lo que pueden usarse indistintamente préest y test, con la precauién de expresar el porcentaje deseado como el valor “uno” de una variable dicot6mica. Al igual que en el ejemplo anterior, se va a tomar como, — 2o8 CUADERNOS METODOLAGIC08 4 ejemplo la intencién de voto, pero en este Pero en este C250 no se necesita la de partidos. Basta con una sola comparada en dos grupos distin, Geo an para simplicar el ejemplo, el de los hombres por un inde Vel Se mujeres por el otro, O, dicho de.otro modo, se trata de ver si pare lea a ‘grupos generados por la variable sexo, el porcentaje de initencion de voto al PP (inttpp) es similar o significativamente distinto, a Para realizar esta test (0 priest), puesto tribucién de Student, suficientes, aproximadamente cuando m-30, Jung en ste cao, ora enorme mucin au ant sete tran ose a dsb normal el Seca I seve presenta idstacn de Stent gee Sa ee iberta éapronina al form standard cn a ILUSTRACION 7.13. Prucba de comparacién de medias (atectras independientes) tae ‘artags ea | Dresenta de moda similar a la de comparacion ues incluye las dos lineas correspondientes alas ino y olro grupo (antes una y otra variable) ¥ otra linea con La tabla de resultados se de muestras dependientes, cstadisticas de t ss1815 DE DATOS CON STATA 200 las diferencias entre ambas. Pero, a diferencia de la primera, ichiye una Inca (a tercera de cifras) con Jos resultados del conjunto (combined) de la sruestra. EI 378% de las 19.421 personas que contestaron a esta pregunta fra mucstza dicen decantase por el voto al Partido Popular ‘Como antes de realizar el estudio no estaba claro qué grupo de personas iba «tener mayor o menor proporcién de referencias por este partido, es mas que ‘rronable que la hipétessallemativa sea bidireecional En ente caso, el andiis Ifuestra que el 38,6% de hombres tenen intencion de vota al partido en const Geraciony slo el 37,2 de las mujeres. Y como una ver mis Ja muestra es muy Spl, ls erorestipicns en cada sna de Tox erupas confarmadopr la vara. ile sero son muy pequetios. Por ell, el interval de confianza con un 95% de seguridad esta comprendide slo entre 2 puntos porcentuales: prs los primeros nite ol 37,68 y el 59,606 y para las sogundas entre ol 36,2% y ol 38,196. Pero, sin dda, los datos de mayor interés en esta prucba aparecen én la linea de las diferencias (di), donde aparecen cuatro cifras: la primera es la iferencia de las proporciones eorrespondientcs alos dos grupos (hombres ¥y mujeres), la segunda el error tipico, o desviacin tipica de la distribu. ‘iin muestral dela diferencia de proporciones, mientras que la tecera y la ‘Sure son los limites inferior y superior correspondientes ab interval de ‘infianza (por defecto con un 95% de seguridad en muestrasaleatorias) de ladiferencia de proporciones. Como en este caso, estos limites no incluyen el valor 0, pues ambos son positives, puede ser rechazada la hipotesis nila on una seguridad mayor del 5%. Esto mismo se deduce al observar las pruebas de hipdtesis efectuadas con el estadistico r de Student. Si se observa la columna correspondiente la hipotesisalterativa bidireccional (ha !=0), la probabilidad correspondiente alvalor de la empiica (cociente entre la diferencia y su error tipico) es me- hor que el consabido 5%, con el que suelen trabajar los centficos sociales. 73.2. Comparaci6n de varianzas (muestras independientes) Del igual modo que se comparan proporciones 0 medias, también existen pmicbas estadisticas para determinar si las diferencias encontradas en los valores de la varianza de dos muestras han podido ser debidas o no a erro- res de muestres. Pero, «i en los primeros casos 20 utiliza la distribucion de lar de student, pricticamente normal a partir de 30 grados de libertad, para la comparacién de la homogeneidad de dos muestras, hay que utilizar Ia distrbucion F de Snedecor: Puesto que se trabaja con dos grupos, las varianzas o desviaciones tipi- cas de cada uno de ellos se reconoce mediante la inclusién en un subindice del namero 1 0 del numero 2, comrespondientes a las dos muestras que se estén comparando. Por tanto, en hip6tesis alternativas biditeccionales, Ia notacién de esta prueba es como sigue: _ 210 CUADERNOS METODOLOGICOS 4s (hs hysor #o2 aa La instrucci6n valida para esta operacién en Stata es sdtest, que tiene una sintaxis completamente similar a la de test, salvo en las opciones, Por tanto, para ver sila probabilidad asignada al volo al PP tiene una homogeneidad similar entre hombres y mujeres, se debe escribir la siguiente nea: aes proton, by(ex0) ‘] Mediante esta instrucci6n se realiza una prueba de comparacion de va- rianzas o desviaciones tipicas mediante la prueba F. El resultado sera simi. Ir al que aparece a continnacién ILUSTRACION 7.14. Prucha de comparacién de varlanzas (mertrac independiente) Las tres primeras lineas numéricas coinciden con las pruebas de compa: racion de medias, Solo se encuentran diferencias a partir del enunciado de la hipétesia mula consistente en que In desviacién tipien en el primer grupo, el de hombres en este caso, es igual que la propia del segundo grupo, mujeres en este c’jemplo. En Ja muestra se ve que los primeros tienen una desviacion tipica algo rmryor de 3,7, mientras que las mujeres tienen algo menos de dicha cantidad. La diferencia es sélo de 5 centésimas, Pero como las muestras son muy grat des, el test de la F indica que podiria haberse debido a errores muestrales. ‘La salida det programa calcula tres probabilidades distintas del valor dF segin la hipétesisalternativa sea tnidireccional (en los extremos) 0 bidireccio nal (en el centro). El primero (el situado a la izquierda) en el caso de que la pi- ‘mera desviacin pica sea menor que la segunda; el segundo (en el centro) para la hip6tesis altermativa bilateral, y el tercero (a la derecha), cuando la alterpativa sea que el primer grupo tiene una heterogeneidad mayor que el segundo. aotie Sg o.tiee™ Shae eto 4 [Ashuisis Dm DATOS CON STATA a ise tliza este programa como paso anterior para la comparacién de reiias (que exige comprobar previamente si las varianzas son © no iguales fnire los grupos), el valor més indicado es el bilateral. Por tanto, en este fiemplo, aun siendo la muestra bastante grande, no puede rechazarse la Fipotess nula dela homocedastiidad en los dos grupos. 733. Comparaci6n de medias en muestras independientes Una ver que se ha realizado Ia eomprohacién de si las varianas en Ia varinble ‘que se va.a comparar son iguales o diferentes en los dos grupos, se puede pro- Seder a formular el test de comparacion de medias de muestras independientes. Dado que ahora co tata de medias, la formulacign ha de ser como sigue: { ho #74 = hat ty A by (722) ‘Segtin se haya o no rechazado la hip6tesis nula de igualdad de varianzas, cxisten dos formulas para solicitar el andlisis pertinente. Si se ha admitido Ja hipotests alternativa, es decir, caso de que las varianzas sean significatt vamente diferentes, se deberd incluir la opcién unequal: ‘test variable dependiente, by(variable_grupal) unequal Pero en el supuesto de que el resultado de la prucba de las varianzas sea no significativo, esto es, sin posibilidad de rechazar la hip6tesis nula, tal como sucedié en el ejemplo precedente, la instruccién ha de ser similar a la anterior sin la opeién wequal: nest variable dependent, by(variable_grupad) De este modo, para ver si la probabilidad de que se vaya a votar al PP es Jgual o distinta segdn se sea hombre o mujer, la instrucein literal es como sigue: test protopp, by (Sexo) 1 Homoclastieded sine gldad de vstanza 0 smiarhomogeneldad. Su ants -— a2 (CUADERNOS METODOLOOICOS 45 El resultado es semejante al que’se’obtiene cuando se comparan dos roporciones: TLUSTRACION 7.15. Prueba de comparacién de dos medias independientes, (warlanzas iquales) IG ~ eeonthonbe) = pease En la ilustracion anterior se ve cémo la mujer en una escala del cero al diez da casi tres décimas mas de probabilidad al voto al Partido Popular A pesar de tan reducidas diferencias, salen significativas por estar trabajan- do con muestras tan considerables. Como puede apreciarse en la linea de las diferencias de medias (dif), el intervalo de confianza se mantiene entre -0,33 y 0,13. Como ambos limites, inferior y superior, son negatives, puede rrechazarse con un 95% de seguridad la hipétesis nula. Igual conclusion ve ‘obtiene si se observa la probabilidad bilateral (tratandose de una hipétesis alternativa bidireccional) del valor empfrico de f, es decir, de 4,48. Al ser inferior a 0,05, puedo rechazarse la hipsterin de quo Ins medias respectivas de hombres y mujeres sean iguales en la poblacion. 7.3.4. Pruebas no paramétricas para muestras independientes La pnucba estadistica no paramétrica més indicada para muestras indepen- dientes es la U de Mann-Whitney, también conocida como la prueba de las ‘suma de rangos de Wilcoxon. Opera de modo similar a la ya expuesta del signo de los rangos: se agrupan los datos de las das muestrar en un solo grupo, ee lee asigna el rango correspondiente al valor de cada caso y se intenta comprobar si Ja suma de los rangos de un grupo es igual o no a la del otro grupo. En este caso la euma esperada de los rangos del grupo j se ajuste a le siguiente expresidn: ns(n+ 1) R= wet) * a (723) ALISIS DE.DATOS CON staTA at ¥ el valor z, con distribucién normal, es el resultado de divdir la dife rencia ene esta sma de rangos encontrada y la esperada por la desviacion Spin sjustada. pare que tata produze eta prueba se debe tiara instracion ranks con el mismo formato que la instruceon ts, De este modo, st alos datos n= tedores se les quiere aplicar una prueba no parametric, el modo adecuado de ‘Siehardo es mediante lainsercion del siguiente comand: [can rown . tras cuya insercion el resultado obtenido seria el siguiente: TLUSTRACION 7.16. Prucba dela suma de rangos aaa miler i Nbaan 3 beeen, 0 midiaeed sudtaien@N sosgus S Sehottnant fer ies suatioe nt ei Como puede apreciarse aqui, la diferencia en la suma de rangos es sig- aificativa al proporcionar un valor normelieade superior a 4. Por tanto, 60 puede afirmar que la palita ordinal de la variable voto af PP es distinta entre hombres y mujeres; dicho de modo més simplificado, las medianas de estas don varinbles son distintas 7.4. Comparaciones de k muestras independientes las pruebas que se han visto hasta ahora s6lo podian aplicarse a la com- paracion de dos entidades, Las que se abordan continuacién permiten ‘comparar més de dos objetos. En un primer momento, se estudiardn las prucbas que permiten averiguar si son iguales 0 no medias, proporciones © varianzas caleuladas en distintas muestras y, posteriormente en el préximo apartado, se analizardn las que implican la comparacion de mas de dos va- ables. ¥, como en los andlisis precedentes. también cabe aqui la aplicacion 2a ‘CUADERNOS METODOLOGICOS 45, de técnicas paramétricas, cuando se cumplen una serie de supuestos, 0 de ‘pruebas mas robustas que no necesitan estos requerimientos. 7.4.1. Comparaciones no paramétricas de k muestras Para la comparacién de mix de k mucstras existe sn ampliacién de la prucba de Mann-Whitney, Hamada de Kruskal-Wallis, que utiliza la distr- bbucién de 7! Esta basada, como la tonica precedente, en comparar en cada agnupo Ia ima de rangos "Antes de proceder a las pruebas que comparan més de dos grupos, es conveniente solicitar una tabla que describa ntimero de casos, media y des. Viacon tipica de cada yrupo, Com cjemplo, se va a tomar Ia misma varia- ble dependiente, es decir, a probablidad de voto que cada entrevistado se atribuye al Partido Popular, pero, en lugar de emplear como variable grupal lisexo, se ulilizara la edad recodificada en Steve Categorias, Recueese que testa operacion de agrupamiento de valores ha de hacerse mediante la si- guiente instruccion: recode edad (1825=1 18-25) (26/35=2 "26-359 (36/45=3 "36459 It (esso4 46559 (S616505 "56-68" (6O75~6 66-75) i (6198-7 76-98") (99), genledade) La solicitud de los estadisticos para cada grupo puede realizarse me- diante la siguiente modalidad de la orden tabulate: tabulate edad summarize(peotopp) ‘Mediante ella se obtiene media, desviacién tipica y mimero de casos tan- to para cada uno de los grupos como para el conjunto de la muestra: ILUSTRACION 7.17, Tabla de comparacién de medias y desviaciones tipicas yaa Sass 2 Su eee” SEs ‘anand 3 eoneaee 2 527 ANALISIS DE DATOS CON STATA ais EL promedio que da el conjunto de la muestra a la probabilidad de votar al partido en cuestiOn es de 4,7. Puede observarse, ademas, cémo los grupos deedad con menos de 45 afios estan por debajo de este valory los que tienen rs de 56 atios otorgan una puntuacién sensiblemente max alts, superior alos 5 puntos. Se trata de ver ahora si estas diferencias son significativas. Acste fin se aplica la instruccién que realiza Ia prueba de Kruskal-Wallis: lkwallis pyotopp, by(edad) Notese que el orden de las variables es el inverso del de la orden tabula- 1c, Como en las otras pruebas comparativas de muestras independientes, la Yavlable que lade se compara ha de expresarse cn pris lugar yc ‘ltimo la variable grupal. m faryenel ILUSIRACION 7.18, Prucba de Kruskal-Wallis de igualdad de medias ‘en muestras independientes Ses oe alge ORE ake ee pen a eee SHEAR with € 95, En los resultados se ofrecen dos cantidades dela orginal y la corre sila por la presencia de empates en el tango de las puntuaciones. Ambss ‘cafinman sue pd recaearee com tn nivel de seguridad superior al Joie le hipotesis mula de que el rango medio en cada grapo de eded e salar 0 lo que s io mismo, puede ssegurarse que existenelferencas ignifcat, ‘es por edad en i probabilidad de voto al Pardo Popular Est, como oc ha visto en la tabla de medias, es probablemente més votado entre las personas mayores. 7.4.2. Comparaciones paramétricas de k medias De una poblacion dividida en k grupos con medias Hr By Hi Ha He 80 extraen k muestras aleatorias con merlias Porat La praca del 210 CCUADERNOS METODOLGOICOS 43 andlisis de varianza trata de verficar si con las medias maestrales obtenidas puede sostenerse la hipdtesis de igualdad de medias en la poblacion: {ie Mant by an A a hg Fg on Mn (724) Los supuestos para realizar comparaciones paramétricas de k medias ‘on los siguientes: 1, Las muestras se han seleccionado aleatoria e independientemente de las k poblaciones. 2 Tne distrihuciones en la poblacién de la variable cuya media se com. para son normales en cada uno de los grupos. 3, Las desviaciones tipicas de la variable en cada una de las poblacio. nee com iguales entre = La primera condicién se cumple siempre y cuando se hayan extraido muestras independientes y aleatorias de los datos. Es presumible que al aplicar un cuestionario a personas seleccionadas al azar se cumpla este su: puesto del andlisis de varianza, siempre y cuando los valores de la variable ‘erupal sean mutuamente excluyentes. ara el segundo supuesto, existen distintas pruebas para comprobar la normalidad de unos datos maestrales. En Stata son utilizables diversos pro- cedimienios para comprobar si una distribucién es o no normal. Entre ellos estan swilk, sfrancia, ksmimov y sktest. Entre estos son més recomendables en este contexto los dos primeros, ‘pues son los Gnicos que permiten realizarse con la opcién by para obtener tuna prueba de normalidad de la variable en cuestién para cada una de las ‘muestras independientes extraidas. ‘Como un cemplo de andlisis de varianza, se considers como variable do- ppendiente la probabilidad de voto al Partido Popalar (pvotopp) por niveles de estudio, Antes de ejecutar el andlisis de varianza, se combinan las variables es ‘ucla y estudios, para aplicaries conjuntamente ia prucba de normalidad pare ‘cada grupo de la muestra mediante la instruceién swilk precedida por bysort: replace estudios1 if (escuela==t | escucla==2) recode estudios label define ecu 1 Sin setudioe', ad Lbysort estos: silk puotopp - ANALISIS DE DATOS CON STATA a7 ‘mientras que los dos iltimes grupos, los menores en tamaiio, podrian provenir de poblaciones en las que la distibucién de la variable fuera norimal. Sin em- bargo, a pesar de que en los grupos importantes no se cumpla el supuesto de normalidad, cuando los tamafios grupales son grandes, el reqnisito no eS tan sistancial Sirve ins bien para determinar qué prueba de homocedasticidad es més adecuada aplicar, pues el supuesto de igualdad de varianzas es mucho més importante que el dela nermaliced de las poblactones. ILUSTRACION 7.19. Prueba de Shapiro-Wilk de normalided en los datos [TT pepe Gene ocaanaT STS SSeS prea | Rarsco-igu W-taae foe gonna date Como Ia variable estudios posee, ademés de los no contesta siete valores, cl andlisis procede a la realizacién de ocho prucbas. Como puede comprobarse las seis primeras oftecen diferencias sustantivas con respecto a la normalidad, a8 ‘CUADERNOS METODOLOGICOS 45 El tercer supuesto que hay que comprobar es el de la homocedasticidad: ppara ello se puede utilizar el test de Levene cualquiera de sus variantes, ‘que se pueden obtener a través de la instruccién robvar. ASAUSIS DE DATOS CON Stara a9 Para obteiier in andliss de varianza con el procedimiento oneway, basta con expresar detris de la instriccién, en primer lugar, la variable cuantita- tivay en segundo lugar la grupal. Enel jemplo actual, primero ha de apa- recet la variable pvotonp y después la variable estos. ee) | ‘oneway protopp estudios ‘Mediante esta instruccién, recomendable siempre-que se quiera hacer ‘una comparacién de medias mediante el andlisis de varianza, las pruches de homocedasticidad estin precedidas por las medias, desviaclones tipicas -y mémero de casos de cada uno de los grupos. ILUSTRACION 7.20. Prueba de Levene de igualdad de varianzas chess o-= sismsscs ater sesan) pepe ‘Tras el resumen por grupos y total de la variable cuyas diferencias se ‘quiere encontrar, aparecen en tres lfneas las tres pruebas inclufdas en este procedimiento. En primer lugar aparece el test de Levene (WO), en el que se efecttia un andlisis de varianza con las diferencias absolutas de las pun tuaciones de cada individuo con respecto a su media grupal. Después api © el W50, que hace lo mismo pero efectuando as diferencias con rela~ cidn a la mediana grupal, y el W10, que lo realiza con la media recortada, calculada con el 80% de'los casos’ centrales, es decir, excluyendo al 10% de los casos con puntuaciones menores y al otro 10% con puntuaciones mayores. En este caso, la conclusién que hay que tomar es que no se dan las condiciones de homocedasticidad, por lo que habria que tomar con mucha recaucién el resultado del andlisis de warianra, Para que Stata haga ele se pueden emplear las instrucciones oneway y anova. En este apartado slo ‘se contempla la primera, dejando la segunda para otto préximo, pues posee también la posibilidad de comparar musctras dependicntes. Elresultado no sélo expresa las sumas y medias cuadréticas de las tres fucites de VarlaciGn (wlal, inter y externa), sino que Ganbien incluye oo test de comparaci6n de varianzas, el de Bartlett aes. 7 (1) = 5.6295. Fopbenta = 0468 [cusses tect for squad variance wma canes tal Cl 880 ST) remind a desviaciones al cuadrado de todos los valores con respecto a la media global Po ser = 93 (ey met 725) En la formula se suman en cada uno de los J grupos, las 1 diferencias ‘cuacirticas entre los valores (x4) ylas medias (2). No es esto otra cosa que el ‘numerador de la varianza; por lo que al dividirla por los grados de libertad (dj) de la muestra, se obtiene Ia cuasivarianza, conocida en este contexto como la media cuadritica total (Total MS o MCD). (7.26) Su rafz cuadrada equivale a la cuasidesviacién tipica de la variable cu- ‘yas medias se estén comparando en distintas submuestras, en este caso, de |i variable que mide la probabilidad cubjetiva de voto al PP. ar 220 ‘CUADERNOS METODOLOGICOS 45 {a Suma cuadrévca se descompone en dos la extra (intergrupal, bet sven SCE) 9 i interna Capa, suin 0 Ser). La pace de eae Tecoge ls destiaciones al cuadrado de cada una dels medias de los goes on respecto a la media glabal,.es deck, reflja las diferencias extenecs Entre lor estos eres. SCE ~S7(2, —2)'ny . ot (7.27) En cambio, la suma cuadsétic interna representa las desviaciones eis tentes de los valores con respecto ala media de su grupo, es dest In vara cién que existe en el interior le rata une de ls mubmmnostras obtener SCI OY (ey 55? viet (7.28) De las sumas cuadréticas se obtienen las medias cuadriticas, dividiendo las primeras por sus grados de libertad. En el caso de la suma cuadratica externa (between), los zrados de ibertad son iguales al niimero de grupos menos uno yen el de la suma cuadratica interna (within) al namero de casos del conjunto ‘menos el niimero de grupos. » _ SCE MCE = eo Scr mor = SC cr = (729) ‘Como la hipétesis nula que se esté comprobando es Ia igualdad de medias de los distintos grupos, es obvio que cuanto mayor sea la suma cuacrtica inlergai. pial, menores seran las garantias de que aquella sea cierta, Se sabe que, en caso de que se cumplan los supuestos mencionados. el cociente de la madia ude ca intergrupal entre a media cusdratica intragrupal sigue la distibucion F. MCE MCT (730) En el ejemplo anteriormente expuesto, la F da un valor extremadamente grande (17,09), cuya probabilidad de ocurrencia, en el casa de que la hipé= LAsALISIS DE DATOS CON STATA 22 tesis nulla fuera cierta, seria infima (no superior a 0,00005); por ello, seria arriesgado el rechazo de esta, esto es, decir que la valoracion electoral ‘aun determinado partido es distinta segtin los diferentes niveles de estudio de los votantes. En el grafico 7.1 esté representada la te6rica distriby de la Fen el caso de que la hipdtesis nula fuera cierta. Como se puede apreciar, es infima la posibilidad de que el valor sea superior incluso a 3,5, (<=0.001), GRAFICO 7.1. Distribucién ¥ con 7 y 2525 grados de libertad F(x.7,2825) o 05 4 15 2 25 3 35 En este ejemplo se impone volver al tema del supuesto de homocedas ticidad, puesto que ofrece ciertas contrariedades que deben ser tenidas ‘en cuenta, Con el anélisie oneway, Stata obtione la prucba de Bartlett de jgualdad de varianzas. En el ejemplo de la ilustracién 7.21 no parece haber indicios de heterocedasticidad, ya que la probabilidad de la medida es su- pevior a 0,05. Esto sc contradice con cl anterior test de Levene, con el que se rechaz6 la hipotesis nula de homocedasticidad. ¢Cual de estos artilu- los, el de Bartlet o el de Levene, es mas fiable? En principio, el segundo, Dues el primero es mas sensible al supuesto de que las subpobiactones ten- ‘an una distribucién normal, condicién que se comprobé con la prueba de Shapiro-Wilks que no era cierta. Por tanto, a pesar de la prueba de Bart- lett, el ejemplo no ofrece grarantias de homocedasticidad. No obstante, ‘como la significacién del valor F en la prueba de comparacién de medias es tan infima, a pesar de no cumplirse los supuestos, seguiria pudiéndose rechazar la hipétesis nula con gran tranquilidad de no equivocarse, ‘Mediante la opcién. tabulate del programa oneway se obtiene una tabla similar a la que producen otras instrueciones, como tabulate, table o robvar 22 CURDERNOS METODOLOGICOS 45 con medias, desviaciones tipicas y frecuencias por grupo, pero, ademés, tam. bién es posible realizar pruebas de comparaciones miltiples con las opcio- nes scheffe, bonferroni o sidak. Estas tres responden con diferentes criterios f@ corregir el problema que eupone realizar muchas pruebas de significacién ‘al mismo tiempo, Si de cada cien comparaciones, cinco salen significativas aleatoriamente de cada diez comparaciones, media tendria que salir signi Ticativa, Pata evita: vechazar aleatoriamente, diferencias que no lo 20m, se aplican criterios mis estrictos que la significacién otorgada por la t de Sta ‘dent para comparar sélo dos muestras. "En ef ejemplo actual, utilizando el crterio de Scheffe, que consiste en dividir el cuadrado de la distribucién ¢ de Student por el ntimero de grupos ‘menos 1, se obtiene una distribucion F con k- grados de libertad en ef numme- rador y n-l grados en el denominador. Bstas operaciones se obtendrian con la siguiente instruccién, cuyos resultados se presentan en Ia ilustracién 7.22: coneway potopp estos, oanove schelfe ‘| TLUSTRACION 7.22, Comparacién de medias con correcciones de Scheffe wie RE ANE OS De esta matriz de comparaciones —donde aparecen en cada celda dos et frac: la diferencia de medias (de la correspondiente al grupo de fila menos de la correspondiente al de la columna) y la significacién corregida— se deduce ‘que a pesar de que los que no contestan al nivel de estudios son Tos que con inenor probabilidad dan eu voto al PP (todas las restas de su fila sen nega tivas) y que los que poseen otros estudios son los que otorgan mayor probe bilidad (todas las restas de su fila son positivas), ninguna de las dos resultan signifivativiy, pougue sun categorias con tina pequefia cantidad de catos r sNALISIS DE DATOS CON STATA 2s = En cambio, la categoria FP, con una media dé 4,2, aparece como el ‘grupo con menor probabilidad significativa de votar a favor del PP. S6lo ia asociaciones no significativas con el grupo de estudios superiores Mee también tienen sma probabilidad media por debajo de la del con- junto de Ia muestra—'y con los ya mencionados grupos menores dé otros ‘etudios y de casos que no contestan. Y, en el otro extremo, se encuentra la EXegorfa “Primarios", que preventa medias significativamentr mayares que ‘Moonsecuentemente-- la categoria “EP”, pero también con la de estudios secundaios y con la de estudios superiores. “Tumibiea: pueden efectuarse comperaciones de mucstrar Independientes con la instruccién anova, pero el uso de esta se ver con mas detalle en el ‘Sguiente apartado, cuando se wean los andlisis comparativos de muestras ‘ependientes. 75. Comparaciones de k muestras dependientes ‘Algo mas complejo es el enipley de prucbas de muestras dependientes con. A programa Stata. En primer lugar, no se puede emplear la mas simple ins {ruceién oneway, sino que ha de utilizarse la més compleja anova. Y ex0 no Grtodo, porque ademas han de disponetse lds datos en el formato alargedo, {allcomo se explicé en la seccion 5.14 ILUSTRACION 7.23. Estructura ancha de la matriz de datos ‘ideopp ideopnv ideoea is a 2 8 56 3 Generalmente, el formato de los ficheros de datos se ajusta al modelo ancho, de forma que en las lineas se encuentran los casos y en las columnas, las variables, Para muestras dependientes esto implicaria que cada variable aparece en una columna distinta, Sin embargo, el tratamiento de la instruc~ ‘én anova requiere que la informacion esté dispuesta en otro formato, el slargada. Se necesita que haya una variable tnica con todo lo que se desea comparar (vardep, ideo en el ejemplo) y al menos otras dos variables: una que sea la fuente de Ia comparacién (varrep, partido), o el nimero de repe- {eign de la medida, y otra que indique al sujeto de comparacidn (varid, id. Esto, que parece tan complejo, puede entenderse mejor visualmente compa~ rando los mises datos expresados a lo ancho (ilustracién 7.23) y alo largo (ustiscign 7.28). — NALISIS DE DATOS CON STATA as 2a CURDIERNOS METODOLOGICDS 45 ILUSTRACION 7.24, Estructura alargada de la matriz de datos 1d partido ideo 1 47 1 2 6 1 3 4 2 4 6 202 5 2 38 8 Con el fichero en formato alargado, se puede aplicar Ja instruceiém id6- nea para efectuar un andlisis de varianza de medidas repetidas, que posee esta formula general —_ Donde, vardep es la variable dependiente (la ideo de la ilustracién 7.24); varid, la identificadora de los individuos o casos (id), varrep, la que indica de qué nimero de variable se trata (partido). \Véase todo el proceso con los datos del cuestionario electoral, suponien- do que se tengan que comparar las medias de ubicacién en la escala ideol6- szica de tres partidos en el pats vasco: PP. PNV y EA. En primer lugar, se debe proceder al arreglo del fichero para que sea posible el tratamiento. Ya es conocido que Stata trabaja normal mente con archives anchor, esto quiore decir que todas lae variables +6 encuentran en la dimensién vertical de la matriz de datos. Pero, para que se pueda realizar este andlisis, las distintas variables han de estar dispuestas on distintas filas como si de casos diferentes se tratara. Esto puede solucionarse facilmente con la instruccién reshape long, pero esta hecesita que las variables tengan nombres similares que se distingan [moncpentn mentee Variable#. En el ejemplo actual, las variables que se quic- ren comparar se denominan ideopp, ideoea y ideopnv. Por ello, han de ‘ser transformadas, para disponer de una serie ordinal consecutiva que pueda ser tratada con Ia instruceién que convierte el formato de la ma- triz. De ahi que haya que generar o renombrat las variables. Si se tiene espacio y memoria suficiente, es preferible la primera opeidn, Por ello, hhabria que crear las variables que se quieren comparar con Ia instruc: ion generate. Hay que tener en cuenta que el programa arrova de medidas repeti das tiene ciertas limitaciones de célculo, No puede trabajar con més de §00 casos, pues por las caracterfsticas del programa estos son tratados fomo si Rieran valores distintos de una variable. Por eso, es convenieute Giminar del fichero todos aquellos casos con valores perdidos en las ‘arlables tratadas y, como atin eso no es suficiente, dada la gran mues- tm disponible, habra que construir una submuestra con la instruccion sample, en este caso basta con hacer una que comprenda el 50% de Jos sujetos disponibles. Finalmente, también es conveniente reducir el tamafto del fichero de trabajo para que el transformado no contenga variables instiles y para que se arninore el esfuerzo de conversion. Estas tres operaciones de seleceién han de realizarse mediante las si reeode partdol-partido3 98 99 drop if partidos sample 50 exp id partido1-partidos Obviamente, con las dos primeras, al eliminar los casos con valores per- didos en estas variables, se seleccionan los casos que han contestado a la traluacién de la posicién ideoldgica de los tres partidos considerados; con In tercera, se seleccionan Ia mitad de los casos J, finalmente —aunque po- dria haber sido también ubicada en primer lugat-—, solo se mantienen las cuatro variables con las que se obtendré la nueva disposicién de los da- 10s, Una vex realizadas estas operaciones, procede la transformacion de la matriz de datos, mediante la instruccién, que en este ejemplo adoptaria la siguiente forma: Una ver introducida esta instruccién, el fichero se prepara autométi- camente para que sea posible realizar el andlisis de varianza con el diseno de medidas repetidas. Consecuencia del proceso, en pantalla se muestra lo siguiente: - 220 ‘CUADERNOS METODOLOGICDS 45 ILUSTRACION 7.25. Parimetros dea transformacién de matrices meee one a | De los datos dispuestos en formato ancho se pest al foruto largo. De 670 casos se pasa a 2.010, esto es, se multiplica por tres las lineas def. chero; las variables pasan de 4 a 3, es decir, de tener la identificacién y tes ‘Variables, ahora se tiene la identuficacion, las tres vanvables en una sola (par. tido) y otra nueva variable nominal (par) con valores del 1 al 3, que indican de que partido se trata la medicién®. “Antes de efectuar el andlisis de varianza de medidas repetidas conviene poner etiquetas a la nueva variable par y solicitar una tabla con ‘abstat de lo estadisticos bisicos para reconocer ias evaluaciones que se han dado a las tres partidos en cuestioa: Ibe define partidos "PP" 2 °PNV' 3 EAS label values par partidos tabstat partido, by(par statistes(n mean sd) De este modo se obtienen Ios estadisticos correspondientes a las tres variables. Cada una de ellas contiene el n total. En ese sentido, el r de la ils total es ficticio, puesto que est sumando a cada individuo tres veces para ‘obtener Ia media conjunta de las tres variables: ILUSTRACION 7.26. Tabla de medias y desviaciones tipicas de muestnas dependicntes Goat seo aaa, aie - Por td ello, convene cert el fiero de trabajo depute deextos ans, a ate ‘aor se mulplican por tanta veces como medidas “repetidas” se dispones. |NALISIS DE_DATOS CON STATA aa ‘Tras estos pasos previos con los datos, hay que incluir fa orden anova para obtener el analisis ‘anova paste fd pas, repeated (pa) [Bl sesultado co similar al de la instruceién oneway del anterior apartado: ILUSTRACION 7.27, Andlise de varianza de miuestras dependientes [ BiEiteee= oom | | Source | Partial’ss af = oO pre oe | 7 at ue atie at gate “cea La tabla de varianza esté dividida on seis columnas. La primera indica ‘a fuente de la variacién correspondiente a cada fila. La segunda da cuenta de las suas cuadraticas. La tercera, de los grados de libertad. La cuarta es «i cociente ontre la segunda y la tercera, esto es, Ins medias cusdriticas, La ‘qinta son los valores F. La sexta, sus correspondientes probabilidades. as fuentes de variacién tienen equivalencia con las comparaciones en ruestras independientes: la del modelo equivale a la externa (berween): Ia ‘esidual, ala interna (within), y la total es, como en el caso anterior, la suma de todas las diferencias al cuadrado de los valores de las tres variables con. "expecto a la media global de todas. La variacién total, como puede comprobarse facilmente, es la suma de leque explica el modelo y de Ia residual. A su vez, la variacién del modelo se 228 CUADERNOS METODOLOGICOS 4s descompone en-dos factores: la que es explicada por el hecho de que estén siendo evaluados tres partidos diferentes ¥ la que es explicada por cant, ue hay 670 individuos con evaluaciones diferentes. Como hay tantos sje tos, la suma cuadrética es easi tan alta como la de los partidos, pero. ure ‘vez hallada la media cuadritica, se ve que las diferencias existentes cate los partidos son bastante mayores que las existentes entre individuos. Esty { asi porque existe cierto consenso social sobre la ubicacion en la escal, ldeolégica donde estan situados los partidos. ‘Ahora bien, el principal cometido para el que se ha hecho este anslisis es cl de comparar las medias que los sujetos dan en la esrala idleoldgiea a leg partidos. Por ello, la fuente de variacién més importante es la de la variable par, pues es la que instrumenta las diferencias entre Ins tres originales. Lj estadistico central para la comparacién de las mediae ec la F caleulads wn Ia fuente de variacion de la variable par, en este e280, 1.014,20. Sin embargo, al tratarse de unas medidas que carecen del supuesto de independencia, ye ‘que estin emitidas por la misma persona, necesitan una correcctin para de se ajusten a la te6rica distribucién de la F de Snedecor. Existen, entre otras ‘medidas correctivas, denominadas e, tres que utiliza el programa Stata, le de Feld, lade Geisser y la de Box. Ess Tos tres casos se trata de un numero ‘menor o igual a I, que reduce el tamafio de la F, evitando la comision de un ‘error de tipo I, esto es, de rechazar Ia hip6tesis nula siendo cierta En el ejemplo actual, la ¥ obtentda es 1.014,20 y los factores de correc. cién de 0,90, 0,90 y 0,50, respectivamente, En cualquier caso, se puede con tranguilidad rechazar la hip6tests de que la media en la escala ideologica de los tres partidos vascos sea idéntica en la poblacién, 7.5.1. Pruebas no paramétricas de comparacion de muestras dependientes ‘También el andlisis de varianza de muestras dependientes requiere que s¢ cumplan los requisites de normalidad de los datos poblacionales y, sobre tado, de homocedasticidad, Pero, para ol supuesto de que estas asunciones no se cumplan, existen otras pruchas estadisticas que no requieren condi ciones tan estrictas. En el caso de que se deseen comparar mAs de dos va ‘ables de una misma mucstra —a diferencia del caso en el que se trate de cotejar una sola variable en varias muestras— no se puede utilizar la prueba ‘de Kruskal-Wallis, sino la de Friedman. El programa Stata no incorpora ofiginalmente ningin procedimiento capaz de obtener este estadistico; sin embargo, entre sus librerias disponi- bles y adquiribles a través de Internet, se encuentra un procedimiento capa? de proporcionar los célculos necesarios. Se trata del programa sip2. Pot tanto, si no se tiene atin instalado, es preciso escribir la siguiente instruc- cidn, conectado a Internet. vr _anALISIS DE DATOS CON STATA 2 vinta np Pag tna vez que ya eI incorpunay ene procediinento en ef disco uel ordenador con el programa Stata, a nstraccion necesria ara dus iro estadisticn de Pricdman y el coefciente de Kendall es Ta futon [ eiedmam isis le vaiables (a sanyo if exp] L- Je progiama adolece de un pequetio dfeoto: no pusde trabajar con variables que contengan valores pers, Por tant, ante de esc is accion hay que asegurarse de que s6lo va a trabajar con los casos vilidos Map dees modo deacon st pain, pu dua cy comodo reando una variable fictiia ¢ instrumental con las instruccién ma iednclvelor 1 a aquellos casos que no tienen ningsn caso perdido en la {Kia de variables senaladas, sto Selogra para las variables del ejemplo a tear Cideopp,tdeoea y ideopms) con las des siguientes Kneas, que genera iavatiable etic seleciona: oe pan clear Tok nlecione ‘Taroursdeccona dcoppideoes ideopne Acontinuacién, ya puede utilizarse la instrucci6n friedbman con el conid- cionante correspondiente: |_| triedman idcopp ideoes ideopny if selecciona FI resultado proporciona tres Iineas que contienen el estadistico de Friedman, su significacién y el coeficiente de Kendall. ILUSTRACION 7.28. Prucha de Friedman para muestras dependientes El estadistico de Friedman posee una distribucién 7 con el ntimero de lupos menas ssno camo erados de libertad. Como en este caso el valor es 9 La regresién Un aspecto de primordial atencion en el anélisis de las variables cuantita: tivas es el estudio de la asociacién entre ellas, para avetiguar si los valores ddo unae determinadas variables varfan con Ja mista pauta que los de ote. Una perspectiva —ya vista en el capitulo relacionado con las comparacie. nes— es estudiar, por ejemplo, sila tasa de inflacion es mayor o menor en Francia que en Espa, otra perspectiva gue puede adoplarse es la de cet varian conjuntamente, esto es, si en los momentos en que en Francia es alta, también lo es en Espafta, mientras que cuando el ascenso de los precice ce encuentra en cotas bajas en Francia, tambien To hace de ese moda en ipa ‘a 0 i, por el contrario, no existe relacién alguna entre los datos de cada tino de estos paises, y la evolucién de la inflaciGn en uno de estos paises ao Independiente de Ia del otro. Poniendo otro ejemplo, podria indavarce on ‘un conjunto de paises si, por término medio, la esperanza de vide de lox bombres es distinta —mayor o menor— que la de las mujeres, en este caso: t). Desde el punto de vista practico, en tanto se cumplan los supuestos explicados mas adelante, sila probabilidad es menor del 5% o del 1%, seztin sea el nivel de significa: cin adoptado, se puede rechazar la hipétesis nula sobre el coeficiente. ANALISIS DE DATOS CON STATA 289 ‘Otro modo de plantear lo mismo es a través de los intervalos de confian- 1a, que se obtienen con las siguientes operaciones: Wyler, £ ton be heon (0.8) siendo 1, el valor critico de dos colas de Ia distribucién ¢ de Student com el nivel de confianza igual a cy 1-2 grados de libertad. ‘En el ejemplo de la ilustracién precedente los valores de los intervalos se ‘obtendrian con las siguientes operaciones: 0, = 65,1544 1, 96 x 3,605 b — 0,003 4 1,96 » 0, 003 + 1,96 x 0,003 (19) Come en ambos casos los dos Kimites del intervale tienen el mismo signa (positive para b, y negativo para b,), la hipstesis nula puede ser rechazada con un 95% de nivel de confianza (el complementario del 0,05, como nivel {de significacién). Sélo cuando un limite or negative y el otro positiwy, no oF posible rechazar la hipétesis mula, ya que el valor 0 se encontraria dentro {el intervalo con estas sltimas caracteristicas enunciadas, Una alternative al test de Student para los cocficientes de la regresién es Ja prucba de Wald, que permite comprobar mas de un cocficiente al mismo Uiempo. La hipétesis nula se convertiria de este modo en esta formula: {® By = Br =.= Be =0 by 36, #0 20 En Ia regresion simple la prueba de Wald no es muy importante, ya que sélo existen dos coeficientes (la constante y el correspondiente al predictor), caya comparacién no tiene sentido por ser de tan diferente interpretacién. Stata permite el empleo det test de Wald a través de la instruccign fest, en la ‘que deben especificarse as variables cuyas hip6tesis quieren comprobarse, jun- to-con el valor, en el caso de que se quieran comprobar valores distintos de 0. Vednse dos ejemplos de esta instruccién. En primer lugar, si se quiere hacer la hipétesis de que tanto la constante como el coeficiente son nulos. Encuyo caso: r a 290 (CUADERNOS METODOLOGICOS 45 presenta el siguiente resultado: TLUSTRACION 9.7. Prueba de hipétesis sobre los parimetros de Ia regresién, Sse ED: pete) Donde es obvio que se puede rechazar Ia hipétesis nula de que ambos coeficientes son iguales a 0 ‘Esta misma instruccién permite prucbas en las que Ia jgualdad sea ini cialmente distinta de 0". Asi, si se quiere probar la hipotesis de que el Coeficiente correspondiente al producto nacional bruto per cépita es igual'a 0,003, se escribirts la sipniente instrucein: test pnbppa = -0.003 En cuyo caso, el resultado serfa el siguiente: TLUSTRACION 9.8. Prucha de hipstesis especifica de un parmetro ‘de la regresién Obvio es en esta ocasion que no puede rechazarse la hipétesis propues ta, puesto que la probebilidad del estadstco Fe demasiads alta cot part arrlesgarse a hacerlo, ‘Otro estadistico de significacién en la regres es el cocienteF. Este se obtiene dividiendo la media cuadritica dela regresiony ln residual, obtea das a su vera dvidir por sus correspondiente grados de libertad las sumas cuadrtcas ya exolicadas anteriormente. En el caso de In variacin de la represion (Model, sus grados de Herad son igual al nimero de parte. tos menos 1, yen el caso de la residual, los grados de libertad se obtencn restando al nmero de casos el ndmero de pardmetros: Ast las formule ‘Ed caso ms ona yu et put de que el coetcente de regres ga 1s unidsd, que equivaldrn a dace que Ia variable independiente tine un elec rete 20 1a dependiente de igual magnted. Por ejemplo, cala ato de estos del padre © a sete Jmlice un aio de estudio ens hia 9 io pxSL1S15 DE DATOS CON STAI, 201 completas de las medias cuadraticas quedarfan como sigué. En el caso de la ‘Eel modelo adoptaria la siguiente expresion: Sao wan Deu- wr MCRes = (022) Y¥ con el cociente de ambas medias cuadriticas se obtiene el estadistico F: MOReg P= MCRes (0.23) Se sabe que este nuevo estadistico tiene una distribucién F de Snedecor con (k-1) y (nk) grados de libertad, a partir de la cual puede calcularse la probabilidad de que se dé este valor o uno mayor. [La hip6tesis mula con la que se trabaja en este caso es la de que el pa rimetro es igual a 0. Es similar a la que se formulaba anteriormente con la distribucién de Student. De hecho, en la regresion simple se da la siguiente telaciéa entre ambos ectadlaticos de significacién’ Fae (0.24) En consecuencia logica, siempre que sea significativo el coeficiente b,, tambien lo sera In regresion en Tn que est inchsido. 9.8. Regresion multiple ‘Ademas de la constante y una variable independiente, en la regresi6n pue- den introducirse otras variables con una doble finalidad: la de mejorar la prediccién de la variable dependiente y la de controlar la influencia que sobre ella tienen el resto de las variables incluidas en la regresién. 22 CUADERNOS METODOLOGIEOS 45 Los valores tedricos o esperados del modelo responden en este caso a la siguiente ecuacién: bot bers tne + byt = ib (925) «asicndo k el nlimere de variables independientes, Para obtener una regresién miltiple con el programa Stata basta con afiadir a continuaciéa de la primera variable independiente tantas come se deseen introductr, con la linitacion de que no pueden inckulrse mas del nimero de casos de que se disponga, Por tanto, a la regresién anterior podria afadirsele una nueva variable y, Ge este modo, la regresion ajusta el plano que pasa lo mas cerca posible de los puntos que se alzan en un plano tridimensional, dos de cuyas dimensio. nes son Ias variables independientes y la tercera es la variable dependiente En este caso, ademas del producto interior bruto, se introduce en la regre- sién el poreentaje de este que es debido al sector agricola, con la suposicién de que los paises en los que tiene mas peso el primer sector paseen ta taea de mortalidad infantil superior _ El formato de la salida es idéntico al de la regresion simple. Lo dnico 4que lo diferencia es la adicién de una linea correspondiente a una variable con el valor de su coeficiente, error tipico, significacion e intervalos de con- Banca, eng | 0030) 0, “Tenaga ee Tovoioee eat RIS ‘Hs de advertr, sin embargo, que, a pesar de que el formato es el mismo, ‘muchos datos han cambiado. Para comprender mejor la regresién miltiple, |ANALISIS DE DATOS CON STATA 2s cs conveniente fijarse en estos cambios, pero previamente es preciso reparar fn lo que permanece inalterado, Puede verse también cémo lo tinico que no cambia, ademés del niimero de casos", es la suma y media cuadréticas de la variacién total. Eso es asi por una razon muy sencilla, la variable resultado no cambia y, por tanto, la suma de las desviaciones de Tos valores de esta variable con respecto a st media es constante cualquiera que sea el nimero de variables independien- {es que se introduzcan en el modelo’ En cambio, son diferentes las sumas cuadréticas de la regresién y la dual. Es. obvio que cuantas més variables inenrporemos a una regre- sign, el ajuste seré tanto tnayor, y sélo en el caso de introducir una varia ble nada relevante para la dependiente, el valor de la suma cuadratica de Ja regresién seria jgual al anterior sin ia nueva variable introducida, A Ia inversa, la suma de residuos al cuadrado se ira haciendo cada vez mas pe- quefia a medida que se vayan introduciendo mas variables independientes elevantes [Los grados de libertad siguen la tendencia opuesta, Por cada variable introducida en la regresién, los grados de libertad de su suma cuadratica jumentan en una unidad, mientras que lus de le residual distuinuiran en Un punto por pardmetro calculable, Al cambiar tanto las sumas cuadréticas de la regresién y de los resi- duos como sus respectivos grados de libertad, es obvio que tambien han de cambiar las medias cuadriticas y los estadisticos F y R’, que de ellos se derivan por célculo, como es obvio al examinar las férmulas (9.23) (28). Estos dos altimos son mayores a medida que el modelo incorpora mas variables, Recuérdese que Res el coeficiente de determinacién y expresa el por. centaje de la varianza de la variable dependiente que es explicado por el conjunto de independientes, mientras que F es un estadistico de significa- sion que es eapaz de comprobar simulténeamente la hip6tesis de que todos los coeficientes de la regresidn sean igual a 0, es decir, prueba la certidum- bre de que sea cierta la siguiente relacisn:, ho : By = By = By =... = 8, =0 026) "rn Ie mayor parte de ins ocasiones también cambla el mero de casos. En gene, ‘Sempre qu las uuevas variables inconporadasposean casos perdidon ee sets en rlores ‘iidos en las variables de modelos mas simples, el mimero de casos sed inferior en tantos "Pods ocr sin einbargo, qoe el mero de casos en la regresion desendiera sl tocar ms variables independientes que eontrbuyeran a diss etamaiio musta Et ‘tos Caos descendera necerariamente la suma cunt = 204 CUADERNOS METODOLOEICOS 45, En el ejemplo presente, el R’ es igual a 0,55. Comparado con el de la regresion simple, que era igual a 0,41, se ha producido un ineremento de 14 puntos en la explicacién de la variable dependiente al introducir la segunda idependiente. Precisamente la rafz cuadrada de esta diferencia es To que se Mewes mr oon eg roi, ie we a ed cele eek Ses Eilat ieee tents bln ens npn oe ea eee fen una nueva variable disytdusica con valores 1 ¥ 0, los cseficientes aie ee re ca oi ies etn oni nce pi td ene rts ere a On codificado como 3, deniro de la variable conti, se transforma en 1, y ef conjunto de pafses que no estan situados en el continente africano ‘les sept ee sie cnt eae mech ep re eh enna de mortalidad infantil en este caso, entre los pafses africanos y él reste. ose la Se re ey reine Tear ain con otto de tes smn us ade nes co sy rah I tn introduce en la regresién: " generate aftic ) if cont, regress uni pabpps africa “Tas la ejecucion de estas dos instruceiones la regresiinresukamte sta siguiente: om TLUSTRACION 9.13. Regresién maltiple con variable ficticia oo ecie Speci} apyte. sere araaae Siok Bin o isiten = westee 0 Sadana Agcanss |ANALISIS DE DATOS CON STATA 298 Bl cooficiente correspondiente a Ia variable africa, que tiene el valor 50.7. indica que, en termino medio y controlando por la variable del producto na onal bruto per eépita, los paises africanos tienen una tasa de mortalidad {ttantl 50,7 puntos (es tantos por mil) por cneima de loe pafses ubjcados fen otros continentes. ‘aunque sean algo complejas las instrucciones, es de especial interés ver el resultado grafico de esta operacidn, por cuanto facilita la correcta, Jnterpretacion de lo que sucede cuando se introduce una variable ficticia fen una regresidn, Lo primero que hay que hacer es generar dos predic Glones distintas: ana para los paises africanos (pri!) y'otra para lus 117 Sfrieanos (ptm). Para una representacién diferenciada, también convie- te desdoblar la variable original en los del continente negro (tmnia), por lun lado, y en los habitantes de otros continentes (tir). Bstas cuatro va ables pueden representarse sobre el producto nacional bruto per cépita, flas de ellas (las predicciones) en formato de linea y las otras dos (las Sariables reales) en formato de puntos (paises africanos) 0 cuadrados {resto de los paises). [peas pm an et ian oa Cee am aa serait ermine Se a eee Fe a ac ytp seme) tH ee en Se eae ache eral es En el grafico puede verse claramente que la introduecién de una varia ble dicotémica genera dos predicciones paralelas. En la linea continua se encuentra lade los paises africanos, mientras que la discontinua se refiere fal resto de los continentes. Esta ultima nace en el eje de ordenadas en la constante de la regresién (41,6), que es el valor esperado de la tasa de mor {alidad infantil de un pats no’africano. En cambio, a linea africans arranca, 50.7 puntos més arriba (este es el cocficiente de la variable ficticia africa), ‘esto es, en torno a los 92%e. a 300 ‘CUADERNOS METODOLOGICOS 45 GRAFICO 9.8. Representacién gréfica de una regresién con variable icotémica ‘Ambas rectas son paralclas y su inclinacion refleja el efecto del producto nacional en la mortalidad. Se trata de rectas descendentes (coeficiente ne. zgativo: -001) en la medida en que esta variable tiene una influencia positiva fen el descenso de la mortalidad infandil, Por cada mil dolares, baja prict ‘camente dos puntos la tasa. Este modelo asume que el efecto del producto nacional bruto es igual en Africa que en el resto de los continentes; lo que ‘Puede ser dudoso. Mas adelante se vera cmo realizar una regresion que no asuma que ambas rectas sean paralelas, Al haber transformado s6lo uno de los cinco valores originales de la variable nominal se pierde informacion. No se sabe cuales el electo de los ‘otros continentes. La solucién esta en crear tantas variables como valores 1 disponga la variable. En este caso, puesto que hay cinco continentes, se deberfan crear para disponer de toda la informacién cuatro variables y dejar uno de los valores como referencia. Puede ser cualquiera, pero para obtener luna regresién con similar informacién. se va a dejar coma eateyoria base el vvalor “Africa” de la variable continente, codificado como el valor 3. Aunque luego se muestre una instruccién especifica para ello, puede recardarse lo visto en el eapitula de transformaciones y crearve mediante una instraceién rrecursiva en una sola instrucci6n. Por ejemplo, de este modo! 55 premio mace» mi compe wo del fr, ae pia dos parton ae ‘cambian de modo praelo: uno numérico (a) y of fetal, que representa tetos eps spar ear sates ay Ab is nears por erin om ANALISIS DE DATOS CON STATA 01 [ean 12-45 \ any europa asia america oceania: generate ¥=(cott==X) if cont ‘A continuacién ya puede formularse Ia regresion con Tas cuatro nuevas variables creadas, desde europa hasta oceania: egress tmi pnbppa europa-oceania La regresion aparecera con la variable independiente cuantitativa més Jas cuatro variables ficticias que se acaban de generar: ILUSTRACION 9.14. Regresién multiple con variables ficticias Wheat 5 as aes SeesHeages 1. Sezisisoe) ain “oan Siheloa ctitien © SRG sone Como, en este caso, la categorsa base es el continente africano, todos los cosficiontes portonecientes al resto de los continentes son negatives, porque en todos ellos la tasa de mortalidad infantil es menor, desde Asia, 446 puntos inferior, hasta Europa, 60 puntos por debajo de la tasa por mil afrfeana. Ademis, cx de notar gue Ia influencia del producto nacional per capita apenas ha cambiado y sigue con un coeficiente significativamente distinto de 0. "El grafico, que para simplificarse no diferencia los valores emptricos de Jos distintos continentes, muestra cinco ajustes de lineas distintas, ademas de la inicial nube de puntos. La continua representa al continente base, ‘Africa en este caso, que tlene un prondstico de partida (la ordenada en el origen de las abscisas) de 93%o. La linea més cercana es la de Asia (-45,8), seguida muy de cerca por la de Oceanfa (-46,6). Mas distanciado se encuen- trael continente americano, y el que presenta los pronésticos de la tasas de mortalidad infantil menores es Europa, 302 (CUADERNOS METODOLOGICOS 45, predict pi frwoway (scatter tm pabpps, legondabel( "Tasa de mortalidad infant) “it pti pap it atria, Ipatternsotid) legendabel@ “Atie=") 1 {lit ptmi pabppa if america, egend(label ‘Amériea") (it ptmi pnbppa if asia, legendtlabel(4“Asia")) (Gt puni pubppa if europa, legend(labelS "Europa’)) (it pti pibppa if oceania, legend abel(6 ‘Oveania") ‘if (leample)& tmi & (103) a 326 (CUADERNOS METODOLOGICOS 45 4. El término de perturbacién esté normalmente distribuido. s~ No) (io) 5, Para cada conjunto de casos con una x, dada, el valor medio de la perturbacisn (2) es core Ve: Ele) =0 (ios) 6. Enel caso de que las x, sean estocésticas, no existe correlacién entre estas y los téminos de perturba Cov(a,e:) = 0 ios) 7. Para cada conjunto de casos con una x, dada, la varianza de ¢, es Constante u homocedastica, We Var(si 10.7) 8. No hay relacién exacta (no hay multicolinealidad) en los regre Coulee 225) <5, EAI) (io) 9. No existe autocormelacién entre las perturbaciones. Covlenes)=0; #3) aos) 10. Elmodelo de regresicn es lineal en sus parimetros. 11, Bl modelo de la regresién esté correctamente especificado, Los tres primeros requisitos son ficiles de comprobar sin necesidad de operaciones complejas de naturaleza estadistica. El primero implica que las variables independientes no son aleatorias, como puede ser el caso de que sean introducidas experimentalmente por el investigador. Sin embar 0, en ciencias sociales, como es muy improbable que puedan tener ¢sa ‘ondicion los regresores, no es necesario que se cumpla en tanto en cua to el criterio sexto esté satisfecho. El segundo es de facil comprobaciGn. {sNALISIS DE DATOS CON STATA, 327 ‘que tanto n como k don conocidos. Por cusstiones de determina: ‘dn de los parémetros, estos son imposibles de estimar siempre que kon, pero, atin en el caso de que n>k, existen autores que recomiendan para Gritar In presencia de altos errores de estimactén sana proporcié de 5 ve ‘es superior el niimero de casos sobre el de parémetros (Mifi et al. 2003). Finalmente, el tercero puede comprobarse mediante la obtencién de la desviacion Upica de lus vartables independientes. O mejor, si cabe, vou el coeficiente de variacién, que es el cociente entre aquella y la media aritmé- tica de la variable. Del-mismo modo que el supuesto anterior, incide prin- Gpalmente en la cuantia de los errores tipicos de Jos parametros. Cuando Ia varlabilidad dex es baja, automaticamente el denominador del célculo de estos estadisticos tiende a 0 y, por tanto, el resultado del cociente se ‘levard hasta cantidades excesivamente altas. Obvio es que la solucién a Jos problemas suscitados en el segundo y tercer supuesto es el incremento de la muestra Los supuestos cuarto, quinto y sexto, todos ellos relacionados con el tér- ‘ino de la perturbaci6n pueden evaluarse con distintas instrucciones pre~ ‘entes en Stata. La primera y fundamental de elas es la generacion. después e realizar una regresién, de una nueva variable, que exprese los residuos ‘de la regresi6n, que son los mejores indicadores muestrales del término de perturbacién en la poblacién. Hay para ellos t= modalidades que pueden Seleccionarse en funcion de la opcion que se afiada al comando predict. Es- tas tres opciones son: )_ Los residuos simples medidos en las mismas unidades que la varia- ble dependiente (residuals): oe Ka 10.10) b) Los residuos tipificados, es decir, transformados para que tengan media de 0 y desviaci6n tipica igual a 1 (standard): ao.tt) Un problems bastante comin en la rearesin mail el del descenso el nimero de ‘ass dela muestra orginal al introduce muchas variables con un slo nmero de canoe pes {Ede lave, svn emmy se poe denne te anes discon ‘ae ells (como en el caso de pregunta fires), ue haga boar sustancilmeat el mamero ‘casos con los que se opera En estas oasione, cs convenlente prescinalt de as preditores ‘ie causen un considerable descenso de muestra, no slo polos problemas de aumento del ‘Sor pica sto sobre td por lo de slesrnn sos de innaiuos uses 328 ‘CUADERNOS METODOLOGICOS 45 ©) Ls residuos studentizados, si se divide por la desviacion tpica de residuals resultante de elininarel caso en cuestion (sq) Crstdeny unk sxoVI =I 0 o.12) Estas tres variables pueden obtenere al soictar el comando prey, tras la ejecucién de una regresién, con'la correspondiente opcion y cba mente. el nombre que se le quiera dar ala nueva variable: * predict nuevavar, residual predict nuevavan retandard Predict nuevavar rstudent Un ejemplo de aplicacién de instrucciones se puede aplicar a una de las rmpresiones obtenidas on el capitulo anterior: regress uni pnbppa predict trix, residual predict emir, rstandard predict tmire, student —____} AA partir de ah, se dispone en la base de datos abierta do tres mucras variables con las que se puede operar como si hubieran sido introducidas al crear el fichero. De este modo, si se escribe la siguiente instruceién™ summarize tmi2* -~-8e obticnen los estadisticos basicos de las tres nuevas variables: 2» Bn Stata pueden emplearse los simbolos * y ? para construc listas de variables, ‘Primero significa reenlan de un Cadena de craters seguidos, antes ie sep) ‘Sl reenplaa un cariter al Gempo. Al exribie ® exluye mi, puesto ue? eciye a poset fn Banco, mientras que ¥ la ncuye SI slo se hbierspucst elo se inca tie 22 Inueraecrto oni? a Ista baba slo tt» mie fF ANALISIS DE DATOS CON stata 329 Como puede apreciarse, la media de los residuos es pricticamente igual 2.0 y la desviacion tipica de los tipificados es igual a I. Pero también se | Ghserva céma los valores sninimos le los residuos tipificador y studentiza. dos son en valores absolutes bastante menores que Tos maximos, lo que es indicativo de una notable asimetria en Ia distribucién. Para ver si esa media de 0.ee conctante alo largo do los distintos valores ex (supuesto quinto), en cuyo caso también se cumpliria la no correlacion entre e,y 4, (supuesto sexto), se puede proceder a la construceién del grafico {que cruza los residuos con los valores predichus de le vat iable depeudicnte Este puede obtenerse de modo facil con escribir ras tna regresin el co- mando rvfplot, que representa la nube de puntos de los residuos versus los mp a [soi | ‘como consecuancia de eeta instruccién, aparsooré cl siguiente grafico: GRAFICO 10.1. Nabe de puntos de los residuos En este ejemplo es obvio que el valor medio de los residuos cambia con los valores ajustados, que en este caso, como sélo se dispone de wna varia = 330 (CUADERNOS METODOLOGICOS 43 ble independiente, coinciden linealmente con los valores de esta. Se nota ‘emo en los valores mas bajos de la variable independiente, los residuos vay descendiendo a medida que aquella aumenta, pero a partir de determinado valor (aproximadamente los 50 afios de valor ajustado). Ia media del valor cesperado de los residuos va haciendese cada vez mayor ‘Otro requisito que puede verificarse de modo facil con Stata es la suc phesta normalidad en Ia distribuctén de los residuos (eupuesto cuarto). Pong ello hay diversas posibilidades. La primera y mas simple es a través del ‘examen estadistico de los coeficientes de simetria y curtosis. Se dispone de lun comando, que no eélo los calcula, cino que también realien urta prac. ba estadistica sobre ellos para ver si Son significativamente distintos de la hhipotesis normal. La orden sktest permite realizar estas operaciones cou tal de expresar las variables cuya normalidad se desea verificat- Feta pricba estadistica 28, en realidad, una comprobacién de que sime lufa y curtosis son iguales que los que la distribucion normal presenta. ILUSTRACION 10.2, Asimotria y curtoste de los residtwos En este caso, los residuos, tanto normales como estandarizados 0 stu- entizados, presentan una distribucion asimétrica, pot lo que no puede afin. ‘arse que su distribucién sea normal. ‘También pueden utilizarse para comprobar la distribucin de la normal las pruebas de Shapiro-Wilk y'Shapiro-Francia, cuyas drdenes respectivas son swilk y sfrancia sequidas de la lista de variables cuya normalidad se de sea comprobar: De este modo, con las dos siguientes instruciones: se obtienen las mismas conclusiones que con las prucbas de simetria ¥ curtosis, pues en cada variable puede rechazarse con un nivel de significa- ‘ion inferior al 0,05 la hipétesis mula de que la distribucién es normal. [ANALISIS DE DATOS CON STATA 331 ILUSTRACION 10.3. Pruchas de normalidad de los residuos GEE a“ iaten Gone oaoes Finalmente, de un modo gréfico, también puede comprobarse cuin dis- tinta es de la normal la distribucion de los residuos mediante la ayuda de srificos. A este respecto podrian utilizarse tanto un grafico de probabilidades {pnonm) como de cuantiles (grorm), 0 el de superposicin de las dos distribu- cfones mediante I instruccién kdensiy, seguida de la opeién normal: ad «que daré lugar al siguiente grifico de frecuencias de una y otra dis- ‘wibucion. GRAFICO 10.2. Comprobacién grifica de la normalidad de los residuos Otro de los diagnésticos que han de efectuarse a toda regresién es el de la homocedasticidad (supuesto septimo). Se entiende por esta proptedad el 332 (CUADERNOS METOPOLOGIOOS 45 hecho de que las varianzas residuales sean las miamas independientemente de los valores de las variables independientes y, por extensién, de los valores, predichos de la dependiente. Por ello, Ia formulacién expresada en (10.7) puede seformulasse nsediante le siguiente expresion: Var(eslii) = a 20.3) El medio grafico idnco para observar Ta presencia de heterocedasti. cidad es el que cruza residuios con los valores predichos de la variable de- pendiente, que se obtiene mediante la instruccién rvfplot, como se ha visto anteriormente y ya se ha ejemplificado en el grafico 10.1. ‘Stata dispone, no obstante, de una prueba que da cuenta numéricamente de la existencia de la heterocedasticidad. Se trata del test de Cook- Weisberg, (1983), que se obtiene especificando Ia instruccién hettest tras la ejectician de una regresién. Asf pues, ras la regresion de Ia tasa de mortalidad infantil sobre el producto nacional bruto per cépita, al escribir la siguiente linea: [nsAIASIS DE DATOS CON STATA 333 1 “Foam 019 VIF ‘Mediante el programa Stata se pueden obtener estos indices de multi- ‘colinealidad, al introducir la instruccion vif después de una instruccion. De fste modo, si se introducen estas dos instrucciones: regies tn pops lintine pibae af . se obtendré como resultado de la segunda el siguiente listado de va- riables independientes: ILUSTRACION 105. indice de multicolincalidad en la regresién méiltiple hettest - | . se obtiene el siguiente resultado: ILUSTRACION 10.4. Prucha de heterocedasticidad de Cook y Weisberg Como allf mismo se expresa, el valor de la hipétesis nula es el de va- rianza constante, Como em este caso el z' con un grado de libertad tiene tun valor superior a 12, con una probabilidad inferior al 5%, ha de recha- zarse la hipétesis de homocedasticidad. Por tanto, se esté ante un dato adicional que nos hace desconfiar de la estimacion de minimos cuadrados ordinatios. La ausencia de multicolinealidad es otro de los criterios (supuesto oc- tavo), aplicable s6lo en casos de regresién miiltiple. Por multicolinealidad se entiende la correlaci6n entre las variables independientes. EI criterio mae itilizda pra detectarla es el de la tolerancia (complementario del coeficiente de determinacién miiltiple de una variable independiente con 1 resto) 0 su inverso, conocido como factor de inflacién de la varianza (vr). Enesta tabla se detecta alta colinealidad, sobre todo entre las varia- bles pnbppa y lint/no, Como regla sugerida, se recomienda que el factor no wupere el valor de 10, lo que equivale al 0.10 de su inverso o, dicho de otro mode, cuando una variable de la ecuacién tiene un coeficiente de correlacién miltiple con el resto de las variables superior a 0,95, los problemes de eficiencia de los estimadores serin muy elevados. Con flgo mas de rigurosidad, no deberia aceptarse la inclusién de varia- bles con VIF superiores a 5, equivalentes a coeficientes de correlacién e090. De modo grafico, aunque imparcial por sélo recoger relaciones riadas, se puede recurrir a la matriz de nube de puntos entre las variables Independientes para ver st entre alguna de ellas se produce alguna evidente y fuerte relacién lineal. ‘graph matrix pnbppa lintino pibag, half name(G3) De este modo, se genera el siguiente resultado, en el que claramente se vela peculiar relacién lineal entre el producto nacional bruto per cépita y el himero de lineas telefonicas por cada mil habltantes. ‘CUADERNOS METODOLOGICOS 45 GRAFICO 10.3. Matris de mubes de puntos Otro requisito, especialmente relevante y critico, en las regresiones con series temporales, es el de la independencia de los residues (supucsto nos no). El par de estadisticos mas utilizados para detectarla es cl de Durbin ‘Watson y el de Breusch-Godirey, que deberfan ser vistos con mayor profen didad en un tema relacionado con este tipo modelos que emplean datos ob tenidos regularmente en distintos periodos de tiempo, que no-es cl caso de este capitulo. ‘Mas importancia en este contexto ‘mo, que se refieren 2 que en la pobla. . lineal ya que la variable dependiente dependa efectivamente de los predic tores que.se han especificado en la ecuacién, Si en la poblacién de'la que se extraen las muestras no se da una relacién lineal o si se excluye alguna variable fundamental en la ecuacién de regresién, los estimadores pbtetides mediante la muestra estarsin sesgados, salvo en el improbable caso de que la ‘omitida tenga correlacién nula con el resto de las variables del modelo. Indicios de modelos no lincales 0 de incorrectas especificactones (supucs- tos décimo y undécimo) se deducen a través de bajos coeficientes de determi, nacién, altos errores tipicos de los parémetros, ata autocorrelacién o dist buciones no normales de residuos. Adems de ello, Stata cuenta con un test (el de Ramsey 1969, ovtest) que permite verificar los errores de especilicacion, Existen dos modalidades: en la primera se afiaden los términos cuadados, et bivos y a la cuarta de fos valores predichos, para ver si estos son significativos; en Segunda, que se obtiene mediante Ia opin his, lo que se aan so ls Potencias de las variables independientes, sempre y cuando no sean fcticine Como otras instrucciones de diagndstico, esta ha de especificarse des- pués de la regresién correspondiente. Un ejemplo nos milestra cémo con tun ligero cambio de las variables se pueden corresir estoe problems de nh0t5ts DE DATOS CON Stara lugar, ntti ae sficacign, En primer lugar, se realizan los diagndstcos de la. asa read infant epresaa con el prodato nacional rato pe CS regress ti pabppa ____— 4 El resultado muestra tna diferencia significativa de consideracién. LUSTRACION 10.6, Pra de Kameey soe omisn de vasa m ‘en Ia regresién regular ae Uimicse rioies ris vo eaoe ‘Sin embargo, al transformar las variables en sus logaritmos, es preciso roolizar de nueua Ta priieha. | for var ti pnbppagenerateLXeln08) regret emi pape En este caso, con los datos obtenidos, puede no ser rechazada la hipste- sis mula de que él modelo no ha omitido variables importantes. im de vasables LUSTRACION 10.7. Praca de Ramsey sobre om m ‘en la regresién logaritmica srtcon también pucdon sor Sle om I deteccim de Hincalidad en tara nie ne vrble selaconndas Adena del fico wnt ante Sormonte que enna as Taciones bivariadas ene las vonble, pueden ‘soos ies ae eos pcg ea aa ee Serre de ar eso com cl evade yw Ines or el Jo tos readuos de la Variable independiente obtenidos trae 2Felacass dependiente del resto de las Independiente. La pendiente de sac ic no Se ots cosn que ol coeficiente prcal de la represion 336 ‘CUAERNOS METODOLOGICOS 45 {La instruc el de efecutar: Basta con eseibir alos. Si a expect. fica, se generar un grafico por cada variable independiente, Caso de que sega ra slo el grafico de una variable la intrucein ha de expictuse on snguy (cpl), seguida dela variable independiente que se desee represents Yann se quleran todos los rafics, ex peferible para cor detale bene tele duaimente. Otro agpeco que ha de tense en cena & que ea festucen ne elo asters, puede tla Sempre a prt las opciones propias dein instruction graph De este mono, caus oes aoe se podian objenergréficos con ls etiguetas de los cane presents en la no de puntos. Asien la tegrsin del ingortme de a tan de eves needs funci del logaritmo del product nacional rato pr cipta dela inea ee foricas por mil habitantes, se pusden generaros grafico: de ee med regress Limi Lpnbppa lintino avplot Lpnbppa, mlabel(pais) Jvplot lintino, label (pals) ANALISIS DE DATOS CON STATA aT GRAFICO 10.4. Grifico de residuos dependientes sobre los independientes (axplon) A pari de lo que se generaran una regresion (log lg) y ds géfcos, el ‘segundo de los cuales adoptaria el aspecto del grafico 10.4. ori ILUSTRACION 10.8. Regresién (log-log) de la tasa de mortalidad infantil sobre producto nacional per edpita y néimero de lineas telefénieas Tnelns | “isbsaeee “honey En el cje de orenadas se representan los restduos dela variable dependien- te obtenidos con su regresion sobre el Iogaritmo del producto nacional per ef pita y en el eje de abscisas se representan los residuos de las ineas telefnicas ‘obtentdos en su regresion sobre el logaritmo del producto nacional per capita, esto es, el resto de las variables independientes, Es preciso notar que la lncli- nacién de la linea representada es el coeficiente parcial de represion mltiple anotado también en la parte inferior del grafico, junto con su error tipico. Lo ue hay que comprobar, para verificar el supuesto de linealidad, es que no haya ‘una pauta curvilinea 0 plana de distribucién de los casos ‘Se han visto las hetramientas de las que dispone Stata para detectar el in~ ‘cumplimicnto de los supuestos de la regresién. Para acabar este apartado no ‘teria de més realizar un compendio simplificado de elas, viendo sus efectos y SImodo de detectarlas. La mayor parte de ellas inciden en la baja eficiencia de {os estimadores, es decir, multiplican Ia posibilidad de que obtengamos una es- limaci6n alejada del valor correcto, Los incamplimientos que generan s6lo pro blemas de eficiencia son la heterocedasticidad y la autocorrelaci6n. La primera se detecta mediante el grfico de residuos sobre los valores predichos (rplot) y Se modo onda preciso con ol test de Cook Weisberg (hettest). La segunda con el ‘stadistio de Durbin-Watson, aunque en principio no deberia preocupar siem- pre que no se tengan datos de series temporales. La multicolinealidad también Fenera problemas de ineficieneia e incluso puode Heyar a acer que sean in- Ealeulables los parsimetros de la regresi6n, en el caso de que sea perfecta. Su odo de detecein es a través de la tolerancia 0 del factor de inflacion de la Varlanza obtenido mediante Ia orden vf. Si las perturbaciones no son norma |es, los estimadores, ademés de ineficientes, no estarin distribuidos normal- ‘mente, por Io que no seran validas las pruebas de signficacién. Ademés, si las Thedias de las perturbaciones no son 0, los parametros seran segados, especial mente peligroso, sila esperaniza de las perturbaciones es ademés inconstante, ponaue afectaria no sélo ala constante, sino también a los coeficientes de las ‘ariables. Finalmente, l problema principal es que la matriz de las variables Jndependientes sea estocdstica y ademas correlacionen las variables regresoras ‘con ln términos de perturbacién. En dicho caso, las estimaciones poseerén importantes segos y no serén ni eficientes ni consistentes. Estos problemas son detectables principalmente a través de grificos de residuos con las variables {ndepondientes y con la prucha de Ramsey (ovtest) a8 ‘CUADERNOS METOROLOGICOS 45 10.2. Anilisis de los casos en la regresion Ademés de verificar que se cumplen los supuestos de la regresiGn, es Gil ‘examinar el comportamiento de los casos, por cuanto estos pueden sesgar ‘el comportamiento de los estimadores de fos parémetros. Hay tres tipos de ‘medida que deben examinarse para ver si existen casos que pueden estar perturbando una regresin. En primer lugar, los ya conocidos residuos, de los que ahora se estudiara no su comportamiento conjunto, sino el particu- lar de cada caso. En segundo lugar, estén las medidas que ponderan la car- ga de las variables independientes, de modo que tengan puntuaciones mis fltas mientras valores més extremos tengan en estas. Y, finalmente, estén aquellas puntuaciones que reflejan de uno u otro modo su contribucién a Toe coficlentes, a los valores predichos o al error estimado de la regresian. Las primeras de estas puntuaciones son los residuos. Asi como anterior. ‘mente veiamos sus promedios y sus distribuciones, ahora resulta ms pro- plo el ckamen de los valores extremos, Para ello, 20 dispone en Stata tanto {de herramientas numéricas como graficas. ‘Entre las primeras esta la instruccién fist, que en conjuncién con la ins- tuccldn sort y la especificacion if, puede dat Cuenta de anodo ordenado sdio de los casos que tengan valores extremos. 'Asi, después de la regresion de la tasa logaritmica de mortalidad infantil ‘con el logaritmo del producto nacional per capita y las leas telefonicas,y ras Ja ya efectuada generacién de los distintos residuos, se pueden localizar aque- Tos casos con valores extraordinarios, si asf se consideran aquellos cuyo valor ‘esta 1,96 desviaciones tipieas por encima 0 por debajo de la media aritmética: for any rr rt\any residual rstandar rtudent: predict leniX, Y ‘Mediante estas instrueciones, se crea una variable con los valores absoli- tos de los residtios para poderlos ordenar descendentemente por su tamato, ‘,finalmente, se seleccionan los pafses que han entrado en la regresi6n'™ con. valores absolutes tipicos o studentizados superiores al punto critico de 1,96, ‘correspondiente al nivel del 5% (por ello, en condiciones de normalidad, de- berian aparecer aproximadamente en el listado cinco de cada cfen casos). El resultado en la regresién comentada es el siguiente: (oA elise na rogrecldn, Sata rg na seed seatadoey stmacionee i sombre espctico. Una de Tas més ese In funcion camp). que esate sleciont ‘lo que ban entra en la tima gies al expecficaria dene de una elisa eu fasten posterior ANALISIS DE DATOS CON STATA 339 ILUSTRACION 10.9. Listado de residuos ae Ease esa Como puede apraciarse, unos son positives lo que indica que san pafsns on uma tasa de mortalidad infantil superior incluso a la esperada con su. producto nacional bruto per cdpita y niimero de Iineas telef6nicas; otros son ‘ezativos, on cl caso de que Ins variables independientcs predigan tasac de ‘mortalidad infantil més bajas de las reales. ‘Un modo grifico y feil de detectar los valores residuales extraordinarios ce mediante lon gisificus de caja, nveiante Tos que se Considers andmalos los residuos alejados del promedio vez y media el rango intercuartilico y se denominan extremos, si se desvian del promedio tres veces dicha cantidad, IMediante Stata puede solicitarse al mismo tiempo la representacion de los residuos tipicos y studentizados. label var Itmirs ‘Residualesestandarizados" label var Itmirt"Residualesstudentizados” graph box lemire ltmnire, GRAFICO 10.5. Grafica de eajas de lox residuos tipicos y studentizados + 340 (CUADERNOS METODOLOGICOS 45 Como puede ficilmente apreciarse. en el grifico sélo considera caso desviado cl de Tayikistin. Los demés eatin dentro de ls limites marcados por las extensiones dl rangointercuartico. ‘Una de lao medidas para indica ol peso de wn caso en la regresisin ce a “carga” del caso, entendiendo por ello una medida de la distancia entre cada_ punto observado y el centro de todos ellos en el conjunto de variables X. Tinta sida procede dela rontre proycccién (i, qi es Ia que conver te los valores reales de y en valores predichos, de acuerdo con la siguiente expresin: ¥-By, (40.15) ‘La matriz Hse obtiene a partir dela matciz X de valores diferencales de , es deci, (8), ala que se le sgrega como primera columna el vector de unos, que representa laconstante, de acucrdo.con la siguiente expresion matricial H= XOX)" (10.16) La matriz Hi es una matriz de orden n x n. Los elementos de la diagonal de H son las llamadas cargas (leverage), que toman un valor comprendido fentre Jin, on la circunstancia de que un caso tenga los val todas las Variables igual a sts respectivas medias, y 1, cuando un individuo pose valores totalmente extremos en todas las variables. ‘Mediante Stata estas cargas pueden calcularse mediante la opeidn leve- rage 0 hat de la instruccion predict seguida del nombre de la nueva variable ‘con la que serdn reconocidas. men predict carga, Con esta instruccién se anade una nueva variable al archivo de-datos amada carga, cuyos valores extremos pueden ser listados. En este caso, ppara listar Ios diez casos con mayores cargas, puede procederse del sigulen- fe modo: sort carga list pais Lpnbppa lintfno carga in 1/10 Exponiendo en la lista Ia variable que identifica el caso (pais), Ias varia- ies independientes y cl indice de carga ANALISIS DE DATOS CON STATA aa ILUSTRACION 10.10, Listado del indice de carga sels rone feats ees SCO asseeci Otel. fgg Baten | Geen easton aR PE ets Senet eae ‘Como puede apreciarse han sobresalido dos tipos muy distintos de paises: por un lado, Suecia, Suiza, Dinamarca, Noruega, Bstados Unides y Canad tienen valores altos tanto en PNB como en teléfonos y, por el otro, Sierra Leo- na, Tanzania, Burundi y Malawi los tienen bajos en ambas variables ‘dems del listado, es (til una representacion grafica de estos valores cruzados con los residuos. Esta opcidn se obtiene inmediatamente com la corden lor2plot. GRAFICO 10.6, Grifico de cargas sobre residuos normalizados al cuadrado En este grifico, se ve gue, con la excepcién de Estados Unidos, el resto de los paises que tienen alta carga (por encima de Malawi) poseen bajos re- siduales, por lo que no han de preocupar en la regresi6n, por mucho que sus cargas en las variables independientes sean considerables. Para obtenerlo, ha introducide la siguiente instruceién a saz CUADERNOS METODOLOGICOS 45, ‘er2plot,mlabelipals)yle(Carga) stile Resides normalizados al canara) | |, Una medida de la contribucién que un caso tiene en un coeficiente de regresion es dfbera, que representa el cambio en desviaciones tipicas que Sufte cl cocficlente do una deierminada variable al incluir un nuevo caso (Belsley 1980), Su formula es, pues, Ia resta de los dos coeficientes (con y sin la unidad afiadida) dividido por el error tipico,de esta dima, que se ob tiene al dividir el e11o: tipivy de la vegresidn sim el easo'en cuestion (Gq) por Ta rafz cuadrada de la suima cuadrética de los residuos de una regresion en la que la variable dependiente es aquella (k) de la que se calcula el cocficien- te, 9 los predictores son el resto de las variables independicntes (YSCRrs, ) ln bay $eiy/V SORES. DFBETAx ao. En consecuencia, su valor puede ser tanto positivo (si el caso contribuye ‘a aumentar el coeficiente) como negativo (si influye hacia la baja) y puede Ser preocupante en el caso de que el valor absoluto sea superior a 1, pues modificaria el valor del coeficiente de regresién en més de un error tipico, ‘Sin embargo, Belsey (1980) sugiere que se compare con 2/ Jn. El modo de obtener estas medidas es especificando la instruccion dfbeta después de una regresién. En el caso de que no se mencione ninguna va- ‘Hable, caleulars para cada caso las de todas las variables. A continuacién ‘se muestra la lista completa de instrucciones para que queden listados los ‘casos que superen el cociente mencionado en el anterior pitrafo. regress Ltmi I_pnbpps linting ‘beta lise pais df if (beta 152/sqrt(e(N)) | beta 2>2eqrt(W) & elsample) Es de notar que estas nuevas medidas son denominadas como _afbeta_#°8, También debe aclararse que el ntimero de casos de una regre- Sign queda registrado en el programa en la constante e(N). Asf pues, el re- sultado de la ultima instruceién muestra todos los casos en los que cual- quier valor de dfbeta es mayor que 2/n ‘Dt Ba versiones anteriores de Stata se denominaban con el nombre dela variable ine pendent precedila po as ores maysculas DE ANALISIS DE DATOS CON STATA os TLUSTRACION 10.11. Listado de las djbetas So ERE CBs eee | como puede aprectase, en ambas variables (mip y ls) ol ANALISIS DE DATOS CON STATA 359 En este grifico todos los puntos aparecen précticamente en ta recta, 1o «que indica una alta igualdad de los pesos en la regresiin ponderada en ln pentltima y en la dltima ponderacién. Un ejemplo de ello nos lo proporcio. ran los pesos extremos: cn el superior, av hay ninguna variacion, Tete on 4a escala de la “vieja” ponderacién como en la de la nueva, l valor mayor es de 0,999997. En-cambio, se nota una pequetia diferencia en el caso con menor ponderucién, pues este en la penullima iteracion tiene un valet de 0200245 y en Ia tiltima de 0,198912. Aunque no pueda apreciarse, Ia recta ‘marca los puntos en los ue w, =, ‘Aunque el programa 7reg no sea capaz de mostrarlos, es util ver los gri- ficos de este tipo que se generarian en anteriores iteraciones distintas de la altima, en la que, salvo que se ponga la tolerancia muy alta, priceunente todos los puntos deberian coincidir con Ia recta, GRAFICO 10.9. Secuencia de srficos de In regresién rebut. reg Limi L_pnbppa lintfno, graph aparece el siguiente gratico: GRAFICO 10.8. Grafico de comparacién de las ponderactones de la regresion robusta En cl grafico de la izquierda aparece el cruce de pesos tras la primera ‘teracion. El punto de partida (el antiguo peso) es que todos los casos tem gan la ponderacion igual a 1, pero, segtin los criterios de Huber, aquellos ue estén por dos veces alejados de la desviaciGn medliana reciben we pes ‘nto menor cuanto mas alejado esté de aquella. Por otro lado, ala derecho, parece el cruce tras realizar el paso de iteraciones de Huber a Biweights, {10s casos alineados en el extremo superior indican todos aquellos que por alsiarse poco del valor de la mediana Huber los ponderaba con la anidact fins caso de biweight, estos casos se ajustan no a una igualdad, sino a una formula y por eso no Son exactamente igual 1 ni tan siquiera en el prt ‘et paso. El resto son tanto més parecidos a los anteriores cuanto me se Uubiquen en el centro, adoptando la relacién tina forma eurvilinea. El programa meg contiene otra opcidn yue permite cambiar el Himite @ partir del cual deja de realizar iteraciones. Se trata de la opeién tolerance), {te deja de realizar una nueva iteracién en busca de nuevos pesos, cuanto mayor diferencia entre la aiterior y la posteriot es menor Que el summers a 360 CUADERNOS METODOLOGICOS 4s proporcionado, # que obviamenté ha de estar comprendido entre 0 y 1% Tambien puede limitarse el niimero de iteraciones directamente, mediante la opcién iterate(4), cuyo valor por omisién esté fijado en 1.000. Si atin no hha convergidy la sulucion y ya se ha aleanzado el niimero de iteraciones so- eltadas, entonces el programa se detiene sila dltima.ha sido una iteracion biweight, mientras que sila titima ha realizado una Huber, aplica una del ‘otro tipo para cerrar el proces. ‘Una de las opciones ids stiles del programa de la regresién robusta es Ja que genera una nueva variable que contiene los pesos finales obtenidos trad Tas sucesivas iteraciones, Se trata de la pein gerw¢(nombrevariable), tas la gue los resultados de la regresién son invariantes. Su utilidad consis te en poder disponer para cada caso de la ponderacién que ha sido utilizada para obtener los parametros finales. Si de desea conocer cuales han sido los paises que menos peso han tenido en la regresién, deberian afiadirse dos Instruceiones a la de la regresién robusta con Ia opeién sefialada. reg Limi _pnbpps linino, genwt(w_ limi) sor w lent [isto wim in 10 thas Jo cual aparecen listados los diez pafses con pesos menores en la regresign robusta: ILUSTRACION 10.28. Lista de pesos de los casos en la regresi6n robusta ‘Uno de ellos est manifiestamente infraponderado, contande com menos de un guinto de su valor, y otros seis mas tienen una ponderacién que no Tega a su mitad. "= Ese limite funciona pea las poderacions biweigt; para las Huber, se utiza com init este mismo numero maiapuead pon 3 NALISIS DE DATOS CON STATA son Fs convenient resaltar dos aspectos muy importantes de la regresion robusta, El primero de ellos cs que, como eh toda Tegresion de minimos uadrados ponderados, si ealculamos st coeficiente de determinacién, Si valor sera inferior al de minimos cuadrados ordinarios. Esta es una ar las razones por las que su valor no aparece en la sala. El segundo fs que sdlo es adecuada para solucionar problemas de los residuos, pero Sb tos hay sv procure rocnltado any similares a Tos de Ta reere- Sin normal, pero equivocados,en el caro de que los datos poblacionales amplan los supuestos del modelo. Un ejemplo visual de estas cuestiones IDofvoce sl erifice que a continuacign se expone. Se han realizado ene tio represiones: des Hincales ¥ dos loplog y cada umo de estos pares se ha ajustado por mimimos euadrados ordinarios y con regresién robus- th Como puede apreciare, las diferencias entre Ina doo sitimas modal {fades son minimas, en caimbio, las regresiones meramentelincales son fm distintas de las otras en Ia medida en que estan afectadas por un gan error de expecitcacton GRAFICO 10.10. Grifico de comparacion de regresiones “esa wot ina Para pot rfc anterior ool a a vara deere e a ‘asa de moraldad infantil la independiente el producto nacional brato per Clpita y la de control, el ntmero de lines tleonicas™, sea ulllzado la Siguiente lista de instruccfones Et ti vie et noc en eine ood control: Parl tha 302 (CUADERNOS METODOLOGICOS 4 [ANALISIS DE DATOS CON STATA 363 ‘summarize lintfn0 focal xtino=r(mean) regress trni pubppa lintino matrix coef) (generate €tmiacoctt 3] reg tmi pnbppa Tinting matrix reoef=e(b) {generate rtminrcoel1 s}coef{1,1})pnbppssreoeUt 2)" atin regress Limi L_pnbppa lintino ‘matrix coafeetb) [onerate t]_tmix-coeff1,3}seoe1,1}*Lpnbppascoelt,2)"xtin! generate tmiy-exp(l_tnix) ‘reg Ltmi Lpnbppa lintine matrix reoel=e(b) generate rl tmix-rooef{1 Shreve, 11 pabppasreoeft,2}*xtfno! (Generate rl tanyenp(tl Um) label variable ttl "Tasa predicha lineal” label variable = mi "Tasa predicha lineal y robusta’ Iabel variable Limly "aca peedicha Tow-log" label variable nti "Tasa predicha log-log y robusta" scatter tLtmiy t_tmly tml _tmi pnbppa, connect (1-1) symbol(o .0 ) ff eio("Tase de mortalidad infant") zorpnbppa) name(8. replace) I pulpparcoel 2} tine! 10.5. Regresién de cuantiles ‘tro modo de conseguir regresiones robustas es Ia de realizar modelos ba- ‘sados en Ia estimacion de la mediana, o cualquier otra medida de localiza- ‘ion. en lugar de la media. Esto, en un primer momento, permite que los Valores exiremos de la variable dependiente tengan menos influencia en la Configuracion de la regresién, En efecto, en lugar de intentar predecir la media dey para cada valor de x, se trata de predecir la mediana. Por ello, Th ecuacién de este tipo de regresicn se expresa del siguiente modo: Qslvi) = Bo + Bri + Bata + + Bere +6 aoa) _. sicndo p un mimero entre 0 y 1, ambos excluidas, que represen. ta ei cuantil sobre el que se quiere realizar la regresién. El caso més comiin, que adopta el programa por omisiOn, es el del valor 0,50, que representa a la medians, De este sudo, al escribir la siguiente instruc- cién. [eset 4 ss ofrecen las siguientes estimaciones de los coeficientes de la regre- ILUSTRACION 10.29. Regresién de cuantiles tesa (tn of sx! ton cetine sR aire alle Geetataone $002 (above 20) e is St SSesbetons Grae rents ce) rte ene gd compe eimatn i atin amen aad snore leone cnn enc Jel = ae sarin re elope in geeks deatace ine se Gs fina seme ent Rites Boe Sa map reno ne) Ss en a papa CO. ls 9 es Se PE en er Freemans engin Sa ea pea oe eee aaa eo eta coed mao r | HLUSTRACION 10.30. Matriz de ejemplo para la regresion de cusantiles y la regresion adoptarfa el siguiente aspect:

S-ar putea să vă placă și