Documente Academic
Documente Profesional
Documente Cultură
net/publication/327667048
CITATIONS READS
0 2,920
2 authors:
Some of the authors of this publication are also working on these related projects:
All content following this page was uploaded by Andrés Santana on 15 September 2018.
Manual de Stata
Breve guía de estudio. Tema 3. Análisis de una variable
(Andrés Santana: andres.santana@uam.es y José Rama: jose.rama@uam.es)
Para saber más: Santana, Andrés, y José Rama, Manual de Análisis de Datos con Stata (Madrid,
Tecnos, 2017) bit.ly/SantanaRamaStata
O también: Santana, Andrés, 2017, Análisis Cuantitativo: Técnicas para describir y explicar en
ciencias sociales, Barcelona, Editorial UOC, http://www.editorialuoc.cat/analisis-cuantitativo
Conviene empezar por lo más sencillo y acrecentar la complejidad progresivamente. Este capítulo
está dedicado a los análisis más sencillos, los que involucran una variable:
1. Análsis descriptivos.
1.1.Univariantes. Estudian la distribución de cada variable de forma aislada.
1.2.Multivariantes. Estudian la distribución conjunta de dos o más variables.
2. Análisis explicativos. Estudian relaciones de causa-efecto entre dos o más variables.
De manera trivial, los análisis univariantes se pueden hacer para una sola variable. También se
pueden hacer para más de una, siempre que resuman la distribución de cada una de forma aislada o
individual, sin relacionar a las variables entre sí. Por definición, los análisis univariantes son
siempre descriptivos, ya que no dan pie a preguntarse por la existencia de relaciones de causa-
efecto entre dos o más variables. Por eso, se los llama análisis descriptivos univariantes (ADU).
Para seguir los ejemplos de este capítulo, debes cerrar la base de datos sin guardar los cambios del
capítulo anterior, volverla a abrir, mantener solo las variables SEXO P3601 P3602 P41 P51 P7 P31
P35 EDAD P73, y crear P35r tal y como lo hiciste en el capítulo 2.
clear
use13 “cis3126.dta”
keep SEXO P3601 P3602 P41 P51 P7 P31 P35 EDAD P73
generate P35r = P35 if P35 < 98
19 | 63 1.01 2.07
20 | 69 1.11 3.17
21 | 61 0.98 4.15
71 valores más tarde…
93 | 2 0.03 99.95
94 | 1 0.02 99.97
95 | 1 0.02 99.98
96 | 1 0.02 100.00
------------+-----------------------------------
Total | 6,242 100.00
Obviamente, una tabla así sería de escasa utilidad. La mejor manera de describir Vs (que suelen
tener muchos valores diferentes) es recurrir a estadísticos descriptivos univariables (EDU) que
resuman sus características principales sin detenerse en la frecuencia de cada valor. La orden más
usada para ello es ‘summarize’:
summarize EDAD
Con ‘summarize’, obtienes el número de casos (N), dos estadísticos de localización (el mínimo y el
máximo), el estadístico de tendencia central más empleado (la media, μ), y uno de los estadísticos
de dispersión más populares (la desviación estándar, σ):
Variable Obs Mean Std. Dev. Min Max
EDAD 6242 50.00705 17.66387 18 96
Aunque se trata de un resumen “básico”, te confiere una idea razonable de la edad de los
encuestados: el más joven tiene 18 años, el mayor, 96, y la edad media es de unos 50. La
desviación estándar es una medida de la dispersión de la variable: cuanto mayor σ, mayor es la
dispersión y, por consiguiente, menor es la capacidad de la media de representar el valor “típico”.
Visto el éxito, todo lo que tienes que hacer es pedir un ‘summarize’ de las otras Vs:
summarize P35 P35r P73
No tan rápido: es obvio que algo va mal. El valor máximo de P35 (la autoubicación ideológica,
medida en una escala de 1 a 10) no puede ser 99, y su media no puede ser 17.
Variable Obs Mean Std. Dev. Min Max
P35 6242 17.27571 32.06418 1 99
P35r 5400 4.636481 1.979961 1 10
P73 6242 22.80583 134.3084 0 999
El problema se debe a las categorías de no respuesta: si comparas P35 con P35r (la copia refinada
sin las categorías de no respuesta), observarás que el máximo y la media de P35r (10 y 4,6) sí
parecen razonables. P35r tiene 5.400 casos válidos (842 menos que P35).
Por cierto, ¿te has dado cuenta de que, aunque apenas has empezado a analizar datos, ya has
obtenido un resultado relevante? Has revelado que, en una escala de 1 (izquierda) a 10 (derecha),
la ideología media de los encuestados se sitúa en 4,6: este resultado es coherente con la idea de que
el electorado español está algo escorado a la izquierda.
Recordarás que habíamos hecho “trampa” y habíamos sacado una copia de P35 que desechaba los
valores no válidos, sin justificar por qué excluíamos los valores mayores que 97. El ‘label list’ te
muestra la razón: ‘N.S.’ está codificado com 98 y ‘N.C.’, como 99:
P35:
1 1 Izquierda
10 10 Derecha
98 N.S.
99 N.C.
En realidad, yo sabía que había que excluir el 98 y el 99 precisamente porque había sacado un
‘label list’. P3601 y P3602 (identificación ideológica atribuida al PP y al PSOE), comparten
etiqueta de valores con P35, con lo que también prescindirás de los valores mayores que 97. Algo
similar aplica a P41 (autoubicación nacionalista, de menos a más):
label list P73
En P73, ‘No recuerda’ vale 998 y ‘N.C.’, 999. Incidentalmente, fíjate en que los dos primeros
valores de P73 tienen etiquetas: ¿vale la pena aclarar que 0 = ‘ninguno’ y 1 es ‘1 libro’?
P73:
0 Ninguno
1 1 libro
998 No recuerda
999 N.C.
Ya tienes toda la información para “refinar” tus variables: válete de ‘generate’ y especifica que la
instrucción solo aplique para valores menores que 98 o, en el caso de P73, 998:
generate P3601r = P3601 if P3601 < 98
generate P3602r = P3602 if P3602 < 98
generate P41r = P41 if P41 < 98
generate P73r = P73 if P73 < 998
Como sabes, las “copias mejoradas” de las variables que así has creado no preservan las etiquetas
de valores: esto es deseable, ya que son Vs. Sin embargo, también has perdido las etiquetas de
variables. Para que sepas qué información contienen, créaselas con ‘label variable’ (puestos en
materia, aprovecha para darles etiquetas más breves):
label variable P35r “Ideología (1-10)”
label variable P3601r "ideopp (1-10)"
label variable P3602r "ideopsoe (1-10)"
label variable P41r "nacionalismo (1-10)"
label variable P73r “Libros leídos (N)”
Describe algunas de tus nuevas variables y compáralas con las originales:
describe P35 P35r P73 P73r
Todo está bien. Tus nuevas variables tienen una etiqueta de variable más sucinta y no tienen la
(potencialmente engañosa) etiqueta de valores.
var.name stor.type display.format value label var. label
---------------------------------------------------------------------------------------------------
P35 byte %16.0f P35 Escala de autoubicación ideológica (1-10)
P35r float %9.0g Ideología (1-10)
P73 int %16.0f P73 Número de libros leídos en los últimos 12 meses
http://bit.ly/SantanaTwitter | http://bit.ly/SantanaFacebook | 4
La tercera columna aporta siete estadísticos: el número de casos, la suma de pesos, la media, la
desviación estándar, la varianza (esto es, el cuadrado de la desviación estándar), la simetría
(‘skewness’ = coeficiente de asimetría de Fisher = λ3) y la “curtosis” (coeficiente de curtosis = λ4).
La suma de pesos solo difiere de n si aplicas pesos, algo que no harás este curso. Una variable es
simétrica si su “lado izquierdo” y su “lado derecho” (el centro es la mediana) son iguales, y es
asimétrica positiva (negativa) si tiene una “cola” a la derecha (izquierda). La curtosis mide “la
dispersión de la dispersión”. Una curtosis de 3 es “normal”; si es mayor que 3, indica que la
variabilidad se debe a pocos cambios, pero de gran magnitud, y gráficamente se traduce en una
distribución “picuda” o “apuntada”.
http://bit.ly/SantanaTwitter | http://bit.ly/SantanaFacebook | 5
.01
.005
20 40 60 80 100
Edad de la persona entrevistada
Los gráficos también son ideales para ver si una variable tiene una moda (valor más frecuente) o
varias, lo cual importa en los modelos multidimensionales del voto y los estudios sobre la
agregación de preferencias individuales para hallar un “bien común”.
Saca gráficos de puntos para la ideología atribuida al PSOE y la autoubicación nacionalista:
dotplot P3602r
dotplot P41r
La variable ‘ideopsoe’ tiene un solo máximo, “pico” de frecuencias o moda: es “unimodal”.
Aunque ‘nacionalismo’ tiene un solo máximo global (‘0’), tiene varias modas locales (‘5’ y ‘10’;
de hecho, aunque por poco, ‘8’ también lo es).
Habrás notado que el gráfico que presento tiene algunas diferencias con los que tú has obtenido.
Ello es así porque he usado unas funciones algo más avanzadas para mejorar su aspecto.
http://bit.ly/SantanaTwitter | http://bit.ly/SantanaFacebook | 6
del total) valoran la situación política como muy buena, 240 (3,9%) la consideran buena, etcétera.
La última fila muestra que 6.171 individuos responden a esta pregunta. La última columna se lee
así: un 4% valora la situación política como al menos buena (buena o muy buena), un 38,1% como
al menos regular (regular, buena o muy buena), etcétera.
Situación |
política(1-5) | Freq. Percent Cum.
---------------+-----------------------------------
Muy buena | 7 0.11 0.11
Buena | 240 3.89 4.00
Regular | 2,103 34.08 38.08
Mala | 2,395 38.81 76.89
Muy mala | 1,426 23.11 100.00
---------------+-----------------------------------
Total | 6,171 100.00
Presentar tablas no es solo una cuestión técnica, es casi un arte. Casi siempre, es necesario
editarlas. Por ejemplo, rescala las variables si su escala no es intuitiva: aquí, yo sugeriría que la
variable partiera de ‘muy mala’ y terminara en ‘muy buena’, para que sea verdaderamente
“valoración de la situación política” y no la “inversa de la valoración”.
La razón por la que la tercera columna tiene sentido con P7r, pero no con P51r es que los valores
de P7r se pueden ordenar (‘muy buena’ es mejor que ‘buena’, que a su vez es mejor que ‘normal’,
y así, sucesivamente), mientras que lo mismo no es cierto para P51r (‘casado’ no es, en esencia, ni
mayor ni menor que ‘soltero/a’, ni ‘soltero/a’ es mayor o menor que ‘viudo/a’, etcétera).
En el argot de los económetras, decimos que una W es ordinal si sus categorías se pueden ordenar.
Es posible decir si crecen o decrecen (y establecer relaciones de igualdad, inferioridad o
superioridad), pero no cuánto (si fuera posible decirlo, serían Vs). Ejemplos son la clase social
(medida como baja, media o alta) y el nivel de estudios (primarios, secundarios, terciarios). Estas
variables son muy habituales en los cuestionarios sociales y políticos.
Decimos que una variable cualitativa es nominal si sus valores no se pueden ordenar. Por ejemplo,
el estado civil o el recuerdo de voto (PSOE, PP, IU, PODEMOS, CIUDADANOS). Algunas,
pueden tener muchas categorías: la profesión, la nacionalidad o la ciudad de residencia.
http://bit.ly/SantanaTwitter | http://bit.ly/SantanaFacebook | 8
Un subtipo de las nominales son las de dos categorías. Solemos reservar el término ‘nominal’ para
las de tres o más categorías, y a las de dos las llamamos dicotómicas. Éstas son variables de
presencia-ausencia, posesión o no de un rasgo, realización o no de un acto: el sexo (mujer u
hombre) o el voto (voto o abstención).
A veces lleva a confusión que las Ws estén recogidas por números. Como sabes, en una nominal,
éstos no son números en sí mismos, sino que “representan” características o estados; son
puramente convencionales, y cualquer asignación alternativa es igual de “buena” (daría igual 1 =
casado, 2 = soltero, que 1 = soltero, 23 = divorciado). En las ordinales, los valores numéricos son
parcialmente arbitrarios (daría igual 1, 2, 3 que al revés o que 2, 5; 43, pero no 0, 2, 1).
Casado/a Soltero/a
Viudo/a Separado/a
Divorciado/a
Las instrucciones “canónicas” de Stata para obtener el resto de gráficos (‘graph hbar’, ‘graph bar’
y ‘graph dot’) requieren una sintaxis compleja. Para evitarla, lo ideal es recurrir a un “ado”. Saca
primero un listado de los “ados” que tienes instalados:
ado dir
Si no tienes ‘catplot’, instálalo:
ssc install “catplot”
Saca provecho de tu nueva instrucción, úsala para sacar un gráfico de barras de P7r:
catplot P7r
El resultado es un gráfico en el que las barras son proporcionales al número de casos. Suele valer la
pena editar el gráfico para que quede un poco mejor (como el de la derecha). Usa el “editor de
gráficos”, que puedes activar cuando tienes tu gráfico en la pantalla.
http://bit.ly/SantanaTwitter | http://bit.ly/SantanaFacebook | 9
Estado civil
Estado civil
Separado/a
Separado/a 154
Divorciado/a 256
Divorciado/a
Si, en lugar de un gráfico de barras horizontales, quieres uno de columnas (verticales), añade la
opción ‘recast(bar)’. Si quieres un gráfico de puntos, añade en lugar la opción ‘recast(dot)’. En
cualquiera de ellos, puedes optar por mostrar porcentajes en lugar de casos, con la opción
‘percent’; o probabilidades, con la opción ‘fraction’.
Creemos que con los materiales de esta guía gratuita tienes lo suficiente para entender esta lección
y empezar a realizar tus propios análisis. Sin embargo, si crees que vas a sacarle provecho a una
discusión algo más detallada de estas cuestiones, te animamos a que veas nuestro libro:
Santana, Andrés, y José Rama, Manual de Análisis de Datos con Stata, Madrid, Tecnos, 2017,
bit.ly/SantanaRamaStata