Importancia de Análisis Gráfico y No Paramétrico

Universidad San Francisco de Quito
Octubre 2010
La Importancia del Análisis Gráfico y No Paramétrico

Desarrollo Urbano en Ecuador entre 1950 y 2010
Por
Juan Sebastián Araujo D.1
1. Introducción
La gran mayoría de cursos de estadística a niveles medios y superiores priorizan en

el estudio de métodos paramétricos y convencionales, los cuales se cubren de supuestos
muchas veces limitantes e irrealistas. Asimismo, es común el uso de estimadores y
algoritmos generalizadores que pretenden representar adecuadamente un grupo de
datos; consecuentemente, es común observar el cálculo de medias, modas y cuantiles
como aproximaciones de la centralidad, y de varianzas y rangos intercuartiles como
indicadores de dispersión. Tales conocimientos son sumamente necesarios y útiles en la
teoría estadística al ser fundamento de diversos modelos y teorías, pero en la gran
mayoría de los casos prácticos no son suficientes para una exploración completa. En
efecto, técnicas como el análisis gráfico o el modelamiento no paramétrico pueden
brindar una visión más exhaustiva y correcta de la información que entregan los datos y
que, debido a la generalización, se pierde u oculta a los ojos del investigador.
El propósito central de este documento no es por ningún motivo, desincentivar o

desprestigiar el estudio y aplicación de métodos convencionales. Por el contrario,
pretende apoyar tales procedimientos con un pertinente análisis de gráficos y cálculo no
paramétrico. Para alcanzar esta meta, se usará la data correspondiente a todos los censos
poblacionales realizados en el Ecuador, diferenciada por las 39 ciudades más relevantes2
del país. Esta información ha sido recopilada de la base de datos del Instituto Nacional de
Estadísticas y Censos (INEC), y del trabajo realizado por el Centro Ecuatoriano de
Investigación Geográfica (CEDIG). Así, con esta fuente se buscará conocer la dinámica a
nivel micro durante los periodos comprendidos por los años 1950, 1962, 1972, 1982,
1990, 2001 y 2010, a la vez que se intentará definir las variables más influyentes en el
crecimiento urbano. Otro objetivo adicional será el aspirar a generar un modelo de
pronóstico sencillo para este grupo de ciudades.
1
Maestría en Matemáticas Aplicadas con Especialización en Economía y Finanzas. Profesor Asistente del
Departamento de Matemáticas. Universidad San Francisco, Quito - Ecuador.
jsaraujo@miuandes.cl
2
Relevancia en términos de tamaño por número de habitantes para el año 2010.
1
Octubre 2010
En referencia a los datos, el anexo del documento presenta la tabla completa de

valores. La columna 1 detalla las ciudades que se consideran en el estudio y que, para una
mejor lectura estadística, se denominarán en diversas ocasiones urbes o componentes.
Las columnas 2 - 8 muestran la población de cada ciudad en los distintos años de censos.
Finalmente, las columnas 9 - 15 presentan el ranking3 en cada uno de los 7 periodos. Es
necesario mencionar en cuanto a esto, que para los modelos empleados en el texto, esta
variable de tipo ordinal es de suma utilidad ya que permite entre otras cosas, observar
movimientos a través del tiempo con el cálculo de distancias.
Por ende, la sección 2 del documento expone una serie de figuras sencillas y que
corresponderían a una aproximación inicial que siempre debe hacerse aunque no permita
extraer conclusiones robustas. La sección 3 introduce en el modelo de los relojes de
ranking que ayudan a la visualización de los datos a través del tiempo de forma precisa y
sin la necesidad de generalizar. En la parte 4 se aplica el mismo modelo para entender la
dinámica y la interrelación de las variables en cuestión. El apartado 5 muestra que desde
un nivel de componentes, se puede obtener más información acerca del comportamiento
de los datos, que aquella que entrega un análisis de dimensiones macro. La sección 6
expone las leyes de Gibrat y Zipf y su aplicabilidad en el caso ecuatoriano; con estas leyes
además, es posible generar el modelo de predicción deseado. Finalmente, la parte 7
resume las conclusiones obtenidas en el documento.
2. La Generalización como una Simple Aproximación
Se iniciará el estudio con una serie de gráficas simples a través de los años. Así, la
figura 1 muestra la evolución de la población P de las 39 ciudades analizadas en conjunto
entre 1950 y 2010. Se observa un claro y sostenido aumento en la cantidad de personas
durante todo el periodo en cuestión; destacan también dos puntos significativos,
específicamente en los años 1974 y 2001. Antes de la década de los setenta la población
crecía más lentamente, pero producto del boom petrolero4 acompañado de otros
factores, una sociedad en desarrollo empezó un proceso gradual de urbanización. Por su
parte, a principios del nuevo siglo y luego de la grave crisis bancaria5, el shock derivado
frenó la expansión constante que se venía presentando; sin embargo, las ciudades
siguieron incrementando su población hasta la coyuntura actual.
3
El ranking observado considera únicamente las 39 ciudades de la tabla en el Anexo para todos los años.
4
Más detalles acerca del boom petrolero ecuatoriano en el libro “Auge petrolero, modernización y
subdesarrollo” de Arnaldo Bocco, 1987.
5
Mas detalles acerca de la crisis bancaria ecuatoriana en el libro “Dolarización, un amor eterno” de Pablo
Lucio Paredes, 2004.
2
Octubre 2010
8.4
8
Población (en millones)
6
4
2
0.9
1950 1960 1970 1980 1990 2000 2010
Años
Figura 1. Evolución de la población urbana (1950 – 2010).
Ahora bien, la figura 2 descompone la evolución poblacional de las ciudades en 3

grupos. El primero de estos corresponde a las 13 ciudades más grandes en 2010, el
segundo a las 13 ciudades de mediano tamaño, y finalmente el tercero a las 13 más
pequeñas. Es claro que los shocks de urbanización mencionados líneas arriba, han
impactado específicamente al grupo de grandes. Las medianas y pequeñas por su lado, no
se han visto beneficiadas (o perjudicadas) casi en ningún grado. Otro aspecto a mencionar
en lo referente a la figura, es la notoria diferencia de tamaño entre grupos, característica
que ha sido persistente a través del tiempo y que incluso se ha ido incrementando de
manera progresiva. Esto hablaría, entre otras cosas, de un proceso de gradual de
concentración en las grandes áreas metropolitanas6.
6
En el texto se considera área metropolitana y ciudad como una misma unidad económica.
3
Octubre 2010
7
Grandes
6
Medianas
Pequeñas
Población (en millones)
5
4
3
2
1
0
1950 1960 1970 1980 1990 2000 2010
Años
Figura 2. Evolución de la población urbana diferenciada (1950 – 2010).
En cuanto a la tasa de crecimiento global Γ t = lnP t /P t−1  a través de los 60 años

de estudio, se puede apreciar una tendencia decreciente aunque positiva. La figura 3
detalla el argumento anterior, donde se ha añadido en color azul un ajuste polinomial a
los datos. Es importante en este punto resaltar que los cambios se miden en los intervalos
de tiempo dados por los censos realizados a partir de 1950, esto explica las tasas
relativamente altas registradas7. Esta grafica además muestra que las figuras 1 y 2
escondían información relevante al respecto del crecimiento al agrupar datos y
generalizar resultados, puesto que es difícil especificar el comportamiento incremental en
estas gráficas.
7
Es importante en este punto no confundirse. En este contexto un crecimiento de aproximadamente 20%
en 2010 se refiere a aquel correspondiente a los 9 años entre 2001 y 2010.
4
Octubre 2010
0.5
Crecimiento(Esc. logaritmica)
0.4
0.3
0.2
1970 1980 1990 2000 2010
Años
Figura 3. Evolución del crecimiento urbano (1950 - 2010).
La figura 4 pretende exponer en mayor detalle la evolución poblacional en las

ciudades al agregar un ranking anual en base al tamaño urbano como variable. La gráfica
se encuentra en escala logarítmica para mejorar la simetría. Entre algunas particularidades
importantes a detallar, el aumento de la población resulta evidente así como una notoria
diferencia entre las ciudades de Guayaquil y Quito (ranking 1 y 2 respectivamente) con
relación a las demás. De igual forma, los saltos entre curvas se encuentran acorde a las
tasas de crecimiento de la figura 3. Finalmente, es notoria una reducción de la brecha
entre las ciudades más pequeñas y el resto a partir de 1982, lo que apoya el argumento de
urbanización producto del boom petrolero en la década de los 70, no sólo en el grupo de
grandes, sino que ahora también en el de pequeñas.
5
Octubre 2010
14
12
log. Población
10
1950
8
1962
1974
1982
1990
6
2001
2010
0 10 20 30 40
ranking
Figura 4. Cambio en la estructura poblacional en consideración al ranking.
Este gráfico sin embargo, aunque entrega más información que los anteriores al
respecto de la evolución poblacional en las ciudades, esconde ciertos aspectos que
pueden ser de gran interés. La figura 5 demuestra este argumento al comparar la curva
población - ranking para el año 2010 con los puntos generados con la misma data
poblacional pero con el ranking en 1950. La diferencia existente habla de una dinámica
entre ciudades que requiere de un análisis con más exhaustivo a los propuestos en esta
sección.
6
Octubre 2010
14
rank 2010
rank 1950
log. Población
13
12
11
0 10 20 30 40
ranking
Figura 5. Existencia de dinámicas entre población y ranking a través del tiempo.
En efecto, estudios generalizados de crecimiento y evolución en cantidad de

personas no permiten apreciar ni las dinámicas en un nivel micro a través del tiempo, ni
las interrelaciones que existen entre los componentes que conforman el integral, en este
caso las ciudades. Por esta razón, la siguiente parte del documento adapta el modelo de
Rank Clocks propuesto por Batty [2006], el cual permite extraer conclusiones más
robustas que las alcanzadas hasta el momento.
3. Las Gráficas de Reloj como un Modelo de Análisis de Datos
Como su nombre lo indica, el modelo de Rank Clocks emplea el concepto de un

reloj tradicional para presentar datos a través del tiempo. Para esto, ubica cada
componente i de acuerdo a su posición relativa dentro de una circunferencia unitaria; y
en el caso particular de población en ciudades, el criterio de posición es el ranking por
tamaño r i . Mientras, más cerca al centro se encuentre un i , significa que su ranking es
mejor. Los periodos t a considerar se asignan en base a las coordenadas polares dadas por
7
Octubre 2010
x = cos 2π d
p −1
y = sin 2π d
p −1
,
donde
d = t max − t
p = t max − t min 8.
Se tiene entonces para el análisis de las ciudades en Ecuador, el Rank Clock

presentado en la figura 6. El punto de inicio es en el extremo derecho de la circunferencia
y el recorrido de las variables se realizará obviamente a favor de las manecillas de un reloj.
1990
2001
1982
1950
1974
1962
Verde: + pobl. 1950, Rojo: +- pobl. 1950, Azul: - pobl. 1950

Figura 6. Estructura básica de un Rank Clock.
Al ingresar los datos de las 39 ciudades en el reloj se obtiene la figura 7. El color

verde indica aquellas urbes que en 1950 estaban entre las 13 primeras en el ranking, las
rojas son las 13 de tamaño medio relativo y las azules son las pequeñas para ese mismo
año. Si bien en una primera inspección el gráfico parece ser confuso, se pueden observar
8
En una circunferencia, las coordenadas para los puntos (x,y) pueden asignarse de acuerdo a un radio R y un
ángulo de rotación A tal que (x,y) = (RcosA , RsinA).
8
Octubre 2010
algunos aspectos interesantes. Las ciudades que en 1950 estaban posicionadas como
grandes, en general han mantenido su estatus luego de 60 años. Por su parte, un
importante grupo de ciudades que en 1950 eran consideradas medianas, han cedido sus
lugares para otras de tamaño inicial pequeño. Asimismo, se evidencia que una ciudad
coloreada de azul, se ha transformado prácticamente en grande junto con 3 ciudades
rojas, mientras que una de color verde, está ahora al final del grupo.
1990
2001
1982
1950
1974
1962

Figura 7. Rank Clock de las ciudades en el Ecuador.
A fin de mejorar la visualización, la figura 8 detalla 4 ciudades cuyo

comportamiento en el reloj es distintivo. En efecto, Santo Domingo pasó de una modesta
posición 24 en 1950 a ser la cuarta ciudad en 2010. Quevedo presenta un
comportamiento muy similar (de 32 a 13). Por el contrario, tanto Buena Fe como Salitre
han seguido un camino opuesto; la primera cayó desde la posición 12 a la 39, y la segunda
de la 13 a la 33. Los periodos de mayor cambio en estos casos fueron entre 1950 y 1974
para Santo Domingo y Quevedo, entre 1982 y 2000 para Buena Fe y entre 1962 y 1982
para Salitre.
9
Octubre 2010
1990 Buena Fe 2001
1982
Sto. Dom.
1950
Quevedo
Salitre
1974
1962

Figura 8. Rank Clock de 4 ciudades importantes.
Surgen aquí dos utilidades importantes del modelo de Rank Clocks al permitir
apreciar la evolución temporal de los componentes en su forma individual, y al facilitar la
determinación de intervalos de tiempo relevantes para cada uno de los mencionados
componentes. En el estudio en cuestión, ya se conoce el periodo de gran expansión de
ciudades como Santo Domingo y Quevedo, hace falta ahora encontrar la razón que motivó
a este salto. Así, para Santo Domingo por ejemplo, entre 1950 y 1974 se producen dos
eventos importantes que ayudan al proceso de urbanización:
• 1966: La Asamblea Nacional Constituyente reconoce al cantón Santo Domingo de los

Colorados9.
• 1960 - 1970: Se construye la vía Aloag - Santo Domingo que transforma a la ciudad en
un centro estratégico de comercio.
Por su parte en Quevedo sucede el siguiente acontecimiento:
• 1950 - 1960: La ciudad se convierte en el centro nacional de producción y

comercialización de cacao y banano.
9
En el Registro Oficial del Ecuador el 3 de julio de 1967.
10
Octubre 2010
Y lo que pasó con Quevedo se relaciona con la historia de Buena Fe. Su proximidad con el
centro de comercio deriva en un alto nivel de migración en la década siguiente, lo cual
genera la progresiva caída en posiciones del ranking.
Finalmente, el caso de Salitre presenta un evento semejante:
• 1970 - 1980: Migración hacia Guayaquil producto del boom petrolero y del desarrollo
comercial del así llamado puerto principal.
4. Un Poco más Acerca de los Relojes
Continuando con el modelo propuesto por Batty [2006], una segunda etapa
consiste en estudiar la dinámica de cambio de ranking en las ciudades. Los objetivos de
esto son conocer cuales han sido los periodos de mayor variabilidad dentro del marco
temporal propuesto, y definir una nivel promedio de cambio para contrastar este valor
con los obtenidos en otros países y en el mundo. Para esto, se debe definir el movimiento
en ranking de cada urbe y en cada periodo como una distancia δ i,t tal que
δ i,t = |r i,t − t i,t−1 | .
Sea además C t el número total de componentes tal que C t = Σi . Entonces el promedio

de cambio por periodo es
∑ δ i,t
i∈C t
δt =
Ct ,
y el nivel promedio de cambio es por consiguiente
∑ δt
t∈T
δ= T ,
donde T = Σt .
La figura 9 muestra el reloj correspondiente a δ i,t para las 39 ciudades del Ecuador.
La curva en negro corresponde a δ t , y el nivel promedio δ ≈ 2. 376 . La grafica presenta
una mayor volatilidad para 1962 donde un gran número de componentes medianos y
pequeños se movieron. Luego, otra época de cambios destacables es la década de los 80,
igualmente con dispersión de ciudades de color azul. Cabe resaltar también la poca
volatilidad del grupo grande, lo cual ya había sido argumentado líneas arriba.
11
Octubre 2010
1990
2001
1982
1950
Cambio prom.:
2.376
1974
1962

Figura 9. Rank Clock de movimientos en el ranking.
Ahora bien, la tabla 1 muestra una comparación de δ con los resultados obtenidos
por Batty [2006] para ciudades en Estados Unidos, Inglaterra y el Mundo. Se puede
apreciar que el Ecuador tiene los niveles de ranking más estables, lo cual es coherente con
las tasas de urbanización. Una mayor volatilidad se explica por urbes que crecen e
intercambian su orden con mayor frecuencia.
País Distancia ( δ ) Tasa de Urb. (%)

Ecuador 2.376 66
Estados Unidos 4.668 82
Inglaterra 4.221 90
Mundo 14.277 49
Tabla 1. Distancias y Tasas de Urbanización para países y el mundo.10
10
Sería más recomendable realizar una comparación con países parecidos en términos geográficos, sociales
y económicos, sin embargo estos estudios no se han realizado todavía.
12
Octubre 2010
5. La Existencia Cierta de Características Micro
En esta sección se pretende evaluar el comportamiento del crecimiento

poblacional desde la perspectiva de los componentes. En la parte 2, se expuso la tasa de
crecimiento global dada por lnP t /P t−1  ; sin embargo surge la interrogante, ¿es este valor
suficiente para entender el incremento poblacional en las ciudades? La respuesta es
negativa. Para entender la razón detrás hay que considerar que todas las urbes crecen por
dos factores distintos, uno de naturaleza vertical y otro horizontal. El primero esta
íntimamente relacionado con la evolución en el tiempo de la población a nivel nacional, el
segundo se vincula con la dinámica entre componentes μ t , esto es, por la migración. Para
formalizar lo postulado sea el crecimiento de cada ciudad γi,t dado por
P i,t
γ i,t =
P i,t−1 ;
y la participación de cada ciudad, en cada t ,
P i,t
π i,t =
Pt .
Por lo tanto, el crecimiento esperado para cada periodo será
P i,t P P t−1 P i,t

γ t = ∑ π i,t γi,t = ∑ π i,t = ∑ π i,t t
i∈C t i∈C t
P i,t−1 i∈C t
P t−1 Pt P i,t−1
P i,t
⇒ γt =
Pt
∑ π i,t P t−1
P t−1 i∈C t P i,t−1 Pt
Pt π i,t
⇒ γt = ∑ πi,t π i,t−1
P t−1 i∈C t .
Y la tasa de crecimiento g se obtiene con el logaritmo a ambos lados de la igualdad, así
Pt π
g t = lnγ t = ln + ln ∑ π i,t π i,t
P t−1 i∈C t
i,t−1
⇒ g t = Γ t + μt .
La figura 10 traza los dos determinantes del crecimiento de las 39 ciudades en el

reloj sin considerar el ajuste logarítmico. En efecto, el incremento en la población nacional
es el factor de mayor relevancia, pero la participación es igualmente de magnitud
13
Octubre 2010
considerable. Otro detalle que se aprecia en el gráfico es que mientras el segundo

determinante se ha mantenido relativamente constante en el periodo de estudio, el
crecimiento poblacional ha ido decreciendo gradualmente. Nótese que esto ya se había
observado en la figura 3.
1990
2001
1982
1950
1974
1962
Negro: Crecim. Promedio, Rojo: Cambio en Participación Prom.

Figura 10. Rank Clock de componentes del crecimiento urbano.
En cuanto a esto, si se grafica nuevamente la figura 3, solamente que ahora

considerando los componentes del crecimiento, se obtiene la figura 11. Es concluyente
que el crecimiento general de las ciudades es mayor que el nacional producto del factor
μ t 11. Entre 1960 y 1990, se aprecian cambios evidentes en la participación de las ciudades,
es decir, una mayor migración interna por motivos antes descritos. En los últimos años por
su parte, este valor parece que ha disminuido, lo que deriva en la convergencia de la curva
negra hacia la roja. La tabla 2 finalmente resume estas variables para los 60 años de
estudio como promedios.
11
Esto por supuesto desde una perspectiva de promedios y tomando en cuenta que no se está evaluando a
todo el universo de ciudades que conforman el nacional.
14
Octubre 2010
0.7
0.6
Total Ciudad
Crec. Esperado.(Esc. logaritmica)
Nacional
Participación
0.5
0.4
0.3
0.2
0.1
0.0
1970 1980 1990 2000 2010
Años
Figura 11. Evolución del crecimiento urbano por determinantes (1950 - 2010).
Var. Valores
δ 2.376
g 0.417
Γ 0.384
μ 0.033
Tabla 2. Variables importantes en el crecimiento urbano ecuatoriano.
Las últimas secciones han presentado un estudio más exhaustivo al respecto de las
dinámicas a nivel micro de las variables expuestas, lo que ha permitido extraer
conclusiones importantes que no hubieran sido alcanzadas con simples generalizaciones.
Considerando esto, la siguiente parte del documento expone dos leyes que permiten
generalizar resultados al observar el comportamiento individual de los datos, sin usar
necesariamente estadísticos ni funciones de tendencia central como eje fundamental.
15
Octubre 2010
6. Aplicando las Leyes de Gibrat y Zipf
Dos postulados medianamente conocidos en la literatura estadística al respecto

del comportamiento del tamaño de las poblaciones en ciudades, son las leyes de Gibrat12
y Zipf13. La primera indica que si el tamaño de las ciudades sigue una distribución log
normal, entonces se puede argumentar que la tasa de crecimiento es independiente del
tamaño urbano. La segunda afirma que si la cola superior de dicha distribución sigue a su
vez una distribución de Pareto con parámetro α , se puede de igual forma asegurar que el
tamaño de cada ciudad es inversamente proporcional a su ranking. Luego, si por ejemplo
α = 1 , la urbe más poblada es dos veces mayor a la segunda, tres veces mayor a la
tercera, y así sucesivamente; Si α < 1 entonces esta relación inversa se intensifica; y si
α > 1 la relación es menos fuerte14.
El análisis presentado sigue lo propuesto por Eeckhout [2004]. Por ende, en una
primera etapa se procede a evaluar la ley de Gibrat para las 39 ciudades del Ecuador. La
figura 12 muestra las distribuciones de Kernell en distintos años para el logaritmo de las
poblaciones urbanas. Se ha optado por hacer un recorte del 10% para los 3 primeros
periodos, y uno de 5% de cola superior para el resto de años. La justificación de lo anterior
radica en los sesgos que se producen según se evidencia en la figura 4. Nótese que a partir
de 1982, la distribución total parece ser la composición de dos grupos distintos, cuyas
diferencias tienden a acentuarse con el paso del tiempo. Este acontecimiento habla de un
proceso de concentración no solamente enfocado en Quito y Guayaquil como se suele
creer, sino en todas las ciudades de tipo grandes.
12
Robert Gibrat (1904 - 1980) fue un ingeniero y político francés que alcanzó el cargo de ministro de
gobierno en la Francia de Vichy. Fue también presidente de la Sociedad Francesa de Estadística (1978). Su
ley se aplica en los campos de las ciencias sociales, la economía, y los negocios.
13
George Zipf (1902 - 1950) fue un estadístico estadounidense que se enfocó en el estudio de ocurrencias
en el lenguaje. De ahí surge su ley la cual tiene aplicaciones en los campos de las ciencias sociales, y la
economía.
14
En Estados Unidos por ejemplo, muchos estudios han confirmado que el valor alfa adecuado es 1.
16
Octubre 2010
1950 1962 1974 1982

0.5
0.4
0.4
0.4
0.4
0.3
0.3
0.3
0.3
Density
Density
Density
Density
0.2
0.2
0.2
0.2
0.1
0.1
0.1
0.1
0.0
0.0
0.0
0.0
7 8 9 10 11 7 8 9 10 11 12 8 9 10 11 12 8 9 10 11 12 13
N = 35 Bandw idth = 0.3371 N = 35 Bandw idth = 0.3424 N = 35 Bandw idth = 0.3403 N = 37 Bandw idth = 0.361
1990 2001 2010

0.6
0.5
0.5
0.5
0.4
0.4
0.4
0.3
0.3
Density
Density
Density
0.3
0.2
0.2
0.2
0.1
0.1
0.1
0.0
0.0
0.0
9 10 11 12 13 10 11 12 13 10 11 12 13 14
N = 37 Bandw idth = 0.3328 N = 37 Bandw idth = 0.3311 N = 37 Bandw idth = 0.3599
Figura 12. Distribución Kernell para poblaciones urbanas en Ecuador (1950 - 2010).15
La figura 13 presenta la distribución del logaritmo de la población comparada con

una normal con media y varianza adecuados para los datos. El test Shapiro - Wilk para
cada periodo está resumido en la tabla 3. La evidencia a favor de la normalidad (valor p)
indica que desde 1990 las poblaciones en las ciudades dejan de distribuir log
normalmente para un nivel de confianza de 99%; esto, producto del surgimiento de los
dos grupos antes mencionados. Los resultados obtenidos permiten asegurar que si la ley
de Gibrat se cumple, entonces es esperable que entre 1962 y 1982 no exista relación
significativa entre la tasa de crecimiento y el tamaño de las ciudades, mientras que en los
últimos años debería surgir cierta dependencia entre estas variables.
15
Para más información y aplicaciones acerca de las distribuciones y métodos de Kernell consultar
http://mypage.iu.edu/~djachoch/research.htm.
17
Octubre 2010
1950 1962 1974 1982
0.6
0.5
0.5
0.4
0.5
0.4
0.4
0.4
0.3
0.3
0.3
0.3
0.2
0.2
0.2
0.2
0.1
0.1
0.1
0.1
0.0
0.0
0.0
0.0
7.5 8.0 8.5 9.0 9.5 10.0 10.5 11.0 8.0 8.5 9.0 9.5 10.0 10.5 11.0 11.5 8.5 9.0 9.5 10.0 10.5 11.0 11.5 12.0 8.5 9.0 9.5 10.0 10.5 11.0 11.5 12.0
1990 2001 2010

0.6
0.8
0.5
0.5
0.6
0.4
0.4
0.3
0.3
0.4
0.2
0.2
0.2
0.1
0.1
0.0
0.0
0.0
9.0 9.5 10.0 10.5 11.0 11.5 12.0 12.5 10.0 10.5 11.0 11.5 12.0 12.5 13.0 10.0 10.5 11.0 11.5 12.0 12.5 13.0
Figura 13. Comparación con Normal de distribuciones de población.
Año Est. W Valor p

1950 0.961 0.246
1962 0.967 0.372
1974 0.973 0.593
1982 0.959 0.184
1990 0.917 0.009
2001 0.870 0.001
2010 0.876 0.001
Tabla 3. Test de Shapiro – Wilk para poblaciones urbanas (1950 - 2010).
En efecto, sea el modelo Kernell de regresión entre crecimiento y tamaño dado por
g i,t = mp i,t  +  i,t ,
donde p i,t = lnP i,t , i,t es un nivel de error, y m⋅ es una función en base a los pesos de
Kernell K h . El estimador m ̂ ⋅ se define según el método de Nadaraya - Watson por
n
∑ K h,t S t − p i,t g i,t
m̂ p i,t  = i=1
n
∑ K h,t S t − p i,t 
i=1 ,
18
Octubre 2010
donde h es la escala de suavizamiento, y S t es un punto arbitrario dentro del soporte16.

Así,
̂ p i,t  .
ĝ i,t = m
Las figuras 14 - 19 muestran la curva de ajuste Kernell antes planteada para los
distintos años. Las líneas entrecortadas corresponden a un intervalo de confianza al 95%
para cada estimación. En 1962 existe en general una correlación positiva entre
crecimiento y tamaño; entre 1974 y 1990 tal relación desaparece; en 2001 empieza a
darse movimiento nuevamente, aunque éste es prácticamente insignificante; y sólo en
2010 es posible observar una notoria dependencia. Esto permite extraer dos conclusiones
importantes. Primero, los años comprendidos entre 1974 y 2001 presentan un
crecimiento equilibrado en todas las zonas urbanas del país, seguramente consecuencia al
shock petrolero ya mencionado. Segundo, en la última década esta tendencia parece
haber terminado, dando un mayor crecimiento al grupo de grandes ciudades como
Cuenca, Santo Domingo y Quevedo, con excepción de Quito y Guayaquil que parecen
estancadas alrededor del 10% cada 10 años.
1962
1.0
0.8
Guayaquil
0.6
g62
Quito
0.4
0.2
0.0
7 8 9 10 11 12 13
logP2
Figura 14. Ajuste Kernell para 1962.
16
En este caso se entiende como soporte al conjunto de datos de población en escala logarítmica.
19
Octubre 2010
1974
0.60
0.55
0.50
g74
0.45
0.40
7 8 9 10 11 12 13
logP3
1982
0.55
0.50
0.45
g82
0.40
0.35
0.30
9 10 11 12 13 14
logP4
20
Octubre 2010
1990
0.38
0.36
0.34
0.32
g90
0.30
0.28
0.26
0.24
10 11 12 13 14
logP5
2001
2
1
g01
0
-1
11 12 13 14
logP6
21
Octubre 2010
2010
0.35
0.30
0.25
g10
0.20
0.15
0.10
0.05
11 12 13 14
logP7
Dado lo anterior, la ley de Gibrat parece cumplirse en el Ecuador de forma

satisfactoria. Sin embargo, cambios radicales en la estructura social y económica del país
como la crisis del 2000 - 2001, aparentemente evitan la continuidad de dicha ley. Cabe
resaltar que un estudio más detallado de sucesos históricos en el Ecuador durante los
últimos años, quizás aporte nuevas ideas y explicaciones a los resultados obtenidos.
Ahora bien, continuando con la ley de Zipf, interesa estudiar la cola derecha de la
distribución de las poblaciones. Por lo tanto, sea ν t el número de componentes que
generan la mencionada cola en el tiempo t ; interesa que éstos satisfagan las siguientes
funciones de densidad fP i,t  y probabilidad acumulada FP i,t  :
αP αmin
fP i,t  =
P i,t
α
P min
FP i,t  = 1 −
P i,t
∀P i,t ∈ ν t ,
22
Octubre 2010
donde P min = minP i,t  y α > 0 es el parámetro propio de la distribución de Pareto. El

ranking dentro de este grupo puede obtenerse de forma empírica tal que
r i,t ≈ ν t 1 − FP i,t 
α
P min
r i,t ≈ ν t
⇒ P i,t .
Si se calcula el logaritmo natural a ambos lados de la igualdad
lnr i,t ≈ lnv t + α lnP min − α lnP i,t
⇒ lnr i,t = β − αp i,t + ω i,t ,
donde β = lnv t + α lnP min , y ω i,t es un nivel de error.
Para el caso de las 39 ciudades ecuatorianas se ha optado por hacer un

truncamiento arbitrario de ν t = 8 , ∀t .17 Corriendo una regresión lineal simple18 en cada
uno de los periodos de acuerdo a la igualdad anterior, se obtienen los resultados
publicados en la tabla 4. Por su parte, la figura 20 muestra los datos con la línea de ajuste
correspondiente. Destaca que el valor α parece estar alrededor de 0.6 para todos los
años; esto implicaría que en general, la cola superior seguiría una distribución de Pareto
con el parámetro especificado. Sin embargo, nótese que los puntos correspondientes a
Guayaquil y Quito (ranking 1 y 2 respectivamente en todos los periodos) parecen influir de
forma considerable en la regresión y su comportamiento es claramente distinto del resto.
Año β Val. pβ α Val. pα R2
7. 655 −0. 586

1950 1. 640 0.003 0. 151 0.008 0.714
8. 006 −0. 593

1962 1. 236 0.001 0. 109 0.002 0.831
17
La teoría no especifica donde realizar un truncamiento adecuado, es por esto que el recorte ha sido de
tipo arbitrario.
18
Si bien una regresión lineal simple puede considerarse dentro de los métodos paramétricos, interesa
únicamente encontrar un valor aproximado de alfa y no realizar un estudio de causalidad estricto.
23
Octubre 2010
8. 492 −0. 608

1974 1. 333 0.001 0. 113 0.002 0.829
8. 777 0. 614
1982 1. 272 0.001 0. 104 0.001 0.852
8. 491 −0. 577

1990 1. 418 0.001 0. 114 0.002 0.811
9. 108 −0. 608

2001 1. 359 0.001 0. 106 0.001 0.846
9. 750 −0. 647

2010 1. 482 0.001 0. 114 0.001 0.844
Tabla 4. Regresión simple para las 8 ciudades más grandes (Desv. Est. en paréntesis).
1950 1962 1974 1982

2.0
2.0
2.0
2.0
1.5
1.5
1.5
1.5
Log. Rank
Log. Rank
Log. Rank
Log. Rank
1.0
1.0
1.0
1.0
0.5
0.5
0.5
0.5
0.0
0.0
0.0
0.0
10.0 10.5 11.0 11.5 12.0 12.5 10.5 11.0 11.5 12.0 12.5 13.0 11.0 11.5 12.0 12.5 13.0 13.5 11.5 12.0 12.5 13.0 13.5 14.0
Log.Población Log.Población Log.Población Log.Población
1990 2001 2010

2.0
2.0
2.0
1.5
1.5
1.5
Log. Rank
Log. Rank
Log. Rank
1.0
1.0
1.0
0.5
0.5
0.5
0.0
0.0
0.0
12.0 12.5 13.0 13.5 14.0 12.0 12.5 13.0 13.5 14.0 14.5 12.5 13.0 13.5 14.0 14.5
Log.Población Log.Población Log.Población
Figura 20. Ajuste de la regresión para la población – ranking (1950 - 2010).
24
Octubre 2010
En consideración a los efectos de las dos ciudades más grandes, la tabla 5 presenta
nuevamente un resumen de la regresión sin estos componentes, y la figura 21 muestra la
línea de ajuste correspondiente. Los resultados indican que con el paso de los años, la ley
de Zipf empieza a cumplirse de mejor manera de modo que a partir del 2001 la relación
inversa es casi perfecta entre ranking y tamaño con un nivel de α de 2.6 para el 2001 y 3.7
para el 2010. Lo anterior implica la posibilidad estimar el tamaño actual de los centros
urbanos grandes (sin incluir Quito y Guayaquil) mediante la regla simple
P max,2010 P Cuenca,2010
P i,2010 ≈ ≈
r i,2010 − 2 1/α 2010
r i − 2 0.268 .
Año β Val. pβ α Val. pα R2
10. 581 −0. 914

1950 6. 415 0.150 0. 633 0.199 0.258
5. 518 −0. 396

1962 10. 490 0.618 0. 991 0.703 0.026
30. 159 −2. 586

1974 8. 889 0.015 0. 797 0.018 0.637
34. 066 2. 848

1982 6. 923 0.003 0. 602 0.003 0.789
31. 551 −2. 574

1990 8. 138 0.008 0. 693 0.010 0.697
33. 915 −2. 686

2001 4. 209 0.000 0. 347 0.000 0.909
47. 769 −3. 739

2010 1. 656 0.000 0. 133 0.000 0.992
Tabla 5. Regresión simple para las 8 ciudades más grandes sin considerar Guayaquil y
Quito (Desv. Est. en paréntesis).
25
Octubre 2010
1950 1962 1974 1982

2.0
2.0
2.0
2.0
1.5
1.5
1.5
1.5
Log. Rank
Log. Rank
Log. Rank
Log. Rank
1.0
1.0
1.0
1.0
0.5
0.5
0.5
0.5
0.0
0.0
0.0
0.0
9.6 9.8 10.0 10.2 10.4 10.6 10.4 10.6 10.8 11.0 10.9 11.0 11.1 11.2 11.3 11.4 11.5 11.3 11.4 11.5 11.6 11.7 11.8 11.9
Log.Población Log.Población Log.Población Log.Población
1990 2001 2010

2.0
2.0
2.0
1.5
1.5
1.5
Log. Rank
Log. Rank
Log. Rank
1.0
1.0
1.0
0.5
0.5
0.5
0.0
0.0
0.0
11.6 11.8 12.0 12.2 11.8 12.0 12.2 12.4 12.2 12.3 12.4 12.5 12.6 12.7
Log.Población Log.Población Log.Población
Figura 21. Ajuste de la regresión para la población – ranking sin Guayaquil y Quito (1950 -
2010).
La tabla 6 presenta las poblaciones reales y estimadas según la ecuación antes

planteada para el año 2010 de las 10 ciudades más grandes sin Quito y Guayaquil. Los
bajos porcentajes de error obtenidos permiten argumentar que dicha igualdad es un
modelo de predicción adecuado para el tamaño de las ciudades en Ecuador, y que puede
aplicarse por ciertos años más en el futuro.
Ciudad Valor Real Valor Est. Error (%)

Cuenca 350772 350772 0.000
Santo Domingo 291325 291306 0.000
Machala 269351 261310 2.985
Durán 241924 241921 0.000
Manta 235700 227877 3.319
Portoviejo 215369 217010 0.762
Ambato 212541 208228 2.029
Loja 200121 200908 0.393
Riobamba 181588 194665 7.202
Ibarra 176642 189245 7.135
Tabla 6. Pronóstico para población según ley de Zipf.
26
Octubre 2010
7. Ideas Concluyentes
En cuanto al caso estudiado al respecto de la población en las ciudades del

Ecuador, se pueden proponer los siguientes pensamientos finales:
• Un análisis generalizado resumía de forma insuficiente la información que entregaban

los datos. Esto motivó al uso de otras herramientas gráficas como los relojes de
ranking o los métodos de Kernell expuestos en el documento. Y fue posible gracias a
éstos observar la dinámica a un nivel micro de los componentes. Con el análisis
preliminar sin embargo, se han determinado dos puntos temporales de gran
relevancia en el conjunto de la muestra, correspondientes específicamente a los años
1974 y 2001. En ellos las zonas urbanas experimentaron cambios en su estructura
general e individual debido a shocks socio –económicos destacables.
• Los Rank Clocks de la cantidad de habitantes en las ciudades, permitieron apreciar la

evolución individual de los componentes. Asimismo fue posible estudiar casos
particulares, cuyo comportamiento en los 60 años fue distintivo. Cabe también
resaltar la constancia de los centros urbanos que se han mantenido en la categoría de
grandes durante todo el periodo explorado, así como de una mayor movilidad en
urbes catalogadas como medianas y pequeñas.
• En cuanto a dicha movilidad, los relojes permitieron determinar los años de más
cambio, específicamente 1962 y 1982. Y al comparar la dinámica promedio, se
concluyó que esta es menor que en otros países posiblemente por la menor tasa de
urbanización, aunque se requeriría de comparaciones adicionales con países más
parecidos al Ecuador en aspectos geográficos, demográficos y económicos.
• El uso de relojes también se aplicó para conocer las variables del crecimiento urbano.
Se definió una característica de orden vertical dada por el incremento total de la
población, y otra de naturaleza horizontal equivalente a la migración entre ciudades. Si
bien, la primera es más influyente, la segunda es igualmente significativa, por lo que
debe tomarse en cuenta siempre al momento de proyectar la evolución poblacional de
los componentes.
• Un estudio no paramétrico de los datos permitió concluir que la ley de Gibrat se

cumple satisfactoriamente en el Ecuador. Además fue posible observar el crecimiento
mayor en las ciudades grandes sin considerar Guayaquil y Quito, lo que ha generado
una composición de distribuciones en la densidad de Kernell del número de
habitantes.
• Finalmente, con la ley de Zipf se definió un modelo de pronóstico simple para el
27
Octubre 2010
desarrollo urbanístico en la actualidad. Cabe mencionar que dicho modelo deberá

actualizarse y testearse a medida que surjan nuevos datos provenientes de los censos
demográficos en el Ecuador. Asimismo, una limitación del método es que debe excluir
a Quito y Guayaquil pues su comportamiento es completamente distinto al resto de
ciudades.
El caso ilustrativo expuesto en el documento permite confirmar lo argumentado en

la sección introductoria. El apoyo de análisis de gráficos y cálculos no paramétricos a la
estadística convencional abre la puerta para la obtención de más y mejores resultados
cuando se investiga un conjunto de datos. Por ende, debería incentivarse al estudio y
aplicación de estos métodos en los cursos estadísticos de todos los niveles, sin dar ningún
tipo de prioridad a un procedimiento sobre el resto.
Una recomendación final sería que los resultados obtenidos en el documento se

analicen desde un punto de vista más vinculado a los eventos históricos de carácter social
y económico que se han venido dando en el Ecuador durante los últimos 60 años. Esto
daría más robustez a las conclusiones antes mencionadas e incrementaría los alcances del
estudio.
28
Octubre 2010
8. Bibliografía
• http://www.inec.gov.ec/web/guest/descargas/basedatos.
• Centro Ecuatoriano de Investigación Geográfica, POBLACIONES DE LAS PARROQUIAS

ECUADOR 1950 – 1982, Serie Demografía y Geografía de la Población Nº 1 y 2, 1985.
• Batty Michael, RANK CLOCKS, Nature vol. 444, 2006.
• Eeckhout Jan, GIBRAT’S LAW FOR (ALL) CITIES, Department of Economics University of
Pennsylvania, 2004.
• Gabaix Xavier, ZIPF’S LAW FOR CITIES: AN EXPLANATION, The Quarterly Journal of
Economics, 1999.
29
Octubre 2010
ANEXO
Datos utilizados en el documento.
Ciudad 1950 1962 1974 1982 1990 2001 2010 r1 r2 r3 r4 r5 r6 r7

Guayaquil 258966 510804 823219 1199344 1536123 2086123 2306479 1 1 1 1 1 1 1
Quito 224344 365662 599828 866472 1331641 1893641 2151993 2 2 2 2 2 2 2
Cuenca 39983 60402 104470 152406 194981 277374 350772 3 3 3 3 3 3 3
Santo Domingo 6951 28355 30523 69235 114422 238827 291325 24 10 14 12 8 4 4
Machala 7549 29036 69170 105521 144197 204578 269351 20 9 6 4 4 5 5
Durán 7244 15103 26687 51023 82359 174531 241924 22 19 17 15 14 7 6
Manta 19028 33622 64519 100338 125505 183105 235700 8 7 7 7 6 6 7
Portoviejo 29069 48311 80210 102628 132937 171847 215369 6 5 4 5 5 8 8
Ambato 34004 53372 77955 100454 124166 154095 212541 5 4 5 6 7 9 9
Loja 21104 26785 47697 71625 94305 118532 200121 7 12 11 11 11 12 10
Riobamba 37484 41625 58087 75455 94505 124807 181588 4 6 9 10 10 10 11
Ibarra 18098 25835 41335 53428 80991 108535 176642 9 13 13 14 15 15 12
Quevedo 4168 20602 43101 67023 86910 120379 160544 32 14 12 13 13 11 13
Esmeraldas 13169 33403 60364 90360 98558 112124 130265 11 8 8 8 9 14 14
Milagro 13736 28148 53106 77010 93637 116440 121055 10 11 10 9 12 13 15
Tulcán 10623 16448 24398 30985 37069 48097 89534 14 17 19 19 20 20 16
Babahoyo 9181 16444 28914 42266 50285 76869 89421 16 18 16 16 17 17 17
La Libertad 7133 13742 26518 41955 53108 81646 85750 23 21 18 17 16 16 18
Nueva Loja 540 733 1252 7237 13165 34106 75809 39 39 38 38 39 26 19
Sangolquí 3179 5501 10554 15004 35386 56794 71830 34 31 32 32 21 18 20
Latacunga 10389 14856 21921 28764 39882 51689 57127 15 20 22 21 19 19 21
Pasaje 5021 13215 20790 26224 32947 45526 49803 26 23 23 24 22 22 22
Chone 8046 12832 23627 33829 41437 45526 47994 18 24 20 18 18 21 23
Santa Rosa 4776 8935 19696 26716 32648 42593 45972 28 26 25 23 23 23 24
Huaquillas 1934 3069 9347 20117 27368 40183 45027 38 38 33 25 25 24 25
Salinas 2672 5460 12409 17748 19298 28650 41792 36 32 30 28 36 33 26
El Carmen 4275 5158 7196 11928 22870 33382 39989 31 34 36 37 31 27 27
Jipijapa 7759 13367 19996 27146 32225 36078 37900 19 22 24 22 24 25 28
Ventanas 4508 3683 8977 15869 23217 32425 36596 29 37 34 31 28 28 29
Daule 4501 7428 13170 18923 24399 31763 34632 30 30 29 26 26 29 30
Cayambe 7409 8101 1199 14249 16849 30473 34239 21 28 39 34 38 31 31
Otavalo 8425 8630 13605 17461 21548 30965 33946 17 27 28 29 32 30 32
Salitre 11823 18299 23385 18568 24112 29265 32189 13 15 21 27 27 32 33
Azogues 6588 8075 10953 14548 21060 27866 31151 25 29 31 33 33 36 34
La Troncal 2415 8990 13695 17118 19654 27847 31026 37 25 27 30 34 37 35
Santa Elena 2775 4241 7687 12859 17459 27351 30920 35 36 35 36 37 39 36
Cariamanga 3369 5381 17143 13498 22991 28292 30438 33 33 26 35 29 34 37
Saraguro 4900 4943 5853 6390 22900 28042 30426 27 35 37 39 30 35 38
Buena Fe 12901 17174 29394 29468 19300 27516 30406 12 16 15 20 35 38 39
30

Importancia de Análisis Gráfico y No Paramétrico

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Importancia de Análisis Gráfico y No Paramétrico

Încărcat de

Drepturi de autor:

Formate disponibile

Universidad San Francisco de Quito

La Importancia del Análisis Gráfico y No Paramétrico

Juan Sebastián Araujo D.1

La gran mayoría de cursos de estadística a niveles medios y superiores priorizan en

El propósito central de este documento no es por ningún motivo, desincentivar o

En referencia a los datos, el anexo del documento presenta la tabla completa de

2. La Generalización como una Simple Aproximación

1950 1960 1970 1980 1990 2000 2010

Figura 1. Evolución de la población urbana (1950 – 2010).

Ahora bien, la figura 2 descompone la evolución poblacional de las ciudades en 3

1950 1960 1970 1980 1990 2000 2010

Figura 2. Evolución de la población urbana diferenciada (1950 – 2010).

En cuanto a la tasa de crecimiento global Γ t = lnP t /P t−1  a través de los 60 años

1970 1980 1990 2000 2010

Figura 3. Evolución del crecimiento urbano (1950 - 2010).

La figura 4 pretende exponer en mayor detalle la evolución poblacional en las

Figura 4. Cambio en la estructura poblacional en consideración al ranking.

Figura 5. Existencia de dinámicas entre población y ranking a través del tiempo.

En efecto, estudios generalizados de crecimiento y evolución en cantidad de

3. Las Gráficas de Reloj como un Modelo de Análisis de Datos

Como su nombre lo indica, el modelo de Rank Clocks emplea el concepto de un

Se tiene entonces para el análisis de las ciudades en Ecuador, el Rank Clock

Verde: + pobl. 1950, Rojo: +- pobl. 1950, Azul: - pobl. 1950

Al ingresar los datos de las 39 ciudades en el reloj se obtiene la figura 7. El color

Verde: + pobl. 1950, Rojo: +- pobl. 1950, Azul: - pobl. 1950

A fin de mejorar la visualización, la figura 8 detalla 4 ciudades cuyo

1990 Buena Fe 2001

Verde: + pobl. 1950, Rojo: +- pobl. 1950, Azul: - pobl. 1950

• 1966: La Asamblea Nacional Constituyente reconoce al cantón Santo Domingo de los

Por su parte en Quevedo sucede el siguiente acontecimiento:

• 1950 - 1960: La ciudad se convierte en el centro nacional de producción y

Finalmente, el caso de Salitre presenta un evento semejante:

4. Un Poco más Acerca de los Relojes

δ i,t = |r i,t − t i,t−1 | .

Sea además C t el número total de componentes tal que C t = Σi . Entonces el promedio

y el nivel promedio de cambio es por consiguiente

Verde: + pobl. 1950, Rojo: +- pobl. 1950, Azul: - pobl. 1950

País Distancia ( δ ) Tasa de Urb. (%)

5. La Existencia Cierta de Características Micro

En esta sección se pretende evaluar el comportamiento del crecimiento

y la participación de cada ciudad, en cada t ,

Por lo tanto, el crecimiento esperado para cada periodo será

P i,t P P t−1 P i,t

Y la tasa de crecimiento g se obtiene con el logaritmo a ambos lados de la igualdad, así

La figura 10 traza los dos determinantes del crecimiento de las 39 ciudades en el

considerable. Otro detalle que se aprecia en el gráfico es que mientras el segundo

Negro: Crecim. Promedio, Rojo: Cambio en Participación Prom.

En cuanto a esto, si se grafica nuevamente la figura 3, solamente que ahora

1970 1980 1990 2000 2010

6. Aplicando las Leyes de Gibrat y Zipf

Dos postulados medianamente conocidos en la literatura estadística al respecto

1950 1962 1974 1982

1990 2001 2010

N = 37 Bandw idth = 0.3328 N = 37 Bandw idth = 0.3311 N = 37 Bandw idth = 0.3599

La figura 13 presenta la distribución del logaritmo de la población comparada con

1950 1962 1974 1982

1990 2001 2010

Figura 13. Comparación con Normal de distribuciones de población.

Año Est. W Valor p

g i,t = mp i,t  +  i,t ,

donde h es la escala de suavizamiento, y S t es un punto arbitrario dentro del soporte16.

Figura 14. Ajuste Kernell para 1962.

Figura 15. Ajuste Kernell para 1974.

Figura 16. Ajuste Kernell para 1982.

r i,t ≈ ν t 1 − FP i,t 