Documente Academic
Documente Profesional
Documente Cultură
RESUMEN
Este trabajo revisa distintos anlisis a los que se pueden someter
las reglas de depuracin de datos estadsticos. Se distingue entre los
anlisis que se pueden aplicar a las reglas de depuracin de datos
cuantitativos y los que se pueden aplicar a las reglas de depuracin
de datos cualitativos. Se presta especial atencin a las reglas de
conflicto, aunque tambin se hace referencia a las reglas de imputacin determinstica.
Palabras clave: Edit, regla determinstica de imputacin, anlisis de
consistencia.
Clasificacin AMS: 62-04.
1.
En la realizacin de investigaciones estadsticas se utilizan dos tipos de representaciones de la realidad, una a nivel de datos individuales o microdatos y otra
a nivel de datos agregados o macrodatos. En arnbas representaciones los estadsticos utilizan, impicita o explcitamente, un modelo mediante el cual sirnplfican, para hacerla ms manejable, ia compleja realidad con la que se enfrentan.
Para la construccin del modelo se apoyan en diferentes instrumentos que
dependen de la metodologa utilizada. Para los microdatos es estndar la utilizacin del modelo entidad-relacin. En el nivel de los datos agregados no existe
una herramienta estndar de modelizacin, si bien es de gran inters el Modelo
Conceptual Estadstico de Battista y Batini (1988) que forma parte de una metodologa que integra la modelizacin de los microdatos con los datos estadsticos
agregados.
1 c>2
ESTAD^STICA ES^ANOL.A
A pesar de que las metodologas actualmente existentes no las recogen explcitamente, las reglas de depuracin forman parte del modelo, al que aportan un
fuerte contenido semntico. En el modelo de microdatos, las reglas de depuracin
plasman ciertas condiciones que los expertos piensan que no se deben presentar
en la poblacin (conocidas como edits de rechazo) o condiciones que piensan
que cumplen todos !os objetos de la poblacin (edits de aceptacin). Con las
reglas de depuracin los estadsticos tratan de eliminar aquellas observaciones
que, debido a errores producidos en cualquier momento, caen fuera del modelo
que ellos tienen de la realidad. Tambin se utilizan reglas de depuracin en el
modelo de macrodatos, p.e. el establecimiento de lmites de aceptacin para los
valores de una serie temporal. Tradicionalrnente ambos tipos de reglas de depuracin se han utilizado de forma no integrada; en la actualidad, los procedimientos
de macrodepuracin vienen a tender un puente entre ambos.
Como otras partes del modelo, las reglas de depuracin se pueden analizar
para garantizar su coherencia y adaptacin a la realidad. EI anlisis de reglas
tiene dos funciones:
Comprobar la consistencia lgica de las reglas. Este anlisis se limita a
comprobar si las reglas deterrninan una regin de aceptacin demasiado
reducida, o incluso vaca. No se tienen en cuenta los datos actuales,
nicarnente el modelo que se tiene de la realidad.
Comprobar si las reglas se adaptan a la realidad observada. Esta comprobacin se realiza contrastando las reglas con los datos reales a depurar. Si una regla no se falla nunca, puede ser eliminada, si una regla se
falla un nmero excesivo de veces puede ser seai, o bien de un error
sistemtico, o bien de que la regla no se adapta a la realidad. Si una regla
ha detectado como errneas situaciones que se comprueba que son
correctas la regla no se adapta a la realidad.
En este documento nos vamos a limitar a considerar el anlisis lgico de las
reglas de depuracin a nivel de microdatos y entre ellas unos tipos simplificados,
que son los que las metodologas actuales emplean.
En el apartado 2 se presentan los tipos de reglas de depuracin considerados,
en el 3 las principales estrategias de anlisis de reglas, centrndonos en los
apartados 4, 5 y 6 en el anlisis de las edits nurnricos, categricos y categricos
numricos respectivarnente. Se utiliza un enfoque muy informal presentand0
^ nicamente los posibles conflictos que se pueden encontrar. En los apartados 7
y 8 se da una breve referencia a una posible forma de implementacin de los
aniisis de edits numricos y categricos, el apartado 9 est dedicado al anlisis
de las reglas de imputacin determinstica y el 10 al anlisis conjunto de reglas
de imputacin determinstica y edit, Finalmente el apartado 11 recoge las conclusiones fundamentales.
2.
153
2.
Los edits, por su parte, se pueden clasificar en tres tipos (1}: i) nurnricos, ii)
categricos, iii) condicionales numricos.
i)
edits num^ricos
Ejempl+os:
x^ <_ x2 * x3 tomando logaritmos en ambos miembros de la expresin
se transforma en y^ < y2 + y^.
x1/x^ <_ 3 se transforma en x^ <_ 3* x2
(1) GILES ( 1989) considera un cuarto tipo: los edits condicionales categricos, pero
es obvio que estos edits se pueden reducir a edits categricos.
FSTAQISTICA ESPAfJpLA
S^
Sin embargo, transformaciones tan sencillas como las anteriores pueden dar
lugar en ocasiones a problemas poco manejables. Consideremos, por ejemp(o,
el caso de coexistr las dos regias sguientes:
X^ _< X2 * Xg
y
X1 +X2<_X3
nmero de variables
m^
m2
m=m^+m2
.
x^,^=1,...,n
'
valor de la variable j
a^,i-1,...,m,j=1,...,n
coeficiente de xj en el edit i
b;,i=1,...,m
Con esta notaci8n los edits se pueden expresar en forma matricial como:
A^ x<B^
A2 x = B2
x>_0
donde las matrices A y B se han particionado adecuadamente.
Los edits establecen la regin de casos aceptabfes que es un poliedro convexo.
155
edits categricos
ii)
Los edits categricos son expresiones lgicas que relacionan mediante operadores AND y/o OR conjuntos de posibles respuestas para las variables del
cuestionario. Aplicando repetidamente la propiedad distributiva, los edits categricos se pueden transformar en expresiones en las que el nico operador utilizada
para relacionar conjuntos de valores de diferentes variables es el AND. Estos
son los Ilamados edits en forma norrnal en la metodologia de Fellegi y Holt (1976).
Otras formulaciones se pueden reducir tambin a la forma normal.
Ejemp/os:
[EDAD(<15) AND (E_CIVIL ( casado alguna vez) OR RELA
(CABEZA_FAMILIA)]
es equivalente a:
EDAD(<15) AND RELA (CABEZA_FAMILIA)
EDAD(<15) AND E_CIVIL ( casado alguna vez)
EDAD1 < EDAD 2 equivale a:
EDAD1(0} EDAD2(>0)
E DAD 1(1) E DAD2(> 1)
EDAD 1(99) EDAD2(>99)
iii)
Son de la forrna:
IF expresin lgica TF^EN edit numrico
donde la expresin lgica determina el conjunto poblacional al que es aplicable
el edit numrico.
Ejemp/o:
IF sector = 301 THEN ( Salario-totallNmero-empleados) _< 500
ESTADISTICA ESPAOLA
^^J^
3.
4.
4,1.
Anlisis de consistencia
4.2.
^7
Eliminacin de redundancias
Un edit es redundante si no puede ser fallado a menos que otro edit sea fallado,
es decir, no aporta nada a la delimitacin de la regin de aceptacin.
Ejemplo:
EI edit
4.3.
Anlisis de determinancias
Los edits pueden hacer que la regin aceptable se reduzca a un nico punto,
o que para alguna variable haya un nico valor aceptable. Son situaciones que,
si bien no son necesariamente seal de que los edits sean inconsistentes, s son
sospechosas y requieren una revisin por los expertos.
4.4.
Los edits determinan un lmite inferior y un lmite superior para cada variable
(que en algn caso puede ser infinito). Estos lmites deben ser comprobados por
los expertos para verificar si los intervalos de aceptacin son demasiado pequeos o grandes. Esto puede dar lugar a aadir, eliminar, o modificar edits.
4.5.
Igualdades escondidas
Ejemplo:
Losedits2x^ +3x2 < 10y2x^ +3x2>_ 10equivalenal
ed it: 2 x1 + 3 x2 = 10
4.6.
Edits implicados
158
ESTADtSTfCA ESPANt7LA
Los edits implicitos fueron introducidos por Fellegi y Holt (1976) con el objeto de
permitir determinar las variables a ser imputadas y los posibles valores a imputar,
para ellos su utilizacin en el anlisis de reglas es secundario. Si un edit implicado
es inaceptable es seal de que a1 menos uno de ios edits originales es inaceptable.
Los edits implicados se obtienen formando las combinaciones lneales positivas de los edits explcitos en las que se eiimina el coeficien#e de alguna variable.
Fjemplo:
de3x^ -2x2<4y
x^ + 5 x2 < 1 se obtiene
17 xi <_ 22
4.7.
Puntos ext^emos
5.
159
donde cada E;^ es un subcor^junto, propio o no, de Ei. Estos edits indican condiciones de error.
Lema:
Sean e; i ^ S un conjunto de edits,
la expresin:
EGk= ^ E;k=Ek
F_ $
Ejemplo:
De los edits e^: EDAD(<15) ECIVIL (# SOLTERO) y
e2: ECIVIL (NO CASADO ACTUALMENTE) RELACION_CABEZA (ESPOSA)
se deduce
ei_2: EDAD(<15) RELACION_CABEZA(ESPOSA)
(e^ equivale a EDAD(<15) IMPLICA EClVIL {SOLTERO), e2 equivale a ECIVIL
(NO CASADO ACTUALMENTE) IMPLICA RELACION_CABEZA (#ESPOSA},
^{.)
ESTADISTIGA ESPAOLA
De ambos se deduce:
EDAD (<15) IMPLICA REbACION_CABEZA (^ESPOSA}
que equivale a e^ _2).
EI con^unta de los edits explcitos, junto con los edits esencialmente nuevos
forman el conjunto cornplefo de reglas.
5.1.
An^lisis de consistencia
5.2.
Eiiminacin de redundancias
Ejemplo:
e^ : EDAD(<15) ECIVIL(CASADO) es redundante respecto a:
e2 : EDAD(<15) ECIVIL (^SOLTERO)
Otra forma de redundancia es cuando dos edits son iguales en todos los
campos menos en uno, en este caso se pueden fusionar en un nico edit.
Ejemplo:
e^ : EDAD(<15) ECIVIL(CASADO) y
e2 : EDAD(<15) ECIVIL(VIUDO)
se pueden fusionar en
^ C"^ ^
Un edit resultado de una fusin puede dar lugar a nuevas fusiones o dominar
a algn edit. Por lo tanto, si se realizan fusiones la eliminacin de redundancias
es un proceso iterativo.
5.3.
6.1.
7.
X >_ O
se puede realizar utilizando tcnicas tradicionales de programacin lineal.
162
7.1.
ESTADISTICA ESPA^IOLA
Anlisis de consistencia
En este caso basta buscar una solucin, con cualquier funcin objetivo c'x del
problema de minimizar c'x sujeto a las restricciones (1).
7.2.
7.3.
Para cada edit A^; x(una fila de A^ x<_ B^) se maximiza A^; x- b; sujeto a
A^x<_B^,x?0
Si el mximo es positiva estamos ante un edit redundante, pues las edits que
limitan el conjunto aceptable alcanzan en la frontera el valor 0.
7.4.
Los lmites inferior y superior que los edits determnan para cada variable x^ se
obtienen resolviendo los problemas:
rnin x^ sujeto al conjunta de restricciones (1), lo que nos da el lmite
i nferior x^^ , y
max x^ sujet a(1), lo que nos da el extremo superior x^2.
163
Si ak^ > 0 y a;^ < 0, multiplicando el primer edit por ak^ y el segundo por -a;^, y
sumando los resultados se obtiene un edit en el que la variable x^ no aparece
explcitamente: un edit implicado por e; y ek generado en el campo j. Con el
siguiente algoritmo se podran obtener todos los edits implicados:
END
END
Un algoritmo conceptualmente equivalente a ste est implementado en
SPEER, Greenberg (1982). GEIS utiliza uno completamente distinto basado en
el algoritmo de Chernikova, Schiopu-Katrina y Kovar (1989).
7.6.
Los puntos extremos del poliedro convexo definido por (1) se obtienen resolviendo todos los sistemas de n ecuaciones que se pueden formar con las m+n
reglas. Esto puede dar lugar a un nmero formidable de combinaciones a verificar
(m+n) !ln!m!. En la prctica (GEIS) se utilizan algoritmos ms eficientes, Schiopu-Kratina y Kovar (1989).
8.
La implementacin de la metodologa de Fellegi y Holt se suele hacer representando los edits como tiras de bits. A cada cdigo posible de cada variable se
le asigna un bit, que en un edit dado tendr un 1 si el cdigo es relevante para
el fallo del edit o un 0 en caso contrario.
Ejemplo:
Supongamos tres variables A, B y C, con cdigos vlidos 1, 2 y 3 cada una de
ellas.
164
ESTADiSTfCA ESPAIVt3LA
EI edit
e: A(1} C(2, 3) que expresa una incompatibilidad existente entre valores de las variables A y C, independientemente del valor de la variable
8, se representaria:
A
C
B
100 111 011
81.
Aniisis de ^edundancias
Ejemplo:
e^ : A(1,2) B(1)
8.2.
Analisis de consistencia
Ejemp/o:
e^ : A(1,2) B(1,2)
e2: B(2,3) C(3}
con vectores :
e^: 110 110 111 y
e2: 111 011 001
165
9.
9.1.
Eliminacin de redundancias
Dadas dos reglas r^ y r2, tales que dan lugar a una misma imputacin, entonces
166
ESTADISTfCA ESPANOLA
Ejemplo:
r^: IF (SALARIO < 50.OQ0 8^ SEGTOR = 027) THEN (SALARIO =
= so.ooo)
r2: iF (SA^.ARIO < 45.000 & SECTOR = 027) THEN (SALARIO =
= so.oao>
r2 se puede eliminar.
9.2.
Eliminacin de inconsistencias
a)
Ejemp/o:
r^: IF (SALARIO < 35.000 & SECTOR = 011) THEN (SALARIO =
= 40.000)
167
Ejemplo:
Dadas las reglas:
r^: IF (SEXO = mujer & SECTOR = 012) THEN (SEXO = varn)
r2: IF (SEXO = varn & SALARIO <25.000) THEN (SALARIO = 35.000)
un registro con SEX = mujer, SECT4R = 012 y SALARIO = 20.000 falla r^ y
no r2, pera tras ser imputado por r^ pasa a faliar r2.
Este tipo de situaciones, no son necesariamente conflictivas, per0 s sospechosas.
10.
(2) EI Sistema DIA tiene un analizador de reglas que incluye un analizador edit-reglas
de imputacin determinstica bastante completo, no limitndose nicamente a detectar
situaciones conflictivas, sino que ofrece para aquellas menos graves una solucin estndar. Estas soluciones estn integradas en la propia rnetodologa del sistema y son slo
aplicables si se utiliza para realizar impuacin determinstica e imputacin probabilstica
basada en la metodologa de FELLEGI y HOLT.
ESTADISTICA ESPANOLA
10.1.
Ejemplo:
r^: IF (SALARIO < 50.000 & SECTOR = 012) THEN (SALARIO =
= 60.000)
e^: (SALARIO > 55.000) & NIVEL-EDUCATIVO ( analfabeto)
en este casa, para un registro con SALARIO (<50.000), SECTOR (012) y NIVELEDUCATIVO (analfabeto)
la regla de imputacin determinstica forzar^a el fallo del edit.
10.2.
Ejemplo:
Ilustraremos la situacin con un ejemplo poco realista.
Sean las reglas determinsticas:
r^: IF (SALARIO > 100.000 & SECTOR = 012) THEN (SALARIO =
= 60.000)
10.3.
Ejemplo:
r^: IF (SALARIO < 50.000 & SECTOR = 012) THEN (SALARIO =
= 60.000)
169
en esta regla, se considera implcitamente que el sector es correcto, modificndose en su funcin ei SALARI, pero SECTOR puede ser sospechoso si
existe un edit fallado ccmo:
e^ : SECTOR ( 012) & SEXC^ ( MUJER)
11.
CONCLUSfONES
ANEXO 1
Consideremos el siguiente conjunto de edits numricos:
x> >_ 0
x2 > 0
x^+x2<_4
x1 <_ 3
(1)
ESTAQISTICA ESPAI^JOLA
17^
Si se aade el edit:
2x^+x2_<8
x>5
171
REFERENCIAS
Data Editing Joint Group ( 1989}. Data Editing System Guidelines for Concepts
and Specification. Work Session on Statistical Data Editing. Ginebra.
FELLEGI, I. P. y HoLT, D. (1976). A systematic approach to automatic editing and
imputation. J. Amer. Statist. Assoc., 71, 17-35.
GARCA-RuBio, E. y V^^LAN, I. (1988}. Sistema DIA: Descripcin del sistema. Instituto
Naciona! de Estadstica de Esparia.
GARC(A-RuBio, E. y Vi^LAN, I. (1990). DIA SYSTEM: software for the automatic
editing and imputation of quaEitative data. U. S. 6th Annual Research Conference Proceedings.
GILES, P. { 1989). Analysis of edits in a Generalized edit and imputation system.
Statistics Canada Working Paper SSDM-89-OQ4-E.
GREENBERG, B. (1982). Using an edit system to develop editing specifications.
Proceedings of the Section on Survey Research Methods, ASA.
SANDE, G. (1976). Diagnostic capabilities for a numerical edit specifications analyzer. Statistics Canada Technical report, BSMD.
SCHIOPU-KRATINA, I. y KovAR, J. G. (1989), l,lse of Chernikova's algorithm in the
Generalized Edit and Imputation System. Statistics Canada Warking Paper
BSMD-89-oa 1 E.
SUMMARY
ANALYSIS OF STATISTICAL DATA EDITING RULES
In this paper different kind of statistical data editing rules analysis
are revised. We distinguist between the analysis which could be applied to editing rules for numerical data and the analysis that could be
applied to editing rules for categorical data. Our main focus are the
conflict rules, edits, but deterrninistic imputation rules are also considered.
Key words: Edit, deterministic imputation rule, consistency analysis.
AMS Classification: 62-04.