Sunteți pe pagina 1din 11

INTRODUCCIN A LA CALIDAD DE

DATOS APLICADO A LA
VINCULACION DE LA INFORMACION
CATASTRAL Y REGISTRAL

Septiembre de 2012

Calidad de Datos Aplicado al Proceso de Vinculacin de la Informacin Catastral y Registral

Presentacin
Las organizaciones, ya sean pblicas o privadas, se preocupan cada vez de de la calidad de los
datos de los que disponen, pues saben que de datos con niveles adecuados de calidad se puede
obtener informacin til para los procesos de negocio.
Una situacin en la que las organizaciones utilizan datos con niveles inadecuados de calidad, lleva
a un desperdicio de recursos, as como a otros perjuicios significativos en el cumplimiento de la
legislacin vigente.
Un elemento fundamental que afecta a este proceso de vinculacin es la diversidad de las fuentes
de informacin (registral y catastral), por lo cual es necesaria la aplicacin de un proceso de
calidad de datos a cada una de las fuentes.
Lo que a la vez nos permitir dar cumplimiento a lo establecido en la Ley Orgnica del instituto
Nacional de Estadstica y Geografa, la cual establece es su Artculo 27.- Son atribuciones
especficas de la Direccin General Adjunta de Informacin Catastral y Registral, las siguientes:
IV. Coordinar y concertar con las Unidades del Estado, acciones de organizacin, modernizacin y
vinculacin de los catastros y registros pblicos de la propiedad para la generacin, higiene,
estandarizacin, cruce e integracin de informacin catastral y registral de los bienes inmuebles,
en bases de datos compartidas bajo el principio de confidencialidad y seguridad informtica;
El presente documento describe la aplicacin del proceso de calidad de datos a la vinculacin de la
informacin catastral y registral.

Instituto Nacional de Estadstica y Geografa

Calidad de Datos Aplicado al Proceso de Vinculacin de la Informacin Catastral y Registral

Contenido
Contenido ............................................................................................................................................ 3
Introduccin a la Calidad de Datos ..................................................................................................... 4
Proceso de Vinculacin de la Informacin Catastral y Registral ......................................................... 5

Instituto Nacional de Estadstica y Geografa

Calidad de Datos Aplicado al Proceso de Vinculacin de la Informacin Catastral y Registral

Introduccin a la Calidad de Datos


La Calidad de Datos o Data Quality en ingles, es un concepto muy amplio del que se pueden
encontrar mltiples definiciones, pero se podra resumir como la ciencia de mantener la
informacin de las organizaciones completa, precisa, consistente, actualizada, nica y, lo ms
importante, vlida para el fin que se cre.
El trmino DQ surgi hace apenas 10 12 aos, aunque hoy en da forma parte de los conceptos
fundamentales de los sistemas de informacin, como ya lo eran otros como la integridad o la
seguridad de los datos.
El inters creciente por este tema es debido a que, para una gran mayora de las organizaciones,
los datos constituyen su principal activo y, por otro lado, el manejo de datos de mala calidad suele
ser muy costoso en tiempo y en dinero adems de una toma de decisiones equivocadas.
Es importante definir 2 de los principales conceptos que se involucran en un proceso de calidad de
datos:

Perfilado de Datos (Data Profiling)


El perfilado de datos es una de las primeras tareas que se suelen abordar en procesos Calidad de
Datos, y consiste en realizar un primer anlisis sobre los datos de origen, recopilar estadsticas e
informacin sobre los mismos normalmente sobre tablas, con el objetivo de empezar a conocer su
estructura, formato y nivel de calidad.

Limpieza de datos (Data Cleansing)


La limpieza de datos es el proceso de detectar o descubrir y corregir datos corruptos, incoherentes
o errneos de un conjunto de datos. Despus del proceso la informacin ser consistente con
otros conjuntos similares de datos.
Este proceso permite detectar entradas duplicadas, incompletas y establecer reglas para
corregirlas. El objetivo no es borrar informacin sino mejorar la calidad de los datos construyendo
un proceso de mejora continua.

Instituto Nacional de Estadstica y Geografa

Calidad de Datos Aplicado al Proceso de Vinculacin de la Informacin Catastral y Registral

Proceso de Vinculacin de la Informacin Catastral y Registral


Para la aplicacin de la calidad de datos al proceso de vinculacin de la informacin catastral y
registral se ha definido un modelo el cual contiene un conjunto de procesos.
Este se define como un modelo iterativo e incremental dependiendo de la calidad requerida, a
continuacin se presenta el diagrama del modelo de calidad de datos definido para el proceso de
vinculacin.

Cada una de estas etapas se describe a continuacin:

A. Etapa de Anlisis de la informacin.


La fase de anlisis, es el proceso de recopilacin de estadsticas y otra informacin sobre
los datos existentes en nuestros orgenes de informacin.
Esta informacin ser utilizada en el diseo de los procesos de Higiene, estandarizacin y
estructuracin. Dentro del anlisis se establecen cuales son los datos y su estado actual,
recopilando estadsticas sobre los datos existentes en una columna individual.
La informacin deber permanecer siempre sin alteracin alguna, por lo tanto, las
operaciones que requieran cualquier tipo de modificacin debern realizarse en campos
alternos.
Bsicamente esta etapa nos proporciona informacin como:

Instituto Nacional de Estadstica y Geografa

Calidad de Datos Aplicado al Proceso de Vinculacin de la Informacin Catastral y Registral

Numero de valores distintos: Cuantas entradas nicas contiene una determinada


columna.

Numero de patrones: Cantidad de formas (patrones) distintas como se representa el


dato.

Numero de valores nulos o vacios en la columna: Identificar registros cuyos datos


estn incompletos.

Valores mnimos y mximos en el campo, no solo a nivel numrico, sino tambin a


nivel de texto.

Longitud de los campos y patrones de cadenas: El control de la longitud de los valores


de la columna y los diferentes patrones que adoptan los valores.

Numero de palabras, numero de caracteres en maysculas y minsculas.

Algunos ejemplos del resultante de esta fase serian los siguientes:


Patrones encontrados del campo fecha

Patrn del Datos

Frecuencia

NNNN-NN-NN
NN-NN-NNNN
NN/NN/NN

346,289
234
65

Valores distintos encontrados en el campo Municipio


Valores encontrados
001
002
003
004
005

Frecuencia
85,245
12,221
115
1,850
1

Instituto Nacional de Estadstica y Geografa

Calidad de Datos Aplicado al Proceso de Vinculacin de la Informacin Catastral y Registral

B. Etapa Higiene de la informacin.


La fase de Higiene es el proceso de corregir o remover informacin incorrecta, con
formato inapropiado en las fuentes de entrada de informacin. Las operaciones bsicas
para esta etapa serian las siguientes:

Eliminacin de caracteres no alfanumricos.

Expansin de abreviaturas.

Sustitucin de caracteres no vlidos por su correspondiente validado

Estas acciones de transformacin sern regidas por una serie de reglas de higienizacin,
las cuales sern definidas dentro de esta fase. Las reglas de higienizacin especifican los
nuevos estndares de datos para la limpieza y transformacin.
Algunos ejemplos de los datos resultantes de esta etapa as como de las reglas de
higienizacin se muestran a continuacin:

Ejemplo de transformacin de datos:

Dato Original

Dato Higienizado

JUAN LOPEZ CASTA#EDA


AV. MORELOS MMANZ V LT. 27 CERCA DE
LA TIENADA DE DO#A CHONITA
1232-123-342-34
10- enero-2000

JUAN LOPEZ CASTAEDA


AV MORELOS MANZ V LT 27 CERCA DE LA TIENDA
DE DOA CHONITA
123212334234
10/01/00

Instituto Nacional de Estadstica y Geografa

Calidad de Datos Aplicado al Proceso de Vinculacin de la Informacin Catastral y Registral

Ejemplo de reglas generales de Higienizacin:


Campo
Nombre Propietario

Regla

Descripcin

Transformar a maysculas.

Eliminar caracteres no alfanumricos.

Sustituir caracteres no alfanumricos por los


numricos equivalentes.

Eliminar caracteres no numricos extra.

Eliminar los caracteres no alfanumricos.

No utilizar siglas ni abreviaturas.

Eliminar informacin de direccin o palabras que


no correspondan a una persona institucin o
empresa.

Estandarizar nombres de empresas.

10

Se har expansin de abreviaturas slo con fines


de cruce (vinculacin) no se modificarn nombres
de personas.

11

Segmentar en hasta 3 nombres y apellidos.

12

Eliminar valores numricos.

13

Eliminar espacios no necesarios

Instituto Nacional de Estadstica y Geografa

Calidad de Datos Aplicado al Proceso de Vinculacin de la Informacin Catastral y Registral

C. Estandarizacin y Estructuracin.
La estandarizacin de datos se refiere a todas las operaciones necesarias para estructurar
informacin semi-estructurada, es decir, distribuir, estructurar y ubicar a cada elemento
de datos en su campo correspondiente para poder ser identificado y categorizado de
acuerdo a su contenido.
Las acciones realizadas en esta etapa se basan en la definicin de un conjunto de reglas de
estandarizacin como se ejemplifica a continuacin:
Campo

Palabras a Sustituir

Sustitucin

Nombre

TEQUESQUITENGO S A TEQUESQUITENGO SA

Nombre

TQUESQUITENGO S A

TEQUESQUITENGO SA

Nombre

TEQUESQUTENGO S A

TEQUESQUITENGO SA

Domicilio

CALLE SN

CALLE SIN NOMBRE

Domicilio

C SN

CALLE SIN NOMBRE

Domicilio

C S NOMBRE

CALLE SIN NOMBRE

Domicilio

SN

S/N

Domicilio

SN

S/N

Domicilio

SN

S/N

Superficie

NNNNNNNN

NNNNNNNN.00

Superficie

NNNNNN.N

NNNNNN.N0

Superficie

NNNNNNN

NNNNNNN.00

Superficie

NNNNN.N

NNNNN.N0

UnidadSup
Domclio

M2
A LOPEZ MATEO

ADOLFO LOPEZ MATEOS

Instituto Nacional de Estadstica y Geografa

Calidad de Datos Aplicado al Proceso de Vinculacin de la Informacin Catastral y Registral

Algunos ejemplos de los resultantes de esta etapa se muestran enseguida:


Dato Nombre
Dato Original

Dato Estandarizado

Nombre(s)
JUAN ARTURO DAZ DE LEN
CASTA#EDA

Paterno
DAZ DE LEN

Materno
CASTAEDA

Nombre(s)
JUAN ARTURO

Dato Domicilio
Dato Original
Domicilio
Plaza Cristal 2do nivel 204, Avenida Lpez Mateos 1501, manzana 24 lote 1 Colonia Hroes
20230

Dato Estandarizado
Tipo de
va
pblica
Avenida

Nombre
de calle

Nmero
exterior

Manzana

Lote

Edificio

Nivel

Nmero
interior

Lpez
Mateos

1501

24

Plaza
Cristal

204

Colonia
Tipo
Nombre
Colonia

Hroes

Instituto Nacional de Estadstica y Geografa

Cdigo
postal
20230

10

Calidad de Datos Aplicado al Proceso de Vinculacin de la Informacin Catastral y Registral

D. Vinculacin.
El subproceso de Vinculacin se refiere a la utilizacin de diferentes algoritmos y
ponderaciones para identificar y relacionar cada registro que pertenece a la fuente
catastral con otro registro que pertenece a la fuente registral siendo el objetivo principal
de este proyecto.
Para este ejercicio de vinculacin se debern considerar los campos que nos proporcionen
un mayor grado de certeza en la identificacin de estos registros, como pudiera ser clave
catastral, nombre, domicilio.
La construccin de diferentes escenarios con combinaciones de campos nos podr dar aun
un mayor grado confiabilidad en el proceso de vinculacin, el nmero de escenarios y
combinaciones depender de la informacin.
Por ejemplo:
Escenario

Campos Involucrados
Clave catastral
Clave catastral, Nombre
Clave catastral, Nombre, Direccin
Nombre, Domicilio, Superficie

2
3
4

E. Validacin.
Este es el subproceso que permitir medir la calidad de los resultados y determinar el
porcentaje de error del proceso, ello permitir aceptar o rechazar el trabajo realizado
durante los diferentes procesos (anlisis, higiene, estandarizacin, vinculacion) y en lo
general aceptar o rechazar el trabajo de vinculacin. Este proceso se realizar mediante la
verificacin puntual de una muestra de registros vinculados.
Para la validacin se deben definir algunos elementos como son:
Criterios para seleccionar la muestra
-

Reglas de validacin
Patrones aplicados en las reglas de validacin
Procedimiento empleado para la verificacin

Instituto Nacional de Estadstica y Geografa

11

S-ar putea să vă placă și