Sunteți pe pagina 1din 5

Ensayos

Ventajas y retos en el uso de bases de datos distribuidas

Resumen Abstract Abstrait


Actualmente diversas actividades en las Nowadays, a diversity of activities in whi- Actuellement des activités diverses dans
cuales se encuentran involucradas bases de ch data bases are involved need to be carried lesquelles des bases de données sont insérées
datos requieren realizarse desde diferentes out from different sites. Many companies have doivent être effectuées depuis des sites
sitios. Muchas empresas se han diversificado branched out geographically and likewise différents. Beaucoup d´ entreprises se sont
geográficamente y sus recursos de cómputo their computer resources are spread out. diversifiées géographiquement et leurs
se encuentran de tal manera esparcidos. Sin However, consulting common data between ressources informatiques se sont dispersées.
embargo, las consultas de datos entre dife- different sections of a company is common, Cependant, les consultations de données
rentes unidades de negocios son comunes and more so now with the arrival of the communes entre les différentes unités de
entre ellas, más aún con el advenimiento de Internet. Distributed data bases are a good commerces le sont entre elles, encore plus
la Internet. Las bases de datos distribuidas alternative in such cases. This document avec l´ arrivée de l´ internet. Les bases de
données distribuées sont une bonne
son una buena alternativa para estos casos. analyses the principal advantages of distri-
alternative pour tous ces cas. Ce document
Este documento analiza las principales ven- buted data bases and mentions the main
analyse les principaux avantages des bases
tajas de las bases de datos distribuidas y technological challenges in which research
de données distribuées et mentionne les défis
menciona los principales retos tecnológicos is still being carried out.
technologiques principaux où l´ on développe
en donde aún se está haciendo investiga- la recherche.
ción al respecto.

* Francisco de Asís 1. Introducción


López Fuentes
El incremento de la globalización y el clima más competitivo ha he-
cho necesario que las compañías internacionales trabajen de una nueva
manera, que maximicen sus sinergias entre sus diferentes unidades de ne-
gocios, ingeniería y proyectos alrededor del mundo. Con la explosiva po-
pularidad de la Internet y el world wide web (WWW) hay una necesidad
de crecimiento rápido para suministrar acceso sin precedente a fuentes de
datos distribuidas globalmente a través de la Internet. La integración de los
datos dispersos en diferentes sitios para ser accedidos a través del web,
puede requerir de nuevas arquitecturas y herramientas de software para el
desarrollo de estos sistemas. Diferentes empresas se han visto en la nece-
sidad de integrarse a estas nuevas tecnologías. Esta necesidad ha creado
una fuerte demanda por capacidades de acceso a bases de datos a través
de la Internet[1]. En este documento revisamos las ventajas que podemos
lograr a través del uso de bases distribuidas, con respecto a una base cor-
porativa centralizada, ambas accedidas a través del web.

2. Arquitectura de una base de datos distribuida


El procesamiento en las bases de datos distribuidas, es el procesa-
* Profesor Investigador de la Universidad miento por el medio del cual la ejecución de las transacciones, la recu-
Tecnológica de la Mixteca peración y actualización de los datos se lleva a cabo entre dos ó más

Ventajas y retos en el uso de bases de... TEMAS DE CIENCIA Y TECNOLOGÍA vol. 6 número 18TEMAS | septiembre
septiembre - diciembre
- diciembre 2002 pp2002
3-9 3
computadoras independientes. La figura 1 muestra un Económicas y de organización
sistema de base de datos distribuida que involucra Muchas organizaciones son descentralizadas y los
cuatro computadoras. En esta arquitectura [2] el sis- usuarios de los sistemas de información en estas cor-
tema administrador de base de datos distribuida poraciones como en los bancos, grupos industriales,
(DDBMS), esta formado por los administradores de servicios nacionales de salud y educación ven más útil
transacciones y los administradores de bases de da- un enfoque de base distribuida que refleje la estructu-
tos de todas las computadoras. ra de la organización [7]. Esto ha podido ocurrir con
el desarrollo reciente de tecnologías de cómputo, la
presión ejercida por los usuarios y el advenimiento de
las nuevas tecnologías de comunicación.

Interconexión entre bases de datos existente


Surge ante el planteamiento de un modelo poco
óptimo para aquellas empresas en donde las fuentes
locales de información son las principales usuarias de
su propia información, es decir un departamento ne-
cesita un software y hardware específico que pocas
veces cruza datos con otros departamentos. Este en-
foque aislado trae mejores beneficios de seguridad y
disponibilidad de la información, ya que la implanta-
ción de los mecanismos de control de acceso fue más
fácil. Sin embargo cuando existió la necesidad de
transferir datos entre los diferentes sistemas departa-
mentales y el sistema central de una corporación hubo
FIGURA 1. ARQUITECTURA DE LAS BASES DE DATOS DISTRIBUIDAS problemas de consistencia y duplicidad. Las bases de
datos distribuidas son la solución natural cuando di-
3. Ventajas para implementar versas bases de datos existen en una organización y
bases de datos distribuidas se tiene la necesidad de ejecutar aplicaciones globa-
La evolución de las bases de datos distribuidas les. En este caso, la base de datos distribuida es crea-
se debe por una parte a razones organizacionales da por encima de las bases de datos locales
las cuales han demandado que mayores capacida- preexistentes, lo cual puede requerir un cierto grado
des sean incorporadas a las bases de datos, tales de reestructuración local [7]. Esto permite un tipo de
como la integración de información desde distintos control centralizado o distribuido para mantener la in-
sitios donde se encuentre la empresa distribuida tegridad de la base de datos descentralizada en dife-
hacia algún sitio por ejemplo, para una consulta. rentes sitios. La descentralización aunque, en un
Por otra parte, el desarrollo de las tecnologías de co- principio concebida para sistemas homogéneos de in-
municación han permitido enlazar datos con apli- formación, involucra en varios casos el manejo de sis-
caciones que se encuentran en sitios distintos y temas heterogéneos. La heterogeneidad se puede dar
remotos, por ejemplo las transacciones bancarias a muchos niveles, desde la forma de concebir los da-
realizadas en máquinas-cajeros automáticos (ATM) tos hasta los medios de almacenamiento para man-
que se encuentran ubicados en centros comercia- tener su durabilidad, pasando por los diferentes
les, empresas y escuelas, no serían posibles si no tu- sistemas de comunicación para transportar los datos.
viéramos sistemas de comunicación para enlazarnos
a bases de datos localizadas en diferentes sitios finan- Crecimiento proporcional
cieros. A continuación explicamos brevemente en que Existen organizaciones que crecen adicionando
consisten estas razones: nuevas unidades organizacionales relativamente autó-
nomas como: sucursales, nuevos almacenes o fábri-

4 TEMAS | septiembre - diciembre 2002 Ensayos


cas, lo que implica el desarrollo de nuevas bases de complejas. Las fallas en un sistema distribuido se pue-
datos para los sistemas de información. Es aquí don- den dar con mayor frecuencia que en un sistema cen-
de un enfoque de bases de datos distribuido es muy tralizado, debido al gran número de componentes
útil, ya que estas soportan un suave crecimiento con que lo integran, sin embargo el efecto de cada falla
un mínimo impacto en las unidades existentes alrede- se reduce a aquellas aplicaciones que usan el dato y
dor. En un enfoque centralizado, aún en las dimensio- el sitio que falla, y el hecho- de que una falla en un
nes del sistema inicial se tiene cuidado con futuras sitio o en un dato ocasione que el sistema distribui-
expansiones, se dificulta y se encarece al implemen- do completo falle, es muy raro.
tarlo y el crecimiento por nuevas aplicaciones afecta Últimamente los sistemas distribuidos están sien-
también a las aplicaciones ya existentes. do afectados aún más por el desarrollo dramático de
los canales de distribución de la información basadas
Reducción de la sobrecarga de comunicación en la penetración de la Internet y a su rápido avance
Cuando existen aplicaciones distribuidas geográfi- en áreas no asociadas normalmente a la computación
camente en distintos nodos de una red, un enfoque [3]. El World Wide Web, el E-mail, y los grupos de In-
bajo una base de datos centralizada lleva a aumentar ternet son ejemplos prominentes. Esta tendencia no
el tráfico en la red, dificultando los accesos a la base sólo continuará, sino que se acelerará.
de datos. Un enfoque distribuido permite reducir la so- Actualmente existen aplicaciones que desde su ori-
brecarga de tráfico en la red ya que los sitios locales gen han sido concebidas como distribuidas, donde se
pueden contener los fragmentos más usados por las han considerado las diferentes tecnologías recientes
aplicaciones locales, esta ventaja se debe considerar que permiten integrar los sistemas de información sin
al diseñar la base de datos distribuida. afectar al usuario. Sin embargo, un reto importante es
cuando tenemos que integrar a un ambiente distribui-
Consideraciones de rendimiento do diferentes departamentos, donde existen sistemas
La existencia de diversos procesadores autónomos gestores de bases de datos (DBMS) locales distintas
resulta en el incremento del rendimiento a través de un (heterogéneas), que gestionan datos que se requieren
alto grado de paralelismo. Esta consideración puede ser cruzar en diferentes áreas para aplicaciones distintas.
aplicada a cualquier sistema de multiprocesador y no Con el comercio electrónico que comienza a ser
solamente a bases de datos distribuidas. Sin embargo, una característica común de algunas empresas, la
las bases de datos distribuidas tienen la ventaja de que importancia de los sistemas distribuidos y las ba-
la descomposición de datos refleja el criterio de depen- ses de datos distribuidas se acrecienta, ya que aun-
dencia de aplicaciones lo cual maximiza la situación de que actualmente la mayoría de los diseñadores e
las aplicaciones; de esta manera la interferencia mutua implementadores de los sistemas de comercio elec-
entre diferentes procesos es minimizada. La carga es trónico se han concentrado en lo que respecta al
compartida entre los diferentes procesadores y los cue- pago electrónico, en realidad existen muchos otros
llos de botellas críticos tales como: la misma red de co- componentes en la implementación de sistemas
municación o servicios comunes del propio sistema se distribuidos masivos. El comercio electrónico impli-
evitan. Este efecto es una consecuencia de la capacidad ca no solamente el pago por las mercancías o ser-
de procesamiento autónomo requeridos, para las apli- vicios [6] sino también su creación, publicidad,
caciones locales, declarada en la definición de las ba- salida, mantenimiento y disposición.
ses de datos distribuidas.
4. Los retos tecnológicos
Confiabilidad y disponibilidad Como expectativa con respecto a las tecnologías de
El enfoque de bases de datos distribuidas, espe- DBMS distribuidas y paralelas, hay un número de cues-
cialmente cuando se tiene redundancia de datos, pue- tiones que tienen todavía que ser resueltas satisfacto-
de ser usado también con el fin de obtener una mayor riamente. Algunas de estas cuestiones de investigación
confiabilidad y disponibilidad. Sin embargo obtener importantes, [4] son indicadas a continuación:
esta meta no es sencillo y requiere el uso de técnicas

Ventajas y retos en el uso de bases de... TEMAS | septiembre - diciembre 2002 5


Colocación del dato gativamente el balanceo de la carga. Un factor de com-
En un sistema paralelo, la colocación apropiada de plicación final en la colocación de los datos es la re-
los datos es esencial para balancear la carga. Idealmen- plicación de los datos para una alta disponibilidad. Un
te, la interferencia entre las operaciones paralelas si- enfoque ingenuo [2] es mantener dos copias de los
multáneas se puede evitar teniendo cada trabajo de la mismos datos, una copia primaria y una de respaldo,
operación sobre un conjunto de datos independiente. en dos nodos separados. Sin embargo, en caso de una
Estos conjuntos de datos independientes pueden ser falla del nodo, la carga del nodo que tiene la copia pue-
obtenidos por desagrupar (dividiendo horizontalmen- de duplicarse, de tal modo que afecte el balanceo de
te) las relaciones según una función (función hash o la carga.
índice del rango) aplicada a algún atributo(s) de la co-
locación, y asignando cada partición a un disco dife- Problemas de escalamiento y fallas de la red
rente. Como con la fragmentación horizontal en bases La comunidad de base de datos no tiene un com-
de datos distribuidas, el desagrupamiento es útil para pleto entendimiento de las implicaciones de rendi-
obtener paralelismo entre consultas, teniendo consul- miento de todas las alternativas de diseño que
tas independientes trabajando en particiones diferen- acompañan el desarrollo de DBMS distribuidos. Espe-
tes, y paralelismo entre consultas, por tener una cíficamente cuando nos referimos a la escalabilidad de
operación de consulta trabajando en diferentes parti- algunos protocolos y algoritmos, cuando el sistema lle-
ciones. El desagrupamiento puede ser de un sólo atri- ga a ser distribuido geográficamente o cuando el nú-
buto o de muchos atributos. En el último caso, una mero de componentes del sistema se incrementa. De
consulta igual requerirá la igualación de todos los atri- preocupación específica podemos mencionar los me-
butos que se puedan procesar por un solo nodo sin canismos de procesamiento de transacción distribui-
comunicaciones. La selección entre el hashing y el ín- da en sistemas de base de datos distribuidas basados
dice del rango para repartir es una cuestión del dise- en redes WAN. Diversos algoritmos y protocolos pro-
ño: el hashing incurre en menos gastos de almacenaje puestos para arquitecturas de redes de área local
pero proporciona únicamente ayuda directa para las (LAN), no están bien entendido su comportamiento
consultas igualmente exactas, mientras que el índice cuando son llevados a redes de área amplia (WAN) [6].
del rango puede también utilizar consultas del rango. Para lo cual se requiere una mayor investigación con
Propuesto inicialmente para sistemas no compartidos, respecto a los modelos de rendimiento. También el ais-
el desagrupamiento ha mostrado también ser útil para lamiento y la corrección de fallas en los sistemas dis-
el diseño de memoria compartida, por reducir conflic- tribuidos requerirán nuevos servicios de la
tos de acceso a memoria. El desagrupamiento com- infraestructura para vigilar la calidad de las comunica-
pleto, por lo cual cada relación se reparte a través de ciones y entregar avisos de las anomalías a los provee-
todos los nodos, causa problemas para la relación o dores del servicio cuando la calidad se sitúa por debajo
los sistemas pequeños con una gran cantidad de de un umbral dado [1]. Posibles soluciones serían la
nodos [4]. Una solución mejor es el desagrupamiento implementación de mecanismos automáticos de ais-
variable, donde cada relación se salva en cierto número lamiento y detección de fallas.
de nodos como una función de la frecuencia de acce-
so y del tamaño de la relación. Esto puede ser combi- Procesamiento
nado con el agrupamiento de múltiples relaciones para de consultas paralelas y distribuidas
evitar la carga general de comunicación de las opera- La optimización de la consulta global genera un
ciones binarias. Cuando los criterios usados para la plan óptimo de ejecución para la consulta del fragmen-
colocación de los datos cambian hasta el punto de que to de la entrada de información tomando decisiones
el balanceo de la carga se degrade perceptiblemente, con respecto al orden de la operación, al mover el dato
la reorganización dinámica es requerida. Un problema entre los sitios, y a la selección tanto de los algoritmos
serio en la colocación de los datos es cómo tratar con distribuidos y de los locales, para las operaciones de
las distribuciones sesgadas de los datos lo cual puede la base de datos. Hay varios problemas relacionados
conducir a una repartición no uniforme y afectar ne- a este paso. Se tienen que hacer con las restricciones

6 TEMAS | septiembre - diciembre 2002 Ensayos


impuestas ante el modelo de costo, la concentración que las simulaciones frecuentemente incorporan las
en un subconjunto del lenguaje de consulta, la nego- mismas suposiciones que sirven de base al análisis de
ciación entre el costo de la optimización y el costo de Markov. Hay una necesidad, por lo tanto, de estudios
la ejecución, y el intervalo optimización-reoptimización. empíricos para monitorear patrones de fallas en siste-
El modelo de costo es central para optimización de mas de producción de la vida real, con el propósito de
consultas globales, ya que proporcionan la abstracción construir un modelo simple de carga de fallas típicas.
necesaria del sistema de ejecución del DBMS distribui-
do en términos de acceso, tanto como en la abstrac- Heterogeneidad
ción de la base de datos en términos de información Esta cuestión importante en el diseño actual de las
del esquema físico relacionada estadísticamente. El bases de datos distribuidas será perceptiblemente ma-
modelo de costo es usado para predecir el costo de yor para sistemas distribuidos masivos. Mientras que
ejecución de los planes de ejecución alternativos para la mayoría de las aplicaciones distribuidas existentes
una consulta. Un número importante de restricciones [5] se ejecuta en una cantidad de diferentes platafor-
son frecuentemente asociadas con el modelo de cos- mas de cómputo, limitadas a un pequeño número de
to [4], los cual limitan su eficiencia de optimización familias comunes, por ejemplo UNIX, Windows, LINUX
para mejorar el rendimiento efectivo. Es necesario ne- o quizás MVS. Las aplicaciones distribuidas masivas,
gociar entre el costo de optimización y la calidad del por otra parte, se ejecutarán no solamente en platafor-
plan de ejecución generado. La optimización de la mas existentes [1], sino también en una amplia varie-
consulta global se realiza típicamente antes de la eje- dad de sistemas empotrados, soportados por los
cución de la consulta; de aquí que esta sea llamada es- propios sistemas operativos y hardware del propieta-
tática. Un problema importante con este enfoque es que rio (tal como sistemas de control en automóvil y PDAs).
el modelo de costo usado para la optimización puede Una aplicación distribuida masiva para la comunica-
llegar a ser inexacto, debido a cambios en el tamaño del ción remota podrá tener componentes que se ejecu-
fragmento o a la reorganización de la base de datos que ten en estaciones de trabajo, en equipos para TV por
es importante para el balance de la carga. cable, en teléfonos portátiles, en dispositivos de co-
municación basados en PCS y así sucesivamente [6].
Procesamiento de transacciones distribuidas Esto aumentará el número de diversas implementacio-
Existen aún tópicos de fuerte investigación en el nes de software para un solo tipo de componente, de
área de procesamiento de transacciones distribuidas. modo que será necesario un esfuerzo para asegurarse
Con respecto a la replicación de datos, la investigación de que la aplicación trabaja correctamente en un am-
requerida se encamina a los métodos de replicación biente heterogéneo.
para computación y comunicación; y más trabajo es
requerido para permitir la explotación sistemática de Representación,
las características de aplicaciones específicas. Una de codificación y traducción de objetos
las dificultades en las técnicas de replicación de eva- Hay una variedad de esfuerzo para determinar los
luación cuantitativa yace en la ausencia de modelos de mejores modelos de programación para los objetos
incidencia de falla comúnmente validados. Los mode- distribuidos, tales como CORBA y Java. Sin embargo,
los de Markov que son algunas veces usados para ana- existen ciertas cuestiones que introducirán nuevos re-
lizar la disponibilidad alcanzada por los protocolos de tos en cómo se representan, se codifican y se tradu-
replicación asumen la independencia estadística de los cen los objetos. La representación de objetos
eventos individuales de falla y la muy rara división de distribuidos masivos requerirá no solo nuevas técnicas,
la red por causas relacionadas a fallas en los sitios. Sin sino que su presentación a los usuarios también reque-
embargo, actualmente no se conoce que una u otra de rirá innovación. Algunos investigadores han examina-
estas suposiciones sea alcanzable, tampoco se cono- do este problema. Una nueva clase de interfaz de
ce como responden los modelos de Markov a estas usuario representa objetos como espacios virtuales [2].
suposiciones. Los modelos de Markov [6] para su si- Esta técnica es conveniente para presentar objetos dis-
mulación requieren mediciones empíricas, debido a tribuidos masivos a los usuarios finales. Por ejemplo,

Ventajas y retos en el uso de bases de... TEMAS | septiembre - diciembre 2002 7

S-ar putea să vă placă și