Sunteți pe pagina 1din 13

GRID COMPUTING

Elaborado por José Manuel Molina


para el Centro de Difusión de Tecnologías ETSIT-UPM

Septiembre, 2003

1. Introducción
2. ¿Qué es y para qué sirve el Grid Computing?
3. Arquitectura del Grid
4. Aplicaciones y Servicios en Grid
5. Conclusiones
6. Referencias

Introducción

El término Grid Computing apareció a mediados de los años 90 en los trabajos de Ian
Foster y Carl Kesselman. La idea de grid está enfocada fundamentalmente al acceso
remoto a recursos computacionales y pretende ser un paradigma de desarrollo sin
centrarse en una tecnología concreta. La evolución de grid computing se refleja en el
avance de la estandarización de esta tecnología (el estándar de Globus Project es el
estándar de facto) donde se encuentra definida la arquitectura del grid, los niveles de
acceso, los requisitos, los servicios, etc. Esta definición no incluye el uso de una
tecnología concreta si no que explícitamente determina como necesario el uso de
múltiples tecnologías para el completo desarrollo del grid global.

El concepto de grid computing se enmarca dentro de la tecnología de computación


distribuida englobando conceptos como sistemas operativos distribuidos, programación
multiprocesador, redes de ordenadores, etc. De alguna manera el concepto de grid
computing da una unidad conceptual a todos estos problemas de manera que todos ellos
pueden verse desde una perspectiva grid.

Como antecesor directo del concepto de Grid Computing se suele citar el proyecto
SETI@home. En este trabajo los datos recogidos en el observatorio de Arecibo (Puerto
Rico) son procesados por ordenadores de todo el mundo. Este proyecto es muy
conocido mundialmente y una de las razones por las que tuvo tanto éxito es el objetivo
científico del proyecto, la búsqueda de vida inteligente en el espacio. Para alcanzar ese
objetivo se necesitaba una enorme cantidad de cómputo y ésta se conseguía
compartiendo los ciclos de CPU de millones de máquinas. El propietario de un
ordenador donaba los recursos de su máquina de manera que cuando ésta estaba inactiva
ejecutaba ciclos de trabajo para el proyecto SETI. Esta iniciativa interconectó millones
de ordenadores a lo largo del mundo, permitiendo tener una capacidad de cómputo muy
superior a la de un superordenador.

Aunque se suele citar SETI como precursor, la idea de Grid Computing es mucho más
ambiciosa ya que no sólo se trata de compartir ciclos de CPU para realizar cálculos
complejos sino que se busca la creación de una infraestructura de computación
distribuida. Esta ardua tarea involucra labores de definición de la arquitectura general,
de interconexión de diferentes redes, de definición de estándares, de desarrollo de
procedimientos para la construcción de aplicaciones, etc.. El Grid es más que una
aplicación es una idea que puede revolucionar el mundo de la computación y el cómo se
desarrollan las aplicaciones actualmente.

El concepto de Grid Computing ha evolucionado a lo largo de estos años dentro del


Globus Project, proyecto que englobaba a un conjunto de investigadores con el objetivo
común de desarrollar los conceptos de Grid Computing y de crear una arquitectura que
permitiera el desarrollo de esta tecnología. El impacto tecnológico que ha generado el
concepto de Grid ha removido esa estructura, actualmente se habla de la Globus
Alliance (www.globus.org), y ha generado multitud de agrupaciones, como por ejemplo
el Global Grid Forum que agrupa el Grid Forum, el eGrid European Grid Forum y la
comunidad Grid de Asia-Pacífico, y sus ideas se discuten en congresos internacionales
centrados en este tema, como por ejemplo el IEEE International Symposium on Cluster
and Grid Computing o el ICCS Workshop on Grid Computing for Computational
Science, y en reuniones donde la tecnología Grid actúa como catalizador de ideas de
otras áreas, como por ejemplo el Workshop Agent Based Cluster and Grid Computing
(AgentGrid) donde el desarrollo de sistemas basados en agentes aprovecha las
posibilidades de computación que les suministra la tecnología Grid Computing.

Aunque la investigación en grid computing ha estado liderada por EEUU a través del
Globus Project (origen de la idea), el Global Grid Forum (centrado en el desarrollo de
estándares para la Grid) y TeraGrid (centrado en las redes WAN de alta velocidad, 40
Gbps, y almacenamiento distribuido), también en Europa se han producido avances a
través de proyectos europeos como CrossGrid (centrado en supercomputación y análisis
de grandes volúmenes de datos), EuroGrid (centrado en la aplicación de tecnologías
Grid en el ámbito científico e industrial), DataGrid (centrado en el análisis de grandes
volúmenes de datos) y UK e-Science (proyecto del Reino Unido centrado en
investigación distribuida).

En los últimos años el concepto de Grid Computing ha desbordado el ámbito académico


y ha aparecido en multitud de medios de comunicación (veáse el artículo del domingo 5
de Octubre de 2003 aparecido en la sección Negocios de El País) asociando Grid
Computing con conceptos como Internet, explotación de ciclos de CPU inutilizados,
bases de datos a incluso Inteligencia Artificial. A esta mezcla de conceptos han
contribuido empresas del sector que han lanzado productos cuya base es el Grid
Computing y donde se vende la idea de Grid Computing como tecnología a aplicar en el
ámbito empresarial para mejorar las prestaciones de los sistemas informáticos. IBM,
Oracle, HP, Sun son ejemplos de empresas que se han lanzado al desarrollo de
productos que utilizan esta tecnología. Todas estas ideas se muestran en la Figura 1.
Figura 1. Origen y Desarrollo del Grid Computing

Las empresas han encontrado un concepto que pueden explotar y que puede dar nuevos
aires al mercado. Empresas como IBM mantienen grupos de investigación en Grid
Computing que buscan la aplicabilidad de esta tecnología en campos muy cercanos a la
empresa, fundamentalmente servicios Web (puede verse en las páginas de IBM en la
sección de developerWorks en Web services). Otras empresas se han centrado más en el
desarrollo de supercomputadores mediante la conexión de ordenadores en red, es el caso
de HP y son muy conocidas las interconexiones de sus supercomputadores a grids de
investigación, como la conexión del supercomputador de HP (9.2-teraflop) al Grid
Científico del DOE (Department of Energy's Pacific NorthWest National Laboratory).
Otras empresas han desarrollado nuevas versiones de sus productos utilizando las ideas
de esta tecnología, por ejemplo, la última versión de Oracle se denomina 10g, donde la
"g" de Grid sustituye a la "i" de Internet de la versión anterior la 9i.

Las ideas representadas en el concepto de grid computing afectan a los sistemas


distribuidos, a la computación paralela, a las redes de computadoras, a la seguridad y a
las bases de datos. Parece claro que Grid Computing no es una moda, y queda, todavía,
un largo camino por recorrer desde los conceptos hasta las aplicaciones reales. Aunque
existen muchos mini-grids para el desarrollo de investigaciones no parece cercano el día
en que todos los ordenadores del mundo formen un Grid Mundial a modo de gigantesco
sistema de distribución eléctrico (paradigma del grid computing en casi todas las
publicaciones sobre el tema), donde los usuarios se conecten y tengan acceso a la
capacidad de cómputo y de almacenamiento que precisen sin preocuparse de donde se
genera.
¿Qué es y para qué sirve el Grid Computing?

El concepto de Grid Computing da idea de una gran potencia de cálculo y


almacenamiento, y parece un gran avance en las ciencias de la computación. La
pregunta que el lector puede hacerse es ¿es real? ¿existe más allá de la idea original?.
Como hemos visto el grid computing es actualmente una de las áreas en las que más
activamente se está investigando (tanto en proyectos europeos como estadounidenses) y
a la que se han apuntado las grandes empresas del desarrollo informático como Sun,
Oracle, IBM o HP. Además existen multitud de aplicaciones reales que hacen uso de
mini-grids, casi todas ellas están centradas en el campo de la investigación en el terreno
de las ciencias físicas, médicas y del tratamiento de la información. Una lista extensa de
aplicaciones desarrolladas sobre grids puede verse en la página web
www.globus.org/research/papers.html.

Hemos hablado mucho de lo que ofrece y de las posibilidades del grid computing pero
todavía no hemos definido de manera concreta el término. Para hacerlo vamos a utilizar
la definición que Ian Foster y Carl Kesselam nos dan en el capítulo Computational
Grids que aparece en su libro The Grid Blueprint for a Future Computing
Infraestructure: Un grid computacional es una infraestructura hardware y software que
suministra al que la utiliza acceso seguro (dependable), consistente (consistent),
penetrante (pervasive) y barato (inexpensive), a unas elevadas capacidades
computacionales. En la figura 2 se muestran estas ideas.

Figura 2. Características de un Grid Computacional

El concepto infraestructura se utiliza porque un grid es un conjunto de recursos (ciclos


de CPU, datos, sensores, etc.), y todos esos recursos necesitan una interconexión
hardware y un control software para que estén ensambladas en un grid. Esta
infraestructura debe proporcionar a los usuarios un servicio seguro a todos los niveles:
capacidad de cómputo, de integridad de datos, de seguridad de acceso, etc. El servicio
debe ser consistente, basado en estándares, y de esta manera el acceso y las operaciones
sobre el grid estarán definidas por dichos estándares evitando la heterogeneidad. La idea
de penetración no es tanto la posibilidad de acceder a cualquier recurso del grid como
que el grid llega a cualquier sitio, de esta manera uno se asegura que una vez conectado
desde cualquier punto puede extraer del grid toda la potencia que requiera. Por último el
acceso y uso del grid debe tener un coste económico que le haga atractivo para que su
utilización se universalice.

Para terminar de definir el concepto los autores, en ese mismo capítulo, desgranan cada
uno de los posibles campos de aplicación de la tecnología grid (ver Figura 3).
Figura 3. Aplicaciones de la computación en Grid

El análisis les lleva a definir cinco grandes áreas de trabajo determinadas por las
necesidades de cálculo, espacio para el almacenamiento de los datos y tiempo de
respuesta. Las áreas son:

Supercomputación distribuida. Dentro de esta área se encuentran aquellas


aplicaciones cuyas necesidades es imposible satisfacer en un único nodo. Estas
necesidades se producen en instantes de tiempo determinados y consumen muchos
recursos, por lo que se dice que son puntuales e intensivas. Ejemplo de este tipo de
aplicaciones son las simulaciones, las herramientas de cálculo numérico, los procesos de
análisis de datos, la extracción de conocimiento de almacenes de datos, etc.

Sistemas distribuidos en tiempo real. En este tipo de aplicaciones se consideran


aquellas que generan un flujo de datos a alta velocidad que debe ser analizado y
procesado en tiempo real. Ejemplo de este tipo de aplicaciones son los experimentos de
física de alta energía, control remoto de equipos médicos de alta precisión y precio,
todos los procesos de la denominada e-Medicine, el tratamiento de imágenes para la
visión artificial, etc.

Proceso intensivo de datos. En esta área nos centramos en aquellas aplicaciones que
hacen un uso intensivo del espacio de almacenamiento. Las necesidades de
almacenamiento de este tipo de aplicaciones desbordan la capacidad de almacenamiento
de un único nodo y los datos son distribuidos por todo el grid. Además de los beneficios
por el incremento de espacio, la distribución de los datos a lo largo del grid permite el
acceso a los mismos de forma distribuida. Ejemplos de este tipo de aplicaciones son
todos los sistemas gestores de bases de datos distribuidas.

Servicios puntuales. En esta área, nos olvidamos del concepto de potencia de cálculo y
capacidad de almacenamiento para centrarnos en recursos que una organización puede
considerar como no necesarios. De esta manera el grid ofrece a la organización esos
recursos sin que la organización deba desarrollarlos por si misma. Ejemplos de este tipo
de aplicaciones son aquellas que permiten acceder a hardware muy específico (equipos
costosos de medida o de análisis de muestras) para la realización de labores a distancia.

Entornos virtuales de colaboración. Esta área está relacionada directamente con el


concepto de Teleinmersión, de manera que se utilizan los enormes recursos
computacionales del grid y su naturaleza distribuida para generar entornos virtuales 3D
distribuidos.

Arquitectura del Grid

Las aplicaciones, los toolkits, las APIs, los SDK, etc. que se definen para la
computación en Grid deben de cumplir una arquitectura general que fue presentada por
Ian Foster, Carl Kesselman y Steve Tuecke en su artículo "Anatomy of the Grid:
Enabling Scalable Organizations" publicado en el año 2000. Esta arquitectura general se
articula en cinco niveles: la infraestructura, la conectividad, la gestión del recurso, la
gestión de varios recursos y el nivel de aplicación, según se muestra en la figura 4.
Principalmente, la arquitectura propuesta es una arquitectura de protocolos que definen
los mecanismos básicos que permiten a los usuarios y a los recursos negociar,
establecer, gestionar y explotar la compartición de recursos. Una arquitectura abierta
basada en un estándar facilita la extensibilidad, la interoperatibilidad, la portabilidad y
la compartición de código. De esta manera la estandarización de los protocolos permite
estandarizar los servicios y mejorar las capacidades del grid.

Figura 4. Arquitectura de la Grid

En el nivel de infraestructura se encuentran los recursos computacionales, como son los


ordenadores, los clusters, los supercomputadores, los sistemas de almacenamiento en
red, las bases de datos, etc. También se incluyen en este nivel la infraestructura de la red
y sus mecanismos de gestión y control. En la terminología Grid la infraestructura se
denomina la Fábrica y suministra los componentes que serán compartidos.

El nivel de conectividad incluye los protocolos de comunicación y seguridad que


permiten a los recursos computacionales comunicarse. Entre estos protocolos se
encuentran: la pila de protocolos TCP/IP, el protocolo SSL, Certificados X.509.
También se incluyen los nuevos protocolos que se encuentran en fase de estudio y que
permitirán mejorar el rendimiento en las redes de alta velocidad. La seguridad es un
punto muy importante de la computación en grid por su propia naturaleza distribuida ya
que se comparten recursos entre distintas organizaciones que pueden tener distintas
políticas de seguridad.

El nivel de recurso se centra en la gestión de un único recurso y permite tener


información y control sobre el mismo. En este nivel se encuentran los protocolos que
permiten obtener la información de un recurso: las características técnicas, la carga
actual, el precio, etc. También se encuentran los protocolos que permiten el control del
recurso: el acceso al mismo, el arranque de procesos, la gestión, la parada, la
monitorización, la contabilidad de uso y la auditoria del recurso.

La capa de recursos engloba todos los servicios que permiten gestionar un conjunto de
recursos. Se encuentran los servicios de directorio, que permiten localizar los recursos
que son de nuestro interés; los schedulers distribuidos, que permiten asignar las tareas a
cada recurso; la monitorización y diagnóstico de la ejecución de las distintas tareas en
que se distribuye la ejecución de una aplicación; la contabilidad, que permite calcular el
coste de la utilización de varios recursos heterogéneos; y, el acceso a datos distribuidos,
que gestiona la replicación de datos. El servicio de scheduler distribuido es una de las
aplicaciones más complejas de un desarrollo grid ya que existen tres scheduler distintos:
el planificador de trabajos (job scheduler) que intenta maximizar la cantidad de trabajo
realizado (trabajos por unidad de tiempo), el planificador de recursos que intenta
maximizar el uso de los recursos, y, el planificador de la aplicación que divide la
aplicación en tareas, asigna los recursos para su ejecución y vigila el desarrollo de los
mismos. Los dos primeros priman la eficiencia del sistema grid, mientras que el tercero
prima la eficiencia de la aplicación.

El último nivel, el de aplicación, se centra en la definición de protocolos que permitan a


las aplicaciones el acceso a la infraestructura del grid a través de las distintas capas.
Según el tipo de aplicación puede ser necesario conectarse a las distintas capas o
acceder directamente a una de ellas, incluso directamente a la infraestructura.

El estándar de grid computing es el definido por la implementación del GlobusProject:


Globus Toolkit version 3 (GT3). La versión 3 está basada en tecnologías estándar como
XML, SOAP, WSDL, Servicios Web y está implementada íntegramente en Java. La
arquitectura del Globus Toolkit v3 se estructura en varias capas. La capa inferior es el
nucleo donde se encuentran las factorías de recursos, el servicio de notificaciones, el
servicio de persistencia y el servicio de ciclo de vida. En la segunda capa se encuentran
los servicios de seguridad (GSI Grid Security Infraestructure). En la tercera capa se
encuentran los servicios básicos como la gestión de trabajos, los servicios de directorio
y monitorización y los de transferencia de ficheros. En el nivel más alto se encuentran
los servicios de gestión de grandes cantidades de datos y aquellos servicios que no son
del GT3 pero que se basan en esta arquitectura.

En esta versión se introduce el concepto de grid service que es una ampliación de los
Web Services y cuya arquitectura está especificada por el Global Grid Forum (OGSA,
Open Grid Services Architecture y OGSI, Open Grid Services Infraestructure). La idea
era buscar una tecnología de objetos distribuidos que se adaptase a las necesidades de
una aplicación grid, y se pensó en los Web Services, aunque estos presentaban algunas
limitaciones que se superaron:
• Los Web Services no mantienen el estado de una invocación a otra, los grid
services si.
• Los Web services no son transientes, es decir no se pueden crear varias
instancias de un mismo servicio según se necesita y destruirlas cuando ya no son
necesarias, en los grid services si se puede.
• Los Web Services no incluyen servicios de apoyo que han sido incluidos en los
grid services como son las notificaciones, el servicio de persistencia, la gestión
del ciclo de vida, etc.

Los grid services utilizan un enfoque de Factorías de Objetos de manera que en lugar de
tener un único servicio compartido por todos los usuarios (como el Web Service) se
tiene un servicio-factoría que crea instancias individuales del servicio. Cuando se invoca
a una operación del servicio se accede a la instancia y no a la factoría. Además se puede
crear una instancia por cliente, o varias por cliente o una para varios clientes. Por último
la destrucción de la instancia puede correr a cargo del cliente o de la factoría.

Aplicaciones y Servicios en Grid

Como hemos visto, el desarrollo de la arquitectura y el estándar del grid computing se


debe a la investigación de centros especializados y muy concretamente al Globus
Project. El avance definitivo del concepto de grid computing se observa en la
aplicabilidad de sus ideas en productos comerciales y los desarrollos de compañías de
software basados en el estándar de grid.

Supercomputación

Uno de los campos donde se han centrado más los esfuerzos de compañías comerciales
es en el de la supercomputación. Empresas con un amplio abanico de productos, como
HP y Sun, y otras especializadas como ENTROPIA o GridSystems, ofrecen desarrollos
para la instalación de grids con altas capacidades de cómputo. Así por ejemplo, como ya
se comentó en la introducción, HP conectó al grid del DOE (DOE Science Grid,
http://www.doesciencegrid.org) una máquina Linux de 9,2 teraflops (nota del 23 de
Julio de 2002 en www.gridcomputingplanet.com/news). Este grid se usa para llevar a
cabo simulaciones, analizar datos y coordinar experimentos. Sobre la máquina se
instalará el software de Globus para permitir la gestión de recursos, el movimiento de
datos y el control de la seguridad entre los grupos de investigación que hagan uso de él.
Los usuarios se identificarán en el grid mediante las credenciales de autenticación del
GSI (Grid Security Infraestructure). El estándar de seguridad de Globus. El
supercomputador de HP será puesto a disposición del grid a través del Globus MDS
(Monitoring and Discovery Service), un catálogo seguro de todos los recursos del grid.

En el caso de Sun son conocidas sus instalaciones en Ford Motor's Engine and
Transmission Groups que cuentan con 500 workstation Sun Blade con procesador dual
o SAAB Automovile AB que cuenta con 100 workstation de Sun. En estas instalaciones
se llevan a cabo las simulaciones sobre aerodinámica de los nuevos modelos. Ambas
instalaciones hacen uso del Sun ONE Grid Engine (que es capaz de ejecutar 7000 grids
con unas 47 CPU's por grid). Este software puede utilizarse sobre Linux o Sun OS y
tiene una versión de libre distribución en www.Sun.com y cuya versión comercial
comienza a partir de 20.000 dólares.
GridSystems es una compañía española fundada en Febrero de 2000 que ha desarrollado
el productor InnerGrid para la aplicación de la tecnología grid en entornos
empresariales, académicos y de investigación. Este software divide datos y procesos en
pequeñas unidades que se ajustan dinámicamente a los recursos conectados a la red. El
sistema es multiplataforma (Windows y todos los sistemas UNIX). Esta empresa ha
desarrollado trabajos para diversas empresas pero su desarrollo más conocido es la red
grid de la Universidad Politécnica de Valencia. En esta red se integra el servidor de la
serie ALTIX 3000 de Silicon Graphics, con 48 procesadores Itanium 2, el cluster de
IBM con 64 nodos, biprocesador Xeon, y, las 3000 CPU's con las que cuenta la
universidad en aulas y departamentos. Este proyecto sitúa a la UPV a la cabeza de
España en lo que se refiere a capacidad de cálculo disponible.

ENTROPIA (www.entropia.com) es una empresa centrada en el PC Grid Computing,


uno de sus trabajos más interesante es el que ha llevado a cabo en el centro de
supercomputación de San Diego. El producto que desarrolla se denomina DCGrid
Platform que permite utilizar una red de CPUs para aprovechar los ciclos libres de CPU
aumentando la capacidad de cómputo global con un bajo coste. De esta manera los
ciclos libres son utilizados por aplicaciones que consumen muchos recursos y
necesitarían de un supercomputador o por trabajos puntuales e intensivos en una
fracción de tiempo. La instalación del producto en una empresa permite la utilización de
máquinas que han quedado obsoletas y la instalación de nuevas máquinas sin que se
interfiera en el trabajo de la compañía, ya que el software es fácilmente escalable.

Proceso intensivo de datos

Otra de las grandes áreas de aplicación es el almacenamiento masivo de datos. Dentro


de esta área se encuentran los nuevos productos de Oracle: Oracle Database 10g, Oracle
Application Server 10g, Oracle Enterprise Manager 10g y Oracle 10g Development
Tools. Estas nuevas versiones se centran en la aplicación de las ideas de Grid
Computing al almacenamiento de datos. La nueva versión parte de la arquitectura actual
en la que se encuentran la mayoría de los sistemas de información (véase Figura 5).
Cada una de las capas es de uso dedicado a cada sistema de información.
Evidentemente, el fallo de alguno de los componentes de los tres niveles (Application
Server, Database y Storage) supondría una perdida del servicio.

Figura 5. Arquitectura actual de los Sistemas de Información

Oracle con la nueva arquitectura basada en grid computing pretende crear


"granjas/factorías de almacenamiento" y servidores estándares y modulares, a las que se
puede añadir servidores rápidamente. En la Figura 6 se detalla a grandes rasgos la
arquitectura propuesta con la versión Oracle 10g.

Figura 6 . Arquitectura "Grid Computing" para los Sistemas de Información

Las características de esta arquitectura serían:

• Capacidad de balanceo de sistemas. No habría necesidad de calcular la


capacidad de los sistemas en función de los picos de trabajo, ya que la capacidad
se puede reasignar desde la granja de recursos a donde se necesite. Oracle 10g
ha mejorado su arquitectura RAC (Real Application Clusters) y permite
gestionar clusters con sus dos nuevas funcionalidades:
o Automatic Service Provisioning. Permite la asignación y reasignación de
los servidores a las cargas de trabajo (servicios). Los clientes hacen login
a los servicios y son automáticamente encaminados al servidor apropiado
según el momento.
o Integrated Clusterware. Permite la gestión (configuración, instalación, ...)
de clusters.
• Alta disponibilidad. Con la nueva funcionalidad (Automatic Service
Provisioning), si un servidor falla, Oracle reasigna los servicios en los servidores
restantes.
• Reducción de costes. Con esta arquitectura los servicios son gestionados por
"granjas de recursos". Ya no es necesario disponer de "grandes servidores" y
podremos hacer uso de componentes de bajo coste. Cada sistema puede ser
configurado siguiendo el mismo patrón.
• Facilidades de administración. Oracle 10g reduce el número de parámetros de
configuración. Además, se ha introducido el Automatic Workload Repository
para almacenar información sobre diagnósticos de rendimiento y
recomendaciones de tuning que Oracle realiza automáticamente. Para el análisis
de esta información ha introducido un nuevo motor de diagnóstico llamado
Automatic Database Diagnostics Motor.

La utilización de esta versión permite a una empresa mejorar sus prestaciones sin
renunciar al comportamiento tradicional de los Sistemas de Información ya que Oracle
10g también es operativo en un entorno con un único servidor (arquitectura tradicional).
Además el gestor de la base de datos de la versión 10g es un 28 % más rápido que el de
la versión 9i, y se incorporan versiones mejoradas de alguna herramientas que fueron
introducidas con la versión 9i como son: Flashback Recovery (una herramienta pensada
para errores de usuario, con ella podemos "rebobinar" la actividad de la base de datos
hasta el momento del error) y Data Guard (aporta nuevas funcionalidades para las
copias de seguridad). Por último comentar que Oracle está apostando fuertemente por
pequeños servidores de tipo Linux o Windows.

Servicios Web

En muchos artículos se relaciona muy directamente el concepto de grid con la nueva


generación de Internet (en algunos casos llega incluso a asimilarse). El nuevo protocolo
de Internet IPv6 permitirá trabajar con una Internet más rápida y accesible. Una de las
ideas clave en la superación de las limitaciones actuales de Internet IPv4 es la aparición
de nuevos niveles de servicio que harán uso de la nueva capacidad de la red para
intercomunicar los ordenadores. Este avance en la comunicación permitirá el avance de
las ideas de grid computing al utilizar como soporte la altísima conectividad de Internet.
Es por ello que uno de los campos de mayor innovación en el uso del grid computing,
fuera de los conceptos de supercomputación, es el desarrollo de un estándar para definir
los Grid Services frente a los actuales Web Services.

Los Web Services son aplicaciones basadas en Internet que interactúan de forma
dinámica con otras aplicaciones basadas en Web utilizando estándares como XML,
UDDI y SOAP. Tanto IBM, como Microsoft y Sun están decididas a unir la tecnología
grid con los Web Services. Mediante la última versión de Globus Toolkit se pueden
encontrar grid services en la red. También posibilita la creación de una interfaz para el
servicio y permite invocar una instancia de un grid service. Con esta capacidades el
desarrollo de los Grid Services es sólo cuestión de tiempo.

Fruto del intenso trabajo de IBM en el campo de los Grid Services es el intento de
adaptación de su software WebSphere SDK for Web Services, a las nuevas ideas del
Grid (en particular en lo referido a seguridad). En IBM se pueden encontrar ejemplos de
aplicación real de la accesibilidad a través de Web Services que utilizan como sustento
la tecnología grid. A modo de ejemplo se puede acceder a su sistema de base de datos
DB2 a través del Open Grid Service Architecture - Data Access and Integration
(OGSA-DAI) que es un entorno que permite la integración de recursos de datos, como
bases de datos relacionales y basadas en XML, en un entorno grid. Básicamente la
aplicación soporta el protocolo SOAP para los mensajes entre un cliente y un servidor
que cumple las especificaciones de OGSA-DAI. En la Figura 7 se puede observar como
se hace uso del Globus Toolkit para desarrollar el servicio y el cliente.

Figura 7. Acceso a Servicios Web a través de estándares de Grid


Conclusiones

La computación en grid es actualmente un fenómeno en emergencia al que Globus


Project (el proyecto iniciador) ha proporcionado una implementación estándar que es
utilizada por multitud de investigadores y empresas. La estandarización del grid, fruto
de la unión de investigadores y empresas en el Global Grid Forum, ha permitido que los
sistemas que hacen uso del grid salgan del ámbito puramente investigador y se integren
como sustento de aplicaciones empresariales.

Las aplicaciones empresariales se han centrado fundamentalmente en el aumento de la


capacidad de cómputo en empresas que así lo requerían y en la adaptación de sistemas
de almacenamiento comerciales (como Oracle) a los estándares del grid. Esta rápida
absorción de las ideas del grid computing por parte de las empresas es lo que hace
pensar que puede ser una de las tecnologías que en los próximos años aparezca en alza.

Esta percepción se basa tanto en la aplicabilidad de las ideas como en la estrecha


relación de esta tecnología con las nuevas versiones de Internet que permitirán que el
flujo de datos entre los ordenadores aumente, hecho del que se verán beneficiados los
desarrollos basados en grid.

Referencias

Las referencias científicas sobre grid computing pueden encontrarse en las páginas de
Globus Project de entre todas ellas cabe seleccionar aquellas que definen el concepto de
grid computing:

• "The Physiology of the Grid: An Open Grid Services Architecture for


Distributed Systems Integration". I. Foster, C. Kesselman, J. Nick, S. Tuecke,
Open Grid Service Infrastructure WG, Global Grid Forum, June 22, 2002.
• "The Anatomy of the Grid: Enabling Scalable Virtual Organizations". I.
Foster, C. Kesselman, S. Tuecke. International J. Supercomputer Applications,
15(3), 2001.
• "Computational Grids". I. Foster, C. Kesselman. Chapter 2 of "The Grid:
Blueprint for a New Computing Infrastructure", Morgan-Kaufman, 1999.
• "Computational Grids in Action: The National Fusion Collaboratory". K.
Keahey, T. Fredian, Q. Peng, D.P. Schissel, M. Thompson, I. Foster, M.
Greenwald, and D. McCune, Future Generation Computer Systems, 18:8, pg.
1005-1015, October 2002

Las aplicaciones y productos descritos se encuentran en las diversas páginas de las


compañías IBM, Microsoft, Sun, HP, Oracle, GridSystems, ENTROPÍA y en notas de
prensa aparecidas en diversos medios electrónicos como < a href="http://www.pc-
actual.com">PC Actual, vnunet.com, gridcomputingplanet.com, ameinfo.com,
gridtoday.com, autofieldguide.com.

Cabe destacar la página de desarrollos de IBM donde se encuentra un apartado dedicado


exclusivamente al grid: http://www-106.ibm.com/developerworks/grid/
También de IBM se puede destacar el Research Report "Commercial Applications of
Grid Computing" escrito por Catherine H. Crawford, Daniel M. Dias, Arun K. Iyengar,
Marcos Novaes, Li Zhang. RC22702 in 2003, accesible vía web en
http://lists.ebxml.org/archives/ebxml-stc/200012/pdf00000.pdf

S-ar putea să vă placă și