Sunteți pe pagina 1din 18

Ao de la Integracin Nacional y el Reconocimiento de Nuestra Diversidad

UNIVERSIDAD NACIONAL DE UCAYALI


FACULTAD DE INGENIERA DE SISTEMAS Y DE INGENIERA CIVIL ESCUELA PROFESIONAL DE INGENIERA DE SISTEMAS

SERVIDORES MASIVAMENTE PARALELOS

DOCENTE INTEGRANTES

: :

ING. PANDURO PADILLA, EUCLIDES CHACN CAMPOS, Po Orihuela Izquierdo, ngel MORENO PANDURO, Carolina MERMAO ROMERO, Claudia

CURSO CICLO

: :

TPICOS AVANZADOS X

PUCALLPA PER 2012

INDICE

INDICE .................................................................................................................... 2 INTRODUCCIN .................................................................................................... 3 I. II. III. PLATAFORMA DEL DATA WAREHOUSE .................................................... 4 PROCESAMIENTO EN SERIE Y EN PARALELO .......................................... 4 ARQUITECTURAS PARA EL PROCESAMIENTO DE UN SERVIDOR ...... 5

3.1. SERVIDORES DE UN SOLO PROCESADOR .......................................... 5 3.2. MULTIPROCESAMIENTO SIMTRICO .................................................... 6 3.3. PROCESAMIENTO MASIVAMENTE PARALELO ................................... 9 3.4. PROCESAMIENTO PARALELO ESCALABLE ...................................... 11 IV. QUE TECNOLOGIA ELEGIR? ................................................................. 13

4.1. MPP O SMP? ........................................................................................ 13 4.2. Rendimiento ........................................................................................... 15 4.3. Escalabilidad .......................................................................................... 15 CONCLUSIONES ................................................................................................. 17 REFERENCIAS BIBLIOGRAFICAS ..................................................................... 18

INTRODUCCIN
A travs del tiempo los seres humanos se han enfrentado a una cantidad de datos que al procesarlos han sido transformados en informacin y a su vez est en conocimiento, sin embargo, a medida que se realizan nuevos descubrimientos en las diferentes reas de la ciencia, la cantidad de datos se incrementa exponencialmente, al punto de que hoy en da es imposible el manejo de tanta informacin sin la ayuda de una computadora. En los ltimos tiempos, la creacin de una nueva tecnologa de microprocesadores se da en un promedio de tiempo de 18 y 24, la cual duplica la capacidad de procesamiento del anterior; sin embargo, a pesar de los grandes avances tecnolgicos el uso de un solo microprocesador no es suficiente para procesar la cantidad de informacin que se produce hoy en da, razn por la cual las computadoras ms potentes actualmente cuentan con un numero plural de procesadores, algunos de ellos basados en una arquitectura de procesamiento MPP (Procesamiento Masivamente Paralelo). La teora para el uso de una indefinida cantidad de procesadores en paralelo en una supercomputadora se basa en dividir la carga de procesamiento entre todos los microprocesadores, de tal forma que se obtenga una respuesta en un tiempo muy reducido a un problema, gracias a que todos los procesadores trabajan en la solucin de una parte de la informacin a procesar. Actualmente existen diferentes arquitecturas tecnolgicas para la utilizacin de varios procesadores en una mquina, tales como Symmetrical multiprocessing (SMP) y Massively Parallel Processors (MPP).

I. PLATAFORMA DEL DATA WAREHOUSE


La plataforma para el data warehouse es casi siempre un servidor de base de datos relacional. Cuando se manipulan volmenes muy grandes de datos puede requerirse una configuracin en bloque de servidores UNIX con multiprocesador simtrico (SMP) o un servidor con procesador paralelo masivo (MPP) especializado.

II. PROCESAMIENTO EN SERIE Y EN PARALELO

El procesamiento en serie requiere una tcnica en la que los datos se ordenan secuencialmente y despus son calculados por un procesador individual. En el procesamiento en paralelo, mltiples unidades de procesamiento (CPUs) dividen un problema en partes pequeas y trabajan al mismo tiempo con l. Para lograr que un grupo de procesadores ataquen el mismo problema a la vez es necesario replantear los problemas y un software especial que pueda dividir estos problemas entre diferentes procesadores de la manera ms eficiente posible, proporcionando los datos necesarios reensamblando posteriormente las diversas subtareas para llegar a una solucin adecuada.

Las computadoras con procesamiento paralelo masivo tienen grandes redes de chips de procesamiento interconstruidos de maneras complejas y flexibles para atacar grandes problemas de cmputo. Opuesto al procesamiento en paralelo, en el que varios chips potentes, costos y especializados se encuentran entrelazados, las mquinas de procesamiento paralelo masivo enlazan cientos o incluso miles de chips econmicos de uso comn para dividir problemas en muchas partes pequeas y resolverlos.

III. ARQUITECTURAS PARA EL PROCESAMIENTO DE UN SERVIDOR


Se necesita considerar los servidores que retendrn y entregarn los datos. El tamao de su implementacin (y las necesidades de su empresa para escalabilidad, disponibilidad y gestin de sistemas) influir en la eleccin de la arquitectura del servidor. El procesamiento paralelo ofrece una gran ventaja en cuanto a costos. Sin embargo, su principal beneficio, la escalabilidad (crecer hacia arquitecturas de mayor capacidad), puede ser difcil de alcanzar an. Esto se debe a que conforme se aaden procesadores, las disputas por los recursos compartidos se intensifican. Algunos diseos diferentes de procesamiento enfrentan este problema fundamental:
Servidores de un solo procesador

Multiprocesamiento simtrico Procesamiento masivamente paralelo Procesamiento paralelo escalable

Cada diseo tiene sus propias ventajas y desventajas. 3.1. SERVIDORES DE UN SOLO PROCESADOR Los servidores de un slo procesador son los ms fciles de administrar, pero ofrecen limitada potencia de procesamiento y escalabilidad. 5

Adems, un servidor slo presenta un nico punto de falla, limitando la disponibilidad garantizada del depsito. Se puede ampliar un solo servidor de redes mediante arquitecturas distribuidas que hacen uso de subproductos, tales como Ambientes de Computacin Distribuida (Distributed Computing Environment - DCE) o Arquitectura Broker de Objeto Comn (Common Objects Request Broker Architecture - CORBA), para distribuir el trfico a travs de servidores mltiples. Estas arquitecturas aumentan tambin la disponibilidad, debido a que las operaciones pueden cambiarse al servidor de copia de seguridad si un servidor falla, pero la gestin de sistemas es ms compleja. 3.2. MULTIPROCESAMIENTO SIMTRICO El Multiprocesamiento simtrico (symmetric multiprocessing / SMP) tiene un diseo simple pero aun as efectivo. En SMP, multiples pr3ocesadores comparten la memoria RAM y el bus del sistema. Este diseo es tambin conocido como estrechamente acoplado (tightly coupled), o compartiendo todo (shared everything).

Debido a que SMP comparte globalmente la memoria RAM, tiene solamente un espacio de memoria, lo que simplifica tanto el sistema 6

fsico como la programacin de aplicaciones. Este espacio de memoria nico permite que un Sistema Operativo con Multiconexin

(multithreaded operating system) distribuya las tareas entre varios procesadores, o permite que una aplicacin obtenga la memoria que necesita para una simulacin compleja. La memoria globalmente compartida tambin vuelve fcil la sincronizacin de los datos. SMP es uno de los diseos de procesamiento paralelo ms maduro. Apareci en los supercomputadores Cray X-MP y en sistemas similares hace 2 dcadas y media (en 1983). Sin embargo, esta memoria global contribuye el problema ms grande de SMP: conforme se aaden procesadores, el trfico en el bus de memoria se satura. Al aadir memoria cach a cada procesador se puede reducir algo del trfico en el bus, pero el bus generalmente se convierte en un cuello de botella al manejarse alrededor de ocho o ms procesadores. SMP es considerada una tecnologa no escalable.

Aplicaciones de la tecnologa smp en servidores No existen reglas estrictas y rpidas, pero un servidor de doble procesador se utiliza frecuentemente para internet e intranets, y tambin para correo electrnico (conocidos tambin como servidores de mensajera). Los servidores de doble procesador se utilizan tambin para aplicaciones empresariales en un departamento (finanzas, recursos humanos, etc.), Mientras que los servidores de cuatro 7

procesadores se utilizan para ejecutar aplicaciones para toda una empresa. Entre las aplicaciones para servidores de cuatro

procesadores se cuenta con productos de sap, oracle y peoplesoft. Los servidores de cuatro procesadores suelen ser tambin la plataforma para servidores de trabajo en grupo. Lotus notes* fue uno de los ejemplos iniciales de este entorno. Estos servidores se encargan del manejo de informacin semiestructurada, como texto, imgenes, correo, pizarras electrnicas y flujo de trabajo. Sin embargo, uno de los campos de ms rpido crecimiento para los servidores smp es el de las aplicaciones centradas en bases de datos. Las aplicaciones cliente/servidor centradas en bases de datos se clasifican en dos categoras: decision support systems (dss, sistemas de soporte a decisiones) y online transaction processing (oltp, procesamiento de transacciones en lnea). Los sistemas de soporte a decisiones se ejecutan en servidores de bases de datos y se utilizan para analizar datos y crear informes. Estos sistemas proporcionan a los profesionales de las empresas y buscadores de informacin los medios para obtener la informacin que necesitan. Los usuarios deben poder crear consultas elaboradas, responder a preguntas "circunstanciales (what-if)", buscar correlaciones en los datos, graficar los datos y trasladarlos a otras aplicaciones como hojas de clculo y documentos de procesadores de textos. Los sistemas oltp se ejecutan en servidores de transacciones y se utilizan para crear aplicaciones en todos los tipos de empresas. Entre estas aplicaciones se encuentran sistemas de reservaciones, sistemas de punto de venta, sistemas de seguimiento, control de inventario, estaciones de trabajo de corredores de bolsa y sistemas de control de plantas de manufactura. Por lo general son aplicaciones de misin crtica que requieren un tiempo de respuesta de 1 a 3 segundos el 100% de las veces.

3.3. PROCESAMIENTO MASIVAMENTE PARALELO El Procesamiento masivamente paralelo (Massively parallel processing / MPP) es otro diseo de procesamiento paralelo. Para evitar los cuellos de botella en el bus de memoria, MPP no utiliza memoria compartida. En su lugar, distribuye la memoria RAM entre los procesadores de modo que se asemeja a una red (cada procesador con su memoria distribuida asociada es similar a un computador dentro de una red de procesamiento distribuido). Debido a la distribucin dispersa de los recursos RAM, esta arquitectura es tambin conocida como

dispersamente acoplada (loosely coupled), o compartiendo nada (shared nothing).

Para tener acceso a la memoria fuera de su propia RAM, los procesadores utilizan un esquema de paso de mensajes anlogo a los paquetes de datos en redes. Este sistema reduce el trfico del bus, debido a que cada seccin de memoria observa nicamente aquellos accesos que le estn destinados, en lugar de observar todos los accesos, como ocurre en un sistema SMP. nicamente cuando un procesador no dispone de la memoria RAM suficiente, utiliza la memoria RAM sobrante de los otros procesadores. Esto permite

sistemas MPP de gran tamao con cientos y an miles de procesadores. MPP es una tecnologa escalable.

El RS/6000 Scalable Powerparallel System de IBM (SP2) es un ejemplo de sistema MPP, que presenta una ligera variante respecto al esquema genrico anteriormente planteado. Los procesadores del RS/6000 se agrupan en nodos de 8 procesadores, los que utilizan una nica memoria compartida (tecnologa SMP). A su vez estos nodos se agrupan entre s utilizando memoria distribuida para cada nodo (tecnologa MPP). De este modo se consigue un diseo ms econmico y con mayor capacidad de crecimiento.

La parte negativa de MPP es que la programacin se vuelve difcil, debido a que la memoria se rompe en pequeos espacios separados. Sin la existencia de un espacio de memoria globalmente compartido, 10

correr (y escribir) una aplicacin que requiere una gran cantidad de RAM (comparada con la memoria local), puede ser difcil. La sincronizacin de datos entre tareas ampliamente distribuidas tambin se vuelve difcil, particularmente si un mensaje debe pasar por muchas fases hasta alcanzar la memoria del procesador destino. Escribir una aplicacin MPP tambin requiere estar al tanto de la organizacin de la memoria manejada por el programa. Donde sea necesario, se requieren insertar comandos de paso de mensajes dentro del cdigo del programa. Adems de complicar el diseo del programa, tales comandos pueden crear dependencias de hardware en las aplicaciones. Sin embargo, la mayor parte de vendedores de computadores han salvaguardado la portabilidad de las aplicaciones adoptando, sea un mecanismo de dominio pblico para paso de mensajes conocido como Mquina virtual paralela (parallel virtual machine / PVM), o un estndar en fase de desarrollo llamado Interfaz de Paso de Mensajes (Message Passing Interface / MPI), para implementar el mecanismo de paso de mensajes. 3.4. PROCESAMIENTO PARALELO ESCALABLE Cmo superar las dificultades de SMP y MPP? La ltima arquitectura paralela, el Procesamiento paralelo escalable (Scalable parallel processing / SPP), es un hbrido de SMP y MPP, que utiliza una memoria jerrquica de dos niveles para alcanzar la escalabilidad. La primera capa de memoria consiste de un nodo que es esencialmente un sistema SMP completo, con mltiples procesadores y su memoria globalmente compartida. Se construyen sistemas SPP grandes interconectando dos o ms nodos a travs de la segunda capa de memoria, de modo que esta capa aparece lgicamente, ante los nodos, como una memoria global compartida.

11

La memoria de dos niveles reduce el trfico de bus debido a que solamente ocurren actualizaciones para mantener coherencia de memoria. Por tanto, SPP ofrece facilidad de programacin del modelo SMP, a la vez que provee una escalabilidad similar a la de un diseo MPP.

12

IV. QUE TECNOLOGIA ELEGIR?


Si su base de datos est en torno a los 500 GB y sigue creciendo, es probable que deba usted considerar seriamente la posibilidad de instalar un sistema de proceso masivamente paralelo, MPP (Massively Parallel Processor), si no tiene ya uno. Los sistemas MPP son conjuntos o "arrays" de procesadores conectados mediante un enlace de alta velocidad, y que estn "paralelizados" para funcionar actuando sobre partes distintas de un problema grande. La tecnologa MPP est siendo utilizada hasta ahora en aplicaciones muy concretas, como los data warehouses o la consolidacin de servidores, pero algunos consultores apuntan que en el futuro la tecnologa de proceso paralelo masivo "hbrido" ser utilizada en aplicaciones de carcter general. En el presente artculo se analizan las ventajas e inconvenientes que presentan las tecnologas de proceso paralelo masivo (MPP) y las de multiproceso simtrico (SMP). En opinin de diversos analistas, el proceso MPP contina siendo una de las mejores arquitecturas de servidor cuando se necesita tener la seguridad de que un sistema sea capaz de escalar hasta cualquier dimensin. Sin embargo, esos mismos analistas consideran que algunos cambios importantes que se estn desarrollando en las arquitecturas de servidores darn una nueva forma al escenario del proceso con dichos servidores, amenazando el dominio de MPP sobre los grandes trabajos de proceso y creando nuevas opciones para los usuarios. Analizaremos algunos de esos cambios y la forma en que pronostican una disminucin en la importancia del proceso MPP puro y la aparicin de sistemas hbridos que combinen las caractersticas MPP con las de los sistemas de multiproceso simtrico, SMP (Symmetrical Multiprocessing). 4.1. MPP O SMP? Cundo se necesita el proceso MPP? La consultora International Data Corporation (IDC), piensa que si uno tiene sus aplicaciones funcionando bajo proceso SMP, no necesita preocuparse de MPP. 13

Por ejemplo, SMP es una mejor opcin que MPP si se estn ejecutando aplicaciones que requieren muchas consultas ad hoc, ya que los nodos SMP se comunican con mayor facilidad que los MPP. SMP podra ser tambin la opcin a elegir si se estn manejando sistemas de proceso de transacciones online (OLTP) y no se prev que van a crecer mucho. Con SMP se tiene la ventaja de una tecnologa de mayor madurez, de que hay ms software disponible para funcionar en ella, y de que es mucho ms fcil de manejar. Pero si uno est manejando data marts o data warehouses que amenazan rebasar la capacidad en terabytes, habr que considerar seriamente la posibilidad del proceso MPP. La diferencia entre las arquitecturas MPP y SMP est en que cada nodo MPP tiene su propio sistema operativo y su propia memoria, lo cual permite a los nodos MPP procesar grandes volmenes de datos, aunque con un esfuerzo extra sustancial. Los nodos SMP comparten un sistema operativo, memoria y almacenamiento comunes, de forma que las peticiones realizadas por las aplicaciones "saltan" entre los diversos nodos sin necesidad de ese esfuerzo adicional, lo que resulta ms adecuado para aplicaciones comerciales como el proceso de transacciones. La afinidad del proceso SMP con las aplicaciones comerciales es el motivo de que muchos vendedores y analistas del sector recomienden que los usuarios comerciales no utilicen MPP, sino que comiencen con SMP y agrupen estos sistemas SMP en clusters al ir aumentando sus requerimientos. Este es el motivo fundamental de las guerras entre estas dos arquitecturas; el multiproceso simtrico tiene ventajas evidentes porque es menos complejo, pero uno puede llegar a acumular sistemas SMP hasta que son demasiado grandes e intiles.

14

4.2. Rendimiento En el mercado comercial, el proceso paralelo masivo se utiliza principalmente en aplicaciones concretas "nicho" tales como el data warehouse y la consolidacin de servidores, pero algunos

vendedores esperan ampliar su conjunto de aplicaciones cambiando la arquitectura de "no compartir nada" de MPP a una arquitectura hbrida con recursos compartidos similares a SMP. "Para la mayora de las cargas de trabajo en el mercado comercial, y en particular para los sistemas de gestin de bases de datos (SGBD), resultan convenientes los nodos de utilizacin compartida de recursos. Evolucionar hacia unos recursos compartidos significa cambiar muchos procesadores 'ms lentos' por menos procesadores 'ms rpidos'. La consecuencia final, en opinin de diversos analistas, es una arquitectura global ms rpida. IBM, NCR, Siemens

Nixdorf/Pyramid y Digital ya tienen sistemas MPP configurados con nodos SMP. Ahora, segn la consultora Meta Group, entre las nuevas aplicaciones MPP hay servidores World Wide Web y Lotus Notes, junto con implementaciones R/3 de tamao moderado. Segn la consultora Meta Group, los avances en los procesadores individuales en sistemas MPP seguirn probablemente durante algunos aos la curva de la ley de Moore: en el sector informtico se continuar duplicando cada 18 meses la cantidad de datos que pueden ser almacenados en un procesador de silicio. 4.3. Escalabilidad La escalabilidad de las verdaderas arquitecturas MPP est muy por delante de la demanda de los usuarios en el mercado comercial, excepto en las compaas que manejan aplicaciones de un nivel extraordinariamente alto. La mayora de los data warehouses estn por debajo de un terabyte, as que no habr a corto plazo mucha 15

necesidad de mejoras en escalabilidad para el proceso MPP. Sin embargo, la escalabilidad de los sistemas hbridos ofrece frente a SMP una mejora que le permite afrontar ciertas aplicaciones que antes estaban reservadas para sistemas MPP estrictos.

16

CONCLUSIONES

Data warehousing es el centro de la arquitectura para los sistemas de informacin desde la dcada de los '90. Un Data Warehouse o Depsito de Datos es una coleccin de datos orientado a temas, integrado, no voltil, de tiempo variante, que se usa para el soporte del proceso de toma de decisiones gerenciales.

Las principales caractersticas del DWH son: Orientado al tema, integrado, de tiempo variante, no voltil. La plataforma para el data warehouse es casi siempre un servidor de base de datos relacional. Cuando se manipulan volmenes muy grandes de datos puede requerirse una configuracin con multiprocesador simtrico (SMP) o un servidor con procesador paralelo masivo (MPP) especializado.

La arquitectura SMP (Multi-procesamiento simtrico, tambin llamada UMA, de Uniform Memory Access), se caracteriza por el hecho de que varios

microprocesadores comparten el acceso a la memoria Los elementos clave para el desarrollo de un DWH son: Arquitectura total del depsito, Arquitecturas del servidor y Sistemas de Gestin de Base de Datos Se debe considerar los servidores que retendrn y entregarn los datos, teniendo las siguientes arquitecturas: Servidores de un solo procesador, Multiprocesamiento simtrico, Procesamiento en paralelo masivo, Acceso de memoria no uniforme.

La diferencia entre las arquitecturas MPP y SMP est en que cada nodo MPP tiene su propio sistema operativo y su propia memoria, lo cual permite a los nodos MPP procesar grandes volmenes de datos, aunque con un esfuerzo extra sustancial. Los nodos SMP comparten un sistema operativo, memoria y almacenamiento comunes, de forma que las peticiones realizadas por las aplicaciones "saltan" entre los diversos nodos sin necesidad de ese esfuerzo adicional, lo que resulta ms adecuado para aplicaciones comerciales como el proceso de transacciones.

17

REFERENCIAS BIBLIOGRAFICAS
1. http://www.deltaasesores.com/recursos/terminos/m-o/2620-mpp 2. http://www.idg.es/computerworld/Tecnologia-MPP.Una-cuestion-de-fuerzabruta/seccion-/articulo-8918 3. http://www.buenastareas.com/ensayos/Procesamiento-Masivamente-ParaleloMpp/3805081.html 4. http://es.scribd.com/doc/72846660/30/Arquitectura-del-servidor 5. http://olap.mx/portfolioentry/ms-sql-server-olap/ 6. http://es.wikipedia.org/wiki/Multiprocesamiento_sim%C3%A9trico. 7. http://www.monografias.com/trabajos6/symu/symu.shtml#fun. 8. http://www.ongei.gob.pe/publica/metodologias/Lib5084/223.HTM

18

S-ar putea să vă placă și