Sunteți pe pagina 1din 7

GESTION DE LA DISPONIBILIDAD

Visin General
Nuestras vidas, tanto personales como profesionales, dependen cada vez ms de la tecnologa. sta nos permite acceder a la informacin y a los servicios a una velocidad que ni siquiera podramos haber soado hace unos pocos aos. Nuestro ritmo de vida se acelera y exigimos como clientes una disponibilidad absoluta de nuestros proveedores tecnolgicos. Con frecuencia una oferta diferente slo se encuentra a un par de clics de distancia. Por otro lado, el rpido desarrollo tecnolgico implica una constante renovacin de equipos y servicios. Como proveedores nos enfrentamos al reto de evolucionar sin apenas margen para el error pues nuestros sistemas han de encontrarse a disposicin del cliente prcticamente 24/7. La Gestin de la Disponibilidad es responsable de optimizar y monitorizar los servicios TI para que estos funcionen ininterrumpidamente y de manera fiable, cumpliendo los SLAs y todo ello a un coste razonable. La satisfaccin del cliente y la rentabilidad de los servicios TI dependen en gran medida de su xito. Las interacciones y funciones de la Gestin de la Disponibilidad se resumen sucintamente en el siguiente interactivo:

Introduccin y Objetivos
El objetivo primordial de la Gestin de la Disponibilidad es asegurar que los servicios TI estn disponibles y funcionen correctamente siempre que los clientes y usuarios deseen hacer uso de ellos en el marco de los SLAs en vigor. Las responsabilidades de la Gestin de la Disponibilidad incluyen:

Determinar los requisitos de disponibilidad en estrecha colaboracin con los clientes. Garantizar el nivel de disponibilidad establecido para los servicios TI. Monitorizar la disponibilidad de los sistemas TI. Proponer mejoras en la infraestructura y servicios TI con el objetivo de aumentar los niveles de
disponibilidad.

Supervisar el cumplimiento de los OLAs y UCs acordados con proveedores internos y externos.
Los indicadores clave sobre los que se sustenta el proceso de Gestin de la Disponibilidad se resumen en:

Disponibilidad: porcentaje de tiempo sobre el total acordado en que los servicios TI han sido
accesibles al usuario y han funcionado correctamente. forma ininterrumpida.

Fiabilidad: medida del tiempo durante el cual los servicios han funcionado correctamente de

Mantenibilidad: capacidad de mantener el servicio operativo y recuperarlo en caso de


interrupcin.

Capacidad de Servicio: determina la disponibilidad de los servicios internos y externos

contratados y su adecuacin a los OLAs y UCs en vigor. Cuando un servicio TI es subcontratado en su totalidad la disponibilidad y la capacidad de servicio son trminos equivalentes.

La disponibilidad depende del correcto diseo de los servicios TI, la fiabilidad de los CIs involucrados, su correcto mantenimiento y la calidad de los servicios internos y externos acordados. Los principales beneficios de una correcta Gestin de la Disponibilidad son:

Cumplimiento de los niveles de disponibilidad acordados. Se reducen los costes asociados a un alto nivel de disponibilidad. El cliente percibe una mayor calidad de servicio. Se aumentan progresivamente los niveles de disponibilidad. Se reduce el nmero de incidentes.
Las principales dificultades con las que topa la Gestin de la Disponibilidad son:

No se monitoriza correctamente la disponibilidad real del servicio. No existe compromiso con el proceso dentro de la organizacin TI. No se dispone de las herramientas de software y personal adecuado. Los objetivos de disponibilidad no estn alineados con las necesidades del cliente. Falta de coordinacin con los otros procesos. Los proveedores internos y externos no reconocen la autoridad del Gestor de la
Disponibilidad por falta de apoyo de la direccin.

Proceso
Entre las actividades que la Gestin de la Disponibilidad se encuentran:

Determinar cuales son los requisitos de disponibilidad reales del negocio. Desarrollar un plan de disponibilidad donde se estimen las necesidades de disponibilidad futura
a corto y medio plazo.

Mantenimiento del servicio en operacin y recuperacin del mismo en caso de fallo. Realizar diagnsticos peridicos sobre la disponibilidad de los sistemas y servicios. Evaluar la capacidad de servicio de los proveedores internos y externos.

Monitorizar la disponibilidad de los servicios TI. Elaborar informes de seguimiento con la informacin recopilada sobre disponibilidad, fiabilidad,
matenibilidad y cumplimiento de OLAs y UCs.

Evaluar el impacto de las polticas de seguridad en la disponibilidad. Asesorar a la Gestin del Cambio sobre el posible impacto de un cambio en la disponibilidad.
Nota: los botones del grfico permiten acceder a informacin mas detallada sobre la interrelacin con otros procesos TI.

Requisitos de Disponibilidad
Es indispensable cuantificar los requisitos de disponibilidad para la correcta elaboracin de los SLAs. La disponibilidad propuesta debe encontrase en lnea tanto con los necesidades reales del negocio como con las posibilidades de la organizacin TI. Aunque en principio todos los clientes estarn de acuerdo con unas elevadas cotas de disponibilidad es importante hacerles ver que una alta disponibilidad puede generar unos costes injustificados dadas sus necesidades reales. Quiz unas pocas horas sin un determinado servicio pueden representar poco ms all de una pequea inconveniencia mientras que la certeza de un servicio prcticamente continuo y sin interrupciones puede requerir la replicacin de sistemas u otras medidas igualmente costosas que no van a tener una repercusin real en la rentabilidad del negocio. Para llevar a cabo eficientemente est tarea es necesario que la Gestin de la Disponibilidad:

Identifique las actividades clave del negocio. Cuantifique los intervalos razonables de interrupcin de los diferentes servicios dependiendo de
sus respectivos impactos.

Establezca los protocolos de mantenimiento y revisin de los servicios TI. Determine las franjas horaria de disponibilidad de los servicios TI (24/7, 12/5, ...).

Planificacin
La correcta planificacin de la disponibilidad permite establecer unos niveles de disponibilidad adecuados tanto en lo que respecta a las necesidades reales del negocio como a las posibilidades de la organizacin TI. El documento que debe recoger los objetivos de disponibilidad presentes y futuros y que medidas son necesarias para su cumplimiento es el Plan de Disponibilidad. Este plan debe recoger:

La situacin actual de disponibilidad de los servicios TI. Obviamente esta informacin debe ser
actualizada peridicamente.

Herramientas para la monitorizacin de la disponibilidad. Mtodos y tcnicas de anlisis a utilizar. Definiciones relevantes y precisas de las mtricas a utilizar. Planes de mejora de la disponibilidad. Expectativas futuras de disponibilidad.
Es imprescindible que este plan proponga los cambios necesarios para que se cumplan los estndares previstos y colabore con la Gestin de Cambios y la Gestin de Versiones en su implementacin (en caso de ser aprobados, claro est). Para que este plan sea realista debe contar con la colaboracin de los otros procesos TI involucrados.

Diseo para la Disponibilidad


Es crucial para una correcta Gestin de la Disponibilidad participar desde el inicio en el desarrollo de los nuevos servicios TI de forma que estos cumplan los estndares plasmados en el Plan de Disponibilidad. Un diferente nivel de disponibilidad puede requerir cambios drsticos en los recursos utilizados o en las actividades necesarias para suministrar un determinado servicio TI. Si ste se disea sin tener en cuenta futuras necesidades de disponibilidad puede ser necesario un completo rediseo al cabo de poco tiempo, incurriendo en costes adicionales innecesarios.

Mantenimiento y Seguridad
Aunque hayamos realizado un correcto diseo de los servicios segn el Plan de Disponibilidad y se hayan tomado todas las medidas preventivas necesarias, tarde o temprano, nos habremos de enfrentar a interrupciones del servicio. En esos casos es necesario recuperar el servicio lo antes posible para que no tenga un efecto indeseado sobre los niveles de disponibilidad acordados. Aunque la responsabilidad de restaurar el servicio corresponde a la Gestin de Incidentes y las actividades de recuperacin han de ser coordinadas por el Service Desk, la Gestin de la Disponibilidad debe prestar su asesoramiento mediante planes de recuperacin que tengan en cuenta:

Las necesidades de disponibilidad del negocio. Las implicaciones del incidente en la infraestructura TI y los procesos necesarios para restaurar
el servicio.

Gestin de las Interrupciones de Mantenimiento


Independientemente de las interrupciones del servicio causadas por incidencias es habitualmente necesario interrumpir el servicio para realizar labores de mantenimiento y/o actualizacin. Estas interrupciones programadas pueden afectar a la disponibilidad del servicio y por lo tanto han de ser cuidadosamente planificadas para minimizar su impacto. En aquellos casos en que los servicios no son 24/7 es obvio que, siempre que ello sea posible, deben aprovecharse las franjas horarias de inactividad para realizar las tareas que implican una degradacin o interrupcin del servicio. Si el servicio es 24/7 y la interrupcin es necesaria se debe:

Consultar con el cliente en que franja horaria la interrupcin del servicio afectar menos a sus
actividades de negocio.

Informar con la antelacin suficiente a todos los agentes implicados. Incorporar dicha informacin a los SLAs.

Seguridad
Uno de los aspectos esenciales para obtener altos niveles de fiabilidad y disponibilidad es una correcta Gestin de la Seguridad. Los aspectos relativos a la seguridad deben ser tomados en cuenta en todas las etapas del proceso. Es tan importante determinar cundo el servicio estar disponible como el "quin y cmo" va a utilizarlo. La disponibilidad y seguridad son interdependientes y cualquier fallo en una de ellas afectar gravemente a la otra.

Monitorizacin de la Disponibilidad
La monitorizacin de la disponibilidad del servicio y la elaboracin de los informes correspondientes son dos de las principales actividades de la Gestin de la Disponibilidad. Desde el momento de la interrupcin del servicio hasta su restitucin o "tiempo de parada" el incidente pasa por distintas fases que deben ser individualizadamente analizadas:

Tiempo de deteccin: es el tiempo que transcurre desde que ocurre el fallo hasta que la
organizacin TI tiene constancia del mismo.

Tiempo de respuesta: es el tiempo que transcurre desde la deteccin del problema hasta que
se realiza un registro y diagnstico del incidente.

Tiempo de reparacin/recuperacin: periodo de tiempo utilizado para reparar el fallo o


encontrar un "workaround" o solucin temporal al mismo y devolver el sistema a la situacin anterior a la interrupcin del servicio.

Es importante determinar mtricas que permitan medir con precisin las diferentes fases del ciclo de vida de la interrupcin del servicio. El cliente debe conocer estas mtricas y dar su conformidad a las mismas para evitar malentendidos. En algunos casos es difcil determinar si el sistema est "cado o en funcionamiento" y la interpretacin puede diferir entre proveedores y clientes, por lo tanto, ests mtricas deben de poder expresarse en trminos que el cliente pueda entender. Algunos de los parmetros que suele utilizar la Gestin de la Disponibilidad y que debe poner a disposicin del cliente en los informes de disponibilidad correspondientes incluyen:

Tiempo Medio de Parada (Downtime) : que es el tiempo promedio de duracin de una


interrupcin de servicio, e incluye el tiempo de deteccin, respuesta y resolucin. disponible sin interrupciones.

Tiempo Medio entre Fallos (Uptime): es el tiempo medio durante el cual el servicio esta Tiempo Medio entre Incidentes: es el tiempo medio transcurrido entre incidentes que es
igual a la suma del Tiempo Medio de Parada y el Tiempo Medio entre Fallos. El Tiempo Medio entre Incidentes es una medida de la fiabilidad del sistema.

Mtodos y Tcnicas
Aunque llevamos hablando ya un buen rato de disponibilidad an no hemos aportado un mtodo para cuantificarla. Es habitual definir la disponibilidad en tanto por ciento de la siguiente manera:

donde: AST se corresponde con el tiempo acordado de servicio, DT es el tiempo de interrupcin del servicio durante las franjas horarias de disponibilidad acordadas.

Por ejemplo, si el servicio es 24/7 y en el ltimo mes el sistema ha estado cado durante 4 horas por tareas de mantenimiento la disponibilidad real del servicio fue:

La Gestin de la Disponibilidad tiene a su disposicin un buen nmero de mtodos y tcnicas que le permiten determinar que factores intervienen en la disponibilidad del servicio y que le permiten consecuentemente prever que tipo de recursos se deben asignar para las labores de prevencin, mantenimiento y recuperacin, as como elaborar planes de mejora a partir de dichos anlisis. Entre dichas tcnicas se cuentan:

CFIA

Que son las siglas de Component Failure Impact Analysis (Anlisis del Impacto de Fallo de Componentes). Mediante est metodo se identifica el impacto que tiene en la disponibilidad de los servicios TI el fallo de cada elemento de configuracin involucrado. Es evidente que este mtodo requiere una CMDB correctamente actualizada.

FTA

Que son las siglas de Failure Tree Analysis (Anlisis del rbol de Fallos). Su objetivo es estudiar como se "propagan" los fallos a traves de la infraestructura TI para comprender mejor su impacto en la disponibilidad del servicio.

CRAMM

Que son las siglas de CCTA Risk Analysis and Management Method (Mtodo de Gestin y Anlisis de Riesgos de la CCTA). Su objetivo es identificar los riesgos y vulnerabilidades a los que se haya expuesta la infraestructura TI con el objetivo de adoptar contramedidas que los reduzcan o que permitan recuperar rpidamente el servicio en caso de interrupcin del mismo.

SOA

Que son las siglas de Service Outage Analysis (Anlisis de Interrupcin del Servicio). sta tcnica tiene como objetivo analizar las causas de los fallos detectados y proponer soluciones a los mismos. Se diferencia de los anteriores mtodos en que realiza el anlisis desde el punto de vista del cliente haciendo especial nfasis en aspectos no exclusivamente tcnicos ligados directamente a la infraestructura TI.

Control del Proceso


La Gestin de la Disponibilidad debe elaborar peridicamente informes sobre su gestin que incluyan informacin relevante tanto para los clientes como para el resto de la organizacin TI. Estos informes deben incluir:

Tcnicas y mtodos utilizados para la prevencin y el anlisis de fallos. Informacin estadstica sobre:
Tiempos de deteccin y respuesta a los fallos. Tiempos de reparacin y recuperacin del servicio. Tiempo medio de servicio entre fallos.

Disponibilidad real de los diferentes servicios. Cumplimiento de los SLAs en todo lo referente a la disponibilidad y fiabilidad del servicio. Cumplimiento de los OLAs y UCs en todo lo referente a la capacidad de servicio prestada por
los proveedores internos y externos. Para que toda esta informacin sea fcil y correctamente analizada es imprescindible el establecimiento de mtricas precisas que permitan determinar de forma inequvoca parmetros tales como tiempos de parada y funcionamiento. Por ejemplo, en el caso de un servicio online de comercio electrnico se puede considerar que tiempos de respuesta superiores a 10 segundos son equivalentes a que el sistema esta cado, aunque estrictamente hablando el sistema termine respondiendo.

Caso Prctico
La disponibilidad 12/7 es algo a lo que los clientes de "Cater Matters" otorgan una gran importancia. Los servicios TI slo juegan una pequea, aunque importante, parte en los servicios prestados por la organizacin a sus clientes y los problemas de disponibilidad suelen proceder de procesos no directamente ligados con la tecnologa. Sin embargo, una interrupcin de los servicios online pueden presuponer un grave problema dado el alto volumen de pedidos que se reciben por dicho canal, la prctica totalidad, as como su importancia en el apartado de la gestin de stocks de materia prima. La Gestin de la Disponibilidad, en colaboracin con los responsables de otros procesos TI ha sido encargada de elaborar nuevos planes de disponibilidad que tengan en cuenta un rpido crecimiento del negocio que puede implicar una disponibilidad 24/7 para diferentes lneas de negocio. La elaboracin de este nuevo plan requiere:

La revisin de los UCs en vigor con los proveedores de servicios de Internet. Definicin de niveles de disponibilidad para los nuevos servicios. Diseo para la disponibilidad 24/7 de los servicios TI ofrecidos. Nuevos planes de gestin del mantenimiento que ahora requerirn una interrupcin real del
servicio. Por otro lado, la gestin de "Cater Matters" ha decidido informar peridicamente a sus clientes sobre los niveles de rendimiento y disponibilidad de los diferentes servicios prestados. Para ello ha encargado a la Gestin de la Disponibilidad que implante los procedimientos necesarios para la medicin del:

Tiempo transcurrido entre incidentes. Tiempo de parada del servicio. Tiempo de respuesta para cada incidente. Retraso en el la entrega del servicio.
Que se complementarn con un mdulo de clculo estadstico y de generacin automtica de informes sobre el cumplimiento de los niveles de disponibilidad acordados para cada cliente. De esta forma "Cater Matters" busca entablar una relacin de confianza con sus clientes y mantener a la organizacin TI alerta sobre posibles degradaciones de los niveles de calidad del servicio.

S-ar putea să vă placă și