Sunteți pe pagina 1din 6

Información Tecnológica-Vol. 17 N°1-2005, págs.

: 61-68

TECNOLOGÍA SATELITAL

Computación Tolerante a Fallas Aplicada en el Mantenimiento Automático del


Microsatélite Satex

Esaú Vicente-Vivas (1)* y Fabián García-Nocetti (2)


(1) Instituto de Ingeniería, Universidad Nacional Autónoma de México,
Cd. Universitaria Coyoacán, 04510, México D.F.-México (e-mail: evv@servidor.unam.mx)
(2) Instituto de Investigación en Matemáticas Aplicadas y Sistemas, UNAM,
Cd. Universitaria Coyoacán, 04510, México D.F.-México (e-mail:
fabian@uxdea4.iimas.unam.mx)

Resumen

Se ha desarrollado una arquitectura de cómputo tolerante a fallas con capacidades para realizar mantenimiento
remoto y automático a la computadora de vuelo del microsatélite experimental Satex (MES). Los pequeños
satélites como el MES presentan una tendencia a incrementar el valor agregado y el costo de sus experimentos, lo
que justifica una instrumentación tolerante a fallas y de larga vida, sobre todo si resulta económica y realmente
aplicable. La arquitectura de cómputo tolerante a fallas propuesta en este trabajo incorpora todos los recursos de
procesamiento del satélite para realizar las tareas de diagnóstico y detección de fallas, así como la reconfiguración
de la arquitectura en caso de fallas.

Palabras clave: computadora satelital, tolerancia a fallas, mantenimiento automatizado, microsatélite

INTRODUCCIÓN

Después del proyecto microsatelital UNAM-SAT que realizara la Universidad Nacional Autónoma de México
(UNAM), cuyos mejores resultados se generaron al colocar en órbita y operar al microsatélite UNAMSAT-B por un
par de meses en 1996, (UNAMSAT, 2005), diversas instituciones educativas y de investigación Mexicanas
trabajan ahora en la fase final de desarrollo del proyecto microsatelital Satex, figura 1.

Fig. 1: Visión artística del microsatélite Satex orbitando el espacio.


El microsatélite será un cubo de 55 cm de lado, masa de 55 Kgs, paneles solares en cuatro de sus caras,
estabilizado pasivamente con un gradiente gravitacional y activamente por medio de seis bobinas de torque
magnético. Al ser un satélite de órbita baja implica que se desplazará continuamente por todo el planeta, a una
altitud aproximada de 800 Km. El vehículo conducirá 5 experimentos: comunicaciones ópticas descendentes en el
infrarrojo cercano, comunicaciones en banda Ka en modo descendente, captura de imágenes con una cámara
digital, sistema mínimo de sobrevivencia que constituye un respaldo de comunicaciones básicas por medio de
tonos modulados en frecuencia y un experimento de arquitectura de computadoras para proveer mantenimiento
totalmente automático al servidor de cómputo del satélite. Este último fue desarrollado en la UNAM con
arquitectura reconfigurable y con redundancias en frío, (Vicente-Vivas y García-Nocetti, 2003).
La instrumentación electrónica del MES incluye una computadora de vuelo (CV), dos computadoras para
subsistemas del satélite (potencia y sobrevivencia) y dos computadoras para experimentos (comunicaciones
ópticas y cámara digital), figura 2.
1
Fig. 2: Computadoras del satélite incorporadas a la ACTF.
El proyecto Satex persigue consolidar en México un área de trabajo en materia de desarrollo de satélites
pequeños, cuyas actividades pudieran generar en el futuro un programa de actividades espaciales continuas.
Actualmente ya se tienen concluidos varios equipos del MES, en otros subsistemas se está a punto de construir
equipos de vuelo y para el resto se están validando equipos de ingeniería.
Entre los equipos terminados completamente se encuentra la computadora de vuelo que cuenta con refacciones
de tarjetas de procesamiento, así como la ACTF que se describe en esta publicación, la cual permite aplicar
mantenimiento totalmente automatizado a la CV del satélite.
La ACTF es un sistema tolerante a fallas en sentido estricto (Pradhan, 1996) debido a que realiza
automáticamente tareas de diagnóstico, detección y tratamiento de fallas para hacer posible la continuidad de las
operaciones de la CV y por tanto para que el satélite ofrezca operaciones sin interrupciones.
Al respecto debe señalarse que en el amplio campo de los satélites, algunos de los satélites medianos (100 a
1000 Kgs) y la mayor parte de los grandes (más de 1 tonelada) emplean computadoras redundantes, pero sin
llegar a constituir sistemas tolerantes a fallas en sentido estricto, esto es, el tratamiento de fallas lo realiza el
personal de control de misión en Tierra.
En el caso de los satélites geoestacionarios de comunicaciones su personal de control Terrestre tiene acceso
continuo a las variables satelitales lo cual les permite realizar el tratamiento remoto de fallas. Cabe aclarar que
aunque un satélite geoestacionario pierda el control de orientación, su reporte de variables satelitales no se afecta
en vista de que sus sistemas de telemetría se basan en sistemas UHF-VHF omnidireccionales. Sin embargo, sus
cargas útiles de comunicaciones sí constituyen sistemas directivos, por lo cual las fallas de orientación los llevan a
la suspensión de servicios y por tanto a pérdidas económicas millonarias (GlobalSecurity, 2005; Space, 2005).
Al no contar con sistemas TF, éstos satélites llegan a invertir varios días para recuperarse ante las fallas
ocurridas, esto es, aplicar el mantenimiento remoto que les permita continuar operaciones. No obstante, en
bastantes casos la recuperación resulta imposible en vista de que sólo cuentan con una refacción para
computadoras.
Respecto a los microsatélites, la mayor parte de ellos emplean computadoras de vuelo sin refacciones (Sakoda y
Horning, 2002; Grillmayer et al, 2003), lo cual los lleva a aceptar que muchas de sus misiones dejen de operar por
fallas en sus computadoras. Hasta el momento son muy pocas las misiones microsatelitales que han planeado o
que utilizan computadoras TF en el espacio, sin embargo, se espera que los microsatélites de demostración
tecnológica lleguen a validar sistemas de cómputo TF que a la postre puedan ser incorporados en todo tipo de
satelites, tanto comerciales como experimentales.
Un caso notable y exitoso, orbitado en Octubre de 2001, ha sido el microsatélite BIRD de 92 Kgs desarrollado en
Alemania, el cual dispone de 4 computadoras iguales para control satelital; de ellas una es la principal, otra realiza
el monitoreo de la principal y las restantes son respaldos en frío (Brieb et al., 2002; Brieb et al., 2003; Brieb et al.,
2005). Sin embargo las publicaciones disponibles no indican cómo realizan las tareas de diagnóstico y detección
de fallas.

2
En Latinoamérica se han desarrollado computadoras TF para los microsatélites de Brasil SACI-1 y SACI-2
(Saturno et al., 1996; Rodríguez y Roland, 1998) los cuales desafortunadamente no alcanzaron un éxito operativo
(Surrey, 2005).
En cuanto a computadoras TF Bizantinas, hasta el momento solo existe un sistema espacial instrumentado con
una computadora tolerante a fallas llamada “Data Management System” o DMS, instalada en el módulo Zvezda,
de 19 toneladas, fabricado por Rusia para la Estación Espacial Internacional (Zvezda, 2005). El módulo Zvezda
se instaló en órbita en Diciembre del 2000 por medio del cohete Ruso Protón. No obstante, la DMS es demasiado
grande y voluminosa para que pueda ser empleada en vehículos espaciales pequeños como computadora de
vuelo.
Ante este escenario, el proyecto MES persigue realizar el mantenimiento automatizado de la CV (en caso de
fallas) de tal forma que el microsatélite pueda ofrecer servicios de comunicación continua con su estación terrena
de supervisión y control.
Para ello se desarrolló y validó exitosamente la ACTF, que aglutina periódicamente, por medio de una red
tolerante a fallas, todos los recursos de cómputo del MES para conformar una arquitectura reconfigurable y
modular, acoplada por software, que cuenta con refacciones tanto en su núcleo de procesamiento como en sus
procesadores agregados. Su núcleo es una CV triplex que cuenta con tres tarjetas de procesamiento, cada una
con recursos de hardware suficientes para automatizar las funciones de operación, control y de comunicaciones
del satélite.
La ACTF constituye un sistema tolerante a fallas, con capacidades para realizar procesos de diagnóstico-
detección de fallas y reconfiguración (DIDEREF) de forma totalmente automatizada. La arquitectura integra gran
parte de los preceptos de la teoría de detección de fallas Bizantinas, convirtiendo potencialmente al MES en el
primer microsatélite que utilizará una computadora tolerante a fallas de tipo Bizantino.
Cabe resaltar que de haber propuesto una arquitectura TF dedicada o autónoma para el microsatélite no habría
sido posible utilizarla realmente en un vehículo espacial pequeño, es decir, no habría evolucionado hacia un
sistema de vuelo implantable prácticamente en un microsatélite de 55 kgs como es el caso expuesto en esta
publicación.

MATERIALES Y MÉTODOS

La CV fue diseñada y construida en la UNAM para ofrecer alta disponibilidad operativa por medio de dos
refacciones adicionales para sus tarjetas de procesadores. Su diseño incluye una unidad de conmutación de
procesadores, que se controla con líneas digitales para determinar cuál de los procesadores se habilita en un
momento dado. Por este medio y con ayuda del sistema mínimo de sobrevivencia (SIM-SOS) del satélite el
personal de control en Tierra puede aplicar mantenimiento asistido a las tarjetas de procesamiento de la CV.
Con el propósito de aplicar mantenimiento automatizado a la computadora más crítica del MES se desarrolló la
ACTF, la cual utiliza todos los procesadores disponibles en el satélite para emular un servidor de redundancia
modular cuádruple acoplado por software. Para no afectar las operaciones de control ni el rendimiento de los
procesadores de experimentos, la arquitectura se integra periódicamente por medio de una red de área local
completamente redundante, figura 2, que también es tolerante a fallas y cuya operación es totalmente
transparente para el software de operaciones del MES, (Vicente-Vivas, 1999).
Las computadoras del satélite que intervienen en la integración de la ACTF, figura 2, son la CV, la computadora
del subsistema de potencia, la computadora del SIM-SOS, la computadora del experimento de comunicaciones
ópticas y la computadora de la cámara digital, (Vicente-Vivas et al., 2002).
La CV cuenta con tres tarjetas de procesamiento, una principal y dos de respaldo en frío, cada una con protección
EDAC (Error Detection And Correction) para memoria RAM, protección para efecto “latch-up” para el procesador y
hardware para cargar nuevo software operativo por medio de radio enlaces de comunicaciones. Asimismo, cuenta
con hardware de red de área local, una unidad de mulicanalización (para capturar señales de hasta 48 sensores
con sus respectivos módulos de acondicionamiento, filtrado y recorte de señales), acondicionadores de línea y
conectores E/S, (Vicente-Vivas y García-Nocetti, 2003).
Para validar la ACTF también se emplearon otros equipos desarrollados en nuestro laboratorio, entre ellos un
simulador de satélite (SIMSAT), un software de depuración, emulación y validación operativa de computadoras de
experimentos satelitales (SOFDEVO), el módulo de electrónica de acondicionamiento de sensores y
mantenimiento (EASyM) y el software de estación terrena (SET) del satélite.
De hecho estas herramientas fueron imprescindibles para alcanzar los resultados que se reportan en esta
publicación, por lo cual la validación final de la ACTF se pudo realizar solo cuando cada uno de los equipos y
herramientas mencionadas se encontraron totalmente terminadas y operativas.
DIAGNÓSTICO Y DETECCIÓN DE FALLAS
Una parte fundamental para una computadora tolerante a fallas son sus medios de diagnóstico y detección de
fallas. En el caso de la ACTF se elaboraron algoritmos dedicados para el diagnóstico de procesadores y para
detectar fallas por medio de un voteo mayoritario (VM) que opera sobre la red de área local redundante utilizando
software de propósito particular.

3
Después de realizar el voteo mayoritario (Tanenbaum, 1995) cualquiera de los nodos participantes tiene
información suficiente del estado operativo de todos los nodos de la ACTF y el potencial para reconfigurar a la CV
por medio de hardware. Sin embargo, se optó por que sólo el SIM-SOS (quien tiene un hardware muy reducido y
de calificación militar) realice la reconfiguración y el reinicio de la CV en caso de requerirlo.
Adicionalmente y con el propósito de incrementar la seguridad del proceso de reconfiguración, los nodos restantes
otorgan un permiso por hardware para que el SIM-SOS acceda al hardware de reconfiguración sólo cuando se
encuentre en buen estado operativo, figura 3.

Fig. 3: Equipos del satélite que forman la ACTF y


que se emplean para dar mantenimiento
automático a la CV.

Diagnóstico de fallas en la ACTF

La función elaborada para el diagnóstico de los procesadores de la ACTF incorpora suficiente cobertura del núcleo
de procesamiento debido a que el componente principal de cada microcomputadora del satélite es un micro-
controlador. El algoritmo analiza los componentes principales de la arquitectura del micro-controlador, incluyendo
registros, unidad aritmética, unidad lógica y temporizadores. De forma indirecta cubre aspectos funcionales en
registros de direcciones, contador de programa, ductos de datos, ducto de direcciones, etcétera. El algoritmo se
codificó en Lenguaje C e involucra registros durante procesos aritméticos y lógicos. Asigna datos en variables y
ejecuta con ellas diversas operaciones lógicas y aritméticas para generar un resultado conocido, cuyo valor es
diferente para cada nodo de la red. En vista de que cada nodo conoce anticipadamente los resultados que deben
generar los demás elementos, resulta posible el diagnóstico entre procesadores.
La memoria RAM de la CV no se incluye en el diagnóstico, debido a que su diagnóstico, detección y corrección de
errores se realiza durante el proceso de lavado de memoria que involucra al EDAC. El diagnóstico de la memoria
de los procesadores restantes se efectúa por regiones de memoria.
Detección de fallas en la ACTF
El algoritmo de detección de fallas para los procesadores se basa en el voteo de resultados de diagnóstico de los
procesadores involucrados. Se utiliza un voteo por software para detectar fallas maliciosas en las que los
procesadores pudieran dar la impresión de que trabajan correctamente, cuando no lo estuviesen.
Por otro lado, el ambiente espacial reúne condiciones adversas de radiación que propician tales comportamientos
anómalos, por tal motivo resulta muy importante la detección de fallas para garantizar el estado de salud de los
sistemas computacionales del MES. Cabe destacar que durante el proceso de detección se considera
transparente el canal y los puertos de red local, debido a que su diagnóstico, detección y recuperación ante fallas
se realiza de forma automática e independiente, (Vicente-Vivas, 1999).
Por tanto, para realizar la detección de fallas en procesadores y estableciendo que se desea detectar a un
procesador con falla, la teoría de detección de fallas Bizantinas (Tanenbaum, 1995) indica que se requieren al
menos 4 nodos computacionales en total, es decir se debe disponer de 3 nodos libres de falla para alcanzar un
acuerdo por votación mayoritaria.
Una vez finalizado el voteo mayoritario, cada nodo cuenta con información sobre fallas posibles en cada una de
las computadoras. Sin embargo, solo el SIM-SOS cuenta con el hardware para comandar la reconfiguración de la
4
CV. A este respecto se subraya que la ACTF supone la existencia de una sola falla a la vez debido a que el MES
es un vehículo sin tripulación. También se enfatiza que el SIM-SOS conserva siempre el respaldo del estado
operativo de la ACTF en términos de procesadores sanos para preservar el estado operativo de la arquitectura.
Al aplicar mantenimiento a la CV se frenan momentáneamente sus operaciones, sin embargo, constituye una
molestia menor, debido a que el proceso permite identificar y tolerar fallas importantes. Por estas razones,
después del mantenimiento y después de que el satélite sobrevuele nuevamente el espacio de su estación terrena
de control, el personal de Tierra debe supervisar de cerca la operación de la ACTF para corroborar su correcta
operación y en consecuencia el funcionamiento del satélite.
HERRAMIENTAS PARA VALIDAR LA ACTF
En vista de que aun no se encuentran disponibles todos los equipos del MES, los resultados operativos de la
ACTF se obtuvieron con la emulación de cargas útiles mediante software especializado. Para este propósito se
desarrolló el software SOFDEVO, figura 4, el cual permite emular a cualquiera de las computadoras de
experimentos del MES desde el punto de vista del tráfico informativo de red, sin omisiones y sin errores.
Para emular a los procesadores, se tomó en consideración que los procesos de comunicaciones entre
procesadores se efectúan mediante comandos, de acuerdo con protocolos propietarios de la red de área local,
(Vicente-Vivas et al., 1996).
Las funciones más destacadas de SOFDEVO que permitieron validar a la ACTF, figura 5, son las siguientes:
1) Reconoce y da respuesta automática a los mensajes asociados con el voteo mayoritario para cada nodo
emulado, es decir, a los procesos de DIDEREF de la ACTF.
2) Despliega información completa del proceso de voteo mayoritario cuando éste se encuentra activado.
3) Envía señales de permiso de mantenimiento y reconfiguración (ante fallas) para la CV, por puerto paralelo.
4) Permite simular fallas en tiempo real para cualquier computadora emulada durante el VM.
DISCUSIÓN DE RESULTADOS
Para validar la ACTF se utilizó el SET, el cual también ha sido desarrollado en la UNAM. De esta forma al integrar
la CV, el software de operaciones del satélite, SOFDEVO, el SIM-SAT y el SET, figura 5, se logró validar la
operación concurrente de la ACTF, la cual se arma cada 10 minutos, proceso que coincide con los tiempos de
adquisición de telemetría en el satélite. Además, los resultados del voteo fueron supervisados con SOFDEVO y
adicionalmente tales datos se incorporaron a la telemetría del vehículo espacial, de tal forma que fueron
capturados por medio del SET para corroborar los datos ofrecidos por SOFDEVO.
Debido a que SOFDEVO permite emular varios procesadores con una sola computadora personal, se realizaron
pruebas de validación con una PC y la CV, ejecutando ésta el software de vuelo del MES, en tanto que otra PC se
utilizó para ejecutar el SET, figura 5. Éste esquema se utilizó ampliamente para depurar el software de la ACTF.
Además, durante el proceso de VM se insertaron fallas simuladas a la arquitectura con SOFDEVO para validar el
proceso de reconfiguración.
Se subraya que SOFDEVO genera señales digitales de salida vía puerto paralelo para reconfigurar a la CV. Con
esta ayuda y con el circuito de voteo mayoritario, ubicado en el módulo EASyM, que otorga permiso al SIM-SOS
para reconfigurar a la CV, figura 6, se validó el proceso completo de DIDEREF para la ACTF.

Fig. 6: Esquema de validación de la ACTF.


A su vez, se utilizó el SIMSAT para interconectar equipos, para simular los sensores del MES y para visualizar el
accionamiento de algunos actuadores, figura 6. Con ello se validó exitosamente el proceso de mantenimiento
automatizado para la computadora de vuelo del microsatélite.

5
Por otro lado, ya se han realizado también las primeras pruebas de acomodo de equipos de vuelo disponibles –
entre ellos la CV y EASyM- con la estructura del satélite, figura 7. De igual forma se han efectuado ya las primeras
pruebas de: compatibilidad eléctrica y de funcionalidad operativa entre equipos. En el futuro cercano se espera
continuar con las pruebas de integración para entonces proceder a aplicar al satélite las pruebas finales de
calificación espacial, entre ellas las de: compatibilidad electromagnética, termovacío y vibración.

Fig. 7: Pruebas de acomodo de equipos, compatibilidad eléctrica y


funcionalidad operativa en la estructura de aluminio del satélite.

CONCLUSIONES

Se han presentado los componentes, así como la forma de operación de una arquitectura de cómputo tolerante a
fallas, la cual fue desarrollada para el microsatélite experimental Mexicano Satex.
Del trabajo presentado se desprenden las siguientes conclusiones:
i) es posible implantar un sistema complejo de automatización que opere en modo tolerante a fallas con
mantenimiento automático para un microsatélite de 55 Kgs, de órbita baja, sin menoscabo de sus restricciones
fundamentales como son: masa, volumen y consumo energético.
ii) la integración de todos los procesadores dedicados de un satélite permitió formar una arquitectura modular,
reconfigurable y TF.
iii) la conectividad de procesadores vía red permitió implantar un esquema de diagnóstico y detección de fallas
acoplado por software, de tipo periódico, que no amedrenta los procesos ejecutados por los procesadores
iv) la validación de la arquitectura depende de la presencia de varios equipos del satélite, a los cuales se sustituyó
con un software de emulación que fue invaluable para alcanzar los resultados presentados
v) la ACTF se validó exitosamente en laboratorio y puede llegar a convertirse en la primera computadora tolerante
a fallas de tipo Bizantino que orbite en un microsatélite.

S-ar putea să vă placă și