Documente Academic
Documente Profesional
Documente Cultură
: 61-68
TECNOLOGÍA SATELITAL
Resumen
Se ha desarrollado una arquitectura de cómputo tolerante a fallas con capacidades para realizar mantenimiento
remoto y automático a la computadora de vuelo del microsatélite experimental Satex (MES). Los pequeños
satélites como el MES presentan una tendencia a incrementar el valor agregado y el costo de sus experimentos, lo
que justifica una instrumentación tolerante a fallas y de larga vida, sobre todo si resulta económica y realmente
aplicable. La arquitectura de cómputo tolerante a fallas propuesta en este trabajo incorpora todos los recursos de
procesamiento del satélite para realizar las tareas de diagnóstico y detección de fallas, así como la reconfiguración
de la arquitectura en caso de fallas.
INTRODUCCIÓN
Después del proyecto microsatelital UNAM-SAT que realizara la Universidad Nacional Autónoma de México
(UNAM), cuyos mejores resultados se generaron al colocar en órbita y operar al microsatélite UNAMSAT-B por un
par de meses en 1996, (UNAMSAT, 2005), diversas instituciones educativas y de investigación Mexicanas
trabajan ahora en la fase final de desarrollo del proyecto microsatelital Satex, figura 1.
2
En Latinoamérica se han desarrollado computadoras TF para los microsatélites de Brasil SACI-1 y SACI-2
(Saturno et al., 1996; Rodríguez y Roland, 1998) los cuales desafortunadamente no alcanzaron un éxito operativo
(Surrey, 2005).
En cuanto a computadoras TF Bizantinas, hasta el momento solo existe un sistema espacial instrumentado con
una computadora tolerante a fallas llamada “Data Management System” o DMS, instalada en el módulo Zvezda,
de 19 toneladas, fabricado por Rusia para la Estación Espacial Internacional (Zvezda, 2005). El módulo Zvezda
se instaló en órbita en Diciembre del 2000 por medio del cohete Ruso Protón. No obstante, la DMS es demasiado
grande y voluminosa para que pueda ser empleada en vehículos espaciales pequeños como computadora de
vuelo.
Ante este escenario, el proyecto MES persigue realizar el mantenimiento automatizado de la CV (en caso de
fallas) de tal forma que el microsatélite pueda ofrecer servicios de comunicación continua con su estación terrena
de supervisión y control.
Para ello se desarrolló y validó exitosamente la ACTF, que aglutina periódicamente, por medio de una red
tolerante a fallas, todos los recursos de cómputo del MES para conformar una arquitectura reconfigurable y
modular, acoplada por software, que cuenta con refacciones tanto en su núcleo de procesamiento como en sus
procesadores agregados. Su núcleo es una CV triplex que cuenta con tres tarjetas de procesamiento, cada una
con recursos de hardware suficientes para automatizar las funciones de operación, control y de comunicaciones
del satélite.
La ACTF constituye un sistema tolerante a fallas, con capacidades para realizar procesos de diagnóstico-
detección de fallas y reconfiguración (DIDEREF) de forma totalmente automatizada. La arquitectura integra gran
parte de los preceptos de la teoría de detección de fallas Bizantinas, convirtiendo potencialmente al MES en el
primer microsatélite que utilizará una computadora tolerante a fallas de tipo Bizantino.
Cabe resaltar que de haber propuesto una arquitectura TF dedicada o autónoma para el microsatélite no habría
sido posible utilizarla realmente en un vehículo espacial pequeño, es decir, no habría evolucionado hacia un
sistema de vuelo implantable prácticamente en un microsatélite de 55 kgs como es el caso expuesto en esta
publicación.
MATERIALES Y MÉTODOS
La CV fue diseñada y construida en la UNAM para ofrecer alta disponibilidad operativa por medio de dos
refacciones adicionales para sus tarjetas de procesadores. Su diseño incluye una unidad de conmutación de
procesadores, que se controla con líneas digitales para determinar cuál de los procesadores se habilita en un
momento dado. Por este medio y con ayuda del sistema mínimo de sobrevivencia (SIM-SOS) del satélite el
personal de control en Tierra puede aplicar mantenimiento asistido a las tarjetas de procesamiento de la CV.
Con el propósito de aplicar mantenimiento automatizado a la computadora más crítica del MES se desarrolló la
ACTF, la cual utiliza todos los procesadores disponibles en el satélite para emular un servidor de redundancia
modular cuádruple acoplado por software. Para no afectar las operaciones de control ni el rendimiento de los
procesadores de experimentos, la arquitectura se integra periódicamente por medio de una red de área local
completamente redundante, figura 2, que también es tolerante a fallas y cuya operación es totalmente
transparente para el software de operaciones del MES, (Vicente-Vivas, 1999).
Las computadoras del satélite que intervienen en la integración de la ACTF, figura 2, son la CV, la computadora
del subsistema de potencia, la computadora del SIM-SOS, la computadora del experimento de comunicaciones
ópticas y la computadora de la cámara digital, (Vicente-Vivas et al., 2002).
La CV cuenta con tres tarjetas de procesamiento, una principal y dos de respaldo en frío, cada una con protección
EDAC (Error Detection And Correction) para memoria RAM, protección para efecto “latch-up” para el procesador y
hardware para cargar nuevo software operativo por medio de radio enlaces de comunicaciones. Asimismo, cuenta
con hardware de red de área local, una unidad de mulicanalización (para capturar señales de hasta 48 sensores
con sus respectivos módulos de acondicionamiento, filtrado y recorte de señales), acondicionadores de línea y
conectores E/S, (Vicente-Vivas y García-Nocetti, 2003).
Para validar la ACTF también se emplearon otros equipos desarrollados en nuestro laboratorio, entre ellos un
simulador de satélite (SIMSAT), un software de depuración, emulación y validación operativa de computadoras de
experimentos satelitales (SOFDEVO), el módulo de electrónica de acondicionamiento de sensores y
mantenimiento (EASyM) y el software de estación terrena (SET) del satélite.
De hecho estas herramientas fueron imprescindibles para alcanzar los resultados que se reportan en esta
publicación, por lo cual la validación final de la ACTF se pudo realizar solo cuando cada uno de los equipos y
herramientas mencionadas se encontraron totalmente terminadas y operativas.
DIAGNÓSTICO Y DETECCIÓN DE FALLAS
Una parte fundamental para una computadora tolerante a fallas son sus medios de diagnóstico y detección de
fallas. En el caso de la ACTF se elaboraron algoritmos dedicados para el diagnóstico de procesadores y para
detectar fallas por medio de un voteo mayoritario (VM) que opera sobre la red de área local redundante utilizando
software de propósito particular.
3
Después de realizar el voteo mayoritario (Tanenbaum, 1995) cualquiera de los nodos participantes tiene
información suficiente del estado operativo de todos los nodos de la ACTF y el potencial para reconfigurar a la CV
por medio de hardware. Sin embargo, se optó por que sólo el SIM-SOS (quien tiene un hardware muy reducido y
de calificación militar) realice la reconfiguración y el reinicio de la CV en caso de requerirlo.
Adicionalmente y con el propósito de incrementar la seguridad del proceso de reconfiguración, los nodos restantes
otorgan un permiso por hardware para que el SIM-SOS acceda al hardware de reconfiguración sólo cuando se
encuentre en buen estado operativo, figura 3.
La función elaborada para el diagnóstico de los procesadores de la ACTF incorpora suficiente cobertura del núcleo
de procesamiento debido a que el componente principal de cada microcomputadora del satélite es un micro-
controlador. El algoritmo analiza los componentes principales de la arquitectura del micro-controlador, incluyendo
registros, unidad aritmética, unidad lógica y temporizadores. De forma indirecta cubre aspectos funcionales en
registros de direcciones, contador de programa, ductos de datos, ducto de direcciones, etcétera. El algoritmo se
codificó en Lenguaje C e involucra registros durante procesos aritméticos y lógicos. Asigna datos en variables y
ejecuta con ellas diversas operaciones lógicas y aritméticas para generar un resultado conocido, cuyo valor es
diferente para cada nodo de la red. En vista de que cada nodo conoce anticipadamente los resultados que deben
generar los demás elementos, resulta posible el diagnóstico entre procesadores.
La memoria RAM de la CV no se incluye en el diagnóstico, debido a que su diagnóstico, detección y corrección de
errores se realiza durante el proceso de lavado de memoria que involucra al EDAC. El diagnóstico de la memoria
de los procesadores restantes se efectúa por regiones de memoria.
Detección de fallas en la ACTF
El algoritmo de detección de fallas para los procesadores se basa en el voteo de resultados de diagnóstico de los
procesadores involucrados. Se utiliza un voteo por software para detectar fallas maliciosas en las que los
procesadores pudieran dar la impresión de que trabajan correctamente, cuando no lo estuviesen.
Por otro lado, el ambiente espacial reúne condiciones adversas de radiación que propician tales comportamientos
anómalos, por tal motivo resulta muy importante la detección de fallas para garantizar el estado de salud de los
sistemas computacionales del MES. Cabe destacar que durante el proceso de detección se considera
transparente el canal y los puertos de red local, debido a que su diagnóstico, detección y recuperación ante fallas
se realiza de forma automática e independiente, (Vicente-Vivas, 1999).
Por tanto, para realizar la detección de fallas en procesadores y estableciendo que se desea detectar a un
procesador con falla, la teoría de detección de fallas Bizantinas (Tanenbaum, 1995) indica que se requieren al
menos 4 nodos computacionales en total, es decir se debe disponer de 3 nodos libres de falla para alcanzar un
acuerdo por votación mayoritaria.
Una vez finalizado el voteo mayoritario, cada nodo cuenta con información sobre fallas posibles en cada una de
las computadoras. Sin embargo, solo el SIM-SOS cuenta con el hardware para comandar la reconfiguración de la
4
CV. A este respecto se subraya que la ACTF supone la existencia de una sola falla a la vez debido a que el MES
es un vehículo sin tripulación. También se enfatiza que el SIM-SOS conserva siempre el respaldo del estado
operativo de la ACTF en términos de procesadores sanos para preservar el estado operativo de la arquitectura.
Al aplicar mantenimiento a la CV se frenan momentáneamente sus operaciones, sin embargo, constituye una
molestia menor, debido a que el proceso permite identificar y tolerar fallas importantes. Por estas razones,
después del mantenimiento y después de que el satélite sobrevuele nuevamente el espacio de su estación terrena
de control, el personal de Tierra debe supervisar de cerca la operación de la ACTF para corroborar su correcta
operación y en consecuencia el funcionamiento del satélite.
HERRAMIENTAS PARA VALIDAR LA ACTF
En vista de que aun no se encuentran disponibles todos los equipos del MES, los resultados operativos de la
ACTF se obtuvieron con la emulación de cargas útiles mediante software especializado. Para este propósito se
desarrolló el software SOFDEVO, figura 4, el cual permite emular a cualquiera de las computadoras de
experimentos del MES desde el punto de vista del tráfico informativo de red, sin omisiones y sin errores.
Para emular a los procesadores, se tomó en consideración que los procesos de comunicaciones entre
procesadores se efectúan mediante comandos, de acuerdo con protocolos propietarios de la red de área local,
(Vicente-Vivas et al., 1996).
Las funciones más destacadas de SOFDEVO que permitieron validar a la ACTF, figura 5, son las siguientes:
1) Reconoce y da respuesta automática a los mensajes asociados con el voteo mayoritario para cada nodo
emulado, es decir, a los procesos de DIDEREF de la ACTF.
2) Despliega información completa del proceso de voteo mayoritario cuando éste se encuentra activado.
3) Envía señales de permiso de mantenimiento y reconfiguración (ante fallas) para la CV, por puerto paralelo.
4) Permite simular fallas en tiempo real para cualquier computadora emulada durante el VM.
DISCUSIÓN DE RESULTADOS
Para validar la ACTF se utilizó el SET, el cual también ha sido desarrollado en la UNAM. De esta forma al integrar
la CV, el software de operaciones del satélite, SOFDEVO, el SIM-SAT y el SET, figura 5, se logró validar la
operación concurrente de la ACTF, la cual se arma cada 10 minutos, proceso que coincide con los tiempos de
adquisición de telemetría en el satélite. Además, los resultados del voteo fueron supervisados con SOFDEVO y
adicionalmente tales datos se incorporaron a la telemetría del vehículo espacial, de tal forma que fueron
capturados por medio del SET para corroborar los datos ofrecidos por SOFDEVO.
Debido a que SOFDEVO permite emular varios procesadores con una sola computadora personal, se realizaron
pruebas de validación con una PC y la CV, ejecutando ésta el software de vuelo del MES, en tanto que otra PC se
utilizó para ejecutar el SET, figura 5. Éste esquema se utilizó ampliamente para depurar el software de la ACTF.
Además, durante el proceso de VM se insertaron fallas simuladas a la arquitectura con SOFDEVO para validar el
proceso de reconfiguración.
Se subraya que SOFDEVO genera señales digitales de salida vía puerto paralelo para reconfigurar a la CV. Con
esta ayuda y con el circuito de voteo mayoritario, ubicado en el módulo EASyM, que otorga permiso al SIM-SOS
para reconfigurar a la CV, figura 6, se validó el proceso completo de DIDEREF para la ACTF.
5
Por otro lado, ya se han realizado también las primeras pruebas de acomodo de equipos de vuelo disponibles –
entre ellos la CV y EASyM- con la estructura del satélite, figura 7. De igual forma se han efectuado ya las primeras
pruebas de: compatibilidad eléctrica y de funcionalidad operativa entre equipos. En el futuro cercano se espera
continuar con las pruebas de integración para entonces proceder a aplicar al satélite las pruebas finales de
calificación espacial, entre ellas las de: compatibilidad electromagnética, termovacío y vibración.
CONCLUSIONES
Se han presentado los componentes, así como la forma de operación de una arquitectura de cómputo tolerante a
fallas, la cual fue desarrollada para el microsatélite experimental Mexicano Satex.
Del trabajo presentado se desprenden las siguientes conclusiones:
i) es posible implantar un sistema complejo de automatización que opere en modo tolerante a fallas con
mantenimiento automático para un microsatélite de 55 Kgs, de órbita baja, sin menoscabo de sus restricciones
fundamentales como son: masa, volumen y consumo energético.
ii) la integración de todos los procesadores dedicados de un satélite permitió formar una arquitectura modular,
reconfigurable y TF.
iii) la conectividad de procesadores vía red permitió implantar un esquema de diagnóstico y detección de fallas
acoplado por software, de tipo periódico, que no amedrenta los procesos ejecutados por los procesadores
iv) la validación de la arquitectura depende de la presencia de varios equipos del satélite, a los cuales se sustituyó
con un software de emulación que fue invaluable para alcanzar los resultados presentados
v) la ACTF se validó exitosamente en laboratorio y puede llegar a convertirse en la primera computadora tolerante
a fallas de tipo Bizantino que orbite en un microsatélite.