|
SISTEMA DE COLAS - Introducción a LSF Batch
El sistema de colas es una aplicacion que permite a los usuarios de supercomputo ejecutar, terminar, modificar y controlar trabajos en modo no interactivo. Esta aplicacion permite ejecutar de manera mas eficiente, natural y economica los procesos en el sistema. El usuario podra seguir trabajando de forma interactiva en su terminal. El sistema de colas lsf instalado en Clementina2 permite hacer un uso mas conveniente y eficiente de los recursos computacionales de la maquina. Los programas que se envien al sistema de colas en vez de empezar a correr inmediatamente esperan en la cola hasta que esten disponibles los recursos que necesitan. Ademas, gracias al uso de "checkpoints", estos guardan el estado de la corrida del programa pudiendo retomar la ejecucion del mismo ante cualquier imprevisto. Este sistema de procesamiento en modo batch automaticamente ejecuta procesos de backup (chekpoints) a todos los procesos cada vez que el sistema es dado de baja de manera controlada. Chekpoint es una llamada al sistema que se encarga de guardar el avance de un proceso hasta cierto momento (cuando se ejecuta el checkpoint) para tener la opcion de volverlo a ejecutar a partir de ese punto sin tener que ejecutarlo nuevamente desde el principio. Asi cuando el sistema se reinicia, los procesos pueden recuperarse; es decir, reinician su ejecucion a partir del punto donde estaban cuando se dio de baja el sistema. Cada cola estara identificada por un nombre relacionado con las caracteristicas de la misma. La carga del sistema sera definida mediante las prioridades de las colas, como ser tiempo de uso, cantidad de procesadores a utilizar y maximo numero de job por usuario y horarios de ejecucion ya que durante el dia el uso del sistema se incrementa considerablemente, aumentando el numero de procesos activos y con ellos la carga del sistema (horario diurno), mientras que por la noche ocurre tipicamente lo contrario (horario nocturno) Las colas disponibles en Clementina 2 en orden de prioridad creciente son: normal: night: priority: Los comandos mas utilizados de lsf son: bsub: Envía trabajos a las colas. Cuando se completa envia un mail de notificación. >bsub -q night -o salida1 -e errores1 programa1 >bsub programa2 bjobs: Informa el estado de un trabajo que este corriendo, pendiente o suspendido bjobs -a da tambien los que se hayan concluido recientemente bjobs -p dice porque esta pendiente bjobs -s dice porque fue suspendido bqueues:Da información de las colas que existen en el sistema bqueues -l da más información
|