Title: V Taller de Altas Energas
1V Taller de Altas Energías
- 6 Julio 2006, Santander
- Ejecución de trabajos en un testbed
- Daniel Cano
- Consejo Superior de Investigaciones Científicas
- Instituto de Física de Cantabria, IFCA
- (Centro Mixto CSIC-Universidad de Cantabria)
- Santander ESPAÑA
2Uso de un Testbed Contenidos
- Introducción
- Testbed de EGEE
- Objetivos principales
- Distribución
- Recursos de cada institución
- Requisitos para la utilización del Testbed
- Acceso al Testbed
- Globus Proxy
- Ejemplo
- Preparación de un trabajo
- Job Description Language (JDL)
- Envío de trabajos
- Funcionamiento
- Comandos básicos
- Posibles problemas
- Ejemplos
3Testbed de EGEE
- Objetivo principal
- Proporcionar infraestructura grid disponible para
uso científico 24/7. - Dar soporte a la construcción del testbed en los
distintos centros - Controlar los servicios de red requeridos por el
testbed - Integrar el middleware y el software requerido
por las distintas aplicaciones - Coordinar las versiones de software facilitando
la documentación y soportes apropiados - Actualmente EGEE es la mayor infraestructura de
computación grid a nivel mundial - Recursos 10000 cpus y 10PB almacenamiento
4Testbed de EGEE
- Distribución
- Recursos de computación distribuidos a través del
mundo - 150 centros en 91 instituciones repartidas por 32
países y 12 federaciones
International Testbed Map
5Testbed de EGEE
6Testbed de EGEE
- Los distintos centros del testbed proporcionan
- Servicios Grid, basados en
- Globus
- EDG (DataGrid project)
- LCG (LHC Computing Grid)
- gLite (Lightweight Middleware for Grid Computing)
7El largo camino del Job
Network Server
Inform. Service
RB node
Workload Manager
Job Contr. - CondorG
SE characts status
CE characts status
Computing Element
Storage Element
8El largo camino del Job
Job Status
Network Server
submitted
Inform. Service
RB node
Workload Manager
UI permite a los usuarios acceder a las
functionalidades del grid
Job Contr. - CondorG
SE characts status
CE characts status
Computing Element
Storage Element
9El largo camino del Job
Job Status
RLS
Network Server
submitted
Inform. Service
RB node
Workload Manager
Job Description Language (JDL) para especificar
las caracteristicas y requerimientos del job
edg-job-submit myjob.jdl Myjob.jdl JobType
Normal Executable "(CMS)/exe/sum.exe" I
nputSandbox "/home/user/WP1testC","/home/file
, "/home/user/DATA/" OutputSandbox
sim.err, test.out, sim.log" Requirements
other. GlueHostOperatingSystemName linux"
other. GlueHostOperatingSystemRelease "Red
Hat 6.2 other.GlueCEPolicyMaxWallClockTime gt
10000 Rank other.GlueCEStateFreeCPUs
Job Contr. - CondorG
SE characts status
CE characts status
Computing Element
Storage Element
10El largo camino del Job
NS demonio de red responsable de
aceptar peticiones
Job Status
RLS
Job
Network Server
Inform. Service
RB node
Input Sandbox files
Workload Manager
RB storage
Job Contr. - CondorG
SE characts status
CE characts status
Computing Element
Storage Element
11El largo camino del Job
Job Status
RLS
Network Server
Inform. Service
RB node
Workload Manager
RB storage
WM responsable de tomar las acciones
apropiadas que satisfagan la petición
Job Contr. - CondorG
SE characts status
CE characts status
Computing Element
Storage Element
12El largo camino del Job
Job Status
RLS
Network Server
Match- Maker/ Broker
RB node
Inform. Service
Workload Manager
Dónde ha de ejecutarse el trabajo?
RB storage
Job Contr. - CondorG
SE characts status
CE characts status
Computing Element
Storage Element
13El largo camino del Job
Job Status
RLS
Network Server
Match- Maker/ Broker
RB node
Inform. Service
Workload Manager
Matchmaker responsable de encontrar el mejor
CE donde enviar el trabajo
RB storage
Job Contr. - CondorG
SE characts status
CE characts status
Computing Element
Storage Element
14El largo camino del Job
Dónde están(que SEs) los datos necesarios ?
Job Status
RLS
RLS
Network Server
Match- Maker/ Broker
Network Server
Match- Maker/ Broker
RB node
RB node
Inform. Service
Inform. Service
Workload Manager
Workload Manager
Cúal es el status del Grid ?
Cúal es el status del Grid ?
RB storage
RB storage
Job Contr. - CondorG
Job Contr. - CondorG
SE characts status
SE characts status
CE characts status
CE characts status
Computing Element
Computing Element
Storage Element
Storage Element
15El largo camino del Job
Job Status
RLS
Network Server
Match- Maker/ Broker
RB node
Inform. Service
Workload Manager
Selección de CE
RB storage
Job Contr. - CondorG
SE characts status
CE characts status
Computing Element
Storage Element
16El largo camino del Job
Job Status
RLS
Network Server
RB node
Inform. Service
Workload Manager
Job Adapter
RB storage
Job Contr. - CondorG
SE characts status
CE characts status
JA responsable de los retoques finales del job
antes de ser enviado (p. ej.. creación de un
wrapper script, etc.)
Computing Element
Storage Element
17El largo camino del Job
Job Status
RLS
Network Server
RB node
Inform. Service
Workload Manager
RB storage
Job Contr. - CondorG
JC operaciones de administración del job
SE characts status
CE characts status
Computing Element
Storage Element
18El largo camino del Job
Job Status
RLS
Network Server
RB node
Inform. Service
Workload Manager
RB storage
Job Contr. - CondorG
SE characts status
CE characts status
Input Sandbox files
Job
Computing Element
Storage Element
19El largo camino del Job
Job Status
RLS
Network Server
RB node
Inform. Service
Workload Manager
RB storage
Job Contr. - CondorG
Grid enabled data transfers/ accesses
Computing Element
Storage Element
20El largo camino del Job
Job Status
RLS
Network Server
RB node
Inform. Service
Workload Manager
RB storage
Job Contr. - CondorG
Output Sandbox files
Computing Element
Storage Element
21El largo camino del Job
Job Status
RLS
Network Server
RB node
Inform. Service
Workload Manager
RB storage
Job Contr. - CondorG
edg-job-get-output ltdg-job-idgt
Computing Element
Storage Element
22El largo camino del Job
Job Status
RLS
Network Server
Inform. Service
Output Sandbox files
Workload Manager
RB storage
RB node
Job Contr. - CondorG
Computing Element
Storage Element
cleared
23Requisitos para la utilización del Testbed
- Cuenta en una máquina UI
- egeeui.ifca.org.es
- Certificado de EGEE
- .globus
- usercert.pem Permiso de lectura para todos los
usuarios - userkey.pem Permiso de lectura para el usuario
- Organización Virtual (VO)
- cms, atlas, dteam, biomed, planck ....
24Acceso al Testbed
- El acceso al Testbed se controla via proxy.
- proxy Credencial de tiempo limitado firmado por
la clave privada del usuario. - Comandos básicos
- grid-proxy-init (-hours) obtención del proxy, se
requiere la clave. - grid-proxy-info all da toda la información
relevante del proxy existente - grid-proxy-destroy borra el proxy de esa sesión
- grid-proxy-xxx help muestra como usar el
comando grid-proxy-xxx
25Globus proxy
- Ejemplos
- grid-proxy-init
- cano_at_egeeui cano grid-proxy-init
- Your identity /CES/ODATAGRID-ES/OIFCA/CNDani
el Cano Fernandez - Enter GRID pass phrase for this
identity - Creating proxy ..................................
Done - Your proxy is valid until Thu Jul 06 203514
2006 - grid-proxy-info
- cano_at_egeeui cano grid-proxy-info -all
- subject /CES/ODATAGRID-ES/OIFCA/CNDaniel
Cano Fernandez/CNproxy - issuer /CES/ODATAGRID-ES/OIFCA/CNDaniel
Cano Fernandez - type full
- strength 512 bits
- path /tmp/x509up_u7023
- timeleft 85441
26Preparación de un Trabajo
- Para enviar un trabajo se debe especificar cierta
información - Caracteristicas del job
- Requerimientos y preferencias de recursos
- Datos necesarios
- Esta información se especifica en un archivo JDL
(Job Description Language) - El archivo ltjob.jdlgt
- Contiene toda la información necesaria para
desarrollar y ejecutar el trabajo. - Describe las entradas necesarias, genera las
salidas y los recursos requeridos para ejecutar
un trabajo.
27Preparación de un trabajo
- Atributos relevantes para definir un trabajo en
JDL
28Preparación de un trabajo
Type "Job" Executable
"/bin/echo" Arguments "Hello World" StdOutput
"message.txt" StdError "stderror" OutputSand
box "message.txt", "stderror" Requirements
other.LRMSType"PBS"
29Envío de trabajos al Testbed
- Comandos básicos
- edg-job-list-match ltjob.jdlgt lista de los
recursos del testbed que coincidan con los
requerimientos del job.
cano_at_egeeui test edg-job-list-match --vo cms
echo.jdl Selected Virtual Organisation name
(from --vo option) cms Connecting to host
egeerb.ifca.org.es, port 7772
COMPUTING ELEMENT
IDs LIST The following CE(s) matching your job
requirements have been found
CEId
lepton.rcac.purdue.edu2119/jobmanager-pbs-ccdef
lepton.rcac.purdue.edu2119/jobmanager-pbs-
preemptdef lepton.rcac.purdue.edu2119/jobmanag
er-pbs-preempti ce01.kallisto.hellasgrid.gr2
119/jobmanager-pbs-cms grid10.lal.in2p3.fr21
19/jobmanager-pbs-cms
ce01.isabella.grnet.gr2119/jobmanager-pbs-short
30Envío de trabajos al Testbed
- Comandos básicos
- edg-job-submit ltjob.jdlgt envía el trabajo, y
devuelve su identificador en forma URL, ltjobIDgt
edg-job-submit job.jdl Selected Virtual
Organisation name (from --config-vo option)
cms Connecting to host egee-rb-03.cnaf.infn.it,
port 7772 Logging to host egee-rb-03.cnaf.infn.it,
port 9002
JOB SUBMIT OUTCOME The job has
been successfully submitted to the Network
Server. Use edg-job-status command to check job
current status. Your job identifier (edg_jobId)
is - https//egee-rb-03.cnaf.infn.it9000/prZpv
PF2tJGRytihzr0O7Q
31Envío de trabajos al Testbed
- Comandos básicos
- edg-job-status ltjobIDgt pregunta sobre el estado
del trabajo.
edg-job-status https//rb.fzk.de9000/Ur_cD_07Y
ouNXxGfIxgepA
BOOKKEEPING
INFORMATION Printing status info for the Job
https//rb.fzk.de9000/Ur_cD_07YouNXxGfIxgepA Curr
ent Status Waiting reached on Wed
Jun 16 121033 2004
BOOK
KEEPING INFORMATION Printing status info for the
Job https//rb.fzk.de9000/Ur_cD_07YouNXxGfIxgep
A Current Status Scheduled Status Reason
Job successfully submitted to Globus Destination
aocegrid.uab.es2119/jobmanager-pbs-long re
ached on Wed Jun 16 121527
2004
BOOKKEEPING INFORMATION Printing
status info for the Job https//rb.fzk.de9000/U
r_cD_07YouNXxGfIxgepA Current Status Running
Status Reason Job successfully submitted to
Globus Destination aocegrid.uab.es2119/job
manager-pbs-long reached on Wed Jun 16
121538 2004
BOOKKEEPING
INFORMATION Printing status info for the Job
https//rb.fzk.de9000/Ur_cD_07YouNXxGfIxgepA Curr
ent Status Done (Success) Exit code
139 Status Reason Job terminated
successfully Destination
aocegrid.uab.es2119/jobmanager-pbs-long reached
on Wed Jun 16 121549 2004
32Envío de trabajos al Testbed
- Comandos básicos
- edg-job-get-output ltjobIDgt recoge la salida del
trabajo ejecutado.
edg-job-get-output https//egee-rb-03.cnaf.infn.i
t9000/UiZKaOdCGmNLJ8z5ITz0Yw Retrieving files
from host egee-rb-03.cnaf.infn.it ( for
https//egee-rb-03.cnaf.infn.it9000/UiZKaOdCGmNLJ
8z5ITz0Yw )
JOB GET OUTPUT OUTCOME Output
sandbox files for the job - https//egee-rb-03.c
naf.infn.it9000/UiZKaOdCGmNLJ8z5ITz0Yw have
been successfully retrieved and stored in the
directory /tmp/jobOutput/cano_UiZKaOdCGmNLJ8z5IT
z0Yw
33Envío de trabajos al Testbed
- Comandos básicos
- edg-job-cancel ltjobIDgt cancela un trabajo.
edg-job-cancelhttps//egee-rb-03.cnaf.infn.it90
00/eMW_1q6Jh7wBc7eaoSO3yA Are you sure you want
to remove specified job(s)? y/nn
y edg-job-cancel
Success The
cancellation request has been successfully
submitted for the following job(s) -
https//egee-rb-03.cnaf.infn.it9000/eMW_1q6Jh7wBc
7eaoSO3yA
34Envío de trabajos al Testbed
- La salida del job esta copiada localmente en el
UI, con lo que podemos acceder a ella - cano_at_egeeui test ls -l /tmp/jobOutput/cano_UiZK
aOdCGmNLJ8z5ITz0Yw - total 4
- -rw-r--r-- 1 cano hepuser 12 Jul 6
1530 message.txt - -rw-r--r-- 1 cano hepuser 0 Jul 6
1530 stderror - cano_at_egeeui test more /tmp/jobOutput/cano_UiZKa
OdCGmNLJ8z5ITz0Yw/message.txt - Hello World
- cano_at_egeeui test more /tmp/jobOutput/cano_UiZKa
OdCGmNLJ8z5ITz0Yw/stderror
35Envío de trabajos al Testbed
- Comandos básicos
- Facilidades
- edg-job-submit o fichero.txt ltjob.jdlgt con
está opción guardamos la URL del identificador en
el fichero y evitamos tener que escribirla o
copiar/pegar al usar el resto de comandos. - edg-job-status i fichero.txt al usar la
opción o al enviar el job, debemos usar la
opción i y el fichero para consultar el status o
recoger el job en lugar de usar el ltjobIDgt.
36