Aucun titre de diapositive - PowerPoint PPT Presentation

About This Presentation
Title:

Aucun titre de diapositive

Description:

Title: Aucun titre de diapositive Author: Qualitop Last modified by: sgonzale Created Date: 5/5/2005 7:40:47 PM Document presentation format: Presentaci n en pantalla – PowerPoint PPT presentation

Number of Views:47
Avg rating:3.0/5.0
Slides: 35
Provided by: Qua45
Category:

less

Transcript and Presenter's Notes

Title: Aucun titre de diapositive


1
Uso del GRID en generación masiva de Datos
Sistema de producción del Experimento ATLAS
Santiago González de la Hoz Santiago.GonzalezdelaH
oz_at_cern.ch CERN (European Organization for
Nuclear Research)
2
Sistema de producción del experimento ATLAS
  • Introducción
  • Objetivo de esta charla
  • Experimento ATLAS
  • Programa Data Challenges (DC)
  • Sistema de Producción de ATLAS
  • Base de datos de producción
  • Supervisor Windmill
  • Ejecutores Lexor, Capone y Dulcinea
  • Data Management Don Quijote
  • Fases de producción de los DC2
  • Los 3 sabores Grid (LCG, GRID3 y NorduGrid)
  • Producción de ATLAS en los DC2
  • Análisis de datos utilizando el sistema de
    producción
  • Conclusiones

Santiago González de la Hoz
2/34
3
Sistema de producción del experimento ATLAS
  • Introducción
  • Objetivo de esta charla
  • Experimento ATLAS
  • Programa Data Challenges (DC)

Santiago González de la Hoz
3/34
4
Sistema de producción del experimento ATLAS
  • Objetivo de esta charla/curso
  • Problema real con el que se encuentra un
    experimento, en este caso ATLAS.
  • Posible solución a dicho problema, el GRID
  • Uso del Grid para la resolución de dicho problema
  • Experimento ATLAS
  • Uno de los 4 experimentos que se están
    construyendo en el CERN
  • Dos de carácter general (ATLAS y CMS)
  • Uno para la física del b (LHCb)
  • Uno para el estudio de iones pesados (ALICE)
  • Se colocará en el túnel del futuro colisionador
    de hadrones LHC
  • Colisionador protón-protón
  • Energía en centro de Masas de 14 TeV
  • Alta luminosidad (1034 cm-2 s-1)

Santiago González de la Hoz
4/34
5
Sistema de producción del experimento ATLAS
Mont Blanc, 4810 m
Geneva
Santiago González de la Hoz
5/34
6
Sistema de producción del experimento ATLAS
Santiago González de la Hoz
6/34
7
Sistema de producción del experimento ATLAS
  • Toma de datos empieza en 2007
  • Level 3 Trigger 100 sucesos/s, siendo el tamaño
    de 1 MB/suceso
  • Volumen de datos 1 PB/año durante 10 años
  • CPU estimada para procesar datos en el LHC
    200.000 PCs actuales
  • Esto genera 3 problemas
  • Almacenamiento de datos
  • Procesado
  • Usuarios dispersos por todo el mundo

Posible solución
TECNOLOGÍAS GRID
Santiago González de la Hoz
7/34
8
Sistema de producción del experimento ATLAS
  • Programa Data Challenges (DC)
  • La colaboración ATLAS en el año 2002 diseño el
    programa Data Challenges (DC) con el objetivo
    de validar su
  • Modelo de Computación
  • Software
  • Modelo de datos
  • Empezar a usar y probar las tecnologías GRID
  • Con los DC1 se consiguió (no se utilizó el GRID)
  • Desarrollar y desplegar el software necesario
    para la producción de sucesos a gran escala.
  • Participaron en la producción institutos de todo
    el mundo.
  • Con los DC2 se ha conseguido producir sucesos a
    gran escala utilizando el middleware GRID
    desarrollado en tres proyectos (sabores de Grid)
  • LHC Computing Grid project (LCG), en el cual
    participa el CERN y el IFIC
  • GRID3
  • NorduGRID

Santiago González de la Hoz
8/34
9
Sistema de producción del experimento ATLAS
  • Sistema de producción de ATLAS
  • (ver charla Julio Lozano)
  • Base de datos de producción
  • Supervisor Windmill
  • Ejecutores Lexor, Capone y Dulcinea
  • Data Management Don Quijote

Santiago González de la Hoz
9/34
10
Sistema de producción del experimento ATLAS
  • La base de datos de producción, la cual contiene
    la definición de los trabajos.
  • El supervisor windmill, el cual consulta la
    base de datos para obtener la definición de los
    trabajos y se los pasa a los ejecutores de cada
    Grid en formato XML.
  • Los ejecutores, hay uno por cada sabor Grid.
    Ellos reciben la definición del trabajo en
    formato XML y la convierten en el job
    description language (JDL) de cada sabor Grid.
  • Don Quijote, Atlas Data Management system, el
    cual se encarga de
  • Transferir ficheros desde su localización
    temporal hasta su destino final en un Storage
    Element (SE)
  • Registrar los en el catálogo correspondiente a
    cada Grid (replica location service).
  • Atlas diseño un sistema de producción automático
    para poder llevar a cabo su producción masiva de
    datos en los DC2.
  • El sistema de producción de ATLAS consiste en 4
    componentes

Santiago González de la Hoz
10/34
11
Sistema de producción del experimento ATLAS
  • Definición de trabajos en la base de datos
  • Prodcom Es una herramienta interactiva gráfica
    que nos permite fácilmente definir una gran
    cantidad de trabajos en la base de datos
  • Esta hecho en Java y se puede correr como un
    applet
  • En la definición del trabajo elegimos
  • Nuestra transformación
  • Los ficheros de entrada (ponemos su LFN, logical
    file name)
  • Los ficheros de salida (LFN)
  • Donde queremos que se guarden los ficheros de
    salida (SE)
  • Transformación Es un shell script que espera
    una serie de parámetros de entrada y ejecuta
    athena.py, otro programa para la generación,
    simulación, etc.. de sucesos en ATLAS.

Santiago González de la Hoz
11/34
12
Sistema de producción del experimento ATLAS
  • Definición de trabajos en la base de datos
  • Los trabajos se crean en la base de datos y se
    les asigna automáticamente un ID
  • También se monitoriza su estado.

Santiago González de la Hoz
12/34
13
Sistema de producción del experimento ATLAS
  • Declaración de una transformación en la base de
    datos
  • phpORADmin interfaz web de ATLAS con la base de
    datos.
  • La transformación se declara
  • Se definen los parámetros de entrada que necesita
    dicha transformación

Santiago González de la Hoz
13/34
14
Sistema de producción del experimento ATLAS
  • Supervisor Windmill
  • Es una implementación del software supervisor
    para la gestión de la producción de ATLAS.
  • Consulta la base de datos para obtener la
    definición de los trabajos.
  • Interacciona con varios ejecutores para la
    distribucción, ejecución y monitorización de los
    trabajos en los diferentes Grids (a través de
    XML, utilizando un jabber server, )
  • Configuración Windmill
  • Se configura modificando el fichero windmill.xml
  • Jobselection
  • ltgridgtLCGANALYSISlt/gridgt. Para coger los
    trabajos en la base de datos con inputhint
    LCGANALYSIS
  • Database ltoraconnectiongtatlas_prodsys_dev/prodsy
    s_at_devdblt/oraconnectiongt. Elegimos la base de
    datos

Santiago González de la Hoz
14/34
15
Sistema de producción del experimento ATLAS
  • Ejecutores Lexor, Dulcina y Capone
  • Por diseño son una interfaz entre el supervisor
    (que es único) y los tres sabores Grid.
  • La información que reciben del supervisor en XML,
    la convierten en el JDL (Job Description
    Language) de que sabor Grid
  • Envían los trabajos a los correspondientes
    Computing Elements asociados con dicho sabor de
    Grid.
  • Configuración Lexor (LCG)
  • Se configura modificando el fichero lexor.cfg
  • Elección de Resource Broker y BDII
  • Puedes habilitar o deshabilitar centros
  • El fichero lexor_wrap.sh
  • Baja, instala y ejecuta la transformación
  • Hace el stage in de los ficheros necesarios de
    entrada (utilizando Don Quijote, DQ)
  • Hace el stage out de los ficheros de salida
    (DQ)

Santiago González de la Hoz
15/34
16
Sistema de producción del experimento ATLAS
  • Data Management System Don Quijote (DQ)
  • El objetivo de DQ es integrar todos los servicios
    de gestión de datos (data managment) usados por
    los tres Grids y por lo tanto por el Experimento
    ATLAS.
  • De esta forma los datos se pueden replicar y
    registrar de forma transparente entre los
    diferentes catálogos de los tres sabores grids.
  • Realmente hay tres servidores DQ, uno para cada
    Grid, pero para el usuario final, esto es
    totalmente transparente. Como si solo hubiera uno
  • Utilización Don Quijote
  • Corres el script eligiendo el tipo de Grid y el
    LFN para dicho fichero
  • dms2.py g lcg get rome.004100.recov10.T1_McAtNLO_
    top._00211.AOD.pool.root

Santiago González de la Hoz
16/34
17
Sistema de producción del experimento ATLAS
  • Fase de producción de los DC2
  • Los 3 sabores Grid (LCG, GRID3 y NorduGrid)
  • Producción de ATLAS en los DC2

Santiago González de la Hoz
17/34
18
Sistema de producción del experimento ATLAS
Fases de producción de los DC2
Bytestream Raw Digits
ESD
Bytestream Raw Digits
Digits (RDO) MCTruth
Mixing
Reconstruction
Reconstruction
Hits MCTruth
Events HepMC
Geant4
Digitization
Bytestream Raw Digits
Bytestream Raw Digits
ESD
Digits (RDO) MCTruth
Hits MCTruth
Events HepMC
Pythia
Reconstruction
Geant4
Digitization
Digits (RDO) MCTruth
Hits MCTruth
Events HepMC
Pile-up
Geant4
Bytestream Raw Digits
ESD
Bytestream Raw Digits
Mixing
Reconstruction
Digits (RDO) MCTruth
Events HepMC
Hits MCTruth
Geant4
Bytestream Raw Digits
Pile-up
20 TB
5 TB
20 TB
30 TB
5 TB
Event Mixing
Digitization (Pile-up)
Reconstruction
Detector Simulation
Event generation
Byte stream
Persistency Athena-POOL
TB
Physics events
Min. bias Events
Piled-up events
Mixed events
Mixed events With Pile-up
Volume of data for 107 events
Santiago González de la Hoz
18/34
19
Sistema de producción del experimento ATLAS
Process No. of events Event/ size CPU power Volume of data
MB kSI2k-s TB
Event generation 107 0.06 156
Simulation 107 1.9 504 30
Pile-up/ Digitization 107 3.3/1.9 144/16 35
Event mixing Byte-stream 107 2.0 5.4 20
  • Los DC2 de ATLAS empezaron la fase de simulación
    en Julio 2004 y acabó en Septiembre del mismo
    año.
  • Se generaron 10 millones de sucesos distribuidos
    en 100000 trabajos
  • La digitalización y el Pile-up acabaron en
    Diciembre 2004 y corrió sobre una muestra de 2
    millones
  • Se utilizaron las tecnologías Grid (3
    proyectos)!!!!!

Santiago González de la Hoz
19/34
20
Sistema de producción del experimento ATLAS
  • Los tres sabores Grid
  • LCG (http//lcg.web.cern.ch/LCG/)
  • The job of the LHC Computing Grid Project LCG
    is to prepare the computing infrastructure for
    the simulation, processing and analysis of LHC
    data for all four of the LHC collaborations. This
    includes both the common infrastructure of
    libraries, tools and frameworks required to
    support the physics application software, and the
    development and deployment of the computing
    services needed to store and process the data,
    providing batch and interactive facilities for
    the worldwide community of physicists involved in
    LHC.
  • NorduGrid (http//www.nordugrid.org/)
  • The aim of the NorduGrid collaboration is to
    deliver a robust, scalable, portable and fully
    featured solution for a global computational and
    data Grid system. NorduGrid develops and deploys
    a set of tools and services the so-called ARC
    middleware, which is a free software.
  • Grid3 (http//www.ivdgl.org/grid2003/)
  • The Grid3 collaboration has deployed an
    international Data Grid with dozens of sites and
    thousands of processors. The facility is operated
    jointly by the U.S. Grid projects iVDGL, GriPhyN
    and PPDG, and the U.S. participants in the LHC
    experiments ATLAS and CMS.

Los tres proyectos utilizan Globus. Solamente
existen pequeñas diferencias en el middleware
Santiago González de la Hoz
20/34
21
Sistema de producción del experimento ATLAS
NORDUGRID
LCG
GRID3
  • LCG-2 core packages
  • VDT (Globus2, condor)
  • EDG WP1 (Resource Broker, job submission tools)
  • EDG WP2 (Replica Management tools) lcg tools
  • One central RMC and LRC for each VO, located at
    CERN, ORACLE backend
  • Several bits from other WPs (Config objects,
    InfoProviders, Packaging)
  • GLUE 1.1 (Information schema) few essential LCG
    extensions
  • MDS based Information System with significant LCG
    enhancements (replacements, simplified)
  • Mechanism for application (experiment) software
    distribution
  • Grid environment built from core Globus and
    Condor middleware, as delivered through the
    Virtual Data Toolkit (VDT)
  • GRAM, GridFTP, MDS, RLS, VDS
  • equipped with VO and multi-VO security,
    monitoring, and operations services
  • allowing federation with other Grids where
    possible, eg. CERN LHC Computing Grid (LCG)
  • USATLAS GriPhyN VDS execution on LCG sites
  • USCMS storage element interoperability
    (SRM/dCache)
  • ARC is based on Globus Toolkit with core services
    replaced
  • Currently uses Globus Toolkit 2
  • Alternative/extended Grid services
  • Grid Manager that
  • Checks user credentials and authorization
  • Handles jobs locally on clusters (interfaces to
    LRMS)
  • Does stage-in and stage-out of files
  • Lightweight User Interface with built-in resource
    broker
  • Information System based on MDS with a NorduGrid
    schema
  • xRSL job description language (extended Globus
    RSL)
  • Grid Monitor
  • Simple, stable and non-invasive

Santiago González de la Hoz
21/34
22
Sistema de producción del experimento ATLAS
  • LCG
  • Esta infraestructura lleva trabajando desde el
    2003.
  • Los recursos (tanto de computación como de
    almacenamiento) están instalados en RC (Regional
    Centers) conectados por redes de alta velocidad.
  • 100 centros, 22 paises (Estos números aumentan
    rápidamente)
  • 6558 TB
  • 10000 CPUs (compartidas)

Santiago González de la Hoz
22/34
23
Sistema de producción del experimento ATLAS
  • NorduGrid
  • Es una colaboración de investigación formada
    principalmente por los países nórdicos, aunque
    hay otros países.
  • Fueron los únicos que contribuyeron a los DC1
    utilizando el Grid.
  • Son los únicos que soportan diferentes
    distribuciones a RedHat.
  • 11 paises, 40 centros, 4000 CPUs,
  • 30 TB almacenamiento

Santiago González de la Hoz
23/34
24
Sistema de producción del experimento ATLAS
  • Sep 04
  • 30 centros, multi-VO
  • Recursos compartidos
  • 3000 CPUs
  • GRID3
  • Dicha infraestructura lleva trabajando desde Nov
    2003.
  • Actualmente corriendo 3 aplicaciones de Física de
    Altas Energías y 2 de Biología.
  • Mas de 100 usuarios corriendo en Grid3.

Santiago González de la Hoz
24/34
25
Sistema de producción del experimento ATLAS
  • Producción de ATLAS en los DC2
  • Simulación G4

total
Validated Jobs
Day
Santiago González de la Hoz
25/34
26
Sistema de producción del experimento ATLAS
  • Producción de ATLAS en los DC2

Santiago González de la Hoz
26/34
27
Sistema de producción del experimento ATLAS
  • Análisis de datos utilizando el sistema de
    producción

Santiago González de la Hoz
27/34
28
Sistema de producción del experimento ATLAS
  • Definimos una transformación de Análisis
  • Se definen los parámetros
  • ltinfilenamegt ..... name of input file (full
    path)
  • lthistfilenamegt .... HIST output filename"
  • ltntuplefilenamegt .... NTUPLE output filename"
  • ltnevtgt ........... number of output events to be
    processed"
  • ltskipgt ........... number of input events to be
    skipped"
  • Implementamos nuestro algoritmo de análisis
    (Usamos en este caso ttbar)
  • get_files -jo ttbarExample_jobOptions.py
  • Se genera el fichero de configuración para correr
    Athena
  • cat gtgt input.py ltlt EOF
  • EventSelector.InputCollectionsfile_list
  • theApp.EvtMax NEVT
  • theApp.SkipEvents SKIP
  • HistogramPersistencySvc.OutputFile "HISTFN"
  • NTupleSvc.Output "FILE1 DATAFILE'NTUPFN'
    OPT'NEW'"
  • EOF
  • Corremos Athena con las opciones de nuestro
    trabajo
  • time athena.py ttbarExample_jobOptions.py
    input.py gt logANA

Santiago González de la Hoz
28/34
29
Sistema de producción del experimento ATLAS
  • Declaramos la transformación en la base de datos
    usando phpORAdmin.
  • Definimos los trabajos en la base de datos
    asociados a dicha transformación con prodcom
  • Instalamos una instancia de Windmill y Lexor
    configurados para que ejecuten nuestros trabajos
  • Se instaló en el UI (lcg2ui2.ific.uv.es), y se
    utilizó el Resource Broker (lcg2rb2.ific.uv.es) y
    BDII del IFIC-Valencia.
  • Modificamos el wrapper (Lexor_wrapper.sh) de
    Lexor para que pudiera coger nuestra
    transformación
  • wget http//ific.uv.es/sgonzale/kitvalidation/pac
    kages/10.0.0.1/JobTransforms-10-00-00-01.tar.gz
  • tar xvzf JobTransforms-10-00-00-01.tar.gz

Santiago González de la Hoz
29/34
30
Sistema de producción del experimento ATLAS
  • Se utilizó el siguiente dataset
    rome.004100.recov10.T1_McAtNLO_top
  • Muestra ttbar
  • 50 sucesos por fichero, un total de 7000 ficheros
  • Se definieron 70 trabajos con 100 ficheros de
    entrada en la base de datos utilizando prodcom
  • e.g. Rome.004100.recov10.T1_McAtNLO_top._00001-00
    100.AOD.pool.root
  • Se enviaron y ejecutaron estos trabajos
    utilizando nuestra instancia de Lexorwindmill
  • Los trabajos corrieron en diferentes institutos
    LCG (ific.uv.es, gridpp.rl.ac.uk,
    farmnet.nikhef.nl, etc..)
  • Cada trabajo produjo 3 ficheros de salida, los
    cuales fueron almacenados en Castor
    (IFIC-Valencia, Taiwan, CERN), por ejemplo
  • rome.analysis.large.23.hist.root
  • rome.analysis.large.23.ntup.root
  • rome.analysis.large.23.log
  • Los 70 histogramas fueron concatenados en uno
  • Utilizamos para ello la macro de root
    ROOTSYS/bin/hadd
  • Los histogramas fueron abiertos con RFIO
    (almacenados en Castor)

Santiago González de la Hoz
30/34
31
Sistema de producción del experimento ATLAS
  • Reconstrucción de la masa invariante del W
    desintegrándose a jet-jet (W-gtjj)
  • A la izquierda uno de los 70 histogramas
    producidos a través del sistema de producción de
    ATLAS a la Grid
  • A la derecha una vez hecho el encadenamiento de
    los 70 histogramas
  • Hemos analizado 350000 sucesos!!!

Santiago González de la Hoz
31/34
32
Sistema de producción del experimento ATLAS
  • El trabajo solo dura 4 minutos en el Worker Node,
    pero tarda en total 4 Horas
  • Se pierde mucho tiempo copiando los ficheros de
    entrada al Worker Node (la red y las cintas en el
    caso de Castor) donde realmente el trabajo corre,
    copiando los ficheros de salida al Storage
    Element seleccionado y enviando el trabajo al
    Computing Element elegido por el Resource Broker.
  • Parece lógico en este caso (Análisis) mandar el
    trabajo allá donde estén los datos de entrada.

Santiago González de la Hoz
32/34
33
Sistema de producción del experimento ATLAS
  • Conclusiones

Santiago González de la Hoz
33/34
34
Sistema de producción del experimento ATLAS
  • ATLAS ha sido el primer experimento LHC que ha
    utilizado las tecnologías GRID para llevar a cabo
    una producción masiva de datos simulados a la
    totalidad del ejercicio.
  • Se han utilizado 3 sabores de GRID.
  • La producción ha sido llevada acabo de una forma
    coherente y automática.
  • Los Data Challenges 2 nos han enseñado que todos
    los elementos involucrados en el sistema de
    producción de ATLAS necesitan mejoras
  • En tres meses (Julio a Septiembre 2004), se
    enviaron mas de 235000 trabajos, se consumió mas
    de 1.5Millones specint2000/mes de CPU y se
    produjeron más de 30 TB de datos.
  • El modelo de análisis propuesto por ATLAS se
    probó con éxito en el sistema de producción.
  • En menos de 4 horas 350000 sucesos fueron
    analizados. Dichos sucesos estaban almacenados
    en diferentes lugares por todo el mundo y los
    trabajos de análisis se ejecutaron en un gran
    abanico de centros.

Santiago González de la Hoz
34/34
Write a Comment
User Comments (0)
About PowerShow.com