Title: Une base de donnes de mammographies
1Une base de données de mammographies
- Omar Boussaïd
- Riadh Ben Messaoud
Laboratoire ERIC Université de Lyon 2 5, avenue
Pierre MendèsFrance 69676, Bron Cedex
France http//eric.univ-lyon2.fr
2Présentation
- DDSM Digital Database for Screening
Mammography - Un projet supporté par the Breast Cancer
Research Program of the U.S. Army Medical
Research and Materiel Command - Partenaires
- Massachusetts General Hospital
- University of South Florida
- Sandia National Laboratories
- Washington University School of Medicine
- Wake Forest University School of Medicine
3Objectifs
- Mettre des données de mammographies à la
disposition de la communauté scientifique. - Contribuer au développement dalgorithmes daide
à la décision et dapprentissage dans le domaine
médical. - diagnostique et détection automatique de cas
cancéreux - La base est disponible à ladresse
- http//marathon.csee.usf.edu/Mammography/Database.
html
4Description
- La base contient 2 604 dossiers de patients.
- Un dossier est composé de
- 1 fichier .ics décrivant en format ASCII, les
informations générales dun dossier de patient. - 4 fichiers images .LJPEG (LOSSLESS JPEG) des
radios numérisées. - Chaque radio présente une angle de vue du sein
Left_CC, Left_MLO, Right_CC, Right_MLO (CC
Cranio-Caudal MLO Medio-Latral Oblique). - Pour chaque radio présentant une ou des zones
anormales, est associé un fichier .OVERLAY en
format ASCII, décrivant une anomalie du sein. - 1 fichier image .16_PGM regroupant les 4 radios
et présentant un aperçu rapide pour la
visualisation dun dossier de patient.
5Description
- Le fichier .ics (Exemple B-3024-1.ics)
ics_version 1.0 filename B-3024-1 DATE_OF_STUDY
2 7 1995 PATIENT_AGE 42 FILM FILM_TYPE REGULAR
DENSITY 4 DATE_DIGITIZED 7 22 1997 DIGITIZER
LUMISYS SELECTED LEFT_CC LINES 4696
PIXELS_PER_LINE 3024 BITS_PER_PIXEL 12 RESOLUTION
50 NON-OVERLAY LEFT_MLO LINES 4688
PIXELS_PER_LINE 3048 BITS_PER_PIXEL 12 RESOLUTION
50 OVERLAY RIGHT_CC LINES 4624 PIXELS_PER_LINE
3056 BITS_PER_PIXEL 12 RESOLUTION 50 NON-OVERLAY
RIGHT_MLO LINES 4664 PIXELS_PER_LINE 3120
BITS_PER_PIXEL 12 RESOLUTION 50 OVERLAY
Anomalie détectée dans la radio
B_3024_1.RIGHT_MLO.LJPEG ? B_3024_1.RIGHT_MLO.OVE
RLAY
6Description
- Le fichier B_3024_1.RIGHT_MLO.LJPEG
7Description
- Le fichier B_3024_1.RIGHT_MLO.OVERLAY
TOTAL_ABNORMALITIES 1 ABNORMALITY 1 LESION_TYPE
MASS SHAPE OVAL MARGINS ILL_DEFINED ASSESSMENT 4
SUBTLETY 3 PATHOLOGY MALIGNANTTOTAL_OUTLINES 1
BOUNDARY 1284 4076 0 0 0 0 0 0 0 0 . . . 6 6 6
6 0 0
8Description
- Les dossiers sont disponibles sur un compte FTP
- Les dossiers de patients sont classés selon 4
volumes - Normal
- Cancer
- Benign
- Benign without callback
- Bilan quantitatif et volumétrie
- 43 volumes
- 2 604 fichiers .ics
- 2 604 fichiers .16_PGM
- 10 416 fichiers images .LJPEG
- 4 636 fichiers .OVERLAY
- Volume total des données 230,9 Go
9Extraction des données
- Applicatif de mise à disposition des données de
la base DDSM
http//eric.univ-lyon2.fr/gt-fdc/mammo/
- Récupération des données sous forme
- Structurée Base relationnelle (MySql)
- Semi-structurée Documents XML
- Script SQL
10Parseur PHP
- Entrées
- Volumes des dossiers à extraire
- Format des données de sortie (MySQL, XML, SQL)
11Parseur PHP
- Étape 1
- Connexion au compte FTP ftp//figment.csee.usf.edu
/pub/DDSM/cases/ - Ouverture des fichiers .ics et .OVERLAY dans les
volumes sélectionnés
12Parseur PHP
- Étape 2
- Lecture des fichier .ics et .OVERLAY
- Extraction des données selon des fonctions de
reconnaissance de caractères
ics_version 1.0 filename B-3024-1 DATE_OF_STUDY
2 7 1995 PATIENT_AGE 42 FILM FILM_TYPE REGULAR
DENSITY 4 DATE_DIGITIZED 7 22 1997 DIGITIZER
LUMISYS SELECTED LEFT_CC LINES 4696
PIXELS_PER_LINE 3024 BITS_PER_PIXEL 12 RESOLUTION
50 NON-OVERLAY LEFT_MLO LINES 4688
PIXELS_PER_LINE 3048 BITS_PER_PIXEL 12 RESOLUTION
50 OVERLAY RIGHT_CC LINES 4624 PIXELS_PER_LINE
3056 BITS_PER_PIXEL 12 RESOLUTION 50 NON-OVERLAY
RIGHT_MLO LINES 4664 PIXELS_PER_LINE 3120
BITS_PER_PIXEL 12 RESOLUTION 50 OVERLAY
13Parseur PHP
- Étape 3
- Écriture des données extraites dans le format de
données sélectionné (MySQL, XML, SQL)
MySQL
FTP
XML
Parseur PHP
SQL
14Structure de la base MySQL
Taille totale de la base 17,2 Mo
- 4647 enregistrements
- 14 Mo
- 4636 enregistrements
- 972 Ko
- 10416 enregistrements
- 1,67 Mo
- 2604 enregistrements
- 490 Ko
15Extraction des données
MySQL
FTP
XML
Parseur PHP
SQL
16Structure du fichier XML
lt?xml version"1.0" encoding"ISO-8859-1" ?gt
ltcasesgt ltcasegt ltcase_idgt 1 lt/case_idgt Â
ltcase_typegt benign lt/case_typegt Â
ltics_versiongt 1.0 lt/ics_versiongt Â
ltics_file_namegt A-1123-1.ics lt/ics_file_namegt
ltsequencegt sequence lt/sequencegt
ltleft_ccgt lt/left_ccgt ltleft_mlogtÂ
lt/left_mlogt ltright_ccgt lt/right_ccgt
ltright_mlogt  lt/right_mlogt
lt/casegt lt/casesgt
17Extraction des données
MySQL
FTP
XML
Parseur PHP
SQL
18Structure du fichier SQL
- Création dune table
-
- CREATE TABLE IF NOT EXISTS table_mammo ( case_id
int(10) NOT NULL AUTO_INCREMENT, case_type
varchar(25), ics_version char(3), ics_file_name
varchar(50), . . . PRIMARY KEY (case_id)) - Insertion des données dans la table
-
-
INSERT INTO table_mammo VALUES ('', 'benign',
'1.0', 'C-0029-1.ics', . . . ) INSERT INTO
table_mammo VALUES ('', 'benign', '1.0',
'C-0029-2.ics', . . . )
19Démonstration
20Conclusion
- DDSM une base de données complexes
- 2 604 dossiers de patients
- Un volume total de 230,9 Go
- Applicatif de mise à disposition des données sur
les mammographies - Sélectionner les données à récupérer pour des
analyses ciblées
21Nouvelle adresse du site du GT FDC
- http//eric.univ-lyon2.fr/gt-fdc/