Title: Rapport d
1Rapport dexpérimentations
- ACI-MDA
- H. KOU, A. Napoli and Y. Toussaint
- Orpailleur, LORIA/INRIA-Lorraine,
- Nancy, 15/10/2004
2Plan
- Rappel sur les travaux précédents
- Descriptions et UCDs
- Analyse de la distributions dUCDs
- Passage à léchelle Division de Corpus
- Performance
- Observations
- Distribution de performance
- Conclusion
3Rappel sur les travaux précédents(1)
- Corpus
- 4904 descriptions3371 pour lapprentissage (70)
et 1533 pour le test (30) - 98 UCDs au moins 30 descriptions.
- 3228 termes
- Connaissances pour lapprentissage
- Label, unit, descriptions
- Algorithmes évalués
- k-NN et Naive Bayes ont échoué
- Rocchio a réussit
4Rappel sur les travaux précédents(2)
Nbr UCDs Rappel
1 83.7
2 90.8
3 93.1
- Pour un UCD,
- rappelNbr de descriptions associées
trouvées/nbr de descriptions associées
5Passage à léchelle Descriptions et UCDs
- Au total
- 124,096 descriptions
- 1,183 UCDs
- Moyenne 105 descriptions / UCD
- Certains UCDs sont très fréquents et dautres
beaucoup moins - Ex.
- 10,687 pour lUCD ERROR.
- 1 pour 145 UCDs
6Analyse de la distributions dUCDs
7Division du corpus
- Ont été retirés tous les UCD associés à moins de
4 descriptions 305 - Corpus est composé des
- 873 UCDs
- 123,518 descriptions
- Le corpus est divisé en deux parties
- Apprentissage (70)85951
- Test (30) 37567
- 26114 termes
8Performance
Nbr UCDs Rappel
1 66.3
2 76.7
3 80.7
Rocchio
9Observations
- Rappels 0 pour 37 UCDs
- Rappels très faibles pour 127 UCDs
- Rappels assez forts pour 119 UCDs
- Rappels très forts pour 519 UCDs
10Rappels 0 pour 37 UCDs (1)
- UCD nbr
de desc - STAT_STDEV 6
- PHOT_STR_U-V 6
- INST_DET_MISC 7
- INST_TYPE
8 - ID_PARAM
9 - PHOT_FLUX_RADIO_850M 9
- MODEL_POP-SYNTHESIS 11
- PHOT_FLUX_DENSITY 11
- PHOT_FLUX_RADIO_180G 11
- PHOT_UV_1500 12
- INST_WAVELENGTH_COVERAGE 13
- PHOT_HST_V
14 - PHOT_COUNTS_MISC 15
- POS_ANG_DIST_REL 19
- PHOT_HST_CI_V-I 20
- STAT_PROP
20 - PHOT_SPHOT_INDEX 23
- PHYS_DENSITY_SURFACE 37
- UCD nbr de
desc - AT_DATA 4
- INST_PLATE_DIST 4
- PHOT_DDO_48-51 4
- PHOT_MAG_K 4
- PHOT_PHG_R-I 4
- PHOT_HST_F850LP 4
- PHOT_COUNT-RATE_GAMMA 4
- PHOT_SB_LIMIT 4
- PHOT_UV_1900 4
- POS_RADIUS 4
- PHOT_UV_2500 4
- PHOT_DDO_35-38 5
- PHOT_IR_K-10 5
- PHOT_HST_CI_B-V 5
- PHOT_UV_COLOR 5
- PHOT_DDO_38-41 5
- OBS_SLIT_ORIENT 6
- SPECT_PECUL 6
11Rappels 0 pour certain UCDs (2)
- Hétérogénéité entre ses descriptions pour
apprentissage et pour test - AT_DATA
- test
- Fraction of cascade contribution from the first
series - Fraction of cascade contribution from the second
series - apprentissage
- Fe XVI dielectronic satellite atomic data
- Fe XVI dielectronic satellite atomic data
- SPECT_PECUL
- test
- Spectral-luminosity peculiarities
- Spectral peculiarities
- apprentissage
- yn Emission line found in spectrum? (3)
- Be Be Be star
- ABE Spectral characteristics (1)
- Spectrum
12Rappels très faibles pour certains UCDs (1)
- Rappels (0, 0.50 pour 127 UCDs
- Certains UCDs sont fréquents
- Exemples
- UCD
rappel nbr de desc - REMARKS
,391 605 - CODE_MISC
,389 666 - ID_ALTERNATIVE ,414
981 - ID_MAIN
,405 1743 - Concepts très étendus
13Rappels très faibles pour certains UCDs (2)
14Rappels très faibles pour certains UCDs (3)
- Spécialisation de définition dUCDs
15Rappels assez forts pour certains UCDs
- Rappels 0.70, 0.90) pour 119 UCDs
- Pour améliorer les performances
- Spécialisation de définition dUCDs
- Conversion dunités 4850 MHzgt4.85 Ghz
- Flux density at 4850 MHz dans PHOT_FLUX_RADIO_5G
- PHOT_FLUX_RADIO_5G retourné si 4850 MHzgt4.85 Ghz
- PHOT_FLUX_RADIO_110M retourné sinon
16Rappels très forts pour certains UCDs(1)
- Rappels (9.0,1.0 pour 519 UCDs
- 271 UCDs un peu fréquents (lt20 )
- ucd
rappel nbr de desc - AT_ENERGY_FORMATION 1
4 - AT_FREQUENCY_ROTAT 1
4 - AT_LIFETIME
1 4 - INST_ANG_PHASE
1 4 - AT_TRANS_TYPE
1 4 - INST_BASELINE
1 4 - MODEL_FLUX
1 4 - PHOT_CLASS
1 4 - PHOT_DDO_M48
1 4
17Rappels très forts pour certains UCDs(2)
- Vecteurs conceptuels bien concentrés
- TIME_EXPTIME gt Exposure Time gt time
0.35,exposure 0.319,exptime 0.16, exp
0.121,exposition 0.064, integration 0.039, total
0.033,texp 0.03, live 0.025, - Descriptions homogènes entre apprentissage et test
18Rappels très forts pour certains UCDs(3)
19Distribution de performance
Nbr de UCD
Rappel
Rappel et Pourcentage dUCD
20Conclusion
- Bonne perfomance globale dassignation UCD par
Rocchio - 58 UCD dont les rappelsgt90
- 71 UCD dont les rappelsgt70
- Les définitions de certains UCDs restent à être
spécialsés - Mauvaise performance dassignation UCD
- Concepts très étendus
- 31 UCDs très peu utilisés
- Rapport dutilisation des connaissances de
domaine pour améliorer les perfomances.
21Pour le future
- Installer notre maquette à Strasbourg
- Rédiger des documents expliquant la structure des
programmes, des données et comment maintenir le
système
22Merci
23Vecteurs conceptuels étendus
- ID_ALTERNATIVE gt Alternative identification gt
- name 0.171,other 0.099,hd 0.047,identificatio
n 0.043,designation 0.04,number 0.039,catalog
0.039,cat 0.033,star 0.026,alternate 0.023,iras
0.021,hr 0.018, - ID_MAIN gt Main Identifier of a Celestial Object
gt - name 0.222,star 0.096,number
0.062,identification 0.054,id 0.052,designation
0.04,source 0.04,galaxy 0.036,object 0.035,hd
0.03,cluster 0.023,catalog 0.019, - CODE_MISC gt Miscellaneous Codes or Flags gt
- f 0.098,flag 0.07,code 0.033,indicate
0.026,band 0.018,source 0.017,reliable
0.014,cluster 0.013,measurement 0.012,confusion
0.012,note 0.012,type 0.012,
24Vecteurs conceptuals concentrés
- PHOT_JHN_V-I gt Johnson color index V-I (JHN) gt
- v-i 0.74,v 0.403,index 0.175,color
0.149,colour 0.147,dereddenned 0.021,v-ic
0.019,ic 0.016,johnson 0.014, - AT_OSC_STRENGTH gt Oscillator Strength gt
- oscillate 0.41,strength 0.335,gf 0.295,log
0.219,loggf 0.132,fv 0.046,fl 0.044,length
0.039,gf-value 0.037,j 0.032,absorption
0.031,statistical - PHOT_JHN_H-K gt Johnson color index H-K (JHN) gt
- h-k 0.658,k 0.427,h 0.362,color 0.13,index
0.095,colour 0.075,h-ks 0.035,ks 0.025,observe
0.024,cit 0.014,k-h 0.014,2mass 0.013, - PHOT_FLUX_IR_25 gt Flux density (IRAS) at 25
microns gt
- flux 0.246,mu 0.19,density 0.185,f25
0.132,25um 0.123,m 0.122,um 0.108,s25um
0.103,f25um 0.101,25micron 0.088,iras 0.083,s25
0.077,micron 0.066, - PHYS_TEMP_EFFEC gt Effective Temperature gt
- effective 0.354,temperature 0.354,teff
0.335,log 0.157,logte 0.137,logtu
0.086,uncorrected 0.083,wr 0.082,star
0.045,logteff 0.045,logarithm 0.027,
25Analysis de distributions dUCDs
- ERROR
10687 - RECORD
9485 - ID_MAIN
5811 - NOTE
4797 - POS_EQ_RA_MAIN 3716
- POS_EQ_DEC_MAIN 3697
- ID_ALTERNATIVE 3282
- PHYS_ABUND_MISC 3019
- CODE_ERROR 2468
- NUMBER
2440 - REFER_CODE 2286
- CODE_MISC
2216 - REMARKS
2019 - CODE_LIMIT
1979 - TIME_DATE
1975 - SPECT_EQ-WIDTH 1854
- VELOC_HC
1343 - PHOT_JHN_V 1262
- PHOT_DIFF_MAG 1240