Title: Ekstrakcja wiedzy z Polskiego Rejestru Wrodzonych Wad Rozwojowych
1 Ekstrakcja wiedzy z Polskiego Rejestru
Wrodzonych Wad Rozwojowych
2Polski Rejestr Wrodzonych Wad Rozwojowych (PRWWR)
- PRWWR dziala od 1997r. jako projekt Ministerstwa
Zdrowia i Opieki Spolecznej - Obejmuje 74 powierzchni Polski, 72 populacji
- Ponad 32 000 wpisów dzieci z wrodzonymi wadami
rozwojowymi - Od 2001 r. czlonek EUROCATu- zrzeszania
rejestrów europejskich
3Zbiór danych do analizy
- Zbiór 867 dzieci z zespolem Downa, sposród
których 290 ma wrodzona wade serca - 10 atrybutów warunkowych
- (np. masa urodzen., wiek plodowy, kariotyp, itd.)
- 1 atrybut decyzyjny (wada_sercatak, nie)
- Problemy brakujace wartosci, niespójnosci
- Jakie czynniki wplywaja na wystepowanie
wrodzonych wad serca wsród dzieci z zespolem
Downa?
4Etapy procesu odkrywania wiedzy
- Identyfikacja dziedziny problemu,
- wybór/tworzenie docelowych danych,
- wstepne przetwarzanie danych,
- wybór zadania i algorytmów odkrywania wiedzy,
- pozyskiwanie wiedzy z danych,
- interpretacja i ocena wyników poszukiwan.
5Wstepne przetwarzanie danych
- Usuniecie duplikatów
- Identyfikacja obserwacji nietypowych
- Dyskretyzacja atrybutów ciaglych
- Uwzglednianie nieznanych wartosci
6Wybrana metoda analizy danych
- Teoria zbiorów przyblizonych jako narzedzie do
uwzgledniania niespójnosci mogacej byc wynikiem
granularnosci dostepnej informacji, - Narzedzie ROSE 2.0, algorytm Explore,
- indukcji satysfakcjonujacego zbioru regul,
7Wyniki
Wada_sercanie Wada_sercatak
Liczba regul 31 4
Min. confidence 75 75
Min. strength 7 2
Jakosc klasyfikacji w klasach 98,18 (-2,24) 1,27 (-1,08)
Srednia jakosc klasyfikacji 65,64 (-6,41) 65,64 (-6,41)
8Inne metody
- Instance based learning (IBL1-3),
- Indukcja drzew decyzyjnych (C4.5),
- Regresja logistyczna (Statistica 6.0)
9Porównanie wyników róznych metod
Srednia jakosc klasyfikacji Jakosc klasyfikacji w klasie wada_sercanie Jakosc klasyfikacji w klasie wada_sercatak
Rough sets 65,64 (-6,41) 98,18 (-2,24) 1,27 (-1,08)
IBL1 64,50 (-1,34) 96,53 (-2,24) 0,69 (-0,58)
C4.5 przed przycieciem 72,60 (-1,40) 98,90 (-1,91) 20,69 (-1,20)
C4.5 po przycieciu 66,60 (-0,00) 100,00 (-0,00) 0,00 (-0,00)
Regresja logistyczna 67,24 (-1,24) 99,13 (-1,43) 3,79 (-1,01)
10Dodatkowe eksperymenty
- Selekcja - w celu zrównowazenia licznosci obu
klas decyzyjnych - Projekcja
- 9 atrybutów warunkowych
- 8 atrybutów warunkowych
11Kierunki dalszych badan
- Rozszerzenie analizy na zbiór z atrybutem
decyzyjnym wskazujacym rodzaj/skale wady serca, - Ekstrakcja wiedzy z innych obszarów Rejestru,
- Zastosowanie innych podejsc ekstrakcji wiedzy,
np.sieci neuronowe, podejscia biorace pod uwage
uporzadkowanie dziedzin atrybutów wedlug
preferencji, - Analiza skalowalnosci wybranych metod ekstrakcji
wiedzy.