Ekstrakcja wiedzy z Polskiego Rejestru Wrodzonych Wad Rozwojowych - PowerPoint PPT Presentation

About This Presentation
Title:

Ekstrakcja wiedzy z Polskiego Rejestru Wrodzonych Wad Rozwojowych

Description:

Ekstrakcja wiedzy z Polskiego Rejestru Wrodzonych Wad Rozwojowych Izabela Brzezi ska Polski Rejestr Wrodzonych Wad Rozwojowych (PRWWR) PRWWR dzia a od 1997r. jako ... – PowerPoint PPT presentation

Number of Views:97
Avg rating:3.0/5.0
Slides: 12
Provided by: iza8
Category:

less

Transcript and Presenter's Notes

Title: Ekstrakcja wiedzy z Polskiego Rejestru Wrodzonych Wad Rozwojowych


1
Ekstrakcja wiedzy z Polskiego Rejestru
Wrodzonych Wad Rozwojowych
  • Izabela Brzezinska

2
Polski Rejestr Wrodzonych Wad Rozwojowych (PRWWR)
  • PRWWR dziala od 1997r. jako projekt Ministerstwa
    Zdrowia i Opieki Spolecznej
  • Obejmuje 74 powierzchni Polski, 72 populacji
  • Ponad 32 000 wpisów dzieci z wrodzonymi wadami
    rozwojowymi
  • Od 2001 r. czlonek EUROCATu- zrzeszania
    rejestrów europejskich

3
Zbiór danych do analizy
  • Zbiór 867 dzieci z zespolem Downa, sposród
    których 290 ma wrodzona wade serca
  • 10 atrybutów warunkowych
  • (np. masa urodzen., wiek plodowy, kariotyp, itd.)
  • 1 atrybut decyzyjny (wada_sercatak, nie)
  • Problemy brakujace wartosci, niespójnosci
  • Jakie czynniki wplywaja na wystepowanie
    wrodzonych wad serca wsród dzieci z zespolem
    Downa?

4
Etapy procesu odkrywania wiedzy
  • Identyfikacja dziedziny problemu,
  • wybór/tworzenie docelowych danych,
  • wstepne przetwarzanie danych,
  • wybór zadania i algorytmów odkrywania wiedzy,
  • pozyskiwanie wiedzy z danych,
  • interpretacja i ocena wyników poszukiwan.

5
Wstepne przetwarzanie danych
  • Usuniecie duplikatów
  • Identyfikacja obserwacji nietypowych
  • Dyskretyzacja atrybutów ciaglych
  • Uwzglednianie nieznanych wartosci

6
Wybrana metoda analizy danych
  • Teoria zbiorów przyblizonych jako narzedzie do
    uwzgledniania niespójnosci mogacej byc wynikiem
    granularnosci dostepnej informacji,
  • Narzedzie ROSE 2.0, algorytm Explore,
  • indukcji satysfakcjonujacego zbioru regul,

7
Wyniki
Wada_sercanie Wada_sercatak
Liczba regul 31 4
Min. confidence 75 75
Min. strength 7 2
Jakosc klasyfikacji w klasach 98,18 (-2,24) 1,27 (-1,08)
Srednia jakosc klasyfikacji 65,64 (-6,41) 65,64 (-6,41)
8
Inne metody
  • Instance based learning (IBL1-3),
  • Indukcja drzew decyzyjnych (C4.5),
  • Regresja logistyczna (Statistica 6.0)

9
Porównanie wyników róznych metod
Srednia jakosc klasyfikacji Jakosc klasyfikacji w klasie wada_sercanie Jakosc klasyfikacji w klasie wada_sercatak
Rough sets 65,64 (-6,41) 98,18 (-2,24) 1,27 (-1,08)
IBL1 64,50 (-1,34) 96,53 (-2,24) 0,69 (-0,58)
C4.5 przed przycieciem 72,60 (-1,40) 98,90 (-1,91) 20,69 (-1,20)
C4.5 po przycieciu 66,60 (-0,00) 100,00 (-0,00) 0,00 (-0,00)
Regresja logistyczna 67,24 (-1,24) 99,13 (-1,43) 3,79 (-1,01)
10
Dodatkowe eksperymenty
  • Selekcja - w celu zrównowazenia licznosci obu
    klas decyzyjnych
  • Projekcja
  • 9 atrybutów warunkowych
  • 8 atrybutów warunkowych

11
Kierunki dalszych badan
  • Rozszerzenie analizy na zbiór z atrybutem
    decyzyjnym wskazujacym rodzaj/skale wady serca,
  • Ekstrakcja wiedzy z innych obszarów Rejestru,
  • Zastosowanie innych podejsc ekstrakcji wiedzy,
    np.sieci neuronowe, podejscia biorace pod uwage
    uporzadkowanie dziedzin atrybutów wedlug
    preferencji,
  • Analiza skalowalnosci wybranych metod ekstrakcji
    wiedzy.
Write a Comment
User Comments (0)
About PowerShow.com