SAS Enterprise Miner 1. gyakorlat - PowerPoint PPT Presentation

1 / 22
About This Presentation
Title:

SAS Enterprise Miner 1. gyakorlat

Description:

SAS Enterprise Miner 1. gyakorlat Sidl Csaba scs_at_elte.hu http://scs.web.elte.hu – PowerPoint PPT presentation

Number of Views:70
Avg rating:3.0/5.0
Slides: 23
Provided by: Sidl4
Category:

less

Transcript and Presenter's Notes

Title: SAS Enterprise Miner 1. gyakorlat


1
SAS Enterprise Miner1. gyakorlat
Sidló Csaba scs_at_elte.hu http//scs.web.elte.hu
2
(No Transcript)
3
SAS Enterprise Miner
  • adatbányászati eszközkészlet, SAS keretrendszeren
    belül
  • témák (két gyakorlatra)
  • adatbányászat fogalma, feladatai
  • Miner általános funkciói, felépítése
  • adatbányászati eszközkészlet feltérképezése
  • feladatmegoldás
  • asszociációs szabály keresés
  • elorejelzés (osztályozás)
  • klaszterezés

4
Adatbányászat
  • SAS advanced methods for exploring and
    modelling relationships in large amounts of
    data
  • Jiawei Han a tudás nagy mennyiségu adatból
    történo kinyerése, kibányászása
  • Jeffrey D. Ullman discovery of useful summaries
    of data

5
Adatbányászat 2.
  • Irodalom
  • Jiawei Han, Micheline Kamber Adatbányászat
    Koncepciók és technikák (PANEM, 2004 ld.
    jegyzetbolt)
  • Bodon Ferenc magyar nyelvu jegyzete
    http//www.cs.bme.hu/bodon/magyar/adatbanyaszat/
  • Ullman http//www-db.stanford.edu/ullman/cs345-n
    otes.html
  • Iványi Antal (szerk) Informatikai algoritmusok
    II. (ld. jegyzetbolt, de még megjelenés elott
    áll) klaszterezés, gyakori termékhalmaz kereséss
  • SAS help weben elérheto anyagok (érdemes
    keresni)

6
Adatbányászat 3.
  • Multidiszciplinális tudományág

Statics
PatternRecognition
Neurocomputing
Data Mining
MachineLearning
AI
Databases
KDD
7
Adatbányászat - feladatok
  • gyakori minták kinyeréseasszociációs szabályok
    keresése, gyakori elemhalmazok keresése,
    epizódkutatás,
  • elorejelzés és osztályozásellenorzött tanulás
    (supervised learning), predikció, klasszifikáció,
  • klaszterezéshalmaz elemeinek csoportokba
    sorolása, valamely hasonlósági / távolsági
    függvény alapján felügyelet nélküli tanulás
    (unsupervised learning)
  • egyéb speciális feladatok, eltéro
    megfogalmazások

8
Enterprise Miner vs. egyéb adatbányász eszközök
  • forrás
  • http//www.metagroup.com/webhost/ONLINE/477658/60.
    1marketsummary.pdf
  • Angoss Software KnowledgeStudio and Mining
    Manager
  • Computer Associates CleverPath Predictive
    Analysis Server
  • Fair Isaac Enterprise Decision Management suite
  • Genalytics Predictive Suite
  • IBM DB2 Intelligent Miner
  • Insightful Miner
  • KXEN Analytic Framework
  • Oracle Data Mining (adatbázisba integrált
    funkciók!)
  • Quadstone System
  • SAS Enterprise Miner (5.1!)
  • SPSS Clementine
  • SAP (adattárház integráció!)
  • stb.

9
Enterprise Miner vs. egyéb adatbányász eszközök
10
EM használata
  • Project fogalma
  • Diagram fogalma
  • SAS Base SAS Enterprise Miner kapcsolata
  • input SAS Datasets
  • output beszámolók, valamint modellek hordozható
    formában C kód, SAS kód
  • cél az adott eszközök használatával diagramok
    építése, aminek segítségével a rejtett tudás
    kinyerheto
  • ehhez szükséges az adatok, a feladat, a
    szakterület és az eszközök ismerete
  • nem feltétlenül szükséges megoldó algoritmusok
    ismerete

11
SEMMA
  • SAS adatbányászati eszközök csoportosítása a
    tudásfeltárás folyamatának megfeleloen.
  • Sampling (mintavételezés)input data set,
    mintavételezés, particionálás
  • Exploring (adatfeltárás)statisztikus és grafikus
    adatelemzo eszközök, asszociációs szabály
    keresés, fontos változók kiemelése
  • Modify (adatmódosítás)adatelokészítés
    elemzéshez, outlier-ek, hiányzó értékek,
    klaszterezés, változók szerepének módosítása
  • Model (modellépítés)osztályozáshoz használható
    modellek döntési fa, neurális háló, regresszió
  • Assess (kiértékelés)modellek összehasonlítása,
    beszámolók
  • Továbbiakban a konkrét eszközök közül megnézzük a
    fontosabbakat.

12
Screenshot EM
13
Asszociációs szabály keresés
forrás Lukács András adatbányászat órája
(http//www.sztaki.hu/alukacs/)
14
Asszociációs szabály keresés 2.
15
Feladat 1.
  • Adathalmaz FIMI workshop 2003.
    (http//fimi.cs.helsinki.fi/fimi03/)
  • ? RETAIL (TID, ITEM) séma klasszikus vásárlói
    kosár elemzés
  • Keressünk gyakori termékhalmazokat, illetve
    asszociációs szabályokat.
  • Adatok http//scs.web.elte.hu/em/datasets/retail_
    td.dat
  • Közösen!

16
Feladat 1. - lépések
  • library létrehozása
  • adatfile importálása ? sas dataset
  • EM project és diagram létrehozása
  • input data source beállítása
  • statisztikai elemzés eloszlások (legalább)
  • asszoc. szabályok keresése

17
Input Data Source
  • egy library ? sas dataset megfeleloje
  • attribútumok szerepének kijelölése
  • attribútumok alapstatisztikái (mint metaadatok)

Distribution Explorer
  • vizualizációs eszköz, multidimenzionális
    hisztogramok, eloszlások vizsgálatához

18
Multiplot
  • másik vizualizációs, grafikus adatelemzo eszköz
  • automatikus bar chart / scatter plot generálás

Insight
  • SAS statisztikai elemzo alkalmazása
  • nagy funkcionalitás
  • több ablakos, egymással együttmuködo aktív
    elemekkel rendelkezo elemzo eszköz

19
Association
  • asszociációs szabály kereso algoritmus
    implementáció
  • szekvencia elemzés szintén lehetséges, ehhez kell
    még egy sequence bemeneti változó

20
Feladat 2.
  • Adathalmaz origo fórumok hozzászólásai
    (http//www.origo.hu)
  • séma (USERID, TOPICNAME)
  • jelentése 2000-ben (egy egyedi id mögé rejtett)
    felhasználó mely topic-okhoz szólt hozzá.
  • Melyek a gyakori topic-halmazok, illetve a
    topicok közti nagy bizonyosságú asszociációs
    szabályok?
  • Adatok http//scs.web.elte.hu/em/datasets/origo-u
    ser-topic-2000-distinct.xls
  • Egyénileg megoldani, kérdezni, mindent kipróbálni!

21
Feladat 3.
  • Adathalmaz Energiatáblázat (http//body.builder.h
    u)
  • séma (KATEGORIA, ALAPANYAG, FEHERJE, SZENHIDRAT,
    ZSIR, ENERGIA)
  • energiatáblázat.xls / energiatáblázat.csv
  • Adathalmaz Magyarország települései
    (http//ksh.hu)
  • séma (TELEPULES_NEV, MEGYE_NEV, REGIO_NEV,
    IGAZG_RANG_ROVID_LEIRAS, TERULET, NEPESSEG,
    LAKASSZAM)
  • ksh_telep.xls / ksh_telep.csv
  • Feladat importáld az adathalmazokat, majd
    állapítsd meg alapveto statisztikai jellemzoiket.
  • Adatok http//scs.web.elte.hu/em/datasets/

22
Következo gyakorlat
  • Predikció döntési fák, neurális hálók,
    regresszió, egyéb kapcsolódó eszközök
  • Klaszterezés
  • alkalmazott matematikusok témák megbeszélése
  • ZH két hét múlva, addig gyakorolni!
Write a Comment
User Comments (0)
About PowerShow.com