Folie 1 - PowerPoint PPT Presentation

1 / 21
About This Presentation
Title:

Folie 1

Description:

... [Tafel: cos a] Standard-Ellipse: ... folgt Satz von Bayes Die approximative G ltigkkeit der multivariaten NV kann durch Q-Q-Plot Methoden berpr ft werden. – PowerPoint PPT presentation

Number of Views:67
Avg rating:3.0/5.0
Slides: 22
Provided by: Defau1640
Category:
Tags: folie | plot | tafel

less

Transcript and Presenter's Notes

Title: Folie 1


1
Multivariate Analysemethoden
Vorlesung
Multivariate Distanz Multivariate
Normalverteilung Minimum Distance Classifier
Bayes Classifier
Günter Meinhardt Johannes Gutenberg Universität
Mainz
2
Klassifikation
Multivariate Klassifikation
Ziele
  • Einordnen von Fällen (Versuchspersonen,
    Beobachtungen) in Gruppen aufgrund ihrer
    Werte in mehreren Meßvariablen.
  • Maßgeblich für die Zuordnung zu eine Gruppe ist
    a) die Wahrscheinlichkeit des Auftretens des
    Falles in der Ziel- gruppe (falls
    ermittelbar) oder b) die Distanz des Falles vom
    charakteristischen Wert der Gruppe (Prototyp,
    Zentroid)

Methoden
  • Deskriptive Methoden Bestimmung von
    Distanzen und Wahrscheinlichkeiten auf dem
    Set der beobachteten Meßvariablen
  • Analytische Methoden Bestimmung von
    Distanzen und Wahrscheinlichkeiten auf trans-
    formierten Meßvariablen mit dem Ziel, die
    Separation von Gruppen zu maximieren
    (Diskriminanzanalytische Methoden)
  • Weitere Kriterien sind Kosten von
    Fehlklassifikationen und die a- priori
    Wahrscheinlichkeit von Gruppen (Allg.
    Likelihood-Ratio und Bayes-Klassifikation)

3
Iso-Distanz Konturen in 2D Klassifikation
Iso-Distanz-Konturen in 2D
Kreis
Kreis mit Radius c Alle Punkte auf dem
Kreisbogen haben euklidischen Abstand c zum
Kreismittelpunkt
c
y
x
  • Der Kreis ist die Grundform der Iso-Distanz
    Kontur im zweidimen- sionalen Raum (p 2).
  • Er entspricht im Variablenraum einer
    Iso-Distanz-Kontur für 2 unkorrelierte
    (orthogonale) Variablen mit derselben Skalierung.

4
Iso-Distanz Konturen in 2D Klassifikation
Ellipse Skalierung
Ellipse mit Ellipsenradius c Alle Punkte auf dem
Ellipsenbogen haben, auf Standardskala normiert,
denselben Abstand c zum Mittelpunkt
y
x
v
Standardskala
u
5
Iso-Distanz Konturen in 2D Klassifikation
Ellipse Translation
Translation zum Punkt (x0,y0) ändert an dieser
Eigenschaft nichts
v
Standardskala
Standard- Transformation
u
6
Iso-Distanz Konturen in 2D Klassifikation
Die Invarianz der Distanz im neuen
Koordinatensystem mit geneigten Achsen
(Korrelation der Variablen) ist über eine
Rotation der Koordinaten (anticlock) erklärt
Standard-Ellipse Neigung Korrelation r
Koordinaten Korrelierte Achsen
Mit der Transformation
v
u
erfüllen alle Ellipsenpunkte
Tafel cos a
7
Iso-Distanz Konturen in 2D Klassifikation
Ellipsen sind in kartesischen Koordinaten
unpraktisch zu zeichnen. Man geht über zur
Darstellung in Polarkoordinaten.
Standard-Ellipse Zeichen-Routine
kartesisch
polar
Es gelten die Transformationen
Zum Zeichnen muß die Ellipsengleichung als
Gleichung in Polarkoordinaten (Vektorlänge in
Abhängigkeit des Winkels a) umgeschrieben werden
8
Iso-Distanz Konturen in 2D
Von der Darstellung in Polarkoordinaten kann
einfach in kartesische Koordinaten
zurückgerechnet werden (Setzen der Ellipsenpunkte)
Standard-Ellipse Zeichen-Routine
Setze
damit
Verfahren
1. Variiere a von p bis p ( ein Kreisumlauf).
2. Für jeden Winkel a berechne q tan-1(a).
3. Berechne dann
4. Berechne damit r.
5. Berechne dann x,y
Excel-Sheet
9
Multivariate Normalverteilung Klassifikation
1 D-Normal Verteilung
Die Funktion
hat Fläche
Die auf die Fläche 1 normierte Funktion
heißt Normalverteilung (Gauss-Verteilung). Mit
ihr sind Wahrscheinlichkeiten als
Flächen- Anteile für z - Standardvariablen
definierbar.
(Standard-NV)
Kurzübung
10
Mahalanobisdistanz Klassifikation
p-variater Fall
Man bemerke daß
ist.
Man habe nun nicht eine, sondern p Variablen
(jeder Messpunkt ist ein p- dimensionaler
Vektor und der Zentroid ist ein p- dimensionaler
Vektor)
mit Zentroid
Mahalanobis- Distanz
Excel-Beispiel 2D
11
Multivariate Normalverteilung Klassifikation
p D-Normal Verteilung
Die Funktion
hat Volumen
Die auf Volumen 1 normierte Funktion
heißt multivariate Normalverteilung (multivariate
Gauss-Verteilung). Mit ihr sind
Wahrscheinlichkeiten als Anteile des
Gesamtvolumens eines p-dimensionalen Ellipsoids
definiert.
Die in ihrem Argument auftretende
Mahalanobis-Distanz erfüllt die Bedingung
mit a einem zu setzenden alpha-Fehler Niveau.
Alle Mahalanobisdistanzen D, die diese Bedingung
erfüllen, erzeugen Konturen gleicher
Wahrscheinlichkeit (iso-probability contours) mit
P 1- a in der multivariaten Normalverteilung.
12
Multivariate Normalverteilung Klassifikation
2 D-Normal Verteilung
Die multivariate Normalverteilung mit p 2
Variablen (bivariate Normalverteilung) hat die
Form
Die im Argument auftretende Mahalanobis-Distanz
definiert eine Ellipse im zweidimensionalen Raum
für jede Konstante c
Diese ist eine Iso-Probability-Contour im obigen
Sinne (s. multivariate NV, vorherige Folie)
Tafelbetrachtung
13
Multivariate Normalverteilung Klassifikation
Bivariate Normalverteilung mit p 2 Variablen
und Korrelation r 0.6
2 D-Normal Verteilung
Density-Plot
Contour-Plot
x2
P0.95
P0.75
P0.5
P0.25
x1
Ellipsen gleicher Wahrscheinlichkeit und
zugehöriges Distanzmaß (quadrierte
Mahalanobis-Distanz)
Excel-Übung
14
Iso-Distanz Konturen in 2D
NV-2D-Ellipse Zeichen-Routine
(NV-Ellipse)
3. Berechne dann
Und es gilt
a)
a läuft von p bis p ( ein Kreisumlauf)
Verfahren
b)
c)
Excel-Sheet
15
Multivariate Normalverteilung Klassifikation
p D-Normal Verteilung
Die Ellipsen der Form
sind zentriert in
und haben Hauptachsen
mit Eigenwertbedingung
Eine Eigenwertzerlegung der Varianz-Kovarianz
Matrix liefert somit die Hauptachsen des p-
variaten Ellipsoids der multivariaten
Normalverteilung
Beispiel 2D
Länge
Länge
16
Minimum Distance Classifier Klassifikation
MDC
Mit der Mahalanobisdistanz für eine Beobachtung
zum Zentroid
der Gruppe cj
definiere die Regel
Gruppiere in Gruppe ci, wenn gilt
MDC-Regel
Die Performance des MDC läßt sich mit großen
Stichproben für die k Gruppen mit einer
Konfusions-Matrix bewerten
allocated to group
Häufigkeit zur Einordnung von Fall (Zeile) in
Gruppe (Spalte)
17
Minimum Distance Classifier Klassifikation
Confusion-matrix
Korrekte Klassifizierungen sind die Häufigkeiten
auf der Diagonalen
Hits
Mit den Zeilensummen
und N der Summe aller Häufigkeiten gilt
Erwartete Häufigkeiten bei Zufall (anteilige
Gleichverteilung)
(erwartete Zellhäufigkeit)
mit pj der A-priori Wahrscheinlichkeit der Gruppe
cj
pj kann ggf. aus den empirischen Gruppenstärken
über pj hi/N geschätzt werden, wenn keine
Information über die A-priori Wahrscheinlichkeite
n vorliegt.
18
Minimum Distance Classifier Klassifikation
Erwartete Confusion-matrix
Dann ist
die erwartete Hit-Häufigkeit.
Mit
Hits
ist ho normalverteilt über die Approximation der
Binomialverteilung
Erwartete Häufigkeiten bei Zufall (anteilige
Gleichverteilung)
wenn
gilt.
Dann testet der z- Test
die Hitrate des MDC gegen den Zufall.
19
Bayesian Classifier Klassifikation
A-priori Wahr- scheinlichkeit der Gruppen
Man habe Information über die A-priori
Wahrscheinlichkeiten der Gruppen cj
nach ihrer
Dann liefert eine Klassifikation der Beobachtung
A-posteriori WK
A-posteriori Wahrscheinlichkeit
eine korrektere Zuordnung als nur nach der
kürzesten Distanz zum Gruppenzentroid.
Regel
Max-Aposteriori WKn Classifier
Gruppiere in Gruppe ci, wenn gilt
Normalverteil-ungsannahme
Um die A-posteriori WKn zu berechnen, muss für
die Likelihood- Funktionen die Annahme der
multivariaten Normalverteilung gelten.
20
Bayesian Classifier Klassifikation
Likelihoods
Mit der multivariaten Normalverteilung haben die
Likelihoods die Form
A-posteriori WK
mit
der quadrierten Mahalanobisdistanz zum
Gruppenzentroid
Klassifikations- Raum
Der Klassifikationsraum ist durch alle Gruppen
vollständig partitioniert.
Es gilt
Und wegen der Disjunktheit
Normalverteil-ungsannahme
21
Bayesian Classifier Klassifikation
Likelihoods
Da
(Def. der bedingten Wahrscheinlichkeit), folgt
Satz der totalen WK
Und damit
Satz von Bayes
der Satz von Bayes für die A-posteriori WK der
Gruppe ci, gegeben die multivariate Beobachtung
Normalverteil-ungsannahme
Die approximative Gültigkkeit der multivariaten
NV kann durch Q-Q-Plot Methoden überprüft werden.
Write a Comment
User Comments (0)
About PowerShow.com