210 likes | 423 Views
Probabilistic Neural Network . Team 6 – Multimedia Engineering. Fakultät für Ingenieurwissenschaften Brodkorb , Karsten Liesche, Toni Wendel, Tom. 2. „The resulting network […] has the unique feature that the decision boundary
E N D
ProbabilisticNeural Network Team 6 – Multimedia Engineering Fakultät für IngenieurwissenschaftenBrodkorb, Karsten Liesche, ToniWendel, Tom
2 „The resultingnetwork […] hastheuniquefeaturethatthedecisionboundary implementedbytheprobabilisticneuralnetwork (PNN) asymptotically approachestheBayes optimal decisionsurface.“ Donald F. Specht (Lockheed Missiles & Space Company) - 1990
3 Inhaltsverzeichnis 1 ProbabilisticNeural Networks … Grundlagen… Allgemeiner Aufbau… Mathematische Grundlagen … Der Glättungsparameter σ 2 Implementierung in Knime 3 Testdaten 4 Quellen
4 Grundlagen • Eigenschaften: • Klassifizierer • Nähert sich optimalem BayesKlassifizierer an • Berechnung anhand von Wahrscheinlichkeiten „Probabilistic“ NNs • Unanfällig gegenüber Ausreißern • Kurze Trainingszeit (klassisches PNN) • Voraussetzungen: • Datensätze mit numerischen Attributen • Menge mit (repräsentativen) Trainingsdaten • Große Mengen an Speicher- und Rechenzeit nötig
5 Allgemeiner Aufbau • Input Layer • Unbekannte Eingangsdaten • Pattern Layer • Trainingsdaten in Populationen, Berechnung des Abstands • Summation Layer • Bildung des durchschnittlichen Abstands je Population • Output Layer • Klassifizierung
6 Mathematische Grundlagen • x Unbekannte Eingabegröße • xikk-tes Beispiel der i-ten Population • n Anzahl der Elemente einer Population • σ Glättungsparameter • p Länge der Merkmalsvektor • siehe Dokumentation
7 Der Glättungsparameter σ (I) • Kleiner Wert für σ: • Ausschläge in der Dichtefunktion entsprechen den Positionen der zugehörigen Trainingsdaten • Größerer Wert für σ: • Stärkere Interpolation der Werte • Werte nahe der Trainingsdaten: ähnliche (geschätzte) Wahr-scheinlichkeiten wie Trainingsdaten • Noch größerer Wert für σ: • Weitere Interpolation • Sehr großer Wert für σ: • Gaußkurve unabhängig der realen Verteilung
8 Der Glättungsparameter σ(II) • Möglichkeiten zur Bestimmung: • Freie Festlegung aufgrund von Erfahrung • Nutzung einer heuristischen Methode: • Optimalen Wert innerhalb eines Intervalls suchen • Intervall und Schrittweite verkleinern • z.B. Jackknifing siehe Dokumentation
9 Inhaltsverzeichnis 1 ProbabilisticNeural Networks 2 Implementierung in Knime … Dynamic DecayAdjustment (DDA)- Algorithmus … Workflowaufbau 3 Testdaten 4 Quellen
10 Dynamic DecayAdjustment (I) • Konstruktives Training: • Neue Neuronen werden bei Bedarf angelegt • Bestimmung der Netztopologie während des Trainings • Schnelles Training: • In der Regel weniger als 5 Durchläufe • Garantierte Konvergenz: • Terminierung bei endlicher Anzahl von Trainingsdaten kann bewiesen werden • Unkritische Parameter: • Nur zwei manuelle Parameter einzustellen • Binärdaten führen zu schlechten Vorhersagen!
11 Dynamic DecayAdjustment (II) • Deutliche Klassifizierungszonen: Alle Trainingsdaten erfüllen folgende Eigenschaften • Alle korrekten Klassifikationen ≥ ϴ+ • Alle falschen Klassifikationen ≤ ϴ- • Muster in „areaofconflict“ haben niedrige Klassenwahrscheinlichkeiten • Zwei Schwellwerte während des Trainings: • ϴ+: Minimalwert für gewinnende Klasse (0 … 1) • ϴ-: Maximalwert für nicht gewinnende Klasse (0 … 1) • ϴ- ≤ ϴ+
12 Dynamic DecayAdjustment (III) • Erweiterungen zu PNNs: • Individuelle Diagonalmatrix Σfür jeden Trainingssatz statt globales σ • Alternativer Ansatz: Manuelle Festlegung der Struktur, Anpassung der Parameter • Dynamic DecayAdjustment vereint Vorteile der Verfahren: • Topologie des Netzes zur Laufzeit bestimmt • Lokale Glättungsparameter σ • Gewichtungen für sämtliche Prototypen (abhängig von Topologie)
13 Dynamic DecayAdjustment (IV) • Beispiel für DDA- Lernverfahren: • Berechnung: siehe Dokumentation
14 Workflowaufbau • File Reader: • Liest Daten aus Eingabedatei (CSV-Format) • Partitioning: • Aufteilung in Trainingsdaten (60%) und Testdaten (40%) • Stratified Sampling: Beibehaltung der Klassenverteilung • PNN Learner (DDA): • Training des Netzes, Einstellen von ϴ(-) und ϴ(+) • PNN Predictor: • Vorhersage der Daten • Ergebnisse normalisiert: • a posteriori Wahrscheinl. • Summe aller Klassen = 1
15 Inhaltsverzeichnis 1 ProbabilisticNeural Networks 2 Implementierung in Knime 3 Testdaten … Vorverarbeitung … Auswertung 4 Quellen
16 Vorverarbeitung • Datenauswahl: • Vollständige Datensätze gewählt (zum Vergleich mit MLP) • PNN = Euklidische Abstandsberechnung: • Numerische Werte nötig • Binärkodierung nominaler Werte • Normierung der Werte: • 0 … 1 für Gleichgewichtung • Individuelle Gewichtung möglich
17 Auswertung • C4.5: Entscheidungsbaum, Erweiterung von ID3 numerische Werte • MLP: Multi Layer Perceptron • kNN: k NearestNeighbour(k = 3) • Angegeben: Fehlerrate bei Klassifizierung der Testdaten in Prozent • i.d.R.: geringer Einfluss von ϴ-/ϴ+ auf Klassifizierung, großer Einfluss auf Netzgröße • Ausnahme Kreditscoring: 20,5% Fehlerrate bei 0,2 / 0,4!
18 Inhaltsverzeichnis 1 ProbabilisticNeural Networks 2 Implementierung in Knime 3 Testdaten 4 Quellen
19 Quellen Cheung, Vincent; Cannons, Kevin: An IntroductiontoProbabilisticNeuralNetworks. Winnipeg (Kanada), University ofManitoba, Electrical & Computer Engineering, Information Paper, 2002 Berthold, Michael R.; Diamond, Jay: Constructive Training ofProbabilisticNeural Networks. Karlsruhe, University of Karlsruhe, Deparmentof Computer Design and Fault Tolerance, Wissenschaftliches Paper, 1997 Specht, Donald F.: ProbabilisticNeural Networks. In Neural Networks, Vol. 3. Oxford (England) und New York (USA): Pergamon Press plc, 1990, S. 109 – 118
20 Vielen Dank für Ihre Aufmerksamkeit!