Verwendung von Maschinellem Lernen in einer einfachen Computerspielumgebung

Verwendung von Maschinellem Lernen in einer einfachen Computerspielumgebung Anglberger Harald Brandl Stephan Mai 2003

Aufgabenstellung • Computerspielumgebung: Boxkampf • Spielfläche: 6 x 6 Felder • 2 Boxer im Ring • 6 mögliche Aktionen • Rundenmodus

Boxer • Merkmale • Fitness • Wie gut kann der Boxer den Schlägen des anderen ausweichen, welcher Boxer darf seine Aktion zuerst ausführen. • Trefferpunkte • Wie lange braucht man um den Boxer zu besiegen. • Schlaghärte • Welchen Schaden richtet ein Schlag des Boxers an.

Boxer - Attribute • Attribute • Geschicklichkeit  Fitness • Konstitution  Trefferpunkte • Stärke  Schlaghärte • 18 Punkte sind auf diese drei Attribute zu verteilen(min. 4 und max. 10 Punkte pro Attribut)

Mögliche Bewegungen Ein Schritt nach vorne Ein Schritt zurück nach rechts drehen nach links drehen Sonstige Aktionen zuschlagen blocken Aktionen

Perception • Position des Gegners • nach vorne {-2;-1; 0; 1; 2} • zur Seite {-2;-1; 0; 1; 2} • Position des Randes • nach vorne {-1; 0; 1} • zur Seite {-1; 0; 1} • Rundenablauf • Schneller als der Gegner  {True; False}  360 mögliche Perceptions da die Positionen (-2,-2), (-2,2), (2,-2), (2,2) und (0,0) nicht zugelassen werden.

Ziele der Projektarbeit • Strategien für verschiedene Boxertypen • Mit Hilfe von ML Algorithmen sollen Strategien für den Boxkampf entwickelt werden. • Besonderes Augenmerk soll auf das arbeiten mit Hidden States gelegt werden.

LernumgebungÜberblick • Umsetzung des Regelwerks • Einbindung von verschiedenen Boxerklassen • Grafische Darstellung • Testumgebung • Aufzeichnung von Boxkämpfen

LernumgebungRegelwerk • Klasse ‚EasyRules‘ • Ausführung der Aktionen • Move Forward/Backward, Turn Left/Right • Punch, Block, None • Änderung der einzelnen Boxerzustände • Hitpoints, Fitness, Position

LernumgebungBoxerklassen • Basisklasse ‚Boxer‘ • Attribute und Position • Constitution, Strength, Dexterity • X, Y, Direction • Abstrakte Methoden • act(), getReward() • reset(), won(), lost()

LernumgebungGrafische Darstellung • Visuelle Darstellung des Boxkampfes • Manuelle Steuerung der Boxer • Anzeige der aktuellen Attributswerte • Starten von Einzelkämpfen, Testserien oder Aufzeichnungen

Angriffsmodus Zum Gegner Laufen Gegner boxen Verteidigungsmodus Vom Gegner entfernen Benchmark Boxer Je nach Fitnessstand wird einer der beiden Modi ausgeführt.

Instance Based State Identification • Algorithmus: • Original: • Paper:R. Andrew McCallum, "Hidden state and Reinforcement LearningwithInstance-BasedState Identification", University of Rochester • Verwendet wird eine angepasste Version

Grundlage des Algorithmus • States • Ein Tripel aus • Beobachtung (perception) • Aktion (action) • Belohnung (reward) • Liste • Eine Liste in der alle aufgetretenen states chronologisch geordnet gespeichert werden.

Ablauf des Algorithmus • Endlosschleife mit fünf Schritten • Nearest Neighbours finden • Q-Werte berechnen • Aktion wählen • Aktion ausführen • Q-Werte aktualisieren

Schritt eins • Nearest Neighbours finden • Neuer State wird erstellt • Liste vergangener states wird überprüft • Verwendete Formel: • Beispiel:

Schritt zwei • Q-Werte berechnen • Q-Wert für jede Aktion: • Berechnung über alle Q Werte der k-NN welche die Aktion ausgeführt haben

Schritt drei • Aktion wählen • Exploitation • Die Aktion mit dem höchsten Q Wert wird ausgewählt • Wahrscheinlichkeit dieser Auswahl: 1-e • Exploration • Eine zufällige Aktion wird ausgeführt • Wahrscheinlichkeit dieser Auswahl: e

Schritt vier • Aktion ausführen • Die gewählte Aktion wird ausgeführt • Der Reward wird berechnet • reward = (ErzT – ErhT)*10 • reward = (ErzT – ErhT)*20 +AP-GP-FV*2wobei: ErzT Erzielte Treffer AP Angriffsposition ErhT Erhaltene Treffer FV Fitness Verlust GP Gefährdete Position • Der so berechnete Reward wird im aktuellen state gespeichert

Schritt fünf • Q-Werte aktualisieren • Q-Wert des aktuellen states berechnen(standard Q-learning) • Q-Werte der states berechnen die für diese Aktion „gewählt“ haben

Verbesserungen • Sinkendes Epsilon • Das im Algorithmus verwendete Epsilon sinkt nach bei jedem explorativen Schritt um die Performance zu erhöhen • Variables Epsilon • Wie sinkendes Epsilon • Epsilon wird aber erhöht, wenn viele Kämpfe hintereinander verloren gehen

Greedy Algorithmus • Modifizierter Q Learning Algorithmus • Arbeitet wie der Instance Based State Identification Algorithmus bei dem die match length n für alle vergangenen states <= 1 gesetzt wird • Nimmt keine Rücksicht auf „hidden states“

ML Boxer und leichter Gegner Attribute: Geschicklichkeit: 6 Konstitution: 6 Stärke: 6 Trefferpunkte: 32 Schwerer Gegner Attribute: Geschicklichkeit: 4 Konstitution: 9 Stärke: 5 Trefferpunkte: 38 Testaufbau Pro Test wurden fünf Serien mit 1000 Kämpfen durchgeführt und die Ergebnisse gemittelt.

Testergebnisse • Interessante Resultate: • Greedy • Instance Based State IdentificationPrototyp • Instance Based State IdentificationVerbesserung mit variablem Epsilon

Greedy Algorithmus • Leichterer Gegner

Instance Based State Identification • Prototyp Algorithmus (leichter Gegner)

Instance Based State Identification • Variables Epsilon (leichter Gegner)

Greedy Algorithmus • Schwerer Gegner

Instance Based State Identification • Prototyp Algorithmus (schwerer Gegner)

Instance Based State Identification • Variables Epsilon (schwerer Gegner)

Probleme des Algorithmus • Kurzes Gedächtnis • Liste gespeicherter States endlich • Überschreiben alter States notwendig • Lösungsansatz • Gedächtnis einführen(Liste die gute Sequenzen speichert)

XCSÜbersicht • Stewart W. Wilson, Classifier Fitness based on Accuracy‚ 1995 • Stewart W. Wilson, Generalization in the XCS Classifier System, 1998 • Martin Butz, An algorithmic description of XCS, 2000 • Voraussetzung: Markov-Umgebung • Learning Classifier System (LCS)

XCSInteraktion mit der Lernumgebung • Sensory Input • Action • Reward • Flag ‚End of Problem‘

XCSClassifier Systeme • Population von Classifiern entspricht dem ‚Wissen‘ des Agenten • Classifier bestehen aus Condition-, Action- und Parameterwerten • Reproduktion und Neugenerierung von Classifiern durch einen genetischen Algorithmus • Deterministische Action-Wahl durch Payoff-Vorhersage für die einzelnen Classiffier durch Q-Learning Ansatz • Exploration durch den GA und durch probabilistische Action-Wahl

XCSClassifier • Condition-Action-Prediction Regel • Condition: • Für welchen Input wird der Classifier angewendet? (matching condition) • Action: • Welche Aktion wird bei Wahl des Classifiers ausgeführt? • Prediction: • Wie hoch wird der Payoff sein, falls der Classifier matcht und seine Aktion gewählt wird? • Weitere Parameter: Error, Fitness, Experience,...

XCSgenetischer Algorithmus • Wahl von zwei Classifiern mittels Roulette-Wheel-Selection (gewichtet mit Fitness-Werten) • Erzeugung zweier Klone • Anwendung von Two-Point-Crossover mit Wahrscheinlichkeit X • Anwendung von Mutation auf einzelne Sensoreinheiten mit Wahrscheinlichkeit Y • Aufnahme der Klone in die Population • Löschen von Classifiern falls Maximalpopulation erreicht wird.

XCSGeneralisation • Condition eines Classifiers kann durch Wildcards (#) mehrere Situationen matchen • Ziel: Suche einer Population deren Classifier maximal verallgemeinert sind, aber trotzdem gute Performance bringen • Population wird dadurch kompakter • Analyse des Lernverhaltens wird einfacher • Umsetzung durch geeignete Berechnung der Fitness eines Classifiers

XCSFitness von Classifiern • Idee: Fitness wird von der Genauigkeit der Payoff-Vorhersage bestimmt • Vermutung: Spezialisierte Classifier sind fitter als allgemeinere Classifier (bessere Chancen im GA sich zu reproduzieren) • Aber: allgemeinere Classifier haben öfter die Möglichkeit sich zu reproduzieren, da sie öfter matchen • XCS konvergiert gegen genaue (fitte) Classifier, aber genaue Classifier werden durch allgemeinere mit gleicher Fitness geschlagen

XCSTestaufbau • Eine Testserie löst alternierend Lern- oder Testprobleme • Lernprobleme wählen Actions zufällig • Testprobleme wählen die Aktion mit der höchsten Payoff Vorhersage • Nach gewisser Zeit nur mehr Testprobleme • GA nur in Lernproblemen anwenden • Covering ist immer aktiv

XCSTestergebnisse Anwendung von XCS auf den leichten Gegner

XCSTestergebnisse Anwendung von XCS auf den schweren Gegner

XCSBeobachtungen • Ungenügende Performance beim schweren Gegner • Es ist generell schwer eine Siegstrategie durch Exploration zu finden • Das System ist auf Hidden States nicht ausgelegt

XCSMÜberblick • Pier Luca Lanzi, Toward Optimal Classifier System Performance in Non-Markov Environments, 2000 • Erweiterung von XCS auf Non-Markov Umgebungen

XCSMAufbau • Füge ‚Gedächtnis‘ (interner Speicher) in Form eines Bitregisters hinzu • Kein explizites Merken von Situationen, sondern ‚unterbewußtes‘ Handeln in Form von internal conditions und actions • Internal actions ändern Bitregister • Vorgehensweise analog zu XCS, aber internal states und actions werden in die Mengenbildungen mit einbezogen

XCSMTestaufbau • In Lernproblemen wird nur die externe Aktion zufällig gewählt • Ausführen der internen Aktion nur wenn sich der Sensor Input in der nächsten Runde ändert • Covering wird auch ausgeführt, falls eine zufällig gewählte Aktionskombination nicht im Prediction Array vorkommt

XCSMTestergebnisse Anwendung von XCSM auf den leichten Gegner

XCSMTestergebnisse Anwendung von XCSM auf den schweren Gegner

XCSMBeobachtungen • Einbruch der Siegesquote bei Erreichen der Maximalpopulation • ‚gute‘ Classifier werden gelöscht, da sie noch ungenau sind • Macht sich vor allem beim schweren Gegner bemerkbar • Idee: Bei erfolgreichen Kämpfen werden verstärkt Testprobleme gelöst, um die Classifier fitter zu machen

XCSMTestergebnisse Anwendung von XCSM mit ‚improved Exploration‘auf den schweren Gegner

Verwendung von Maschinellem Lernen in einer einfachen Computerspielumgebung

Verwendung von Maschinellem Lernen in einer einfachen Computerspielumgebung

Presentation Transcript

Erzeugung und Verwendung von Zufallszahlen

Systematische Planung einer klinischen Dokumentation als Voraussetzung zur multiplen Verwendung von Daten

1. Tag Methodentraining Theoretische Einführung – Lernen lernen Aufbau von Trainingsspiralen

Verwendung von Erd l

Lesen und (Recht-)Schreiben lernen in einer jahrgangsübergreifenden Klasse

Technische Verwendung von HF

Lernen von SOX: von der regelbasierten zur modellzentrierten Sichtweise

Richtige Verwendung von Persönlicher Schutzausrüstung, PSA

Lehren und Lernen von Bewegungen

Verwendung von Biokraftstoffen Motoranpassung – Kraftstoffstandards - Kontrollsysteme

Von Schulbibliotheken lernen

Träum' von einer Welt

Von einer sauberen Umwelt profitieren!

Programmierung von Client/Server-Anwendungen Verwendung von API‘s (JDBC)

Praktische Hinweise zur Verwendung von Literatur

»Lernen lernen in Netzwerken?«

Die Verwendung von Barcodes in Business

Wege zur sicheren Verwendung von virtuellen Datenraum

Wichtige Vorteile bei der Verwendung von Sprayfarben

Die Bedeutung Der Verwendung Von Winterreifen

Verwendung Von Best PC Reiniger

Verwendung von CBD-Ölen - CBD-Tropfen