350 likes | 518 Views
Human Action Recognition Using Temporal Templates. Jonas von Beck. Übersicht. Motivation Einführung Temporal Templates Grundlagen der Bilderkennung Implementierung des Verfahrens Fazit Anwendungen. 1. Motivation. Bewegungsmuster lassen sich durch die Bewegung an sich erkennen.
E N D
Human Action Recognition Using Temporal Templates Jonas von Beck
Übersicht • Motivation • Einführung • Temporal Templates • Grundlagen der Bilderkennung • Implementierung des Verfahrens • Fazit • Anwendungen
1. Motivation Bewegungsmuster lassen sich durch die Bewegung an sich erkennen. Man erkennt trotz miserabler Bildqualität eine sich setzende Person. Frame 5 25 40
2. Einführung • Aufnahme der Bildsequenz • Reduzieren der Auflösung • Bewegung extrahiert & Binärbild oder Graustufen-bilder erzeugen • Ablage oder Abgleich mit Datenbank • Berechnung invarianter Merkmale
3. Temporal Templates Bewegung: Wo? Wie? • Es werden Informationen über Bewegung festgehalten. • Diese werden in einem Binärbild oder Graustufenbild festgehalten.
3.1. Motion-Energy Images (MEI) • Generierung eines Binärbildes wobei Bewegung weiß dargestellt wird • Hier Bewegungserkennung durch DifferenzbilderD.h. Aufeinanderfolgende Frames werden differenziert • Um Rauschen entgegenzuwirken wird die Auflösung herabgesetzt.
An den Stellen wo Bewegung stattfindet, färbt sich das MEI weiß.
3.2. Motion-History Images (MHI) • Erweiterung von MEI • Graustufenbild, bei der frühere Bewegung dunkler dargestellt wird • Dadurch zusätzliche Information über Richtung der Bewegung
Durch die Graustufen lässt sich erkennen, wie die Bewegung stattgefunden hat. Hinsetzen MHI Arme Schwenken MHI Hinknien MHI
4. Grundlagen aus der Bilderkennung Die gleiche Bewegung aus verschiedenen Sichtweisen. (z.B. wenn Person weiter Weg) • Ziel: Merkmale extrahieren die unabhängig von Position, Rotation oder Skalierung sind.
4.1. Invariante Merkmale Allgemeine Merkmale: • Fläche der Form • Umfang der Form • Minimum Bounding Rectangle (MBR) • Best Ellipse Fit Invariante Merkmale: • Verhältnis Höhe/Breite: |log(H/B)| • Füllungsgrad • Kompaktheit: Fläche/Umfang² • Elongierttheit: (1- Nebenachse/Hauptachse) des BEF • Und weitere MBR BEF
Durch Momente lassen sich Objektform und Intensitätsverläufe eindeutig darstellen. Dazu werden aus der Bildfunktion B(x,y) die Momente mp,q gebildet. 4.1.1. Momente
4.1.1. Momente Die Ordnung des Moments berechnet sich aus (p+q) m0,0 = Summe der Pixelwerte. (Fläche bei Binärbild) m1,0 = Zeilenmoment erster Ordnung m0,1 = Spaltenmoment erster Ordnung Daraus lässt sich der Schwerpunkt des Bildes berechnen
4.1.2. Hu-Momente Mit Hilfe des Schwerpunkts können die zentralen Momente μp,qdefiniert werden Hu hat die unskalierten zentralen Momente normiert
4.1.2. Hu-Momente • Hu hat mit den normierten zentralen Momenten 7 Merkmale entwickelt, die invariant gegen Translation, Rotation, und Größenskalierung sind . • Die Merkmale werden in einen Vektor (x1x2x3x4x5x6x7)T gepackt.
4.2. Klassifizierung • Aus den Trainingsdaten wird ein Merkmalsvektor nach Hu erstellt und in einer Datenbank den Einzelnen Bewegungen zugeordnet. • Die Eingabedaten müssen Klassifiziert werden. Dafür werden diese mit der Datenbank abgeglichen.
4.2. Klassifizierung • Am einfachsten ist es einen Mittelwert x der Trainingsdaten zu berechnen • Abgleich erfolgt dann durch suchen der kleinsten euklidischen Norm im R7 • Leider gibt es dabei einige Nachteile und Probleme
4.2.1. Probleme bei euklid. x1 t1 t1 und t2 sind gleich weit von Verschiedenen Mittelwerten entfernt. Dennoch sollten beide unterschiedlich gewichtet werden, da das obere Merkmal eine größere Streuung hat als das Untere. x2 t2
4.2.1. Probleme bei euklid. Trainingsdaten Testwerte t1 x t2 t2 ist zwar näher an x, t1 ist aber eher im Streuungsbereich Realistischere Abstandsmessung
4.2.2. Mittelwert und Varianz Mittelwert = E[x] Gilt für Vektor 1. Dimension Standartabweichung = Sqr(Var[x]) Abweichungen lassen sich skalieren, so dass diese Einheitlich sind. Standarisierte Distanz r:
4.2.3. Standarisierte Distanz t sei zu Klassifizierender Vektor mit den 7 Hu-Momenten ti = i-ter Eintrag im Vektor t xi,j = Mittelwert des Merkmals i aus der Klasse (Bewegung) j si,j = Standardabweichung des Merkmals i aus der Klasse j Wir berechnen die Standarisierte Distanz Wenn die Distanz so berechnet wird, haben die unterschiedlichen Streuungen der Merkmale keinen Einfluss auf die Klassifizierung
4.2.4. Kovarianzen Verschiedene Momente können zueinander Abhängig sein. (korreliert) Wir berechnen also paarweise die Kovarianz der Momente. Eine Kovarianzmatrix mit allen Kovarianzen wird aufgestellt
4.2.5. Die Kovarianzmatrix Mahalanobisdistanz Mit dieser Matrix lassen sich Distanzen unabhängig von Streuung und Korrelation zwischen Merkmalen berechnen
5.1. Trainieren des Systems Es werden 18 Aerobicübungen aufgenommen und die Zugehörigen MEIs und MHIs Generiert. Dies wir für Verschiedene Blick- winkel von -90° bis 90° (30°Schritte) getan.
5.1. Trainieren des Systems MEIs und MHIs werden über einen Zeitraum von „r“ bis „r+Δr“ rückwirkend erzeugt, da Bewegungen unterschiedlich schnell durchgeführt werden können. Zu den erhaltenen Daten werden die Statistischen Daten berechnet und in der Datenbank abgelegt.
5.2. Test mit einer Kamera Um das System zu testen werden die Übungen von einer Weiteren Person Wiederholt. Aufnahmewinkel 30° Wieder werden MEI und MHI erstellt, die statistischen Daten berechnet. Dann folgt der Abgleich mit der Datenbank durch Mahalanobis Distanzen.
Die Tabelle zeigt die Distanz zur nahesten Bewegung, sowie die Nummer dieser. Zudem die Distanz zur Korrekten Bewegung und die durchschnittliche Distanz, sowie der Rang der Korrekten Bewegung.
5.2. Test mit einer Kamera Bei den Bewegungen die falsch erkannt wurden, ist dies auf die Ähnlichkeit zurückzuführen. Auch wurde die Bewegung durch die andere Person nicht identisch durchgeführt Testbewegung bester Match korrekter Match
5.3. Test mit mehreren Kameras Einige Bewegungen die von einem Sichtwinkel ähnlich MEIs und MHIs haben, können von einem anderen Winkel unterschiedlich aussehen. Der gleich Test wird mit zwei Kameras wiederholt die in einem Winkel von 90° zueinander stehen.
Das Ergebnis sieht mit zwei Kameras deutlich besser aus. Es muss berücksichtigt werden, dass jede Bewegung nur wenig trainiert wurde. Dennoch gibt es andere Probleme die eine Ursache sein könnten
6.1. Probleme / Nachteile • Bewegungserkennung: • Bewegung im Hintergrund • Bewegung der Kamera • Einfarbige Kleidung • Helligkeitsschwankungen • Verdeckung durch Personen Objekte • Kombinierte Bewegungen • Werfen eines Balls • Bewegung des Oberkörpers beim gehen
6.2. Vorteile • Sehr geringer Berechnungsaufwand • Funktioniert auch bei sehr schlechter Bildqualität
7. Anwendungen • Als Teil von anderen Bildsequenz-erkennungsprogrammen • KidsRoom Interaktiver Spielraum