Deep learning methode voor Human Pose Estimation: OpenPose
Realtime Multi-Person 2D Pose Estimation is een belangrijk onderdeel om machines een begrip te laten hebben van mensen in afbeeldingen en video’s. Human Estimation heeft zich primair gefocust op het vinden van lichaamsdelen van individuen. Het afleiden van de pose van meerdere mensen in beelden gaat gepaard met een unieke set uitdagingen. Ten eerste kan ieder beeld een onbekend aantal mensen bevatten die op iedere positie en schaal kunnen verschijnen. Ten tweede veroorzaken interacties tussen mensen complexe ruimtelijke interferentie als gevolg van contact en overlappingen, waardoor het verbinden van bij elkaar horende lichaamsdelen lastig wordt. Ten derde neigt de complexiteit van de runtime groter te worden naarmate de hoeveelheid mensen in het beeld toeneemt, waardoor realtime performance een uitdaging wordt.
OpenPose is een van de populairste bottom-up benaderingen voor Multi-Person Human Pose Estimation, deels vanwege hun goed gedocumenteerde GitHub implementatie. Het is een realtime benadering om de 2D pose van meerdere personen in een beeld te detecteren. Het heeft een architectuur dat lichaamsdelen zowel detecteert als associeert. De methode gebruikt een expliciete niet parametrische representatie van de kernpunt associatie die zowel de positie als de oriëntatie van menselijke ledematen codeert om te leren lichaamsdelen met individuen in het beeld te associëren. Het is de eerste bottom-up representatie van associatie scores via Part Affinity Fields (PAFs), een set van 2D vector velden die de locatie en oriëntatie van ledematen over het beeld domein codeert.
Zoals met vele bottom-up benaderingen detecteert OpenPose eerst de lichaamsdelen (in totaal 135 kernpunten) die bij alle personen in het beeld horen, waarna de lichaamsdelen worden toegewezen aan de verschillende individuen. Het OpenPose netwerk leidt eerst kenmerken van een beeld af met behulp van de eerste paar lagen. Vervolgens worden de kenmerken in de twee parallelle takken van convolutionele lagen gestopt. De eerste tak voorspelt een set van achttien confidence maps, waarbij elke map een specifiek onderdeel van het human pose skelet vertegenwoordigt. De tweede tak voorspelt een set van achtendertig Part Affinity Fields die de mate van associatie tussen de onderdelen vertegenwoordigt.
Daaropvolgende fasen worden gebruikt om de voorspellingen die door elke tak zijn gemaakt te verfijnen. Met behulp van de confidence maps van de lichaamsdelen worden tweedelige grafieken gevormd tussen paren van lichaamsdelen. De PAF waarden helpen zwakkere verbindingen uit de tweedelige grafieken te filteren. Met behulp van deze stappen kan er een schatting worden gemaakt van de aanwezige menselijke pose skeletten, en kunnen deze toegewezen worden aan de personen in het beeld.
De OpenPose methode laat zien dat een greedy parsing algoritme voldoende is om hoge kwaliteit ontledingen van lichaam poses te produceren, en behoudt zijn efficiëntie ongeacht het aantal mensen. Eerder werden PAFs en het schatten van de locaties van de lichaamsdelen tegelijkertijd verfijnd over de trainingsfases. OpenPose daarentegen demonstreert dat een PAF-only verfijning veel belangrijker is dan PAF en lichaamsdeel locatie verfijning gecombineerd. Dit resulteert niet alleen in een significante toename in runtime performance, maar ook in nauwkeurigheid. Bovendien laat OpenPose zien dat het combineren van lichaams- en voet estimation in een enkel model de nauwkeurigheid van elk individueel component verhoogt en de inference tijd verminderd ten opzichte van als ze sequentieel worden gedraaid.
Realtime Multi-Person 2D Pose Estimation is een essentieel onderdeel om machines mensen en hun interacties visueel te laten begrijpen en interpreteren. OpenPose is het eerste open-source realtime systeem voor Multi-Person 2D Pose Detectie, inclusief lichaams-, voet-, hand, en gezichtskernpunten, en daarmee een geschikte optie voor vele Human Pose Estimation projecten.
Comments are closed.