Deep learning methode voor Human Pose Estimation: Regional Multi-Person Pose Estimation

Deep learning methode voor Human Pose Estimation: Regional Multi-Person Pose Estimation

Zoals we in de afgelopen twee posts hebben besproken is Human Pose Estimation een grote uitdaging voor computervisie. Het herkennen van de pose van meerdere personen in real-life is namelijk een stuk complexer dan het herkennen van de pose van een enkel persoon in een afbeelding. Ondanks het feit dat state-of-the-art human detectors goede resultaten hebben geleverd, zijn kleine fouten wat betreft lokalisatie en herkenning onvermijdelijk. Deze fouten kunnen resulteren in mislukkingen voor een Single-Person Pose Estimator (SPPE). Deze keer bespreken we daarom een derde deep learning methode voor Human Pose Estimation, namelijk een Regional Multi-Person Pose Estimation (RMPE) methode.

RMPE (AlphaPose) is een populaire top-down methode voor Pose Estimation. Top-down methoden zijn doorgaans afhankelijk van de nauwkeurigheid van de persoon detector, omdat Pose Estimation wordt uitgevoerd op de regio waar de persoon gelokaliseerd is. Vandaar dat fouten in lokalisatie en dubbele bounding box voorspellingen ervoor kunnen zorgen dat het pose extractie algoritme sub-optimaal presteert. RMPE is in staat om om te gaan met onnauwkeurige bounding boxes en overtollige detecties.

Er zijn twee soorten structuren die recente methoden toepassen. Of er wordt gebruik gemaakt van een tweestaps raamwerk die eerst bounding boxes detecteert en vervolgens de pose binnen elke box onafhankelijk van elkaar voorspelt, of er wordt gebruik gemaakt van een deel-gebaseerd raamwerk die eerst de lichaamsdelen onafhankelijk van elkaar detecteert en deze daarna samenvoegt om meerdere menselijke poses te vormen. Beide raamwerken hebben hun eigen voor- en nadelen. Bij het tweestaps raamwerk is de nauwkeurigheid van de Pose Estimation sterk afhankelijk van de kwaliteit van de gedetecteerde bounding boxes. Daarentegen zijn de samengevoegde menselijke poses bij het deel-gebaseerde raamwerk dubbelzinnig als twee of meer personen te dicht bij elkaar zijn. Ook verliest het deel-gebaseerde raamwerk de mogelijkheid om lichaamsdelen vanuit een globaal pose standpunt te herkennen vanwege het feit dat slechts tweede-orde lichaamsdeel afhankelijkheid wordt gebruikt.

De twee belangrijke problemen van voorgaande methoden zijn dus het lokalisatie fout probleem en het overtollige detectie probleem. In feite is Single Person Pose Estimation (SPPE) nogal kwetsbaar voor bounding box fouten. Zelfs voor de situaties waarin de bounding boxes als juist worden beschouwd, kunnen de menselijke poses nog steeds incorrect zijn. Aangezien SPPE een pose voor elk gegeven bounding box produceert, leiden overtollige detecties tot overtollige poses.

De RMPE methode volgt het tweestaps raamwerk en kan deze problemen aanpakken. Deze methode verbetert de prestaties van SPPE-gebaseerde Human Pose Estimation algoritmen, waarbij nauwkeurige human poses zelfs bij onnauwkeurige bounding boxes worden gedetecteerd.

Een Symmetric Spatial Transformer Network (SSTN) wordt gebruikt om een hoge kwaliteit enkel persoon regio van een onnauwkeurige bounding box af te leiden. In deze afgeleide regio wordt een Single Person Pose Estimator (SPPE) gebruikt om het menselijke pose skelet voor die persoon te schatten. Een Spatial De-Transformer Network (SDTN) wordt gebruikt om de geschatte menselijke pose opnieuw toe te wijzen aan het originele beeldcoördinatenstelsel. Ten slotte wordt een parametrische pose Non-Maximum Suppression (NMS) techniek gebruikt om het probleem van overtollige pose afleidingen op te lossen. Deze parametrische pose NMS elimineert overtollige poses door een pose afstand metriek te gebruiken om pose gelijkenissen te vergelijken. Een data-driven benadering wordt toegepast om de pose afstand parameters te optimaliseren.

Bovendien hebben de ontwikkelaars van de methode een Pose Guided Proposals Generator (PGPG) geïntroduceerd voor het verhogen van het aantal trainingsvoorbeelden dat beter kan helpen om de SPPE en SSTN netwerken te trainen. Het opvallendste kenmerk van RMPE is dat deze techniek kan worden uitgebreid naar elke combinatie van een persoon detectie algoritme en een SPPE.

De RMPE benadering overtreft de state-of-the-art methoden voor Multi-Person Human Pose Estimation significant in termen van nauwkeurigheid en efficiëntie. Deze methode bevestigt de potentie van tweestaps raamwerken (mensen detector + SPPE, als SPPE wordt aangepast aan een mensen detector), is algemeen en is toepasbaar voor verschillende mensen detectors en Single-Person Pose Estimators.

Comments are closed.