Vormen van Human Pose Estimation

Er bestaat niet een enkele vorm van Human Pose Estimation. Afhankelijk van de situatie kan er een samenstelling van vormen gemaakt worden die het meest geschikt is om het gewenste doel te bereiken. In deze post bespreken we daarom een aantal factoren die een rol spelen bij het creëren van een Human Pose Estimation oplossing.

Aantal mensen dat wordt gevolgd

Er is een onderscheid te maken tussen het detecteren van één of meerdere personen in een afbeelding of video. Deze twee benaderingen van Human Pose Estimation worden respectievelijk Single-Person en Multi-Person Estimation genoemd. Single-Person Pose Estimation (SPPE) is met de garantie op slechts een enkel persoon aanwezig in het beeld de eenvoudigere. Daarentegen moet Multi-Person Pose Estimation (MPPE) het extra probleem van overlap van mensen in het beeld oplossen. Initiële activiteiten in Pose Estimation focusten vooral op SPPE, maar met de beschikbaarheid van enorme multi-person datasets krijgen MPPE en de bijkomende uitdagingen steeds meer aandacht.

Input modaliteit

Er zijn verschillende vormen van input waarmee gewerkt kan worden bij Pose Estimation. Op basis van het gemak van de beschikbaarheid zijn dit de top drie vormen van input:

  • Rood-Groen-Blauw afbeelding: De meest gebruikelijke vorm van input for Pose Estimation zijn RGB afbeeldingen. Modellen die werken met alleen RGB input hebben een enorm voordeel over andere modellen met betrekking tot de mobiliteit van de input bron. Dit vanwege het feit dat camera’s die RGB afbeeldingen nemen gemakkelijk beschikbaar zijn. Hierdoor kunnen deze modellen op vele apparaten gebruikt worden.
  • Time of flight afbeelding: In een Time of flight afbeelding wordt naast lengte en breedte ook diepte waargenomen in het beeld. De waarde van een pixel is gerelateerd aan de afstand tussen het object en de camera. Het wordt steeds gemakkelijker om dit soort beelden te verkrijgen, doordat camera’s met Time of flight sensoren steeds vaker voorkomen. Time of flight afbeeldingen kunnen RGB afbeeldingen complementeren om complexere en nauwkeurigere computervisie modellen te creëren. Modellen die alleen met Time of flight werken worden met name gebruikt als privacy van belang is.
  • Infrarood afbeelding: Bij IR afbeeldingen wordt de waarde van een pixel bepaald door de hoeveelheid infrarood licht die er wordt weerkaatst naar de camera. Proeven in computervisie op basis van infrarood afbeeldingen zijn minimaal in vergelijking met de twee andere input modaliteiten.

Statische afbeelding versus video

Een video is natuurlijk een verzameling van afbeeldingen, van frames. De basis van de meeste video compressie technieken is dat een gigantisch deel van de informatie die twee opeenvolgende frames bevatten gelijk is. Deze tijdafhankelijkheid in video’s kan worden benut voor het uitvoeren van Pose Estimation. Het leuke is dat het probleem van overlapping van personen voor een video mogelijk zelfs makkelijker is op te lossen door de aanwezigheid van voorgaande en toekomstige frames waarin het lichaamsdeel niet wordt overlapt. Het algoritme moet wel rekenkundig efficiënt zijn om grote hoeveelheden frames te kunnen verwerken.

Als tijdsafhankelijkheid geen belangrijke rol speelt, is het mogelijk om statische Pose Estimation toe te passen op elk frame. De resultaten schijnen echter over het algemeen niet zo heel goed te zijn in verband met onregelmatigheden.

2D versus 3D Pose Estimation

Er is ook een belangrijk onderscheid te maken tussen 2D en 3D Pose Estimation. 2D Pose Estimation schat simpelweg de locatie van kernpunten als gewrichten in 2D ruimte in verhouding tot een afbeelding of video frame. Het model schat een X en een Y coördinaat voor elk kernpunt.

De meeste 3D Pose Estimation modellen voorspellen eerst 2D Pose, en proberen deze dan te liften naar 3D Pose. 3D Pose Estimation werkt door een object in een 2D afbeelding naar een 3D object te transformeren door een Z-dimensie aan de voorspelling toe te voegen. Er zijn echter ook enkele end-to-end 3D Pose Estimation technieken die direct 3D Pose voorspellen.

3D Pose Estimation stelt ons in staat de daadwerkelijke ruimtelijke positionering van alle lichaamsdelen van een persoon in het beeld te voorspellen als uiteindelijke output. Zoals je misschien al verwacht is 3D Pose Estimation een uitdagender probleem voor machine learners wegens de complexiteit die vereist is bij het creëren van datasets en algoritmen die rekening houden met een variëteit aan factoren, zoals de achtergrond van een afbeelding of video, lichtomstandigheden, etcetera.

Lichaamsmodel

Elk Pose Estimation algoritme beslist op voorhand over een lichaamsmodel. Zo kan het algoritme het probleem van Human Pose Estimation vertalen naar het schatten van de parameters van het lichaamsmodel. De meeste algoritmen gebruiken een eenvoudig N-joint kinematisch skelet model, waarbij N meestal 13 tot 30 kernpunten van het lichaam vertegenwoordigt. Kinematische modellen kunnen worden weergegeven als een grafiek, waarbij elk hoekpunt V een gewricht vertegenwoordigt. Daarbij kunnen randen E beperkingen of voorafgaande overtuigingen over de structuur van het lichaamsmodel coderen.

Voor de meeste toepassingen is zo’n soort model voldoende. Een ander nogal primitief lichaamsmodel is een shape-based lichaamsmodel, waarbij lichaamsdelen worden benaderd met behulp van geometrische vormen. Daarentegen is voor toepassingen als animatie mogelijk een uitgebreider model nodig. Sommige technieken gebruiken bijvoorbeeld zeer gedetailleerde mesh models die het gehele lichaam met een puntenwolk vertegenwoordigen.

Aantal camera’s

Ten slotte bepaalt het aantal camera’s waarmee gewerkt wordt hoe het Human Pose Estimation model eruit komt te zien. Een groot gedeelte van het onderzoek naar Pose Estimation maakt gebruik van input van een enkele camera. Toch zijn er ook algoritmen die proberen data van meerdere camera’s en standpunten te combineren om nauwkeurigere poses te genereren en beter om te gaan met overlappingen. Het onderzoek naar multi-camera Pose Estimation is helaas nog wat beperkt, met name vanwege het ontbreken van goede datasets.

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit /  Bijwerken )

Google photo

Je reageert onder je Google account. Log uit /  Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit /  Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit /  Bijwerken )

Verbinden met %s