Model architecturen voor Human Pose Estimation

Model architecturen voor Human Pose Estimation

Er bestaat een overvloed aan model architecturen voor het tackelen van Human Pose Estimation. Het zijn er teveel om nu allemaal te bespreken, maar hierbij een kennismakingsoverzicht van een aantal robuuste, betrouwbare architecturen die een goed begin vormen.

Convolutional networks

Convolutional networks genereren heatmaps door een beeld parallel door meerdere resolutie banken te halen om er tegelijkertijd kenmerken op verschillende schalen uit te halen. Een heatmap voorspelt de kans dat het gewricht voorkomt voor elke pixel. Dit heatmap output model is erg succesvol in vergelijking met regressie outputs.

Convolutional Pose Machines

Convolutional Pose Machines (CPM) bestaan uit een reeks convolutional networks die herhaaldelijk 2D heatmaps voor de locatie van elk lichaamsdeel produceren. In elke fase bij CPM worden beeldkenmerken en heatmaps die geproduceerd zijn door de voorgaande fase gebruikt als input. De heatmaps bieden de volgende fase een expressieve, niet parametrische codering van de ruimtelijke onzekerheid van de locatie voor elk lichaamsdeel, waardoor de CPM rijke beeld afhankelijke ruimtelijke modellen van de relaties tussen de lichaamsdelen kan leren. Convolutional Pose Machines zijn volledig differentieerbaar en kunnen van begin tot eind getraind worden. Het sequentiële voorspellingsmodel van CPM’s is zeer geschikt is voor Human Pose.

Iterative Error Feedback

De globale werking van Iterative Error Feedback (IEF) is relatief eenvoudig: Voorspel wat er mis is met de huidige schattingen en corrigeer ze iteratief. In plaats van dat de outputs direct in één keer worden voorspeld, wordt er een zelfcorrigerend model gebruikt dat een initiële oplossing progressief verandert door foute voorspellingen terug te koppelen. Met iedere stap wordt de pose verfijnd.

Stacked Hourglass Networks

Stacked Hourglass Networks hebben recentelijk uitstekend gepresteerd op het gebied van Human Pose Estimation. Het is een intuïtieve architectuur die al zijn voorgaande methoden verslaat. De architectuur ontleent zijn naam aan de stappen van pooling en upsampling lagen waaruit hij bestaat, die eruit zien als een zandloper die op elkaar gestapeld zijn. Het ontwerp van de zandloper komt voort uit de behoefte om op elke schaal informatie te verzamelen. Hoewel lokaal bewijs cruciaal is voor het identificeren van kenmerken als handen en gezichten, vereist een uiteindelijke Pose Estimation globale context. De oriëntatie van personen, de coördinatie van hun ledematen, en de relaties van aangrenzende gewrichten bevinden zich onder de vele zaken die het best herkend worden op verschillende schalen in het beeld.

Het netwerk voert herhaaldelijk bottom-up verwerking (van hoge resoluties naar lage resoluties) en top-down verwerking (van lage resoluties naar hoge resoluties) uit. Door middel van het overslaan van verbindingen wordt ruimtelijke informatie bij elke resolutie behouden, en wordt het doorgestuurd voor upsampling verderop in de zandloper. Voor elke fase van de zandloper is er tussentijds toezicht in plaats van alleen voor de laatste zandloper voorspellingen.

Omdat de zandloper op elke schaal informatie verzamelt, wordt globale en lokale informatie compleet verzameld en door het netwerk gebruikt om voorspellingen te leren. Dit is waarom het zo goed werkt.

Mask Regional Convolutional Neural Network

Als je meerdere poses moet detecteren is een Mask Regional Convolutional Neural Network (Mask RCNN) een veelzijdige architectuur die begrenzende vakjes (bounding boxes) voor objecten voorspelt, om vervolgens de poses binnen de afgebakende regio’s te voorspellen. Het is een populaire architectuur gericht op het uitvoeren van semantic en instance segmentation.

Er zijn twee fases van Mask RCNN. Ten eerste genereert Mask RCNN voorstellen over de regio’s waar een object zou kunnen zijn op basis van het input beeld. Ten tweede voorspelt het de klasse van het object, verfijnt het het begrenzende vakje, en genereert het een masker in pixel niveau van het object op basis van het voorstel van de eerste fase.

Deze methode lijkt op de top-down benadering, maar de persoon detectie fase wordt parallel aan de ledematen detectie fase uitgevoerd. Met andere woorden, de kernpunten detectie fase en persoon detectie fase zijn onafhankelijk van elkaar.

Deep High-Resolution representation learning

De High-Resolution Network (HRNet) architectuur is de meest recente methode, en heeft alle bestaande modellen overtroffen wat betreft Keypoint Detection, Multi-Person Pose Estimation en Pose Estimation taken in de COCO dataset.

Waar de meeste van de eerder genoemde methoden van hoog, naar laag, naar hoge resolutie representatie gaan, behoudt HRNet een hoge resolutie representatie gedurende het gehele proces, wat erg goed werkt.

Het model begint in de eerste fase met een hoge-resolutie subnetwerk, en voegt geleidelijk, één voor één, hoge-tot-lage resolutie subnetwerken toe om meer fases te vormen en de multi-resolutie subnetwerken parallel te verbinden.

Door informatie over de subnetwerken herhaaldelijk uit te wisselen gedurende het gehele proces, worden herhaalde meerschalige fusies uitgevoerd. Deze architectuur gebruikt in tegenstelling tot de Stacked Hourglass geen tussentijdse heatmap toezicht, wat kan worden beschouwd als een voordeel.

Comments are closed.