Moeilijkheden bij video herkenning met diepe neurale netwerken

Machine learning algoritmen, zoals diepe neurale netwerken, worden vaak gebruikt bij het analyseren van big data, en hebben veelbelovende resultaten bereikt. In essentie is het idee achter diepe neurale netwerken dat zij automatisch de parameters of kenmerken voor de gegeven training data vinden om deze te classificeren. Met de huidige state-of-the-art beeld classificatiemodellen, kunnen afbeeldingen geclassificeerd worden met goed vertrouwen en lage classificatie fouten.

Maar naast het analyseren van afbeeldingen, is ook het analyseren van video belangrijk om bruikbare informatie te verkrijgen uit de enorme hoeveelheden video data die worden verzameld, zoals de video data die met talrijke sensoren wordt verzameld in smart cities. Met name het herkennen van menselijke handelingen is een belangrijk onderzoeksgebied vanwege de verschillende toepassingsmogelijkheden, zoals video observatie, consumentengedrag analyse en het detecteren van klinische aanvallen. Vanzelfsprekend is de moeilijkheidsgraad van video analyse wel hoger dan die van het analyseren van afbeeldingen.

Moeilijkheden video herkenning

Videos zijn in wezen opstapelingen van afbeeldingen. Echter, bij beeldherkenning probeert men objecten te classificeren in afbeeldingen, wat een puur statische situatie is in vergelijking met video’s waarin het object beweegt in de tijd of in een tijdelijke ruimte. Het dynamische karakter van video’s maakt het analyseren zo complex.

Semantic video based event herkenning is momenteel een van de interessantste uitdagingen in machine learning en computervisie onderzoeksgebieden. Semantic event herkenning betekent dat een serie van menselijke bewegingen in een video wordt geclassificeerd als een type actie, zoals tennissen. Bij dit soort herkenning is het streven bepaalde vooraf getrainde gebeurtenissen of activiteiten in een video stream te detecteren en overeenkomstig te classificeren. Video analyse is een moeilijk gebied vanwege het feit dat het eigenlijk een mix van meerdere verschillende problemen is. In tegenstelling tot beeld classificatie zijn er meer aspecten die in overweging genomen moeten worden als er video data wordt gebruikt. In video’s zijn er al talrijke variaties binnen een klasse, zoals beweging, achtergrond en veranderingen van cameraposities. Ook de actie herkenning zelf hangt van meerdere factoren af, zoals de houding van de persoon en de objecten waarmee interactie plaatsvindt. Bovendien zijn er meerdere menselijke handelingen die er vergelijkbaar uit kunnen zien, zoals springen versus duiken, en eten versus het aanbrengen van lippenstift. In veel situaties maakt de scène waar de handeling wordt uitgevoerd het verschil tussen twee totaal verschillende handelingen. Over het algemeen wordt dit soort machine learning problemen opgelost door handmatig een set kenmerken of visuele woorden te maken die het type beweging het best beschrijven. Deze kenmerken worden dan gebruikt om de ‘classifier’ te trainen. Het probleem van deze methode is de enorme hoeveelheid werk die verricht moet worden om een goede set kenmerken te creëren. Daarnaast zijn deze kenmerken vaak gebaseerd op aannames over de omstandigheden van het video scenario. Voor toepassingen in de realiteit is het niet gewenst om te vertrouwen op aannames.

Verder is het begrijpen van de handeling die een persoon uitvoert veeleisend wat betreft de uit te voeren berekeningen, vanwege het feit dat zelfs een korte video honderden frames heeft. Bij langzame of subtiele bewegingen in video’s met 30 frames per seconde zien de meeste frames er vrijwel precies hetzelfde uit en bieden niet veel extra informatie in vergelijking met de frames er vlak voor of er vlak na. Dit is een van de redenen waarom het bijzonder inefficiënt is om ruwe video data te analyseren. Om deze reden wordt de extractie van kenmerken steeds belangrijker, zodat de complexe context informatie in een videoclip kan worden weergegeven zonder alle data te gebruiken. Daardoor wordt het proces sneller en makkelijker.

Ontwikkelingen voor video herkenning

Video herkenning is gebaseerd op het detecteren van een bepaald type beweging in een video. Dit wordt gedaan door ruimtelijke kenmerken van omliggende frames te gebruiken en het creëren van een begrip van de beweging door deze te volgen in de tijd. De combinatie van deze kenmerken worden spatio-temporele kenmerken genoemd. Veel verschillende methoden worden gebruikt om deze te verzamelen. De meesten ervan zijn gebaseerd op 3D convolutions of 2D convolutional networks in combinatie met recurrent layers als geheugen. Volgende week meer hierover.

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit /  Bijwerken )

Google photo

Je reageert onder je Google account. Log uit /  Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit /  Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit /  Bijwerken )

Verbinden met %s