Liplees technologie voor CCTV camera’s

Kunstmatige intelligentie stelt ons in staat om steeds meer informatie uit CCTV beelden te verkrijgen. Helaas gaan CCTV opnames meestal niet gepaard met geluidsopnames, terwijl gesprekken vaak waardevolle informatie bevatten. In die gevallen is spraakherkenning wenselijk. Er ontstaan echter unieke problemen met spraakherkenning als er geen geluid beschikbaar is of als de audio kwaliteit niet goed is. Liplezen is namelijk complex. Maar onderzoekers laten zien dat machine learning ingezet kan worden om effectiever spraak uit stille videobeelden op te maken dan professionele, menselijke liplezers.

De complexiteit van liplezen

Liplezen is een techniek om spraak te begrijpen door de bewegingen van de lippen, het gezicht en de tong visueel te interpreteren als goed geluid niet beschikbaar is. Hoewel spraakperceptie beschouwd wordt als een auditieve vaardigheid, ondersteunt informatie van de lippen en het gezicht het auditieve begrip. De meeste vloeiend luisteraars van een taal zijn dan ook gevoelig voor zichtbare spraak acties.

Veel factoren beïnvloeden de zichtbaarheid van een sprekend gezicht, waaronder belichting, beweging van het hoofd en de camera, de frame-rate van het bewegende beeld en de afstand tussen de camera en de spreker. Liplezen van CCTV beelden is een uitdaging, omdat veel zaken tegenwerken. Zo zijn de lippen op de meeste CCTV beelden vrij klein, is de belichting vaak niet optimaal, en zijn frame-rates niet altijd even hoog.

Verder delen meerdere geluiden dezelfde lip vorm, waardoor het vinden van de juiste woorden bij de vormen moeilijk is. Bovendien is het zo dat voor het liplezen van verbonden spraak de liplezers kennis van de gesproken taal, bekendheid met de spreker en stijl van spreken, en de context net zo belangrijk zijn als de zichtbaarheid van de spreker. Vandaar dat het behalen van een hoge nauwkeurigheid zonder de context van de spraak zeer moeilijk is, zowel voor mensen als voor machines.

Kunstmatige intelligentie voor automatisch liplezen

Liplezen is een van de meest uitdagende problemen in kunstmatige intelligentie, maar onderzoekers laten zien dat kunstmatige intelligentie de mens flink overtreft op dit gebied. Zo worden er neurale netwerken met behulp van datasets getraind om variaties in de tijd betreffende de vorm van de mond te identificeren, en deze informatie te koppelen aan een verklaring van wat er wordt gezegd. De systemen analyseren het beeldmateriaal niet in flarden, maar nemen het gehele materiaal in beschouwing, zodat ze een begrip kunnen vormen van de context waarin de zin is uitgesproken. Dat is belangrijk omdat er minder mond vormen bestaan dan geluiden die de menselijke stem produceert.

Zuivere, consistente datasets behalen nauwkeurigheidspercentages van hoger dan negentig, wat ongeveer twee keer zoveel is als de nauwkeurigheid van menselijke liplezers. Daarentegen identificeren systemen die getraind zijn met een grote hoeveelheid televisiebeelden met een breed scala aan taal en veel meer variatie in belichting en hoofd posities veel minder woorden correct. Echter, ook deze systemen presteren enorm veel beter dan menselijke liplezers.

Toepassingen van automatisch liplezen

Liplezen is al gebruikt om vast te stellen wat voetballers hebben geroepen op het veld, en is waarschijnlijk zeer nuttig in situaties waarbij er veel lawaai is, zoals in de cockpit van een vliegtuig. Daarnaast kan een robuust, automatisch liplees systeem bijdragen aan biometrische persoonsidentificatie om wachtwoord-gebaseerde identificatie te vervangen.

Wat CCTV systemen betreft kan een dergelijk systeem conversaties reconstrueren op basis van opgenomen beelden ten behoeve van het oplossen van misdaden. Er zijn zelfs winkels die liplezende CCTV camera’s willen gebruiken om meningen van klanten over hun producten van beelden af te lezen als een vorm van marktonderzoek. Met andere woorden; er zijn diverse toepassingen van liplezende CCTV camera’s te bedenken. Hoe verder deze technologie zich ontwikkelt, hoe meer toepassingen er zullen ontstaan en hoe meer waarde deze kan toevoegen aan bestaande CCTV systemen.

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit /  Bijwerken )

Google photo

Je reageert onder je Google account. Log uit /  Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit /  Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit /  Bijwerken )

Verbinden met %s