Sügaõppemeetodite kasutamine potentsiaalsete inimtegevuse leidmiseks videotes

Anonim

Kui politseiametnik hakkab liikluses kätt tõstma, mõistavad inimesed, et ohvitser kavatseb neile signaali peatada. Kuid arvutitel on keerulisem välja töötada inimeste järgmisi tõenäolisi tegevusi, mis põhinevad nende praegusel käitumisel. Nüüd on A * STARi teadlaste ja kolleegide meeskond välja töötanud detektori, mis suudab edukalt välja selgitada, kus inimestes toimuvad videod peaaegu reaalajas.

Üliõpilastele spetsialiseerunud A * STAR Infocomm Research Institute'i arvutiteadlane Hongyuan Zhu ütleb, et kujutiseanalüüside tehnoloogial on paremini mõista inimeste kavatsusi, kui neid kasutatakse paljude rakenduste jaoks. Ta selgitab, et sõidukijuhid peavad suutma politseiametnikke avastada ja oma tegevust kiiresti ja täpselt tõlgendada ohutuks sõiduks. Autonoomseid süsteeme võiks õpetada ka kahtlaste tegevuste tuvastamiseks, nagu ohtlike esemete võitlemine, vargus või mahasurumine, ja hoiatada turvaametnikke.

Arvutid on juba staatiliste kujutiste objektide tuvastamisel äärmiselt head, tänu sügavatele õppemeetoditele, mis kasutavad keeruliste pilditeabe töötlemiseks kunstlikke neuronite võrgustikke. Kuid liikuvate objektidega videod on keerukamad. "Inimtegurite mõistmine videotes on vajalik samm nutikate ja soodsamate masinate loomiseks, " ütleb Zhu.

Zhu ütles Zhu, et varasemad meetodid võimalike inimtegevuse leidmiseks videotes ei kasutanud sügavõimelisi raamistikke ning olid aeglane ja altid veale. Selle saavutamiseks ühendab meeskonna YoTube detektor paralleelselt kahte tüüpi närvivõrke: staatiline neuronite võrgustik, mis on juba tõestanud, et see on piltide töötlemisel täpne ja korduv neurontiline võrk, mida tavaliselt kasutatakse andmete muutmiseks, kõne tuvastamiseks. "Meie meetod on esimene, kes avastab ja jälgib üheskoos ühes sügaval õppetrassil, " ütleb Zhu.

Meeskond katsetab YoTube'i enam kui 3000 videot, mida tavaliselt kasutatakse arvutite nägemise eksperimentides. Nad teatavad, et see ületas kõige uuemaid detektoreid võimalike inimtegevuste korrektseks väljavalimiseks ligikaudu 20 protsendi võrra videote kuvamiseks, mis näitavad üldist igapäevast tegevust ja umbes 6 protsenti spordivideodest. Andur mõnikord teeb vigu, kui video inimesed on väikesed või kui taustal on palju inimesi. Kuid Zhu ütleb: "Oleme näidanud, et me suudame peaaegu reaalajas tuvastada kõige potentsiaalsed inimtegevuse piirkonnad."

menu
menu