Deep learning a Hikvisiontől
2014.07.03.
A Hikvision bejelentette az új, deep learning (mélytanulás) technológiára épülő termékeit, melyek forradalmi változást ígérnek a videomegfigyelő rendszerek hatékonysága terén.
És mindjárt itt felmerül jó néhány kérdés ebből fakadóan:
• Mi az a deep learning?
• Mi köze van ennek a mesterséges intelligenciához...?
• ... és a big data-hoz?
• Mire képes jelenleg és milyen távlati megoldások lesznek később elérhetőek?
Bár a big data, deep learning, mesterséges intelligencia manapság rendkívül divatos fogalmak, de a legtöbb biztonságtechnikai szakember eddig nem, vagy érintőlegesen találkozhatott velük a munkája során.
A deep learning segítségével nem hozható létre egy általános célú mesterséges intelligencia, hanem egy korlátozott területre, jelen esetben például képi információ felismerésre, vonatkozó gépi tanulást jelenti.
A deep learning hasonlóan végzi a vizuális információk feldolgozását, mint a fejlett látással rendelkező állatok, illetve az ember. Míg a korábbi algoritmusok esetén a programozók alkották meg a felismerési algoritmusokat, ők határozták meg, hogy mi is egy ember, arc, jármű vagy adott viselkedés, ezzel szemben a deep learning algoritmus esetében „csak" magát a tanuló algoritmust kell létrehozni és az algoritmus a több millió példa alapján, magától, tapasztalati úton tanulja meg kategorizálni, hogy mi vagy ki az, ami a képen látható, amit a kamera lát. Ezt a rengeteg felvételt, egyfajta big data-t, a Hikvision elsősorban Kínában található kamerái szolgáltatják a deep learning tanuláshoz.
De mit is jelent ez a jelző, hogy „mély" a tanulásban?
Az emberi agy neuronok hálózatából áll. A képek feldolgozását egyre mélyebb szinteken, különféle agyközpontok végzik. Ehhez hasonlóan a deep learning is neurális hálózatok segítségével dolgozza fel a képet, de a korábbi ilyen hálózatokhoz képest sokkal több réteget használ a kameraképek feldolgozásához. Ennek köszönhetően az algoritmus sokkal alaposabban kiismeri, „megtanulja", „megérti”, hogy mi is az, amit lát. Az egyes szintek úgy képzelhetőek el, hogy az első szint pl. detektálja az éleket a képen, egy következő szint az arc jellegzetességeit, szem, orr, száj, a mélyebb szint pedig egy arcmodellt alkot ezekből.
Egy gépjármű esetében a típus felismeréséhez az első szinten a határozott körvonali éleket, a második szinten az ajtókat, ablakokat, lámpákat, légbeömlő nyílásokat, kerekeket detektálja, majd az azt követőn ezekből alkotja meg a modellt, amit összevet a már ismert járműtípusokkal. Elvont problémák esetén nehéz megfogalmazni azokat a kritériumokat, melyek alapján egy képfelismerő algoritmusnak működnie kellene. Emiatt a programozók által írt, hagyományos algoritmusok hatékonysága egy fokon túl már nem igazán növelhető tovább, sokkal hatékonyabb a big data-ra alapozott, öntanuló, deep learning technológiát bevetni.
A felhasználó is profitálhat már belőle
Az öntanulási folyamat végén, amikor az algoritmus elérte a kívánt hatékonyságot, az így nyert bináris adattömeg futtatható a kereskedelmi forgalomba kerülő eszközökön is (kamerákon, NVR-eken). A deep learning algoritmusok drámai javulást jelentenek a korábbi algoritmusokhoz képest, jelentős mértékben növelve a felismerés hatékonyságot, csökkentve a téves felismerések számát, sok esetben már hatékonyabb felismerést nyújtva, mint amire egy ember, főleg monoton munkavégzéssel lenne képes. A HikVision a deep learning eszközök firmware-jét (és egyben az algoritmust is) előre láthatólag negyedévente fogja frissíteni. Beépítik az azon esetekből származó tapasztalatot is ahol az algoritmus nem megfelelően ismert fel valamit. Ez egyben lehetőség a frissítésre is, az adott időszakban megjelent népszerűbb, új járművek beépítésére az adatbázisba. Továbbá az új detektálási eljárásokkal és képfelismerő metodikákkal is bővíthetővé válik a firmware, időről, időre.
Három dologra is szükség volt ahhoz, hogy lehetővé vált a deep learning alapú termékek megjelenése, a deep learning algoritmusok fejlődése, a big data szintű mintavideo-adatbázisok és a megfizethető árú, de a deep learning algoritmusok futtatásához kellően nagy teljesítményű FPGA-k illetve GPU-k elérhetővé válása.
Hogyan profitálhat ebből a megfigyelőrendszer?
Bemutatjuk, hogy ez milyen formában segíti a megfigyelést a gyakorlatban és hogyan épülnek be az így nyert intelligenciák a Hikvision DeepInview kameráiba, DeepInmind NVR-eibe.
Az összes DeepInview kamera és a DeepInmind NVR támogatja a H.265 képtömörítést.
Precíz személyfelismerés és -számlálás
A deep learning egyik fontos felhasználási területe a korábbinál sokkal pontosabb emberszámlálás. Az iDS-2CD/XM6810 DeepInview sztereokamerák képesek térbeli képet alkotni, és így a két kamera képét kombinálva a látómezőben található objektumok távolságát meghatározni. A deep learning technológiát a térbeli képen használva, a személyszámlálás pontossága megközelíti a 100%-ot! A kamera képes eldönteni, hogy a képen mozgó „objektumok" közül melyek valóban emberek. A „lődörgő" személyek ez alapján szintén könnyedén kiszűrhetővé válnak. A személyszámláló kamera beltéri, kültéri és mobil telepítésű verzióban is elérhető lesz.
„Szoros emberfogás"
Az emberek mozgásának nyomon követésében nagy segítség a PanoVu iDS-2PT9122IX-D/S DeepInview kamera, mely egy 2 Mpx-es fix és egy 2 Mpx-es PTZ kamera kombinálásával létrehozott egység. A 4 mm-es objektívvel ellátott fix kamera „áttekinti" a megfigyelt teljes helyszínt, majd a kamerába épített Myrad 2 VPU deep learning technológia segítségével felismeri a képen látható emberi alakokat, ezt követően pedig az 5-50 mm-es optikájú gyorsdóm kamera közeli képet készít az 50 méteres távolságon belül lévő emberekről. A PTZ kamerába épített IR LED-ek segítségével a kamera éjszaka is értékelhető képet készít az elhaladókról. A kamera egy adott időszak alatt akár 30 emberről is képes közeli felvételeket készíteni.
Az eddiginél jóval gyorsabb és pontosabb arcfelismerés
A hagyományos városi térfigyelő rendszerek nagy problémája, hogy az általuk készített képeknek átlagosan csak a kb. 10%-a használható emberi alak felismerésére, és mindössze 0,5%-uk arcfelismerésre. A DS-2CD8426FWD/F-I DeepInview beltéri sztereokamera nagy segítséget nyújt ezeknél a rendszereknél, hiszen a közeli képek alkalmasak az emberi alak, vagy arc felismerésére, így automatikusan megtudhatjuk, hogy a keresett személy milyen útvonalon közlekedett, mely PanuVu DeepInview kamerák előtt haladt el.
Egyidejűleg akár 30 arcot is felismer, illetve ezeket kereshető adatbázisba is rendezi. A kamera által alkotott térbeli sztereokép megkönnyíti a deep learning algoritmus számára a hasonló arcok keresését. Ez lehetővé teszi, hogy automatikusan megtaláljuk, hogy merre járt a keresett személy (vagy a hozzá hasonló) az épületben, és ehhez a beléptetőrendszer adataira sincs szükség.
Közlekedési szabálysértések automatikus észlelése
Az iDS-2VS225-F836 DeepInview gyorsdóm kamera a deep learning technológiának köszönhetően teljesen egyedülálló képességekkel rendelkezik a közlekedési szabálysértések észlelésének terén. A kamera automatikusan megtanulja a megfigyelt területen érvényes közlekedési szabályokat (pl. haladási irány, parkolási tilalom, forgalom elől elzárt terület, időegységen túli parkolás, stb.), és amikor olyan járművet észlel a látóterében, amelyik megszegi valamelyik szabályt, akkor a rendszám leolvasásra alkalmas, közeli képet készít róla. A rendkívül gyors fókuszsebesség lehetővé teszi, hogy a kamera mozgás és zoomolás után is éles képet mutasson és így a jármű rendszáma azonosítható legyen. A kamera a szabálysértésről 3 darab áttekintő, és egy közeli, a rendszám leolvasásra alkalmas képet készít. A 4 képkockából egyetlen képet összeillesztve a szabálysértés ténye automatikusan igazolható válik (ha erre a vonatkozó jogszabályi háttér is lehetőséget ad). A 36-szoros optikai zoom segítségével a kamera ideális esetben akár 240 méteres szakasz ellenőrzésére is képes lehet.
A deep learning technológia megjelenik a rendszámolvasó kamerákban is, tovább növelve a felismerés pontosságát. A DS-2CD8626FWD/P-I DeepInview rendszámolvasó kamera a koszos, vagy kézzel írt rendszámokat is képes lesz nagy pontossággal leolvasni.
A kamerák funkcióinak maximális kihasználásához a legtöbb esetben szükséges a megfelelő kapacitású DeepInmind NVR használata is.
A Hikvision elhozza a mélytanulás adta lehetőségeket a már évek óta üzemelő rendszerekbe is!
A kamerákkal ellentétben, ahol az alacsonyabb fogyasztás miatt jobbára FPGA-t (Field-Programmable Gate Array, programozható kapumátrix), ASIC-t (Application-Specific Integrated Circuit, alkalmazás-specifikus integrált áramkör) használnak, a Hikvision NVR-ekben GPU-k (Graphics Processing Unit, grafikai processzor), nevezetesen az NVIDIA Jetson GPU-k találhatóak. A DeepInmind NVR-ek viszont használhatóak nem DeepInview kamerákkal, sőt, más gyártók kompatibilis kameráival is, tehát akár egy meglévő videomegfigyelő-rendszer is korszerűsíthető, és ellátható a legmodernebb képfeldolgozási technológiával!
Akár önállóan is képes a videorendszer behatolásjelzőként működni
A 32 csatornás, 8 GPU-val felszerelt iDS-9632NXI-I8/S NVR 16 csatorna esetén képes nagy pontossággal felismerni az emberi testet, ezáltal kiszűrni például a fényváltozások, a növényzet vagy az állatok által okozott téves riasztásokat. Az emberfelismerés pontossága meghaladja a 95%-ot. A téves riasztás-szűrést összekapcsolhatjuk például a kamera vonalátlépés detektorával, ekkor a rendszer detektálási pontossága felveszi a verseny a kombinált videomegfigyelő és kerítésvédelmi rendszerek együttes pontosságával.
Specializált arcfelismerés, körözött egyének automatikus detektálására
A 32 csatornás, 8 GPU-val felszerelt iDS-9632NXI-I8/FA NVR arc-összehasonlításra szolgál. Mindegyik GPU egy-egy kamera képének elemzését végzi el, és összehasonlítja a DeepInview arcdetektáló kamerák által szolgáltatott vagy egyéb forrásból származó képeken felbukkanó, megfelelő minőségű arcképeket az akár milliós darabszámú képmás-adatbázisban szereplő emberi arcmásokkal, így valós-idejű riasztásra képes a fekete listán szereplő, keresett vagy körözött egyének felismerése esetén.
Az élőképet figyelve a DeepInmind NVR folyamatosan “modellt” készít a kameraképen található arcokról, így akár egyénileg feltöltött képfájl alapján is rákereshetünk egy-egy személyre. A deep learning algoritmus nem csak egyszerű egyezés/nem egyezés megállapítására képes, hanem ha például arra is, hogyha nem találtuk meg a keresett személyt, akkor megadhatjuk, hogy a hozzá bizonyos szinten hasonló embereket is mutasson meg találatként, hátha köztük van a keresett illető.
A 128 csatornás iDS96128NXI-I16 és iDS-96128NXI-I24 DeepInview Szuper NVR-ek egyaránt használhatóak alakfelismerésre, arc összehasonlításra és járműfelismerésre. A DeepInview Szuper NVR-ek harmadik fél által gyártott kompatibilis kamerákkal is képesek együttműködni, így a deep learning technológia által nyújtott képességek akár egy meglévő videomegfigyelő-rendszerben is elérhetőek, pusztán az NVR lecserélésével.
Az alakfelismerés és az arcösszehasonlítás hasonlóan működik, mint a két előző modell esetén. A járművek rendszáma, gyártója, típusa és színe felismerésre kerül. Lehetőség van a feltöltött képen szereplőhöz hasonló ember, arc és jármű keresésére is, illetve a keresett objektum viselkedése alapján történő szűrésre is.
Az új DeepInmind NVR-eket már a Hikvision új, 4.0-ás grafikai interfészével szállítjuk.
A deep learning eljárást alkalmazó eszközök folyamatosan kerülnek forgalomba, az első típusok kora ősztől már megjelennek üzletünk polcain.
Részletekért kérjük, keresse kollégánkat:
Waldmann Tamás
Műszaki tanácsadó
+36 30 791-3336
waldmann.tamas@modernalarm.hu