Rozpoznávání aktivit - Activity recognition

Rozpoznání aktivity má za cíl rozpoznat akce a cíle jednoho nebo více agentů ze série pozorování akcí agentů a podmínek prostředí. Od 80. let minulého století tento výzkumný obor upoutal pozornost několika komunit počítačové vědy díky své síle v poskytování personalizované podpory pro mnoho různých aplikací a jeho propojení s mnoha různými studijními obory, jako je medicína, interakce člověk-počítač nebo sociologie.

Díky své mnohostranné povaze mohou různé oblasti označovat rozpoznávání aktivit jako rozpoznávání plánu, rozpoznávání cílů, rozpoznávání záměrů, rozpoznávání chování, odhad polohy a služby založené na poloze .

Typy

Rozpoznání aktivity jednoho uživatele na základě senzoru

Rozpoznávání aktivit na bázi senzorů integruje vznikající oblast senzorových sítí s novými technikami dolování dat a strojového učení k modelování široké škály lidských činností. Mobilní zařízení (např. Chytré telefony) poskytují dostatečné údaje ze senzorů a výpočetní výkon, aby umožnily rozpoznávání fyzické aktivity a poskytly odhad spotřeby energie v každodenním životě. Výzkumníci rozpoznávající aktivitu na základě senzorů se domnívají, že zmocněním všudypřítomných počítačů a senzorů ke sledování chování agentů (na základě souhlasu) budou tyto počítače vhodnější pro jednání naším jménem.

Úrovně rozpoznávání aktivity založené na senzorech

Rozpoznávání aktivity založené na senzorech je náročný úkol kvůli inherentní hlučné povaze vstupu. Tak, statistické modelování byla hlavní tah v tomto směru ve vrstvách, kde se uznání na několika mezilehlých úrovních provedených a připojených. Na nejnižší úrovni, kde jsou shromažďována data ze senzorů, se statistické učení zabývá tím, jak najít podrobná umístění agentů z přijatých dat signálu. Na střední úrovni se mohou statistické závěry obávat, jak rozpoznat aktivity jednotlivců z odvozených sekvencí umístění a podmínek prostředí na nižších úrovních. Kromě toho je na nejvyšší úrovni hlavní starostí zjistit celkový cíl nebo dílčí cíle agenta ze sekvencí aktivit pomocí kombinace logických a statistických úvah.

Rozpoznávání aktivit více uživatelů na základě senzorů

Rozpoznávání aktivit pro více uživatelů pomocí snímačů na těle se poprvé objevilo v práci ORL pomocí aktivních systémů odznaků na počátku 90. let. K identifikaci vzorců skupinových aktivit během kancelářských scénářů byla použita další senzorová technologie, jako například senzory zrychlení. Činnosti více uživatelů v inteligentních prostředích řeší Gu et al . V této práci zkoumají základní problém rozpoznávání aktivit pro více uživatelů z naměřených hodnot senzorů v domácím prostředí a navrhují nový přístup k dolování vzorců, který umožňuje rozpoznat aktivity jednoho uživatele i více uživatelů v jednotném řešení.

Rozpoznání skupinové aktivity založené na senzorech

Rozpoznání skupinových aktivit se zásadně liší od rozpoznávání činnosti jednoho nebo více uživatelů v tom, že cílem je rozpoznat chování skupiny jako entity, nikoli činnosti jednotlivých členů v ní. Skupinové chování má přirozenou povahu, což znamená, že vlastnosti chování skupiny se zásadně liší od vlastností chování jednotlivců v ní nebo jakéhokoli souhrnu tohoto chování. Hlavní výzvy spočívají v modelování chování jednotlivých členů skupiny, jakož i rolí jednotlivce v rámci skupinové dynamiky a jejich vztahu k vznikajícímu chování skupiny souběžně. Mezi výzvy, které je stále třeba řešit, patří kvantifikace chování a rolí jednotlivců, kteří se ke skupině připojí, integrace explicitních modelů pro popis rolí do odvozovacích algoritmů a hodnocení škálovatelnosti pro velmi velké skupiny a davy. Skupinové rozpoznávání aktivit má aplikace pro řízení davu a reakce v nouzových situacích, stejně jako pro sociální sítě a aplikace Quantified Self .

Přístupy

Rozpoznávání aktivit pomocí logiky a uvažování

Logické přístupy sledují všechna logicky konzistentní vysvětlení pozorovaných akcí. Proto je třeba zvážit všechny možné a konzistentní plány nebo cíle. Kautz poskytl formální teorii rozpoznávání plánu. Rozpoznání plánu popsal jako logický inferenční proces ohraničení. Všechny akce a plány jsou jednotně označovány jako cíle a znalosti rozpoznávače jsou reprezentovány sadou příkazů prvního řádu, nazývaných hierarchie událostí. Hierarchie událostí je zakódována v logice prvního řádu, která definuje abstrakci, rozklad a funkční vztahy mezi typy událostí.

Kautzův obecný rámec pro rozpoznávání plánů má v nejhorším případě exponenciální časovou složitost, měřeno velikostí vstupní hierarchie. Lesh a Etzioni šli ještě o krok dále a představili metody pro zvýšení rozpoznávání cílů, aby jeho práce byla výpočetně rozšířena. Na rozdíl od Kautzova přístupu, kde je explicitně zastoupena knihovna plánů, umožňuje Lesh a Etzioni přístup automatickou konstrukci knihovny plánů z doménových primitiv. Kromě toho zavedli kompaktní reprezentace a efektivní algoritmy pro rozpoznávání cílů ve velkých knihovnách plánů.

Nekonzistentní plány a cíle jsou opakovaně prořezávány, když přijdou nové akce. Kromě toho také představili metody pro přizpůsobení rozpoznávače cílů tak, aby zvládal individuální výstřední chování dané ukázkou nedávného chování jednotlivce. Pollack a kol. popsal model přímé argumentace, který může vědět o relativní síle několika druhů argumentů pro popis víry a záměru.

Vážným problémem logických přístupů je jejich neschopnost nebo inherentní neproveditelnost reprezentovat nejistotu. Nenabízejí žádný mechanismus pro upřednostňování jednoho konzistentního přístupu před druhým a neschopného rozhodnout, zda je jeden konkrétní plán pravděpodobnější než jiný, pokud oba mohou být dostatečně konzistentní, aby vysvětlili pozorované akce. S metodami založenými na logice také chybí schopnost učení.

Dalším přístupem k rozpoznávání aktivit založených na logice je použití uvažování proudů na základě programování sad odpovědí a bylo použito k rozpoznávání činností pro aplikace související se zdravím, které k modelování stupně nejednoznačnosti/nejistoty používají slabá omezení.

Rozpoznávání aktivit pomocí pravděpodobnostního uvažování

Teorie pravděpodobnosti a modely statistického učení se v poslední době uplatňují při rozpoznávání aktivit k úvahám o akcích, plánech a cílech v nejistotě. V literatuře existuje několik přístupů, které výslovně představují nejistotu v úvahách o plánech a cílech agenta.

Hodges a Pollack s využitím údajů ze senzorů jako vstupu navrhli systémy založené na strojovém učení pro identifikaci jednotlivců, kteří provádějí rutinní každodenní činnosti, jako je příprava kávy. Laboratoř Intel Research (Seattle) a University of Washington v Seattlu provedly několik důležitých prací na používání senzorů k detekci lidských plánů. Některé z těchto prací odvozují způsoby přepravy uživatelů ze čtení radiofrekvenčních identifikátorů (RFID) a globálních pozičních systémů (GPS).

Ukázalo se, že použití dočasných pravděpodobnostních modelů funguje dobře v rozpoznávání aktivit a obecně překonává nedočasné modely. Generativní modely, jako je Hidden Markov Model (HMM) a obecněji formulované Dynamic Bayesian Networks (DBN), jsou oblíbenou volbou při modelování aktivit ze senzorových dat. Diskriminační modely, jako jsou podmíněná náhodná pole (CRF), se také běžně používají a také poskytují dobrý výkon při rozpoznávání aktivit.

Generativní i diskriminační modely mají svá pro a proti a ideální volba závisí na oblasti jejich použití. Datovou sadu spolu s implementacemi řady populárních modelů (HMM, CRF) pro rozpoznávání aktivit najdete zde .

Konvenční časové pravděpodobnostní modely, jako je skrytý Markovův model (HMM) a model podmíněných náhodných polí (CRF), přímo modelují korelace mezi aktivitami a pozorovanými daty senzoru. V posledních letech stále více důkazů podporuje používání hierarchických modelů, které berou v úvahu bohatou hierarchickou strukturu, která existuje v datech lidského chování. Hlavní myšlenkou je, že model přímo nekoreluje aktivity s daty senzorů, ale místo toho rozděluje aktivitu na dílčí aktivity (někdy označované jako akce) a podle toho modeluje základní korelace. Příkladem může být aktivita přípravy praženice, kterou lze rozdělit na podaktivity nebo činnosti krájení zeleniny, smažení zeleniny na pánvi a podávání na talíři. Příklady takového hierarchického modelu jsou vrstvené skryté Markovovy modely (LHMM) a hierarchický skrytý Markovův model (HHMM), u nichž bylo prokázáno, že výrazně překonávají svůj nehierarchický protějšek v rozpoznávání aktivit.

Data mining založený na rozpoznávání aktivit

Na rozdíl od tradičních přístupů ke strojovému učení byl nedávno navržen přístup založený na dolování dat. V práci Gu a kol. Je problém rozpoznávání aktivit formulován jako problém klasifikace na základě vzoru. Navrhli přístup k dolování dat založený na diskriminačních vzorcích, které popisují významné změny mezi jakýmikoli dvěma třídami aktivity dat, aby rozpoznaly sekvenční, prokládané a souběžné činnosti v jednotném řešení. Gilbert a kol. použijte 2D rohy v prostoru i čase. Ty jsou seskupeny prostorově a časově pomocí hierarchického procesu s rostoucí oblastí vyhledávání. V každé fázi hierarchie se ty nejvýraznější a nejpopisnější funkce efektivně naučí pomocí dolování dat (pravidlo Apriori).

Rozpoznávání aktivity založené na GPS

Rozpoznávání aktivity založené na poloze může také spoléhat na data GPS k rozpoznávání aktivit.

Využití senzoru

Rozpoznání aktivity na základě vidění

Je velmi důležitým a náročným problémem sledovat a porozumět chování agentů prostřednictvím videí pořízených různými kamerami. Primární používanou technikou je Computer Vision . Vision-based activity recognition has found many applications such as human-computer theory, user interface design, robot learning , and surveillance, including others. Vědecké konference, kde se často objevuje činnost rozpoznávání činností založená na vidění, jsou ICCV a CVPR .

Při rozpoznávání aktivit založených na vizi bylo odvedeno velké množství práce. Výzkumníci se pokusili o řadu metod, jako je optický tok , Kalmanovo filtrování , Skryté Markovovy modely atd., Za různých modalit, jako je jedna kamera, stereo a infračervený. Vědci navíc na toto téma zvážili několik aspektů, včetně sledování jednoho chodce, sledování skupiny a detekce spadlých předmětů.

V poslední době někteří vědci používají k detekci lidských činností kamery RGBD, jako je Microsoft Kinect. Hloubkové kamery přidávají další rozměr, tj. Hloubku, kterou normální 2d kamera neposkytuje. Senzorické informace z těchto hloubkových kamer byly použity ke generování kosterního modelu lidí s různými polohami těla v reálném čase. Tyto informace o kostře poskytují smysluplné informace, které vědci použili k modelování lidských činností, které jsou vycvičeny a později použity k rozpoznávání neznámých činností.

S nedávnou nouzovou situací hlubokého učení zaznamenává rozpoznávání činnosti založené na RGB videu rychlý rozvoj. Jako vstup používá videa zachycená kamerami RGB a provádí několik úkolů, včetně: klasifikace videa, detekce začátku a konce aktivity ve videích a časově-prostorové lokalizace aktivity a osob provádějících aktivitu.

Navzdory pozoruhodnému pokroku v rozpoznávání činností založených na vidění zůstává jeho použití pro většinu skutečných aplikací vizuálního sledování vzdálenou aspirací. Naopak se zdá, že lidský mozek dovedl schopnost rozpoznávat lidské činy k dokonalosti. Tato schopnost závisí nejen na získaných znalostech, ale také na schopnosti extrahovat informace relevantní pro daný kontext a logické uvažování. Na základě tohoto pozorování bylo navrženo zlepšit systémy rozpoznávání aktivit založené na vidění integrací rozumného uvažování a kontextových a rozumných znalostí . Experimenty prováděné pomocí video a RGBD kamer demonstrují přidanou hodnotu takového přístupu.

Úrovně rozpoznávání aktivit na základě vidění

Při rozpoznávání činnosti založené na vidění je výpočetní proces často rozdělen do čtyř kroků, a to na detekci člověka, sledování člověka, rozpoznávání lidské činnosti a poté vyhodnocení aktivity na vysoké úrovni.

Jemně zrnitá lokalizace akcí

Při rozpoznávání aktivit založených na počítačovém vidění poskytuje jemnozrnná lokalizace akcí typicky masky segmentace podle obrazu, které vymezují lidský objekt a jeho akční kategorii (např. Segmentová trubice ). Techniky, jako jsou dynamické Markovovy sítě , CNN a LSTM, se často používají k využití sémantických korelací mezi po sobě jdoucími video snímky.

Automatické rozpoznávání chůze

Jedním ze způsobů, jak identifikovat konkrétní lidi, je to, jak chodí. Software pro rozpoznávání chůze lze použít k záznamu osobního profilu chůze nebo profilu chůze do databáze za účelem pozdějšího rozpoznání této osoby, i když má na sobě převlek.

Rozpoznávání aktivit na bázi Wi-Fi

Když se rozpoznávání aktivit provádí uvnitř a ve městech pomocí široce dostupných signálů Wi-Fi a přístupových bodů 802.11 , vzniká velký hluk a nejistota. Tyto nejistoty lze modelovat pomocí dynamického Bayesovského síťového modelu. V modelu s více cíli, který může uvažovat o cílech prokládání uživatele, je použit deterministický model přechodu stavu. Další možná metoda modeluje souběžné a prokládané činnosti pravděpodobnostním přístupem. Model zjišťování akcí uživatelů by mohl segmentovat signály Wi-Fi a vytvářet tak možné akce.

Základní modely rozpoznávání Wi-Fi

Jednou z hlavních myšlenek rozpoznávání aktivity Wi-Fi je, že když signál prochází lidským tělem během přenosu; což způsobuje odraz, difrakci a rozptyl. Výzkumníci mohou z těchto signálů získat informace k analýze činnosti lidského těla.

Statický převodový model

Jak je znázorněno na obrázku, když jsou bezdrátové signály přenášeny uvnitř, překážky, jako jsou stěny, země a lidské tělo, způsobují různé efekty, jako je odraz, rozptyl, difrakce a difrakce. Přijímací konec proto přijímá více signálů z různých cest současně, protože povrchy odrážejí signál během přenosu, což je známé jako vícecestný efekt .

Statický model je založen na těchto dvou druzích signálů: přímém signálu a odraženém signálu. Protože v přímé dráze není žádná překážka, lze přímý přenos signálu modelovat podle Friisovy přenosové rovnice :

je výkon přiváděný do vstupních svorek vysílací antény;
je výkon dostupný na výstupních svorkách přijímací antény;
je vzdálenost mezi anténami;
vysílá zisk antény;
přijímá zisk antény;
je vlnová délka rádiové frekvence

Pokud vezmeme v úvahu odražený signál, nová rovnice je:

je vzdálenost mezi body odrazu a přímou cestou.

Když se objeví člověk, máme novou přenosovou cestu. Konečná rovnice je tedy:

je přibližný rozdíl dráhy způsobené lidským tělem.

Model s dynamickou převodovkou

V tomto modelu uvažujeme pohyb člověka, který způsobuje, že se cesta přenosu signálu plynule mění. K popisu tohoto efektu, který souvisí s rychlostí pohybu, můžeme použít Doppler Shift.

Výpočtem Dopplerova posunu přijímacího signálu můžeme zjistit vzorec pohybu, a tím dále identifikovat lidskou aktivitu. Například v, Dopplerův posun se používá jako otisk prstu k dosažení vysoce přesné identifikace devíti různých pohybových vzorů.

Fresnelova zóna

Fresnelova zóna byla původně použita ke studiu interference a difrakce světla, která byla později použita ke konstrukci modelu bezdrátového přenosu signálu. Fresnelova zóna je řada eliptických intervalů, jejichž ohniskem jsou polohy odesílatele a příjemce.

Když se člověk pohybuje napříč různými Fresnelovými zónami, změní se signální dráha tvořená odrazem lidského těla, a pokud se lidé pohybují vertikálně přes Fresnelovy zóny, bude změna signálu periodická. V příspěvku a použili Fresnelův model na úkol rozpoznávání aktivit a získali přesnější výsledek.

Modelování lidského těla

U některých úkolů bychom měli zvážit přesné modelování lidského těla, abychom dosáhli lepších výsledků. Například popsal lidské tělo jako soustředné válce pro detekci dechu. Vnější část válce označuje hrudní koš, když lidé vdechují, a vnitřek označuje, že když lidé vydechují. Rozdíl mezi poloměrem těchto dvou válců tedy představuje vzdálenost pohybu při dýchání. Změnu fází signálu lze vyjádřit v následující rovnici:

je změna fází signálu;
je vlnová délka rádiové frekvence;
je pohyblivá vzdálenost hrudního koše;

Datové sady

Existuje několik populárních datových sad, které se používají pro srovnávací algoritmy rozpoznávání aktivit nebo rozpoznávání akcí.

  • UCF-101: Skládá se ze 101 tříd lidské akce, více než 13k klipů a 27 hodin video dat. Akční třídy zahrnují nanášení make -upu, hraní dhol, kriketový výstřel, holení vousů atd.
  • HMDB51: Toto je sbírka realistických videí z různých zdrojů, včetně filmů a webových videí. Datová sada se skládá z 6849 videoklipů z 51 akčních kategorií (například „skok“, „polibek“ a „smích“), přičemž každá kategorie obsahuje alespoň 101 klipů.
  • Kinetika: Jedná se o výrazně větší datovou sadu než předchozí. Obsahuje 400 tříd lidské akce, přičemž pro každou akci je nejméně 400 videoklipů. Každý klip trvá přibližně 10 s a je převzat z jiného videa na YouTube. Tuto datovou sadu vytvořila společnost DeepMind.

Aplikace

Automatickým sledováním lidských činností lze lidem s traumatickým poraněním mozku zajistit domácí rehabilitaci. Lze najít aplikace od aplikací souvisejících s bezpečností a logistické podpory až po služby založené na poloze . Systémy rozpoznávání aktivit byly vyvinuty pro pozorování divoké zvěře a úsporu energie v budovách.

Viz také

Reference