Nástin rozpoznávání objektů - Outline of object recognition

Následující přehled je uveden jako přehled a aktuální průvodce rozpoznáváním objektů:

Rozpoznávání objektů - technologie v oblasti počítačového vidění pro hledání a identifikaci objektů v obrazové nebo video sekvenci. Lidé rozpoznávají velké množství objektů v obrazech s malým úsilím, a to navzdory skutečnosti, že obraz objektů se může poněkud lišit v různých úhlech pohledu, v mnoha různých velikostech a měřítcích, nebo dokonce i když jsou přeloženy nebo otočeny. Objekty lze dokonce rozpoznat, když jsou částečně zakryty z pohledu. Tento úkol je pro systémy počítačového vidění stále výzvou. Mnoho přístupů k úkolu bylo implementováno během několika desetiletí.

Přístupy založené na objektových modelech podobných CAD

Rozpoznání podle dílů

Metody založené na vzhledu

  • K provedení rozpoznávání použijte ukázkové obrázky (nazývané šablony nebo exempláře) objektů
  • Objekty vypadají za různých podmínek odlišně:
    • Změny osvětlení nebo barvy
    • Změny ve směru pohledu
    • Změny velikosti / tvaru
  • Je nepravděpodobné, že by jeden příklad spolehlivě uspěl. Je však nemožné představovat všechny vzhledy objektu.

Shoda hran

  • K vyhledání hran používá techniky detekce hran, jako je například detekce hran Canny .
  • Změny osvětlení a barvy obvykle nemají velký vliv na okraje obrazu
  • Strategie:
    1. Detekujte hrany v šabloně a obrázku
    2. Porovnejte obrázky hran a najděte šablonu
    3. Je třeba zvážit rozsah možných pozic šablony
  • Měření:
    • Dobrá - spočítejte počet překrývajících se hran. Není robustní vůči změnám tvaru
    • Lepší - spočítejte počet pixelů okraje šablony s určitou vzdáleností od okraje ve vyhledávacím obrázku
    • Nejlepší - určete rozdělení pravděpodobnosti vzdálenosti k nejbližšímu okraji ve vyhledávacím obrázku (pokud je šablona ve správné poloze). Odhadněte pravděpodobnost obrazu generujícího každou pozici šablony

Hledání rozděl a panuj

  • Strategie:
    • Zvažte všechny pozice jako sadu (buňka v prostoru pozic)
    • Určete spodní hranici skóre na nejlepší pozici v buňce
    • Pokud je vázaný příliš velký, prořízněte buňku
    • Pokud vázaný není příliš velký, rozdělte buňku na subcell a zkuste každou subcell rekurzivně
    • Proces je zastaven, když je buňka „dostatečně malá“
  • Na rozdíl od vyhledávání s více rozlišeními je touto technikou zaručeno najít všechny shody, které splňují kritérium (za předpokladu, že dolní mez je přesná)
  • Hledání hranice:
    • Chcete-li najít spodní hranici nejlepšího skóre, podívejte se na skóre pro pozici šablony představovanou středem buňky
    • Odečtěte maximální změnu od „středové“ polohy pro jakoukoli jinou pozici v buňce (nastane v rozích buňky)
  • Složitosti vznikají z určení hranic vzdálenosti

Odpovídající stupně šedi

  • Hrany jsou (většinou) robustní vůči změnám osvětlení, nicméně zahodí spoustu informací
  • Musí vypočítat vzdálenost v pixelech jako funkci polohy pixelu a intenzity pixelu
  • Lze použít také na barvu

Přechodová shoda

  • Dalším způsobem, jak být robustní vůči změnám osvětlení, aniž byste zahodili tolik informací, je srovnání gradientů obrazu
  • Přiřazování se provádí jako porovnávání obrázků ve stupních šedi
  • Jednoduchá alternativa: Použijte (normalizovanou) korelaci

Histogramy receptivních odpovědí pole

  • Vyhýbá se explicitní bodové korespondenci
  • Vztahy mezi různými obrazovými body implicitně kódované v odpovědích receptivního pole
  • Swain a Ballard (1991), Schiele a Crowley (2000), Linde a Lindeberg (2004, 2012)

Velké modelové základny

  • Jeden přístup k efektivnímu vyhledávání konkrétního obrázku v databázi s využitím vlastních vektorů šablon (nazývaných vlastní tvary )
  • Základny modelů jsou souborem geometrických modelů objektů, které by měly být rozpoznány

Metody založené na vlastnostech

  • vyhledávání se používá k nalezení proveditelných shod mezi vlastnostmi objektu a vlastnostmi obrazu .
  • primární omezení spočívá v tom, že jedna poloha objektu musí odpovídat všem proveditelným shodám.
  • metody, které extrahují prvky z objektů, které mají být rozpoznány, a obrázků, které mají být prohledány.
    • povrchové skvrny
    • rohy
    • lineární hrany

Interpretační stromy

  • Metoda pro hledání proveditelných shod je prohledávání stromu.
  • Každý uzel ve stromu představuje sadu shod.
    • Kořenový uzel představuje prázdnou sadu
    • Každý další uzel je sjednocení shod v nadřazeném uzlu a jedné další shody.
    • Zástupný znak se používá pro funkce bez shody
  • Uzly se „prořezávají“, když je sada shod nemožná.
    • Prořezaný uzel nemá žádné děti
  • Historicky významné a stále používané, ale méně často

Hypotéza a testování

  • Hlavní myšlenka:
    • Vytvoří hypotézu o shodě mezi kolekcí obrazových prvků a kolekcí objektových prvků
    • Poté použijte k vygenerování hypotézy o projekci z rámečku souřadnic objektu do rámečku obrazu
    • Pomocí této hypotézy projekce vygenerujte vykreslení objektu. Tento krok se obvykle nazývá zpětná projekce
    • Porovnejte vykreslení s obrázkem a pokud jsou dostatečně podobné, přijměte hypotézu
  • Získání hypotézy:
    • Existuje celá řada různých způsobů vytváření hypotéz.
    • Jsou-li známy vnitřní parametry kamery, je hypotéza ekvivalentní hypotetické poloze a orientaci - póze - pro objekt.
    • Využijte geometrická omezení
    • Vytvořte korespondenci pro malé sady vlastností objektu s každou správně nastavenou podmnožinou obrazových bodů. (Toto jsou hypotézy)
  • Tři základní přístupy:
    • Získávání hypotéz podle konzistence pozice
    • Získání hypotéz Pose Clustering
    • Získání hypotéz pomocí invarianty
  • Hledání nákladů, které je také nadbytečné, ale lze je vylepšit pomocí randomizace a / nebo seskupení
    • Randomizace
      • Zkoumání malých sad obrazových prvků, dokud se pravděpodobnost chybějícího objektu nezmění
      • U každé sady prvků obrazu je třeba vzít v úvahu všechny možné sady shodných funkcí modelu.
      • Vzorec:
        (1 - W c ) k = Z
        • W = zlomek obrazových bodů, které jsou „dobré“ (w ~ m / n)
        • c = počet potřebných korespondencí
        • k = počet pokusů
        • Z = pravděpodobnost každého pokusu s použitím jedné (nebo více) nesprávných korespondencí
    • Seskupení
      • Pokud můžeme určit skupiny bodů, které pravděpodobně pocházejí ze stejného objektu, můžeme snížit počet hypotéz, které je třeba zkoumat

Představte konzistenci

  • Také se nazývá Zarovnání, protože objekt se zarovnává k obrázku
  • Korespondence mezi prvky obrazu a prvky modelu nejsou nezávislé - Geometrická omezení
  • Malý počet korespondencí poskytuje pozici objektu - ostatní s tím musí být konzistentní
  • Hlavní myšlenka:
    • Pokud předpokládáme shodu mezi dostatečně velkou skupinou prvků obrazu a dostatečně velkou skupinou prvků objektu, můžeme z této hypotézy obnovit chybějící parametry kamery (a vykreslit tak zbytek objektu)
  • Strategie:
    • Generujte hypotézy pomocí malého počtu korespondencí (např. Trojnásobek bodů pro 3D rozpoznávání)
    • Promítněte další funkce modelu do obrazu ( backproject ) a ověřte další korespondenci
  • Použijte nejmenší počet korespondencí nezbytných k dosažení pozic diskrétních objektů

Představte shlukování

  • Hlavní myšlenka:
    • Každý objekt vede k mnoha správným sadám korespondencí, z nichž každý má (zhruba) stejnou pózu
    • Hlasujte o póze. Použijte pole akumulátoru, které představuje prostor pozice pro každý objekt
    • Toto je v podstatě Houghova transformace
  • Strategie:
    • Pro každý objekt nastavte pole akumulátoru, které představuje prostor pozice - každý prvek v poli akumulátoru odpovídá „kbelíku“ v prostoru pozice.
    • Pak vezměte každou skupinu snímků a vytvořte hypotézu o korespondenci mezi ní a každou skupinou snímků na každém objektu
    • Pro každou z těchto korespondencí určete parametry pozice a proveďte záznam v poli akumulátoru pro aktuální objekt na hodnotě pozice.
    • Pokud je v poli akumulátoru libovolného objektu velký počet hlasů, lze to interpretovat jako důkaz přítomnosti daného objektu v dané pozici.
    • Důkazy lze ověřit pomocí metody ověření
  • Všimněte si, že tato metoda používá sady korespondencí, nikoli jednotlivé korespondence
    • Implementace je jednodušší, protože každá sada přináší malý počet možných póz objektů.
  • Zlepšení
    • Odolnost proti šumu u této metody lze zlepšit tím, že se nepočítají hlasy pro objekty v pozicích, kde je hlas zjevně nespolehlivý
    § Například v případech, kdy, pokud by byl objekt v této póze, byla by skupina rámců objektů neviditelná.
    • Tato vylepšení jsou dostatečná k získání funkčních systémů

Invariance

  • Existují geometrické vlastnosti, které jsou neměnné pro transformace kamery
  • Nejsnadněji vyvinutý pro obrazy rovinných objektů, ale lze jej použít i v jiných případech

Geometrický hash

  • Algoritmus, který používá geometrické invarianty k hlasování pro hypotézy objektů
  • Podobně jako shlukování pólů, ale místo hlasování o póze nyní hlasujeme o geometrii
  • Technika původně vyvinutá pro porovnávání geometrických prvků (nekalibrované afinní pohledy na rovinné modely) s databází takových prvků
  • Široce se používá pro porovnávání vzorů, CAD / CAM a lékařské zobrazování.
  • Je těžké vybrat velikost lopat
  • Je těžké si být jisti, co znamená „dost“. Proto může existovat určité nebezpečí, že se stůl ucpe.

Transformace funkcí neměnných v měřítku (SIFT)

  • Klíčové body objektů se nejprve extrahují ze sady referenčních obrazů a uloží se do databáze
  • Objekt je v novém obrazu rozpoznán individuálním porovnáním každého prvku z nového obrázku s touto databází a nalezením vhodných prvků na základě euklidovské vzdálenosti jejich vektorů prvků.
  • Lowe (2004)

Zrychlené robustní funkce (SURF)

  • Robustní detektor a deskriptor obrazu
  • Standardní verze je několikrát rychlejší než SIFT a její autoři tvrdí, že je odolnější proti jiným transformacím obrazu než SIFT
  • Založeno na součtech přibližných 2D vlnových odezev Haar a efektivně využilo integrovaných obrazů.
  • Bay a kol. (2008)

Reprezentace pytle slov

Genetický algoritmus

Genetické algoritmy mohou fungovat bez předchozí znalosti dané datové sady a mohou vyvinout postupy rozpoznávání bez lidského zásahu. Nedávný projekt dosáhl stoprocentní přesnosti srovnávacích datových souborů obrazů motorek, obličeje, letadel a automobilů od společnosti Caltech a přesnosti 99,4 procent obrazových datových souborů druhů ryb.

Další přístupy

Aplikace

Metody rozpoznávání objektů mají následující aplikace:

Průzkumy

  • Daniilides a Eklundh, Edelman.
  • Roth, Peter M. & Winter, Martin (2008). „METODY PRO ROZPOZNÁVÁNÍ OBJEKTŮ ZALOŽENÉ NA PRŮZKUMU“ (PDF) . Technická zpráva . ICG-TR-01/08.

Viz také

Seznamy

Poznámky

Reference

externí odkazy