Automatická identifikace druhů - Automated species identification

Automatizovaná identifikace druhů je metoda , jak prostřednictvím digitálních technologií a umělé inteligence zpřístupnit ekologům, parataxonomistům a dalším odborníkům taxonomy odborné znalosti . Dnes většina automatizovaných identifikačních systémů spoléhá při identifikaci na obrázky zobrazující druhy. Na základě přesně identifikovaných obrazů druhu je vycvičen klasifikátor . Jakmile je tento klasifikátor vystaven dostatečnému množství tréninkových dat, pak může identifikovat cvičené druhy na dříve neviděných obrázcích. Přesná identifikace druhů je základem všech aspektů taxonomického výzkumu a je nezbytnou součástí pracovních toků biologického výzkumu.

Úvod

Automatizovaná identifikace biologických objektů, jako je hmyz (fyzické osoby) a / nebo skupiny (například druh , cechy, znaků) byl sen mezi systematists po celá staletí. Cílem některých z prvních vícerozměrných biometrických metod bylo řešit trvalý problém skupinové diskriminace a meziskupinové charakterizace. Navzdory mnoha přípravným pracím v 50. a 60. letech se pokrok v navrhování a zavádění praktických systémů pro plně automatizovanou biologickou identifikaci objektů ukázal jako frustrující pomalý. Ještě v roce 2004 aktualizoval Dan Janzen sen pro nové publikum:

Kosmická loď přistává. Vykročí. Poukazuje na to kolem. Píše se v něm „přátelský - nepřátelský - jedlý - jedovatý - bezpečný - nebezpečný - žijící - neživý“. Na dalším tahu je napsáno „ Quercus oleoides - Homo sapiens - Spondias mombin - Solanum nigrum - Crotalus durissus - Morpho peleides - serpentine“. To se mi honí hlavou od doby, co jsem před půl stoletím četl sci -fi v deváté třídě.

Problém identifikace druhů

DFE - grafické rozhraní systému Daisy . Na obrázku je křídlo kousavého svrabu Culicoides sp., Jehož některé druhy jsou vektory katarální horečky ovcí . Jiní mohou být také vektory Schmallenbergova viru , nově se objevující choroby hospodářských zvířat, zejména ovcí.
(Kredit: Mark A. O'Neill )

Janzenovo preferované řešení tohoto klasického problému zahrnovalo stavbu strojů k identifikaci druhů z jejich DNA . Jeho předpokládaný rozpočet a navrhovaný výzkumný tým je „1 milion USD a pět chytrých lidí“. Nedávný vývoj počítačových architektur a inovace v softwarovém designu však vložily nástroje potřebné k realizaci Janzenovy vize do rukou komunity systematiky a počítačové vědy, a to nikoli za několik let, ale nyní; a to nejen pro vytváření čárových kódů DNA , ale také pro identifikaci na základě digitálních obrázků .

Klíčový průzkum publikovaný v roce 2004 zkoumá, proč se automatická identifikace druhů v současné době příliš nepoužívá a zda by to byla realistická možnost do budoucna. Autoři zjistili, že „malý, ale rostoucí počet studií se snažil vyvinout automatizované systémy identifikace druhů na základě morfologických znaků“. Přehled 20 studií analyzujících struktury druhů, jako jsou buňky, pyl, křídla a genitálie, ukazuje úspěšnost identifikace mezi 40% a 100% na tréninkových sadách s 1 až 72 druhy. U těchto systémů však také identifikovali čtyři zásadní problémy: (1) tréninkové sady-byly příliš malé (5–10 vzorků na druh) a jejich rozšíření zejména u vzácných druhů může být obtížné, (2) chyby v identifikaci-nejsou dostatečně studoval, aby je zvládl a našel systematiku, (3) škálování - studie zvažují pouze malý počet druhů (<200 druhů) a (4) nové druhy - systémy jsou omezeny na druhy, pro které byli vyškoleni, a klasifikují jakýkoli nový pozorování jako jeden ze známých druhů.

Průzkum publikovaný v roce 2017 systematicky porovnává a diskutuje pokrok a zjištění směrem k automatizované identifikaci druhů rostlin v posledním desetiletí (2005–2015). Během této doby bylo na vysoce kvalitních místech publikováno 120 primárních studií, převážně od autorů s počítačovým vzděláním. Tyto studie navrhují řadu přístupů počítačového vidění , tj. Funkce snižující vysokou dimenzi obrazových dat založených na pixelech při zachování charakteristických informací a metod klasifikace. Drtivá většina těchto studií analyzuje listy k identifikaci, zatímco pouze 13 studií navrhuje metody identifikace na bázi květin . Důvodem je, že listy lze snáze sbírat a zobrazovat a jsou k dispozici po většinu roku. Navrhované vlastnosti zachycují obecnou charakteristiku objektu, tj. Tvar , texturu a barvu, jakož i charakteristiky specifické pro listy, tj. Žilnatost a okraj. Většina studií stále používala k hodnocení datové soubory, které neobsahovaly více než 250 druhů . V tomto ohledu však došlo k pokroku, jedna studie používá datový soubor s> 2k a druhý s> 20k druhy .

Tento vývoj nemohl přijít v lepší dobu. Jak již taxonomická komunita ví, světu dochází specialisté, kteří dokážou identifikovat biologickou rozmanitost, jejíž zachování se stalo celosvětovým problémem. Při komentování tohoto problému v paleontologii již v roce 1993 Roger Kaesler poznal:

"... docházejí nám systematičtí paleontologové, kteří mají cokoli, co se blíží synoptickým znalostem hlavní skupiny organismů ... Palaeontologové příštího století pravděpodobně nebudou mít luxus dlouhého řešení taxonomických problémů ... Palaeontologie bude muset udržet svou úroveň vzrušení." bez pomoci systematiků, kteří tolik přispěli k jeho úspěchu. “

Tento nedostatek odbornosti zasahuje tak hluboko do těch komerčních průmyslových odvětví, která se spoléhají na přesné identifikace (např. Zemědělství , biostratigrafie ), stejně jako do celé řady čistých a aplikovaných výzkumných programů (např. Ochrana , biologická oceánografie , klimatologie , ekologie ). Rovněž se běžně, i když neformálně, uznává, že technická, taxonomická literatura všech skupin organismů je plná příkladů nekonzistentních a nesprávných identifikací. Důvodem je řada faktorů, včetně nedostatečně vyškolených a kvalifikovaných taxonomů při identifikaci (např. Používání odlišných pravidel pro rozpoznávání hranic mezi podobnými skupinami), nedostatečně podrobných popisů původních skupin a/nebo ilustrací, nedostatečného přístupu k aktuálním monografiím a dobře upraveným sbírkám a samozřejmě k taxonomům, kteří mají různé názory na skupinové koncepce. Peer review pouze vymaže nejzjevnější chyby v provizi nebo opomenutí v této oblasti, a to pouze tehdy, když autor poskytne odpovídající reprezentace (např. Ilustrace, záznamy a genové sekvence) dotyčných vzorků.

Systematika má také hodně, prakticky i teoreticky, z dalšího vývoje a používání automatizovaných identifikačních systémů. Nyní je všeobecně uznáváno, že časy systematiky jako oblasti osídlené mírně výstředními jednotlivci, kteří usilují o znalosti v nádherné izolaci od priorit financování a ekonomických imperativů, se rychle blíží ke konci. Aby přilákala jak personál, tak zdroje, musí se systematika přeměnit na „velký, koordinovaný, mezinárodní vědecký podnik“. Mnozí označili používání internetu - zejména prostřednictvím World Wide Web - za médium, prostřednictvím kterého lze tuto transformaci provést. Zatímco zřízení virtuálního systému podobného GenBank pro přístup k morfologickým datům, zvukovým klipům, video souborům atd. By bylo významným krokem správným směrem, lepší přístup k pozorovacím informacím a/nebo textovým popisům nebude řešit pouze zda jsou problémy s taxonomickou překážkou nebo nízkou reprodukovatelností identifikace úspěšné. Místo toho musí být nevyhnutelná subjektivita spojená s rozhodováním na základě kvalitativních kritérií omezena nebo přinejmenším začleněna do formálněji analytického kontextu.

Proteinové gelové obrázky SDS housenek můry sfingy. Lze jej použít podobným způsobem jako otisky prstů DNA

Správně navržené, flexibilní a robustní automatizované identifikační systémy, organizované kolem distribuovaných počítačových architektur a odkazující na autoritativně identifikované sbírky dat tréninkové sady (např. Obrázky a genové sekvence ), mohou v zásadě poskytnout přístup k elektronickým datům všem systematikům archivy a nezbytné analytické nástroje pro zpracování rutinních identifikací běžných taxonů. Správně navržené systémy dokážou rozpoznat i to, když jejich algoritmy nedokáží spolehlivě identifikovat, a odeslat tento obrázek specialistovi (na jehož adresu lze získat přístup z jiné databáze). Takové systémy mohou také zahrnovat prvky umělé inteligence, a tak zlepšovat jejich výkon, čím více se používají. Nejvíce dráždivě, jakmile byly morfologické (nebo molekulární) modely druhu vyvinuty a prokázáno, že jsou přesné, lze tyto modely dotazovat, aby bylo možné určit, které aspekty pozorovaných vzorců variací a variačních limitů se používají k dosažení identifikace, čímž se otevírá cesta k objevování nových a (potenciálně) spolehlivějších taxonomických znaků.

  • iNaturalist je globální občanský vědecký projekt a sociální síť přírodovědců, která zahrnuje lidskou i automatickou identifikaci rostlin, zvířat a dalších živých tvorů prostřednictvím prohlížeče nebo mobilních aplikací.
  • Pl@ntNet je globální projekt občanské vědy, který poskytuje aplikaci a webové stránky pro identifikaci rostlin prostřednictvím fotografií, založené na strojovém učení
  • Leaf Snap je aplikace pro iOS vyvinutá Smithsonian Institution, která pomocí softwaru pro vizuální rozpoznávání identifikuje severoamerické dřeviny z fotografií listů.
  • FlowerChecker bot je Facebook Chatterbot, který pomocí softwaru pro vizuální rozpoznávání identifikuje druhy rostlin z fotografií. Robot používá databázi vytvořenou aplikací FlowerChecker pro mobilní telefony.
  • Fotky Google mohou na fotografiích automaticky identifikovat různé druhy.
  • Plant.id je webová aplikace, která využívá neuronovou síť trénovanou na fotografiích z aplikace FlowerChecker
  • Flora Incognita je aplikace vyvinutá jako součást výzkumného projektu a využívá kaskádu konvolučních neuronových sítí k identifikaci rostlin na základě obrázků a údajů o poloze.

Viz také

Citované reference

externí odkazy

Zde je několik odkazů na domovské stránky systémů identifikace druhů. Systémy SPIDA a DAISY jsou v zásadě obecné a schopné klasifikovat jakýkoli předložený obrazový materiál. Systém ABIS a DrawWing jsou omezeny na hmyz s membránovými křídly, protože fungují tak, že odpovídají konkrétní sadě znaků na základě žil křídla.