Zpracování dokumentů - Document processing

Zpracování dokumentů je oblast výzkumu a soubor výrobních procesů zaměřených na digitalizaci analogového dokumentu . Zpracování dokumentu si klade za cíl nejen vyfotografovat nebo naskenovat dokument za účelem získání digitálního obrázku , ale také jej učinit digitálně srozumitelným. To zahrnuje extrahování struktury dokumentu nebo rozložení a poté obsahu, který může mít podobu textu nebo obrázků. Proces může zahrnovat tradiční algoritmy počítačového vidění , konvoluční neuronové sítě nebo manuální práci. Řešené problémy souvisejí se sémantickou segmentací , detekcí objektů , optickým rozpoznáváním znaků (OCR) , rozpoznáváním ručně psaného textu (HTR) a v širším smyslu s transkripcí , ať už automatickou nebo ne. Termín může také zahrnovat fázi digitalizace dokumentu pomocí skeneru a fázi interpretace dokumentu, například pomocí technologií zpracování přirozeného jazyka (NLP) nebo klasifikace obrázků . Používá se v mnoha průmyslových a vědeckých oblastech pro optimalizaci administrativních procesů, zpracování pošty a digitalizaci analogových archivů a historických dokumentů.

Pozadí

Zpracování dokumentů bylo zpočátku stále, do určité míry, druh práce na výrobní lince zabývající se zpracováním dokumentů , jako jsou písmena a balíky, s cílem třídit, extrahovat nebo masivně extrahovat data. Tuto práci lze provádět interně nebo prostřednictvím outsourcingu obchodních procesů . Zpracování dokumentů může skutečně zahrnovat nějaký druh externalizované ruční práce, například mechanický turk .

Jako příklad ručního zpracování dokumentů, relativně čerstvého v roce 2007, bylo zpracování dokumentů pro „miliony žádostí o víza a občanství“ o použití „přibližně 1 000 smluvních pracovníků“, kteří pracují na „správě poštovního skladu a zadávání dat “.

Zatímco zpracování dokumentu zahrnovalo zadávání dat pomocí klávesnice ještě před použitím počítačové myši nebo počítačového skeneru , článek z roku 1990 v The New York Times o tom, čemu se říká „ bezpapírová kancelář “, uvedl, že „zpracování dokumentu začíná skenerem“. V této souvislosti vyjádřil kritický názor bývalý viceprezident společnosti Xerox Paul Strassman s tím, že počítače v kanceláři spíše přidávají, než snižují objem papíru. Bylo řečeno, že technické a údržbové dokumenty pro letadlo váží „více než samotné letadlo“.

Automatické zpracování dokumentů

Vzhledem k tomu, nejmodernější pokročilé zpracování dokumentů převedeni na manipulaci s „složky dokumentů ... jako databáze subjektů.“

Technologie nazývaná automatické zpracování dokumentů nebo někdy inteligentní zpracování dokumentů (IDP) se objevila jako specifická forma Intelligent Process Automation (IPA), kombinující umělou inteligenci, jako je strojové učení (ML), zpracování přirozeného jazyka (NLP) nebo inteligentní rozpoznávání znaků (ICR) ) extrahovat data z několika typů dokumentů.

Aplikace

Automatické zpracování dokumentů se vztahuje na celou řadu dokumentů, ať už strukturovaných nebo ne. Například ve světě obchodu a financí mohou být technologie použity ke zpracování papírových faktur, formulářů, nákupních objednávek, smluv a měnových účtů. Finanční instituce používají inteligentní zpracování dokumentů ke zpracování velkého objemu formulářů, jako jsou regulační formuláře nebo dokumenty o půjčce. IDP používá AI k extrakci a klasifikaci dat z dokumentů, nahrazuje ruční zadávání dat.

V medicíně byly vyvinuty metody zpracování dokumentů, které mají pacientům usnadnit sledování a zefektivnit administrativní postupy, zejména digitalizací zpráv z lékařských nebo laboratorních analýz. Cílem je také standardizace lékařských databází. Algoritmy se také přímo používají k pomoci lékařům při lékařské diagnostice, např. Analýzou obrazů magnetické rezonance nebo mikroskopických obrazů.

Zpracování dokumentů je také široce používáno v humanitních a digitálních humanitních oborech , za účelem získávání historických velkých dat z archivů nebo sbírek dědictví. Byly vyvinuty specifické přístupy pro různé zdroje, včetně textových dokumentů, jako jsou novinové archivy, ale také obrázky nebo mapy.

Technologie

Pokud byly od 80. let 20. století k řešení problémů se zpracováním dokumentů široce používány tradiční algoritmy počítačového vidění, byly v roce 2010 postupně nahrazeny technologiemi neuronových sítí. V některých sektorech se však stále používají tradiční technologie počítačového vidění, někdy ve spojení s neuronovými sítěmi.

Mnoho technologií podporuje vývoj zpracování dokumentů, zejména optické rozpoznávání znaků (OCR) a rozpoznávání rukou psaného textu (HTR), které umožňují automatický přepis textu. Textové segmenty jako takové jsou identifikovány pomocí algoritmů detekce instancí nebo objektů , které lze někdy také použít k detekci struktury dokumentu. Řešení posledně uvedeného problému někdy také používá sémantické segmentační algoritmy.

Tyto technologie často tvoří jádro zpracování dokumentů. Před nebo po těchto procesech však mohou zasahovat jiné algoritmy. Ve skutečnosti jsou také zahrnuty technologie digitalizace dokumentů , ať už ve formě klasického nebo trojrozměrného skenování. Digitalizace 3D dokumentů se může uchýlit zejména k derivátům fotogrammetrie . Někdy je také nutné vyvinout konkrétní 2D skenery, aby se přizpůsobily velikosti dokumentů nebo z důvodu ergonomie skenování. Zpracování dokumentu závisí také na digitálním kódování dokumentů ve vhodném formátu souboru . Zpracování heterogenních databází se navíc může opírat o technologie klasifikace obrázků .

Na druhém konci řetězce jsou různé algoritmy pro dokončení obrazu, extrapolaci nebo vyčištění dat. U textových dokumentů může interpretace využívat technologie zpracování přirozeného jazyka (NLP).

Viz také

Reference