Morfologická analýza - Morphological parsing

Morfologický rozbor je při zpracování přirozeného jazyka proces určování morfémů, ze kterých je dané slovo konstruováno. Musí být schopen rozlišovat mezi pravopisnými pravidly a pravidly morfologickými. Například slovo „lišky“ lze rozložit na „liška“ (stonek) a „es“ (přípona označující pluralitu).

Obecně přijímaným přístupem k morfologické analýze je použití převodníku konečného stavu (FST), který zadává slova a vydává jejich kmen a modifikátory. FST je zpočátku vytvořen pomocí algoritmické analýzy některého zdroje slov, například slovníku, doplněného značkovacími značkami.

Dalším přístupem je použití indexované vyhledávací metody, která používá vytvořený radixový strom . Toto není často používaná trasa, protože se rozpadá pro morfologicky složité jazyky.

S rozvojem neuronových sítí ve zpracování přirozeného jazyka se stalo méně obvyklé používat FST pro morfologickou analýzu, zejména pro jazyky, pro které existuje mnoho dostupných tréninkových dat . Pro takové jazyky je možné vytvářet jazykové modely na úrovni znaků bez výslovného použití morfologického analyzátoru.

Ortografický

Pravopisná pravidla jsou obecná pravidla používaná při rozbití slova na jeho kmen a modifikátory . Příkladem může být: singulární anglická slova končící na -y, když jsou množná, končí na -ies. Srovnejte to s morfologickými pravidly, která obsahují rohové případy, s těmito obecnými pravidly. Oba tyto typy pravidel se používají ke konstrukci systémů, které mohou provádět morfologické analýzy.

Morfologické

Morfologická pravidla jsou výjimkami z pravopisných pravidel používaných při rozbití slova na jeho kmen a modifikátory. Příkladem by bylo, když člověk normálně pluralizuje slovo v angličtině přidáním 's' jako přípony, slovo 'ryba' se při pluralizaci nemění. Srovnejte to s pravopisnými pravidly, která obsahují obecná pravidla. Oba tyto typy pravidel se používají ke konstrukci systémů, které mohou provádět morfologické analýzy.

Byly navrženy různé modely přirozeného morfologického zpracování. Některé experimentální studie naznačují, že monolingvní mluvčí zpracovávají slova jako celek, když je poslouchají, zatímco jejich pozdní dvojjazyční vrstevníci rozkládají slova do jejich odpovídajících morfémů, protože jejich lexikální reprezentace nejsou tak konkrétní a protože lexikální zpracování v druhém jazyce může být méně časté než zpracování mateřského jazyka.

Mezi aplikace morfologického zpracování patří strojový překlad, kontrola pravopisu a získávání informací.

Reference