Lexikální řetěz - Lexical chain

Sekvence mezi sémanticky souvisejícími uspořádanými slovy je klasifikována jako lexikální řetězec . Lexikální řetězec je sekvence souvisejících slov v písemné formě , klenout krátké (sousední slova nebo věty ) nebo na velké vzdálenosti (celý text). Řetěz je nezávislý na gramatické struktuře textu a ve skutečnosti se jedná o seznam slov, který zachycuje část soudržné struktury textu. Lexikální řetězec může poskytnout kontext pro řešení nejednoznačného výrazu a umožnit identifikaci konceptu, který tento výraz představuje.

  • Řím → hlavní město → město → obyvatel
  • Wikipedia → zdroj → web

O

Morris a Hirst zavádějí pojem lexikální řetězec jako rozšíření lexikální soudržnosti. Text, ve kterém je mnoho jeho vět sémanticky propojeno, často vytváří určitý stupeň návaznosti svých myšlenek a zajišťuje dobrou soudržnost mezi jeho větami. Definice použitá pro lexikální soudržnost uvádí, že soudržnost je výsledkem soudržnosti, nikoli naopak. Soudržnost souvisí se sadou slov, která k sobě patří kvůli abstraktnímu nebo konkrétnímu vztahu. Koherence se naopak týká skutečného významu v celém textu.

Morris a Hirst definovat, že lexikální řetězce využívají sémantický kontext pro interpretaci slov, pojmů a vět. Naproti tomu lexikální soudržnost je více zaměřena na vztahy dvojic slov. Lexikální řetězy rozšiřují tento pojem na pořadové číslo sousedních slov. Existují dva hlavní důvody, proč jsou lexikální řetězce nezbytné:

  • Realizovatelný kontext pro pomoc při nejednoznačnosti a zúžení problémů na konkrétní význam slova; a
  • Indikace k určení koherence a diskurzu, tedy hlubšího sémanticko-strukturálního významu textu.

Metoda představená Morrisem a Hirstem jako první přináší koncept lexikální soudržnosti do počítačových systémů prostřednictvím lexikálních řetězců. Pomocí své intuice identifikovali lexikální řetězce v textových dokumentech a vytvořili svou strukturu s ohledem na Hallidayova a Hassanova pozorování. Za tento úkol považovali pět textových dokumentů, celkem 183 vět z různých a nespecifických zdrojů. Opakovaná slova (např. Vysokofrekvenční slova, zájmena, výroky, slovesná pomocná slova) nebyla považována za prospektivní řetězové prvky, protože samotné struktuře nepřinášejí příliš významovou hodnotu.

Lexikální řetězce jsou vytvářeny podle řady vztahů mezi slovy v textovém dokumentu. V klíčové práci Morris a Hirst považují externí tezaurus ( Rogetův tezaurus ) za svou lexikální databázi k extrakci těchto vztahů. Lexikální řetězec je tvořen posloupností slov, která se objevují v tomto pořadí, například jakákoli dvě po sobě jdoucí slova mají následující vlastnosti (tj. Atributy jako kategorie , indexy a ukazatele v lexikální databázi) :

  • dvě slova sdílejí ve svém indexu jednu společnou kategorii;
  • kategorie jednoho z těchto slov ukazuje na druhé slovo;
  • jedno ze slov patří do vstupu nebo kategorie druhého slova;
  • dvě slova jsou sémanticky příbuzná; a
  • jejich kategorie souhlasí se společnou kategorií.

Přístupy a metody

Použití lexikálních řetězců v úlohách zpracování přirozeného jazyka (např. Podobnost textu, disambiguace slovních smyslů , shlukování dokumentů ) bylo v literatuře široce studováno. Barzilay a kol. Používají lexikální řetězce k vytváření shrnutí z textů. Navrhují techniku ​​založenou na čtyřech krocích: segmentace původního textu, konstrukce lexikálních řetězců, identifikace spolehlivých řetězců a extrakce významných vět. Silber a McCoy také zkoumají shrnutí textu , ale jejich přístup ke konstrukci lexikálních řetězců probíhá v lineárním čase.

Někteří autoři používají WordNet ke zlepšení vyhledávání a hodnocení lexikálních řetězců. Budanitsky a Kirst porovnávají několik měření sémantické vzdálenosti a příbuznosti pomocí lexikálních řetězců ve spojení s WordNet . Jejich studie dospěla k závěru, že míra podobnosti Jianga a Conratha představuje nejlepší celkový výsledek. Moldovan a Adrian studují použití lexikálních řetězců pro hledání tématicky souvisejících slov pro systémy odpovědí na otázky . To se provádí s ohledem na lesky pro každou synset v WordNet. Podle jejich zjištění topické vztahy prostřednictvím lexikálních řetězců zlepšují výkon systémů odpovědí na otázky v kombinaci s WordNet . McCarthy a kol. představit metodologii pro kategorizaci a nalezení nejpřevládajících synchronizací v neoznačených textech pomocí WordNet . Na rozdíl od tradičních přístupů (např. BOW ) berou v úvahu vztahy mezi termíny, které se výslovně nevyskytují. Ercan a Cicekli zkoumají účinky lexikálních řetězců v úkolu extrakce klíčových slov prostřednictvím pohledu supervizovaného strojového učení. Ve Wei a kol. kombinováním lexikálních řetězců a WordNet extrahujte sadu sémanticky souvisejících slov z textů a použijte je pro shlukování. Jejich přístup využívá ontologickou hierarchickou strukturu k zajištění přesnějšího posouzení podobnosti mezi pojmy během úlohy disambiguace slova smysl .

Lexikální řetězec a vkládání slov

I když je použitelnost lexikálních řetězců různorodá, je málo práce s jejich zkoumáním s nedávným pokrokem v NLP, konkrétněji s vkládáním slov . V, lexikální řetězce jsou postaveny pomocí specifických vzorů nalezených na WordNet a používaných pro učení vkládání slov . Jejich výsledné vektory jsou ověřeny v úkolu podobnosti dokumentu . Gonzales a kol. použijte vkládání slovních spojení k výrobě lexikálních řetězců, které jsou integrovány do modelu neurálního strojového překladu. Mascarelli navrhuje model, který pomocí lexikálních řetězců využívá statistický strojový překlad pomocí kodéru dokumentů. Místo použití externí lexikální databáze používají k detekci lexikálních řetězců ve zdrojovém textu vkládání slov .

Ruas et al. navrhnout dvě techniky, které kombinují lexikální databáze , lexikální řetězce a vkládání slov , a to Flexible Lexical Chain II (FLLC II) a Fixed Lexical Chain II (FXLC II). Hlavním cílem obou FLLC II a FXLC II je stručnější představení kolekce slov podle jejich sémantických hodnot. Ve FLLC II jsou lexikální řetězce sestavovány dynamicky podle sémantického obsahu pro každý hodnocený termín a vztahu s jeho sousedními sousedy. Pokud existuje sémantický vztah, který spojuje dvě nebo více slov, měla by být spojena do jedinečného konceptu. Sémantický vztah je získán prostřednictvím WordNet , který funguje jako základní pravda a naznačuje, která lexikální struktura spojuje dvě slova (např. Hypernymy, hyponyma, meronyma). Pokud se prezentuje slovo bez jakékoli sémantické afinity s aktuálním řetězcem, inicializuje se nový lexikální řetězec. Na druhou stranu FXLC II rozděluje textové segmenty na předdefinované bloky, každý s konkrétním počtem slov. Na rozdíl od FLLC II technika FXLC II seskupuje určité množství slov do stejné struktury bez ohledu na sémantickou příbuznost vyjádřenou v lexikální databázi. V obou metodách je každý vytvořený řetězec reprezentován slovem, jehož předem vyškolený vektor pro vkládání slov je nejvíce podobný průměrnému vektoru základních slov ve stejném řetězci.

Viz také

Reference