Disambiguation of word -sense - Word-sense disambiguation

Slovo-sense disambiguation ( WSD ) je otevřený problém v počítačové lingvistice zabývá určit, které smysl o slovo se používá ve větě . Řešení tohoto problému ovlivňuje další psaní související s počítačem, například diskurz , zlepšování relevance vyhledávačů , rozlišení anafor , soudržnost a odvozování .

Vzhledem k tomu, že přirozený jazyk vyžaduje reflexi neurologické reality, jak je formována schopnostmi poskytovanými neuronovými sítěmi mozku , měla počítačová věda dlouhodobou výzvu v rozvoji schopnosti počítačů provádět zpracování přirozeného jazyka a strojové učení .

Bylo prozkoumáno mnoho technik, včetně metod založených na slovníku, které využívají znalosti zakódované v lexikálních zdrojích, metody strojového učení pod dohledem, v nichž je klasifikátor vyškolen pro každé odlišné slovo na korpusu příkladů s manuální anotací a zcela bez dozoru metody, které se shlukují výskyty slov, čímž se indukují slovní smysly. Mezi těmito metodami byly dosud nejúspěšnější algoritmy učení pod dohledem .

Přesnost současných algoritmů je obtížné určit bez řady upozornění. V angličtině je přesnost na hrubozrnné ( homografické ) úrovni běžně nad 90%, přičemž některé metody na konkrétních homografech dosahují přes 96%. Při rozlišování jemnozrnných smyslů byla nejvyšší přesnost od 59,1% do 69,0% hlášena v hodnotících cvičeních (SemEval-2007, Senseval-2), kde základní přesnost nejjednoduššího možného algoritmu vždy výběru nejčastějšího smyslu byla 51,4% respektive 57%.

O disambiguaci smyslu slova

Rozcestník vyžaduje dvě přísná vstupy: a slovníkové specifikovat smyslů, které mají být disambiguated a korpus z jazykových údajů, které mají být disambiguated (u některých metod se školení korpus je také potřebný příkladů jazyka). Úkol WSD má dvě varianty: "lexikální vzorek" (disambiguating the výskytů malého vzorku cílových slov, která byla dříve vybrána) a úkol "všechna slova" (disambiguation všech slov v běžícím textu). Úkol „Všechna slova“ je obecně považován za realističtější formu hodnocení, ale výroba korpusu je dražší, protože lidské anotátory musí číst definice pro každé slovo v pořadí pokaždé, když potřebují udělat úsudek se značkováním, a ne jednou. pro blok instancí pro stejné cílové slovo.

Dějiny

WSD byl poprvé formulován jako zřetelný výpočetní úkol v počátcích strojového překladu v roce 1940, což z něj činí jeden z nejstarších problémů ve výpočetní lingvistice. Warren Weaver poprvé představil problém ve výpočetním kontextu ve svém memorandu o překladu z roku 1949. Později Bar-Hillel (1960) tvrdil, že WSD nelze vyřešit „elektronickým počítačem“, protože je obecně potřeba modelovat veškeré znalosti světa.

V sedmdesátých letech byl WSD dílčím úkolem sémantických interpretačních systémů vyvinutých v oblasti umělé inteligence, počínaje Wilksovou preferenční sémantikou. Protože však systémy WSD byly v té době do značné míry založeny na pravidlech a ručně kódovány, byly náchylné k úzkému místu získávání znalostí.

V 80. letech 20. století byly k dispozici rozsáhlé lexikální zdroje, jako je Oxford Advanced Learner's Dictionary of Current English (OALD): ruční kódování bylo nahrazeno znalostmi automaticky extrahovanými z těchto zdrojů, ale disambiguation byl stále založen na znalostech nebo slovníku .

V devadesátých letech statistická revoluce pokročila ve výpočetní lingvistice a WSD se stal paradigmatickým problémem, na kterém bylo možné aplikovat techniky strojového učení pod dohledem.

Techniky dohlížené na 2000s dosáhly úrovně přesnosti, a tak se pozornost přesunula na hrubozrnnější smysly, přizpůsobení domény , systémy s polovičním dohledem a bez dozoru založené na korpusu, kombinace různých metod a návrat systémů založených na znalostech prostřednictvím grafu -metody na bázi. Přesto systémy pod dohledem nadále fungují nejlépe.

Potíže

Rozdíly mezi slovníky

Jedním z problémů s disambiguací smyslu slova je rozhodování o tom, jaké jsou smysly, protože různé slovníky a tezaury poskytnou různá rozdělení slov na smysly. Někteří vědci navrhli zvolit konkrétní slovník a použít jeho sadu smyslů k řešení tohoto problému. Obecně však výsledky výzkumu využívající široké rozlišení smyslů byly mnohem lepší než výsledky využívající úzké. Většina výzkumníků pokračuje v práci na jemnozrnném WSD.

Většina výzkumů v oblasti WSD se provádí pomocí aplikace WordNet jako inventáře referenčních smyslů pro angličtinu. WordNet je výpočetní lexikon, který kóduje pojmy jako sady synonym (např. Pojem auto je kódován jako {auto, auto, automobil, machine, motorcar}). Mezi další zdroje použité pro účely disambiguace patří Rogetův tezaurus a Wikipedie . V nedávné době byl pro vícejazyčný WSD používán BabelNet , vícejazyčný encyklopedický slovník.

Značení části řeči

V každém skutečném testu bylo prokázáno, že značení části řeči a značení smyslů jsou velmi úzce spjaty s každým z nich, které mohou druhému vytvářet omezení. Otázka, zda by tyto úkoly měly být drženy pohromadě nebo odděleny, stále není jednomyslně vyřešena, ale v poslední době se vědci přiklánějí k tomu, aby tyto věci testovali samostatně (např. V soutěžích Senseval/ SemEval jsou části textu poskytovány jako vstup pro text k jednoznačnějšímu určení).

Oba tagy slovní části WSM zahrnují disambiguating nebo tagování slovy. Algoritmy používané pro jeden však nemají tendenci dobře fungovat pro druhé, hlavně proto, že slovní druh slova je primárně určen bezprostředně sousedícím jedním až třemi slovy, zatímco smysl slova může být určen slovy dále . Úspěšnost algoritmů označování části řeči je v současné době mnohem vyšší než u WSD, přičemž nejmodernější technologie je s přesností kolem 96% nebo lepší, ve srovnání s méně než 75% přesností v disambiguaci slova ve smyslu slova s učením pod dohledem . Tyto údaje jsou typické pro angličtinu a mohou se velmi lišit od údajů v jiných jazycích.

Variance mezi soudci

Dalším problémem je odchylka mezi soudci . Systémy WSD se normálně testují tak, že se jejich výsledky na úkolu porovnávají s těmi lidskými. I když je relativně snadné přiřadit části řeči k textu, ukázalo se, že trénovat lidi k označování smyslů je mnohem obtížnější. I když si uživatelé mohou zapamatovat všechny možné části řeči, které slovo může mít, je pro jednotlivce často nemožné zapamatovat si všechny smysly, které slovo může mít. Lidé navíc nesouhlasí s daným úkolem - dejte seznam smyslů a vět a lidé nebudou vždy souhlasit s tím, které slovo v jakém smyslu patří.

Protože lidský výkon slouží jako standard, je to horní hranice výkonu počítače. Lidská výkonnost je však mnohem lepší na hrubozrnných než jemnozrnných rozdílech, takže to je důvod, proč byl v nedávných cvičeních WSD testován výzkum hrubozrnných rozdílů.

Pragmatika

Někteří badatelé AI, jako Douglas Lenat, tvrdí, že nelze analyzovat významy ze slov bez nějaké formy ontologie zdravého rozumu . Tento lingvistický problém se nazývá pragmatika . Jak se shodli vědci, k správné identifikaci smyslů slov je třeba znát fakta o zdravém rozumu. Kromě toho je někdy zapotřebí zdravý rozum k disambiguaci takových slov, jako jsou zájmena, v případě, že jsou v textu anafory nebo katafory .

Smysl inventáře a závislost algoritmů na úkolech

Smyslný inventář nezávislý na úkolu není souvislý koncept: každý úkol vyžaduje vlastní rozdělení významu slova na smysly relevantní pro daný úkol. Navíc různé aplikace mohou vyžadovat zcela odlišné algoritmy. Ve strojovém překladu má problém formu výběru cílového slova. „Smysly“ jsou slova v cílovém jazyce, která často odpovídají významným významovým rozdílům ve zdrojovém jazyce („banka“ by se dala přeložit do francouzštiny „banque“ - to znamená „finanční banka“ nebo „rive“ - tj. „okraj řeky“). Při získávání informací není nutně nutný inventář smyslu, protože stačí vědět, že slovo je v dotazu a načteném dokumentu použito ve stejném smyslu; jaký je to smysl, není důležité.

Diskrétnost smyslů

Nakonec samotný pojem „ slovní smysl “ je kluzký a kontroverzní. Většina lidí může souhlasit v rozdílech na úrovni hrubozrnného homografu (např. Pero jako psací nástroj nebo příloha), ale přejít o jednu úroveň níže na jemnozrnnou polysémii a vznikají neshody. Například ve hře Senseval-2, která používala jemnozrnné rozlišování smyslů, se lidští anotátoři shodli pouze na 85% výskytů slov. Význam slova je v zásadě nekonečně variabilní a citlivý na kontext. Nerozděluje se snadno na odlišné nebo diskrétní podvýznamy. Lexikografové často objevují v korpusech volné a překrývající se významy slov a standardní nebo konvenční významy rozšiřují, modulují a zneužívají různými způsoby. Umění lexikografie je generalizovat od korpusu k definicím, které evokují a vysvětlují celou škálu významů slova, takže to vypadá, že se slova chovají sémanticky dobře. Není však vůbec jasné, zda jsou stejné významové rozdíly použitelné ve výpočetních aplikacích , protože rozhodnutí lexikografů jsou obvykle vedena jinými úvahami. V roce 2009 byl jako možné řešení problému smyslové diskrétnosti navržen úkol nazvaný lexikální substituce . Úkol spočívá v poskytnutí náhrady za slovo v kontextu, který zachovává význam původního slova (potenciálně lze náhrady vybrat z úplného lexikonu cílového jazyka, čímž se překoná diskrétnost).

Přístupy a metody

Existují dva hlavní přístupy k WSD - hluboké přístupy a mělké přístupy.

Hluboké přístupy předpokládají přístup ke komplexnímu souboru světových znalostí . Tyto přístupy nejsou v praxi obecně považovány za příliš úspěšné, hlavně proto, že takový soubor znalostí neexistuje v počítačově čitelném formátu mimo velmi omezené domény. Navíc vzhledem k dlouhé tradici ve výpočetní lingvistice , zkoušení takových přístupů z hlediska kódovaných znalostí a v některých případech může být obtížné rozlišit mezi znalostmi obsaženými v jazykových nebo světových znalostech. Prvním pokusem bylo, aby Margaret Mastermanová a její kolegové z oddělení jazykového výzkumu Cambridge v Anglii v 50. letech minulého století. Tento pokus použil jako data verzi Rogetova tezauru a jeho očíslovaných „hlav“ jako děrné karty, jako indikátor témat a hledal opakování v textu pomocí nastaveného křižovatkového algoritmu. Nebylo to příliš úspěšné, ale mělo silné vztahy k pozdější práci, zejména Yarowského optimalizace strojového učení metodou tezauru v 90. letech.

Mělké přístupy se nesnaží porozumět textu, ale berou v úvahu okolní slova. Tato pravidla může počítač automaticky odvodit pomocí tréninkového korpusu slov označených jejich slovními smysly. Tento přístup, i když teoreticky není tak účinný jako hluboké přístupy, poskytuje vynikající výsledky v praxi díky omezeným znalostem světa počítače.

K WSD existují čtyři konvenční přístupy:

Téměř všechny tyto přístupy fungují tak, že definují okno n obsahových slov kolem každého slova, které má být v korpusu disambiguated, a statisticky analyzuje těchto n okolních slov. Dva mělké přístupy používané k tréninku a poté k disambiguate jsou klasifikátory Naïve Bayes a rozhodovací stromy . V nedávném výzkumu ukázaly metody založené na jádru, jako jsou podpůrné vektorové stroje, vynikající výkon v supervizovaném učení . Přístupy založené na grafech si také získaly velkou pozornost výzkumné komunity a v současné době dosahují výkonů blízkých stavu techniky.

Metody založené na slovníku a znalostech

Lesk algoritmus je klíčový způsob slovníku bázi. Vychází z hypotézy, že slova použitá společně v textu spolu souvisí a že vztah lze pozorovat v definicích slov a jejich smyslů. Dvě (nebo více) slova jsou disambiguated vyhledáním dvojice slovníkových smyslů s největším překrytím slova v jejich slovníkových definicích. Například při disambiguaci slov v „borové šišce“ zahrnují definice příslušných smyslů slova evergreen a strom (alespoň v jednom slovníku). Podobný přístup hledá nejkratší cestu mezi dvěma slovy: druhé slovo se iterativně hledá mezi definicemi každé sémantické varianty prvního slova, poté mezi definicemi každé sémantické varianty každého slova v předchozích definicích atd. Nakonec je první slovo disambiguated výběrem sémantické varianty, která minimalizuje vzdálenost od prvního k druhému slovu.

Alternativou k použití definic je zvážit obecnou příbuznost smyslu slova a vypočítat sémantickou podobnost každé dvojice slovních smyslů na základě dané lexikální znalostní báze, jako je WordNet . Metody založené na grafech připomínající šíření aktivačního výzkumu počátků výzkumu AI byly s určitým úspěchem použity. Ukázalo se, že složitější přístupy založené na grafech fungují téměř stejně dobře jako supervidované metody nebo je dokonce překonávají v konkrétních doménách. Nedávno bylo oznámeno, že jednoduchá měření konektivity grafů , jako je stupeň , provádějí nejmodernější WSD za přítomnosti dostatečně bohaté lexikální znalostní báze. Ukázalo se také, že automatické přenášení znalostí ve formě sémantických vztahů z Wikipedie do WordNet podporuje jednoduché metody založené na znalostech, které jim umožňují soupeřit s nejlepšími dohlíženými systémy a dokonce je překonávat v nastavení specifickém pro doménu.

Užitečné je také použití výběrových preferencí (nebo omezení výběru), například s vědomím, že člověk obvykle vaří jídlo, lze slovo „basa vařit“ disambiguate (tj. Není to hudební nástroj).

Metody pod dohledem

Metody pod dohledem jsou založeny na předpokladu, že kontext může sám o sobě poskytnout dostatek důkazů k disambiguaci slov ( zdravý rozum a úvahy jsou proto považovány za zbytečné). Pravděpodobně každý algoritmus strojového učení bude použit na WSD, včetně souvisejících technik, jako je výběr funkcí , optimalizace parametrů a souborové učení . Ukázalo se, že podpůrné vektorové stroje a učení založené na paměti jsou dosud nejúspěšnějšími přístupy, pravděpodobně proto, že se dokážou vyrovnat s vysokou dimenzí prostoru funkcí. Tyto kontrolované metody však podléhají novému překážce získávání znalostí, protože se spoléhají na značné množství ručně smyslově označených korpusů pro školení, jejichž vytvoření je pracné a nákladné.

Metody pod dohledem

Kvůli nedostatku tréninkových dat používá mnoho algoritmů disambiguace smyslu slova smysl semi-supervizního učení , které umožňuje data označená i neoznačená. Yarowsky Algoritmus byl časný příklad takového algoritmu. K disambiguaci smyslu slova používá vlastnosti lidských jazyků „Jeden smysl na kolokaci“ a „Jeden smysl na diskurz“. Z pozorování mají slova tendenci vykazovat pouze jeden smysl ve většině daného diskurzu a v dané kolokaci.

Přístup bootstrapingu začíná malým množstvím počátečních dat pro každé slovo: buď ručně označené příklady tréninku, nebo malý počet pravidel rozhodování o jistém ohni (např. „Hra“ v kontextu „basy“ téměř vždy označuje hudební nástroj). Semena se používají k výcviku počátečního klasifikátoru pomocí jakékoli metody pod dohledem. Tento klasifikátor se poté použije na neoznačenou část korpusu k extrahování větší tréninkové sady, do které jsou zahrnuty pouze nejspolehlivější klasifikace. Proces se opakuje, každý nový klasifikátor je trénován na postupně větším tréninkovém korpusu, dokud není spotřebován celý korpus nebo dokud není dosaženo daného maximálního počtu iterací.

Jiné techniky semi-supervised používají velké množství neoznačených korpusů k poskytování informací o společném výskytu, které doplňují tagované korpusy. Tyto techniky mají potenciál pomoci při adaptaci supervizovaných modelů na různé domény.

Také nejednoznačné slovo v jednom jazyce je často přeloženo do různých slov ve druhém jazyce v závislosti na smyslu slova. Dvojjazyčné korpusy zarovnané se slovem byly použity k odvození rozdílů mezi vícejazyčnými smysly, což je druh systému s polovičním dohledem.

Metody bez dohledu

Učení bez dozoru je pro výzkumníky WSD největší výzvou. Základním předpokladem je, že podobné smysly se vyskytují v podobných kontextech, a proto smysly mohou být indukovány z textu shlukováním výskytů slov pomocí určité míry podobnosti kontextu, úkol označovaný jako indukce nebo diskriminace smyslu slova . Poté lze nové výskyty slova zařadit do nejbližších indukovaných shluků/smyslů. Výkon byl nižší než u ostatních výše popsaných metod, ale srovnání je obtížné, protože indukované smysly musí být mapovány do známého slovníku slovních smyslů. Pokud není mapování na sadu slovníkových smyslů žádoucí, lze provést klastrové hodnocení (včetně měření entropie a čistoty). Alternativně lze metody indukce smyslu slova testovat a porovnávat v rámci aplikace. Ukázalo se například, že indukce smyslu slova zlepšuje shlukování výsledků webového vyhledávání zvýšením kvality klastrů výsledků a stupně diverzifikace seznamů výsledků. Doufáme, že učení bez dozoru překoná úzké hrdlo získávání znalostí, protože nejsou závislé na manuálním úsilí.

Reprezentace slov zvažujících jejich kontext prostřednictvím hustých vektorů pevné velikosti ( vkládání slov ) se stalo jedním z nejzákladnějších bloků v několika systémech NLP. Přestože většina tradičních technik vkládání slov spojuje slova s ​​více významy do jediné vektorové reprezentace, stále je lze použít ke zlepšení WSD. Kromě technik vkládání slov mohou lexikální databáze (např. WordNet , ConceptNet , BabelNet ) pomáhat systémům bez dozoru při mapování slov a jejich smyslů jako slovníků. Některé techniky, které kombinují lexikální databáze a vkládání slov, jsou uvedeny v anotaci AutoExtend a Most Vhodné Sense (MSSA). V AutoExtendu představují metodu, která odděluje reprezentaci vstupu objektu od jeho vlastností, jako jsou slova a jejich slovní smysly. AutoExtend používá strukturu grafu k mapování slov (např. Textu) a neslovných (např. Synset v WordNet ) objektů jako uzlů a vztahu mezi uzly jako hranami. Vztahy (hrany) v AutoExtendu mohou buď vyjadřovat sčítání nebo podobnost mezi jeho uzly. První zachycuje intuici za ofsetovým kalkulem, zatímco druhý definuje podobnost mezi dvěma uzly. V MSSA, bez dozoru disambiguation systém používá podobnost mezi smysly slov v pevném kontextovém okně k výběru nejvhodnějšího smyslu slova pomocí předem vycvičeného modelu vkládání slov a WordNet . Pro každé kontextové okno vypočítá MSSA těžiště každé definice smyslu slova průměrováním vektorů slov svých slov v glosách WordNet (tj. Krátký definující lesk a jeden nebo více příkladů použití) pomocí předem vycvičeného modelu vkládání slov. Tyto centroidy jsou později použity k výběru slova smysl s nejvyšší podobností cílového slova s ​​jeho bezprostředně sousedícími sousedy (tj. Předchůdci a nástupci slova). Poté, co jsou všechna slova opatřena poznámkami a disambiguated, mohou být použita jako cvičný korpus v jakékoli standardní technice vkládání slov. Ve své vylepšené verzi může MSSA využívat vložení smyslů pro slova k opakování iterativního procesu disambiguation.

Jiné přístupy

Jiné přístupy se mohou ve svých metodách lišit:

Jiné jazyky

  • Hindština  : Nedostatek lexikálních zdrojů v hindštině brání výkonu dohlížených modelů WSD, zatímco modely bez dozoru trpí kvůli rozsáhlé morfologii. Možným řešením tohoto problému je návrh modelu WSD pomocí paralelních korpusů . Vytvoření hindštiny WordNet vydláždilo cestu několika kontrolovaným metodám, u nichž bylo prokázáno, že přinášejí vyšší přesnost při rozlišování podstatných jmen.

Místní překážky a shrnutí

Úzké místo při získávání znalostí je možná hlavní překážkou řešení problému WSD. Metody bez dozoru se spoléhají na znalosti o slovních smyslech, které jsou ve slovnících a lexikálních databázích formulovány pouze řídce. Metody pod dohledem zásadně závisí na existenci manuálně komentovaných příkladů pro každý smysl slova, což je požadavek, který lze zatím splnit pouze pro hrstku slov pro účely testování, jak se to dělá ve cvičeních Senseval .

Jedním z nejslibnějších trendů výzkumu WSD je používání největšího korpusu, jaký kdy byl k dispozici, World Wide Web , k automatickému získávání lexikálních informací. WSD je tradičně chápán jako technická technologie pro střední jazyky, která by mohla zlepšit aplikace, jako je vyhledávání informací (IR). V tomto případě však platí i opak: webové vyhledávače implementují jednoduché a robustní IR techniky, které dokážou úspěšně těžit web pro informace, které lze použít ve WSD. Historický nedostatek tréninkových dat vyvolal vznik některých nových algoritmů a technik, jak je popsáno v části Automatické získávání korpusů se smyslovými značkami .

Externí zdroje znalostí

Znalosti jsou základní součástí WSD. Zdroje znalostí poskytují data, která jsou nezbytná pro spojování smyslů se slovy. Mohou se lišit od korpusů textů, buď neoznačených nebo anotovaných slovními smysly, až po strojově čitelné slovníky, tezaury, glosáře, ontologie atd. Lze je klasifikovat takto:

Strukturováno:

  1. Strojově čitelné slovníky (MRD)
  2. Ontologie
  3. Tezauri

Nestrukturovaný:

  1. Kolokační prostředky
  2. Další zdroje (například seznamy frekvence slov , stoplisty , štítky domén atd.)
  3. Korpusy : surové korpusy a smyslně komentované korpusy

Vyhodnocení

Porovnání a hodnocení různých systémů WSD je extrémně obtížné, protože jsou použity různé testovací sady, inventáře smyslů a zdroje znalostí. Před organizováním konkrétních hodnotících kampaní byla většina systémů hodnocena na interních, často malých, sadách dat . Aby mohli testovat svůj algoritmus, měli by vývojáři věnovat čas anotování všech výskytů slov. A porovnávání metod dokonce na stejném korpusu není způsobilé, pokud existují různé smyslové zásoby.

Aby bylo možné definovat společné soubory a postupy hodnocení, byly uspořádány veřejné hodnotící kampaně. Senseval (nyní přejmenovaný na SemEval ) je mezinárodní soutěž v rozlišování slov, která se koná každé tři roky od roku 1998: Senseval-1 (1998), Senseval-2 (2001), Senseval-3 (2004) a její nástupce SemEval (2007) . Cílem soutěže je uspořádat různé přednášky, připravit a ručně komentovat korpus pro testovací systémy, provést srovnávací hodnocení systémů WSD v několika typech úkolů, včetně slovních a lexikálních ukázek WSD pro různé jazyky, a v poslední době , nové úkoly, jako je sémantické označování rolí , lesklá WSD, lexikální substituce atd. Systémy předložené k hodnocení do těchto soutěží obvykle integrují různé techniky a často kombinují supervidované a znalostní metody (zejména pro zamezení špatného výkonu při nedostatku příkladů školení) .

V posledních letech 2007–2012 se možnosti vyhodnocovacího úkolu WSD rozrostly a kritérium hodnocení WSD se drasticky změnilo v závislosti na variantě hodnotícího úkolu WSD. Níže uvádíme výčet různých úkolů WSD:

Volby návrhu úkolu

Jak se technologie vyvíjí, úkoly Word Sense Disambiguation (WSD) rostou v různých příchutích směrem k různým směrům výzkumu a pro více jazyků:

  • Klasické jednojazyčné úlohy hodnocení WSD používají WordNet jako inventář smyslů a jsou z velké části založeny na klasifikaci pod dohledem / semi-supervizorem s ručně snímanými anotovanými korpusy:
    • Klasický anglický WSD používá Princeton WordNet, protože snímá inventář a primární vstup klasifikace je obvykle založen na korpusu SemCor .
    • Klasický WSD pro jiné jazyky používá jejich příslušný WordNet jako inventáře smyslů a korpusy s poznámkami označené v jejich příslušných jazycích. Vědci často také klepnou na korpus SemCor a zarovnají bitexty s angličtinou jako zdrojovým jazykem
  • Úkolem vícejazyčného hodnocení WSD je také zaměření na WSD ve 2 nebo více jazycích současně. Na rozdíl od vícejazyčných úkolů WSD, namísto manuálního poskytování příkladů s anotací pro každý smysl polysémového podstatného jména je inventář smyslů vytvořen na základě paralelních korpusů, např. Korpusu Europarl.
  • Vícejazyčné úlohy hodnocení WSD se zaměřily na WSD ve 2 nebo více jazycích současně s využitím jejich příslušných WordNetů jako jejich smyslových inventářů nebo BabelNet jako vícejazyčných smyslových zásob. Vyvinul se z vyhodnocovacích úkolů Translation WSD, které proběhly v Senseval-2. Oblíbeným přístupem je provádět jednojazyčné WSD a poté mapovat smysly zdrojového jazyka do odpovídajících překladů cílových slov.
  • Úkol indukce a disambiguace funkce Word Sense je kombinované hodnocení úkolů, kde je inventář smyslů nejprve indukován z pevných dat tréninkové sady , skládajících se z polysémických slov a věty, ve které se vyskytly, a poté se WSD provádí na jiné sadě testovacích dat .

Software

  • Babelfy, sjednocený nejmodernější systém pro vícejazyčnou disambiguaci Word Sense a propojení entit
  • BabelNet API, Java API pro znalostní vícejazyčnou disambiguaci Word Sense v 6 různých jazycích pomocí sémantické sítě BabelNet
  • WordNet :: SenseRelate, projekt, který zahrnuje bezplatné systémy s otevřeným zdrojovým kódem pro disambiguaci smyslu slova a lexikální vzorovou disambiguaci
  • UKB: Graph Base WSD, soubor programů pro provádění graficky založené disambiguace Word Sense a lexikální podobnosti/příbuznosti pomocí již existující lexikální znalostní báze
  • pyWSD, pythonové implementace technologií Word Sense Disambiguation (WSD)

Viz také

Poznámky

Citované práce

Externí odkazy a doporučené čtení