Zpracování přirozeného jazyka -Natural language processing

Automatizovaný online asistent poskytující zákaznický servis na webové stránce, příklad aplikace, kde je zpracování přirozeného jazyka hlavní součástí.

Zpracování přirozeného jazyka ( NLP ) je podobor lingvistiky , informatiky a umělé inteligence zabývající se interakcemi mezi počítači a lidským jazykem, zejména tím, jak naprogramovat počítače ke zpracování a analýze velkého množství dat přirozeného jazyka . Cílem je počítač schopný „porozumět“ obsahu dokumentů, včetně kontextových nuancí jazyka v nich. Technologie pak dokáže přesně extrahovat informace a poznatky obsažené v dokumentech, stejně jako kategorizovat a organizovat samotné dokumenty.

Výzvy při zpracování přirozeného jazyka často zahrnují rozpoznávání řeči , porozumění přirozenému jazyku a generování přirozeného jazyka .

Dějiny

Zpracování přirozeného jazyka má své kořeny v 50. letech 20. století. Již v roce 1950 publikoval Alan Turing článek s názvem „ Výpočetní stroje a inteligence “, který jako kritérium inteligence navrhoval to, co se nyní nazývá Turingův test , i když v té době to nebylo formulováno jako problém oddělený od umělé inteligence. Navrhovaný test obsahuje úlohu, která zahrnuje automatizovanou interpretaci a generování přirozeného jazyka.

Symbolické NLP (50. – počátek 90. ​​let)

Premisa symbolického NLP je dobře shrnuta v experimentu Johna Searlea s čínskou místností : Vzhledem ke sbírce pravidel (např. čínský slovníček frází s otázkami a odpovídajícími odpověďmi) počítač emuluje porozumění přirozenému jazyku (nebo jiné úkoly NLP). použití těchto pravidel na data, s nimiž je konfrontován.

  • 50. léta : Experiment v Georgetownu v roce 1954 zahrnoval plně automatický překlad více než šedesáti ruských vět do angličtiny. Autoři tvrdili, že do tří nebo pěti let bude strojový překlad vyřešeným problémem. Skutečný pokrok byl však mnohem pomalejší a po zprávě ALPAC v roce 1966, která zjistila, že desetiletý výzkum nesplnil očekávání, se finance na strojový překlad dramaticky snížily. Malý další výzkum v oblasti strojového překladu byl prováděn až do pozdních osmdesátých let, kdy byly vyvinuty první statistické systémy strojového překladu .
  • 60. léta : Některé pozoruhodně úspěšné systémy zpracování přirozeného jazyka vyvinuté v 60. letech byly SHRDLU , systém přirozeného jazyka pracující v omezených „ blokových světech “ s omezenou slovní zásobou, a ELIZA , simulace rogeriánského psychoterapeuta , kterou napsal Joseph Weizenbaum v letech 1964 až 1966. ELIZA s použitím téměř žádných informací o lidských myšlenkách nebo emocích poskytovala někdy až překvapivě lidskou interakci. Když „pacient“ překročí velmi malou znalostní základnu, ELIZA může poskytnout obecnou odpověď, například odpovědět na „Bolí mě hlava“ slovy „Proč říkáš, že tě bolí hlava?“.
  • 70. léta 20. století : Během 70. let začalo mnoho programátorů psát „konceptuální ontologie “, které strukturovaly informace z reálného světa do počítačově srozumitelných dat. Příklady jsou MARGIE (Schank, 1975), SAM (Cullingford, 1978), PAM (Wilensky, 1978), TaleSpin (Meehan, 1976), QUALM (Lehnert, 1977), Politics (Carbonell, 1979) a Plot Units (Lehnert 1981 ). Během této doby vznikli první chatterboti (např. PARRY ).
  • 80. léta : 80. a počátek 90. ​​let znamenají rozkvět symbolických metod v NLP. Mezi hlavní oblasti tehdejší doby patřil výzkum analýzy založené na pravidlech (např. vývoj HPSG jako výpočetní operacionalizace generativní gramatiky ), morfologie (např. dvouúrovňová morfologie), sémantika (např. algoritmus Lesk ), reference (např. v rámci teorie centrování) a dalších oblastí porozumění přirozenému jazyku (např. v teorii rétorické struktury ). Pokračovaly další směry výzkumu, např. vývoj chatterbotů s Racter a Jabberwacky . Důležitým vývojem (který nakonec vedl ke statistickému obratu v 90. letech 20. století) byl rostoucí význam kvantitativního hodnocení v tomto období.

Statistické NLP (1990–2010)

Až do 80. let 20. století byla většina systémů zpracování přirozeného jazyka založena na složitých souborech ručně psaných pravidel. Počínaje koncem 80. let však došlo k revoluci ve zpracování přirozeného jazyka se zavedením algoritmů strojového učení pro zpracování jazyka. Bylo to způsobeno jak neustálým nárůstem výpočetního výkonu (viz Moorův zákon ), tak postupným snižováním dominance Chomskyanových teorií lingvistiky (např . transformační gramatiky ), jejichž teoretické základy odrazovaly od druhu korpusové lingvistiky , která je základem přístupu strojového učení. na zpracování jazyka.

  • 90. léta 20. století : K mnoha významným raným úspěchům na statistických metodách v NLP došlo v oblasti strojového překladu , zejména díky práci ve společnosti IBM Research. Tyto systémy dokázaly využít výhod existujících vícejazyčných textových korpusů , které byly vytvořeny parlamentem Kanady a Evropskou unií v důsledku zákonů vyžadujících překlad všech vládních jednání do všech úředních jazyků příslušných systémů vlády. Většina ostatních systémů však závisela na korpusech speciálně vyvinutých pro úkoly realizované těmito systémy, což bylo (a často i nadále je) hlavním omezením úspěchu těchto systémů. V důsledku toho se velká část výzkumu zaměřila na metody efektivnějšího učení z omezeného množství dat.
  • 2000 : S růstem webu je od poloviny 90. let k dispozici stále větší množství nezpracovaných (nekomentovaných) jazykových dat. Výzkum se tak stále více soustředil na algoritmy učení bez dohledu a napůl pod dohledem . Takové algoritmy se mohou učit z dat, která nebyla ručně anotována požadovanými odpověďmi nebo pomocí kombinace anotovaných a neanotovaných dat. Obecně je tento úkol mnohem obtížnější než učení pod dohledem a obvykle poskytuje méně přesné výsledky pro dané množství vstupních dat. K dispozici je však obrovské množství nekomentovaných dat (včetně, mimo jiné, celého obsahu World Wide Web ), které často mohou nahradit horší výsledky, pokud má použitý algoritmus dostatečně nízkou časovou složitost být praktický.

Neurální NLP (současnost)

V roce 2010 se ve zpracování přirozeného jazyka rozšířilo učení reprezentace a metody strojového učení ve stylu hluboké neuronové sítě . Tato popularita byla částečně způsobena přívalem výsledků ukazujících, že tyto techniky mohou dosáhnout nejmodernějších výsledků v mnoha úlohách přirozeného jazyka, např. v jazykovém modelování a analýze. To je stále důležitější v medicíně a zdravotnictví , kde NLP pomáhá analyzovat poznámky a text v elektronických zdravotních záznamech , které by jinak byly při snaze o zlepšení péče pro studium nepřístupné.

Metody: Pravidla, statistika, neuronové sítě

V raných dobách bylo mnoho systémů pro zpracování jazyků navrženo pomocí symbolických metod, tj. ručního kódování sady pravidel, spojeného s vyhledáváním ve slovníku: jako je psaní gramatik nebo vymýšlení heuristických pravidel pro stemming .

Novější systémy založené na algoritmech strojového učení mají oproti ručně vytvořeným pravidlům mnoho výhod:

  • Učební postupy používané při strojovém učení se automaticky zaměřují na nejběžnější případy, zatímco při ručním psaní pravidel často není vůbec zřejmé, kam má úsilí směřovat.
  • Automatické učební postupy mohou využívat algoritmy statistického vyvozování k vytváření modelů, které jsou odolné vůči neznámému vstupu (např. obsahující slova nebo struktury, které nebyly dříve viděny) a chybnému vstupu (např. chybně napsaná slova nebo slova náhodně vynechaná). Obecně platí, že elegantní zacházení s takovým vstupem pomocí ručně psaných pravidel nebo obecněji vytváření systémů ručně psaných pravidel, která činí měkká rozhodnutí, je extrémně obtížné, náchylné k chybám a časově náročné.
  • Systémy založené na automatickém učení pravidel lze zpřesnit jednoduše tím, že dodají více vstupních dat. Systémy založené na ručně psaných pravidlech však lze zpřesnit pouze zvýšením složitosti pravidel, což je mnohem obtížnější úkol. Zejména existuje hranice složitosti systémů založených na ručně psaných pravidlech, za kterou se systémy stávají stále více neovladatelné. Vytváření většího množství dat pro vstup do systémů strojového učení však jednoduše vyžaduje odpovídající zvýšení počtu odpracovaných člověkohodin, obecně bez výrazného zvýšení složitosti anotačního procesu.

Navzdory popularitě strojového učení ve výzkumu NLP se stále (2020) běžně používají symbolické metody:

  • když množství trénovacích dat není dostatečné pro úspěšné použití metod strojového učení, např. pro strojový překlad jazyků s nízkými zdroji, jako je systém Apertium ,
  • pro předzpracování v kanálech NLP, např. tokenizace nebo
  • pro postprocessing a transformaci výstupu NLP pipelines, např. pro extrakci znalostí ze syntaktických analýz.

statistické metody

Od takzvané „statistické revoluce“ na konci 80. a v polovině 90. let minulého století se mnoho výzkumů zpracování přirozeného jazyka do značné míry opíralo o strojové učení. Paradigma strojového učení místo toho vyžaduje použití statistického vyvozování k automatickému učení takových pravidel pomocí analýzy velkých korpusů (množné číslo korpusu je soubor dokumentů, případně s lidskými nebo počítačovými anotacemi) typických příkladů z reálného světa.

Na úlohy zpracování přirozeného jazyka bylo použito mnoho různých tříd algoritmů strojového učení. Tyto algoritmy berou jako vstup velkou sadu „vlastností“, které jsou generovány ze vstupních dat. Výzkum se však stále více soustředil na statistické modely , které činí měkká, pravděpodobnostní rozhodnutí založená na přiřazování skutečných vah ke každému vstupnímu prvku ( vložení s komplexními hodnotami a obecně neuronové sítě byly také navrženy, např. pro řeč). Takové modely mají výhodu v tom, že mohou vyjadřovat relativní jistotu mnoha různých možných odpovědí spíše než pouze jedné, takže poskytují spolehlivější výsledky, když je takový model zahrnut jako součást většího systému.

Některé z nejstarších používaných algoritmů strojového učení, jako jsou rozhodovací stromy , vytvořily systémy tvrdých pravidel if-then podobných existujícím ručně psaným pravidlům. Part-of-speech značkování však zavedlo použití skrytých Markovových modelů do zpracování přirozeného jazyka a výzkum se stále více soustředil na statistické modely , které dělají měkká, pravděpodobnostní rozhodnutí založená na přiřazování reálných vah k prvkům tvořícím vstup. data. Mezi příklady takových statistických modelů patří modely jazyků mezipaměti, na které nyní spoléhá mnoho systémů rozpoznávání řeči . Takové modely jsou obecně robustnější, když dostanou neznámý vstup, zejména vstup, který obsahuje chyby (jak je velmi běžné u reálných dat), a poskytují spolehlivější výsledky, když jsou integrovány do většího systému obsahujícího více dílčích úkolů.

Od neurálního obratu byly statistické metody ve výzkumu NLP z velké části nahrazeny neuronovými sítěmi. Nadále jsou však relevantní pro kontexty, ve kterých je vyžadována statistická interpretovatelnost a transparentnost.

Neuronové sítě

Hlavní nevýhodou statistických metod je to, že vyžadují propracované konstrukční prvky. Od roku 2015 tak obor do značné míry opustil statistické metody a přesunul se k neuronovým sítím pro strojové učení. Mezi oblíbené techniky patří použití vkládání slov k zachycení sémantických vlastností slov a zvýšení úplného učení úkolu vyšší úrovně (např. zodpovězení otázek) namísto spoléhání se na zřetězení samostatných dílčích úkolů (např. slovní druhy a analýza závislostí). V některých oblastech tento posun znamenal podstatné změny v tom, jak jsou navrženy systémy NLP, takže na přístupy založené na hlubokých neuronových sítích lze pohlížet jako na nové paradigma odlišné od statistického zpracování přirozeného jazyka. Například termín neurální strojový překlad (NMT) zdůrazňuje skutečnost, že přístupy ke strojovému překladu založené na hlubokém učení se přímo učí transformace sekvencí na sekvenci , čímž odpadá potřeba přechodných kroků, jako je zarovnání slov a jazykové modelování, které se používalo ve statistice . strojový překlad (SMT).

Běžné úkoly NLP

Následuje seznam některých nejčastěji zkoumaných úloh při zpracování přirozeného jazyka. Některé z těchto úloh mají přímé aplikace v reálném světě, zatímco jiné obvykle slouží jako dílčí úlohy, které se používají k řešení větších úloh.

Přestože jsou úkoly zpracování přirozeného jazyka úzce propojeny, lze je pro pohodlí rozdělit do kategorií. Níže je uvedeno hrubé rozdělení.

Zpracování textu a řeči

Optické rozpoznávání znaků (OCR)
Vzhledem k obrázku představujícím tištěný text určete odpovídající text.
Rozpoznávání řeči
Na základě zvukového klipu hovořící osoby nebo lidí určete textovou reprezentaci řeči. Toto je opak textu na řeč a je to jeden z extrémně obtížných problémů hovorově nazývaných „ AI-kompletní “ (viz výše). V přirozené řeči nejsou mezi po sobě jdoucími slovy téměř žádné pauzy, a proto je segmentace řeči nezbytným dílčím úkolem rozpoznávání řeči (viz níže). Ve většině mluvených jazyků se zvuky reprezentující po sobě jdoucí písmena vzájemně mísí v procesu zvaném koartikulace , takže převod analogového signálu na samostatné znaky může být velmi obtížný proces. Vzhledem k tomu, že slova ve stejném jazyce mluví lidé s různými přízvuky, musí být software pro rozpoznávání řeči schopen rozpoznat širokou škálu vstupů jako identické z hlediska jejich textového ekvivalentu.
Segmentace řeči
Vzhledem k tomu, že zvukový klip mluvící osoby nebo lidí, rozdělte jej na slova. Dílčí úkol rozpoznávání řeči a obvykle s ním spojený.
Text na řeč
Zadaný text transformujte tyto jednotky a vytvořte mluvenou reprezentaci. Převod textu na řeč lze použít jako pomoc pro zrakově postižené.
Segmentace slov ( tokenizace )
Rozdělte kus souvislého textu do samostatných slov. Pro jazyk jako je angličtina je to docela triviální, protože slova jsou obvykle oddělena mezerami. Některé psané jazyky jako čínština , japonština a thajština však neoznačují hranice slov takovým způsobem a v těchto jazycích je segmentace textu významným úkolem vyžadujícím znalost slovní zásoby a morfologie slov v daném jazyce. Někdy se tento proces používá také v případech, jako je vytvoření pytle slov (BOW) při dolování dat.

Morfologická analýza

Lematizace
Úkol odstranit pouze flektivní koncovky a vrátit základní slovníkovou formu slova, které je také známé jako lemma. Lemmatizace je další technika pro redukci slov do jejich normalizované formy. Ale v tomto případě transformace ve skutečnosti používá slovník k mapování slov do jejich skutečné podoby.
Morfologická segmentace
Rozdělte slova na jednotlivé morfémy a určete třídu morfémů. Obtížnost tohoto úkolu značně závisí na složitosti morfologie ( tj . struktury slov) uvažovaného jazyka. Angličtina má poměrně jednoduchou morfologii, zejména flektivní morfologii , a proto je často možné tento úkol zcela ignorovat a jednoduše modelovat všechny možné formy slova ( např . „otevřít, otevřít, otevřít, otevřít“) jako samostatná slova. V jazycích, jako je turečtina nebo meitei , což je vysoce aglutinovaný indický jazyk, však takový přístup není možný, protože každé heslo ve slovníku má tisíce možných tvarů slov.
Slovní značkování
U dané věty určete slovní druh (POS) pro každé slovo. Mnoho slov, zejména těch běžných, může sloužit jako více slovních druhů . Například „kniha“ může být podstatné jméno („kniha na stole“) nebo sloveso („rezervovat let“); "set" může být podstatné jméno , sloveso nebo přídavné jméno ; a "out" může být kterýkoli z alespoň pěti různých druhů řeči.
Odvozování
Proces redukce skloňovaných (nebo někdy odvozených) slov na základní formu ( např . „zavřít“ bude kořenem pro „uzavřeno“, „zavřít“, „zavřít“, „zavřít“ atd.). Stemming přináší podobné výsledky jako lemmatizace, ale dělá tak na základě pravidel, nikoli slovníku.

Syntaktická analýza

Indukce gramatiky
Vygenerujte formální gramatiku , která popisuje syntaxi jazyka.
Přelamování vět (také známé jako „ zjednoznačnění hranic věty “)
Vzhledem k kusu textu najděte hranice vět. Hranice vět jsou často označeny tečkami nebo jinými interpunkčními znaménky , ale tyto stejné znaky mohou sloužit i jiným účelům ( např . označovací zkratky ).
Analýza
Určete strom analýzy (gramatický rozbor) dané věty. Gramatika přirozených jazyků je nejednoznačná a typické věty mají více možných analýz: možná překvapivě pro typickou větu mohou existovat tisíce potenciálních analýz (z nichž většina se člověku bude zdát zcela nesmyslná). Existují dva primární typy analýzy: analýza závislosti a analýza složky . Analýza závislosti se zaměřuje na vztahy mezi slovy ve větě (označující věci jako primární objekty a predikáty), zatímco analýza volebních obvodů se zaměřuje na budování stromu analýzy pomocí pravděpodobnostní bezkontextové gramatiky (PCFG) (viz také stochastická gramatika ).

Lexikální sémantika (jednotlivých slov v kontextu)

Lexikální sémantika
Jaký je výpočetní význam jednotlivých slov v kontextu?
Distribuční sémantika
Jak se můžeme naučit sémantické reprezentace z dat?
Rozpoznání pojmenované entity (NER)
Vzhledem k proudu textu určete, které položky v textu se mapují na vlastní jména, jako jsou lidé nebo místa, a jaký je typ každého takového jména (např. osoba, místo, organizace). Ačkoli velká písmena mohou pomoci při rozpoznání pojmenovaných entit v jazycích, jako je angličtina, tato informace nemůže pomoci při určování typu pojmenované entity a v každém případě je často nepřesná nebo nedostatečná. Například první písmeno věty je také velké a pojmenované entity často zahrnují několik slov, z nichž pouze některá jsou velká. Kromě toho mnoho dalších jazyků v nezápadních písmech (např. čínština nebo arabština ) nemá žádná velká písmena vůbec a dokonce i jazyky s velkými písmeny je nemusí konzistentně používat k rozlišení jmen. Například němčina začíná psát velkými písmeny všechna podstatná jména bez ohledu na to, zda se jedná o jména, a francouzština a španělština nepíší velká písmena ve jménech, která slouží jako přídavná jména .
Analýza sentimentu (viz také Multimodální analýza sentimentu )
Extrahujte subjektivní informace obvykle ze souboru dokumentů, často pomocí online recenzí k určení „polarity“ o konkrétních objektech. Je zvláště užitečné pro identifikaci trendů veřejného mínění v sociálních médiích, pro marketing.
Extrakce terminologie
Cílem extrakce terminologie je automaticky extrahovat relevantní termíny z daného korpusu.
Zjednoznačnění slova (WSD)
Mnoho slov má více než jeden význam ; musíme vybrat význam, který dává největší smysl v kontextu. Pro tento problém obvykle dostáváme seznam slov a souvisejících významů slov, např. ze slovníku nebo online zdroje, jako je WordNet .
Propojení entit
Mnoho slov – typicky vlastní jména – odkazuje na pojmenované entity ; zde musíme vybrat entitu (slavnou osobu, místo, společnost atd.), na kterou se odkazuje v kontextu.

Relační sémantika (sémantika jednotlivých vět)

Extrakce vztahu
Na základě kusu textu identifikujte vztahy mezi pojmenovanými entitami (např. kdo je s kým ženatý).
Sémantická analýza
Zadaný kus textu (typicky věta) vytvořte formální reprezentaci jeho sémantiky, buď jako graf (např. v analýze AMR ) nebo v souladu s logickým formalismem (např. v analýze DRT ). Tato výzva obvykle zahrnuje aspekty několika elementárnějších úloh NLP ze sémantiky (např. označování sémantických rolí, dezambiguace slovního smyslu) a lze ji rozšířit tak, aby zahrnovala plnohodnotnou analýzu diskurzu (např. analýzu diskurzu, koreference; viz porozumění přirozenému jazyku níže) . .
Označení sémantické role (viz také implicitní označení sémantické role níže)
V rámci jedné věty identifikujte a zrušte sémantické predikáty (např. verbální rámce ), poté identifikujte a klasifikujte prvky rámce ( sémantické role ).

Diskurz (sémantika mimo jednotlivé věty)

Koreferenční rozlišení
Vzhledem k větě nebo většímu kusu textu určete, která slova ("zmínky") odkazují na stejné objekty ("entity"). Řešení anafory je konkrétním příkladem tohoto úkolu a konkrétně se zabývá srovnáváním zájmen s podstatnými jmény nebo jmény, ke kterým se vztahují. Obecnější úkol řešení koreference také zahrnuje identifikaci takzvaných „přemosťovacích vztahů“ zahrnujících odkazující výrazy . Například ve větě jako „Vstoupil do Johnova domu předními dveřmi“ je „vchodové dveře“ odkazujícím výrazem a přemosťujícím vztahem, který je třeba identifikovat, je skutečnost, že dveře, na které se odkazuje, jsou vstupní dveře John's domu (spíše než nějaké jiné struktury, na kterou by se také mohlo odkazovat).
Analýza diskurzu
Tato rubrika obsahuje několik souvisejících úkolů. Jedním z úkolů je parsování diskurzu, tj. identifikace struktury diskurzu souvisejícího textu, tj. povahy diskurzních vztahů mezi větami (např. zpracování, vysvětlení, kontrast). Dalším možným úkolem je rozpoznání a klasifikace řečových aktů v kusu textu (např. otázka ano-ne, obsahová otázka, tvrzení, tvrzení atd.).
Implicitní sémantické označování rolí
Vzhledem k jediné větě identifikujte a odznačte sémantické predikáty (např. verbální rámce ) a jejich explicitní sémantické role v aktuální větě (viz Označování sémantických rolí výše). Poté identifikujte sémantické role, které nejsou v aktuální větě explicitně realizovány, roztřiďte je na argumenty, které jsou explicitně realizovány jinde v textu, a na ty, které nejsou specifikovány, a rozložte je na lokální text. Úzce souvisejícím úkolem je nulové rozlišení anafory, tedy rozšíření koreference rozlišení na pro-drop jazyky .
Rozpoznání textové náročnosti
Zadané dva textové fragmenty určete, zda je jeden pravdivý, znamená druhý, znamená negaci druhého nebo umožňuje, aby byl druhý pravdivý nebo nepravdivý.
Segmentace a rozpoznávání tématu
Daný kus textu rozdělte do segmentů, z nichž každý je věnován tématu, a identifikujte téma segmentu.
Těžba argumentů
Cílem dolování argumentů je automatická extrakce a identifikace argumentačních struktur z textu přirozeného jazyka pomocí počítačových programů. Mezi takové argumentační struktury patří premisa, závěry, argumentační schéma a vztah mezi hlavním a vedlejším argumentem nebo hlavním a protiargumentem v diskurzu.

NLP aplikace vyšší úrovně

Automatická sumarizace (textová sumarizace)
Vytvořte čitelný souhrn kusu textu. Často se používá k poskytování shrnutí textu známého typu, jako jsou výzkumné články, články ve finanční sekci novin.
Knižní generace
Není to vlastní úkol NLP, ale rozšíření generování přirozeného jazyka a dalších úkolů NLP je vytváření plnohodnotných knih. První strojově generovaná kniha byla vytvořena systémem založeným na pravidlech v roce 1984 (Racter, Policajtův vous je napůl zkonstruovaný ). První publikované dílo neuronové sítě vyšlo v roce 2018, 1 the Road , uváděné na trh jako román, obsahuje šedesát milionů slov. Oba tyto systémy jsou v zásadě propracované, ale nesmyslné (sémantické) jazykové modely . První strojově generovaná vědecká kniha vyšla v roce 2019 (Beta Writer, Lithium-Ion Batteries , Springer, Cham). Na rozdíl od Ractera a 1 the Road je toto založeno na faktických znalostech a na textové sumarizaci.
Vedení dialogu
Počítačové systémy určené ke konverzaci s člověkem.
Dokument AI
Platforma Document AI stojí na vrcholu technologie NLP a umožňuje uživatelům bez předchozích zkušeností s umělou inteligencí, strojovým učením nebo NLP rychle vycvičit počítač k extrahování konkrétních dat, která potřebují z různých typů dokumentů. Document AI s podporou NLP umožňuje netechnickým týmům rychlý přístup k informacím skrytým v dokumentech, například právníkům, obchodním analytikům a účetním.
Oprava gramatických chyb
Detekce a oprava gramatických chyb zahrnuje širokou škálu problémů na všech úrovních lingvistické analýzy (fonologie/pravopis, morfologie, syntax, sémantika, pragmatika). Oprava gramatických chyb má dopad, protože se týká stovek milionů lidí, kteří používají nebo si osvojují angličtinu jako druhý jazyk. Od roku 2011 tak podléhá řadě sdílených úkolů. Co se týče pravopisu, morfologie, syntaxe a určitých aspektů sémantiky, díky vývoji výkonných modelů neuronových jazyků, jako je GPT-2 , to nyní může ( 2019) považovat za z velké části vyřešený problém a je uváděn na trh v různých komerčních aplikacích.
Strojový překlad
Automaticky překládejte text z jednoho lidského jazyka do druhého. Jde o jeden z nejobtížnějších problémů a patří do třídy problémů hovorově nazývaných „ AI-kompletní “, tj. vyžadující všechny různé typy znalostí, které lidé mají (gramatika, sémantika, fakta o reálném světě atd. .) správně vyřešit.
Generování přirozeného jazyka (NLG):
Převeďte informace z počítačových databází nebo sémantické záměry do čitelné lidské řeči.
porozumění přirozenému jazyku (NLU)
Převádějte kusy textu na formálnější reprezentace, jako jsou logické struktury prvního řádu , s nimiž počítačové programy snáze manipulují. Pochopení přirozeného jazyka zahrnuje identifikaci zamýšlené sémantiky z mnoha možných sémantik, které lze odvodit z výrazu přirozeného jazyka, který má obvykle formu organizovaných zápisů pojmů přirozeného jazyka. Zavedení a vytvoření jazykového metamodelu a ontologie jsou efektivní, avšak empirická řešení. Pro konstrukci základu formalizace sémantiky se očekává explicitní formalizace sémantiky přirozeného jazyka bez záměny s implicitními předpoklady, jako je předpoklad uzavřeného světa (CWA) vs. předpoklad otevřeného světa nebo subjektivní ano/ne vs. objektivní pravda/nepravda. .
Odpověď na otázku
Vzhledem k otázce v lidském jazyce určete její odpověď. Typické otázky mají konkrétní správnou odpověď (např. „Jaké je hlavní město Kanady?“), ale někdy jsou zvažovány i otázky s otevřeným koncem (např. „Jaký je smysl života?“).

Obecné tendence a (možné) budoucí směry

Na základě dlouhodobých trendů v oboru je možné extrapolovat budoucí směřování NLP. Od roku 2020 lze mezi tématy dlouhodobé série CoNLL Shared Tasks sledovat tři trendy:

  • Zájem o stále abstraktnější, „kognitivní“ aspekty přirozeného jazyka (1999-2001: mělká analýza, 2002-03: rozpoznávání pojmenovaných entit, 2006-09/2017-18: syntaxe závislostí, 2004-05/2008-09 sémantické označování rolí, 2011-12 koreference, 2015-16: diskurzivní parsování, 2019: sémantické parsování).
  • Rostoucí zájem o mnohojazyčnost a potenciálně o multimodalitu (angličtina od roku 1999; španělština, holandština od roku 2002; němčina od roku 2003; bulharština, dánština, japonština, portugalština, slovinština, švédština, turečtina od roku 2006; baskičtina, katalánština, čínština, řečtina, maďarština , italština, turečtina od roku 2007; čeština od roku 2009; arabština od roku 2012; 2017: 40+ jazyků; 2018: 60+/100+ jazyků)
  • Eliminace symbolických reprezentací (na základě pravidel nad supervizí směrem k metodám se slabým dohledem, učení se reprezentací a end-to-end systémy)

Poznání a NLP

Většina aplikací NLP na vyšší úrovni zahrnuje aspekty, které napodobují inteligentní chování a zjevné porozumění přirozenému jazyku. Obecněji řečeno, technická operacionalizace stále pokročilejších aspektů kognitivního chování představuje jednu z vývojových trajektorií NLP (viz trendy mezi sdílenými úkoly CoNLL výše).

Poznání se týká „mentální činnosti nebo procesu získávání znalostí a porozumění prostřednictvím myšlení, zkušeností a smyslů“. Kognitivní věda je interdisciplinární, vědecké studium mysli a jejích procesů. Kognitivní lingvistika je interdisciplinární obor lingvistiky, který kombinuje poznatky a výzkum z psychologie a lingvistiky. Zejména v době symbolického NLP si oblast počítačové lingvistiky udržovala silné vazby s kognitivními studiemi.

Jako příklad George Lakoff nabízí metodologii pro vytváření algoritmů zpracování přirozeného jazyka (NLP) z pohledu kognitivní vědy spolu s poznatky kognitivní lingvistiky se dvěma definujícími aspekty:

  1. Aplikujte teorii konceptuální metafory , kterou Lakoff vysvětlil jako „chápání jedné myšlenky z hlediska druhé“, která poskytuje představu o záměru autora. Vezměme si například anglické slovo „big“ . Když je použit ve srovnání ( „To je velký strom“ ), záměrem autora je naznačit, že strom je „fyzicky velký“ vzhledem k jiným stromům nebo zkušenostem autorů. Když je použit metaforicky ( „Zítra je velký den“ ), autorův záměr implikuje „důležitost“ . Záměr za jinými použitími, jako v „Ona je velká osoba“ , zůstane pro člověka i pro kognitivní NLP algoritmus poněkud nejednoznačný bez dalších informací.
  2. Přiřaďte slovu, frázi, větě nebo části textu relativní míry významu na základě informací uvedených před a po analyzované části textu, např. pomocí pravděpodobnostní bezkontextové gramatiky (PCFG). Matematická rovnice pro takové algoritmy je uvedena v US patentu 9269353  :
Kde,
RMM je relativní míra významu
token , je jakýkoli blok textu, věta, fráze nebo slovo
N , je počet analyzovaných tokenů
PMM , je pravděpodobná míra významu založená na korpusech
d , je umístění tokenu podél sekvence N-1 tokenů
PF , je pravděpodobnostní funkce specifická pro jazyk

Vazby s kognitivní lingvistikou jsou součástí historického dědictví NLP, ale od statistického obratu v 90. letech 20. století byly méně často řešeny. Nicméně přístupy k vývoji kognitivních modelů směrem k technicky operacionalizovatelným rámcům byly sledovány v kontextu různých rámců, např. kognitivní gramatiky, funkční gramatiky, konstrukční gramatiky, počítačové psycholingvistiky a kognitivní neurovědy (např. ACT-R ), avšak s omezeným přijetí do hlavního proudu NLP (měřeno přítomností na hlavních konferencích ACL ). Nedávno byly myšlenky kognitivního NLP oživeny jako přístup k dosažení vysvětlitelnosti , např. pod pojmem „kognitivní AI“. Podobně myšlenky kognitivního NLP jsou vlastní neurálním modelům multimodálního NLP (ačkoli zřídkakdy jsou explicitně uvedeny).

Viz také

Reference

Další čtení

externí odkazy