Automatická sumarizace - Automatic summarization

Automatická sumarizace je proces výpočtového zkrácení sady dat za účelem vytvoření podmnožiny ( shrnutí ), která představuje nejdůležitější nebo relevantní informace v původním obsahu.

Kromě textu lze také shrnout obrázky a videa. Shrnutí textu najde nejinformativnější věty v dokumentu; různé metody sumarizace obrázků jsou předmětem probíhajícího výzkumu, přičemž některé se snaží zobrazit nejreprezentativnější obrázky z dané sbírky nebo generovat video; shrnutí videa extrahuje nejdůležitější snímky z video obsahu.

Přístupy

K automatické sumarizaci existují dva obecné přístupy: extrakce a abstrakce .

Shrnutí založené na extrakci

Zde je obsah extrahován z původních dat, ale extrahovaný obsah není nijak upraven. Mezi příklady extrahovaného obsahu patří klíčové věty, které lze použít k označení nebo indexování textového dokumentu, nebo klíčové věty (včetně nadpisů), které společně obsahují abstrakt, a reprezentativní obrázky nebo segmenty videa, jak je uvedeno výše. U textu je extrakce analogická s procesem skimmingu, kdy se přečte souhrn (je-li k dispozici), nadpisy a podnadpisy, obrázky, první a poslední odstavec oddílu a volitelně první a poslední věta v odstavci, než si jeden zvolí podrobně si přečíst celý dokument. Další příklady extrakce, které zahrnují klíčové sekvence textu z hlediska klinického významu (včetně pacienta / problému, intervence a výsledku).

Shrnutí založené na abstrakci

To platí hlavně pro text. Abstrakční metody vytvářejí interní sémantickou reprezentaci původního obsahu a pomocí této reprezentace vytvářejí souhrn, který je blíže tomu, co by mohl vyjádřit člověk. Abstrakce může transformovat extrahovaný obsah parafrázováním částí zdrojového dokumentu, aby kondenzoval text silněji než extrakce. Taková transformace je však výpočetně mnohem náročnější než extrakce, která zahrnuje jak zpracování přirozeného jazyka, tak často hluboké porozumění doméně původního textu v případech, kdy se původní dokument týká speciální oblasti znalostí. „Parafrázování“ je ještě obtížnější aplikovat na obraz a video, proto je většina souhrnných systémů extraktivní.

Podporovaná sumarizace

Přístupy zaměřené na vyšší kvalitu sumarizace se opírají o kombinovaný software a lidské úsilí. V Sumarizaci člověka pomocí stroje extrakční techniky zvýrazňují pasáže kandidátů na zařazení (do nichž člověk přidává nebo odebírá text). V Human Aided Machine Summarization, a human post-processing software output, the same way that one edits the output of automatic translation by Google Translate.

Aplikace a systémy pro sumarizaci

Podle toho, na co se souhrnný program zaměřuje, existují obecně dva typy extrakčních sumarizačních úkolů. Prvním z nich je obecná shrnutí , která se zaměřuje na získání obecného shrnutí nebo abstraktu sbírky (ať už dokumentů nebo sad obrázků, videí, novinek atd.). Druhým je dotazová relevantní sumarizace , někdy nazývaná dotazová sumarizace , která shrnuje objekty specifické pro dotaz. Sumarizační systémy jsou schopny vytvářet jak textové souhrny relevantní pro dotazy, tak generické strojově generované souhrny podle toho, co uživatel potřebuje.

Příkladem problému se sumarizací je sumarizace dokumentu, která se pokouší automaticky vytvořit abstrakt z daného dokumentu. Někdy by někdo mohl mít zájem o generování souhrnu z jednoho zdrojového dokumentu, zatímco jiní mohou použít více zdrojových dokumentů (například shluk článků na stejné téma). Tento problém se nazývá shrnutí více dokumentů . Související aplikace shrnuje novinové články. Představte si systém, který automaticky spojuje novinové články k danému tématu (z webu) a výstižně představuje nejnovější zprávy jako shrnutí.

Shrnutí sbírky obrázků je dalším aplikačním příkladem automatické sumarizace. Spočívá ve výběru reprezentativní sady obrázků z větší sady obrázků. Souhrn v této souvislosti je užitečný k zobrazení nejreprezentativnějších obrazů výsledků v systému průzkumu sběru obrazů . Shrnutí videa je související doména, kde systém automaticky vytvoří upoutávku na dlouhé video. To má také aplikace ve spotřebitelských nebo osobních videích, kde by někdo mohl chtít přeskočit nudné nebo opakující se akce. Podobně by ve sledovacích videích chtěl člověk extrahovat důležitou a podezřelou aktivitu a přitom ignorovat všechny zachycené nudné a nadbytečné snímky.

Na velmi vysoké úrovni se sumarizační algoritmy snaží najít podmnožiny objektů (jako je sada vět nebo sada obrázků), které pokrývají informace o celé sadě. Toto se také nazývá základní sada . Tyto algoritmy modelují pojmy jako rozmanitost, pokrytí, informace a reprezentativnost souhrnu. Techniky sumarizace založené na dotazech, navíc model pro relevanci souhrnu s dotazem. Některé techniky a algoritmy, které přirozeně modelují problémy se sumarizací, jsou TextRank a PageRank, Submodular set function , Determinantal point process , maximal marginal relevance (MMR) atd.

Extrakce klíčových slov

Úkol je následující. Dostanete text, například článek v časopise, a musíte vytvořit seznam klíčových slov nebo klíčových frází, která zachycují primární témata diskutovaná v textu. V případě článků o výzkumu poskytuje mnoho autorů ručně přiřazená klíčová slova, ale většině textu chybí již existující klíčová fráze. Například ke zpravodajským článkům jsou zřídka připojeny klíčové fráze, ale bylo by užitečné mít možnost automaticky tak učinit pro řadu níže popsaných aplikací. Zvažte ukázkový text ze zpravodajského článku:

„Armádní sbor inženýrů, který spěchal, aby splnil slib prezidenta Bushe chránit New Orleans do začátku sezóny hurikánů 2006, nainstaloval v loňském roce vadná protipovodňová čerpadla navzdory varování vlastního experta, že zařízení během bouře selže. k dokumentům získaným Associated Press ".

Extraktor klíčových frází může jako klíčové fráze zvolit „Army Corps of Engineers“, „President Bush“, „New Orleans“ a „defective Flood-Control Pumps“. Ty jsou vytaženy přímo z textu. Naproti tomu abstraktní systém klíčových frází by nějakým způsobem internalizoval obsah a generoval klíčová fráze, která se v textu neobjevují, ale více by se podobala tomu, co by člověk mohl vyprodukovat, jako je „politická nedbalost“ nebo „nedostatečná ochrana před povodněmi“. Abstrakce vyžaduje hluboké porozumění textu , což ztěžuje počítačový systém. Klíčová fráze mají mnoho aplikací. Mohou umožnit procházení dokumentů poskytnutím krátkého shrnutí, zlepšit vyhledávání informací (pokud mají dokumenty přiřazené klíčové fráze, uživatel by mohl hledat pomocí klíčových slov, aby vytvořil spolehlivější přístupy než fulltextové vyhledávání ), a mohou být použity při generování položek rejstříku pro velké textový korpus.

V závislosti na odlišné literatuře a definici klíčových pojmů, slov nebo frází je extrakce klíčových slov velmi související téma.

Kontrolované přístupy k učení

Počínaje prací Turneyho mnoho vědců přistupovalo k extrakci klíčových slov jako k problému s supervizním strojovým učením . Vzhledem k tomu, dokument, my budujeme příklad pro každou unigram , Bigram a trigram nalezené v textu (i když jiné textové jednotky jsou také možné, jak je uvedeno níže). Poté vypočítáme různé funkce popisující každý příklad (např. Začíná fráze velkým písmenem?). Předpokládáme, že pro sadu tréninkových dokumentů jsou k dispozici známé fráze. Pomocí známých frází můžeme příkladům přiřadit pozitivní nebo negativní popisky. Poté se naučíme klasifikátor, který dokáže rozlišovat mezi pozitivními a negativními příklady jako funkce funkcí. Některé klasifikátory vytvářejí pro testovací příklad binární klasifikaci , zatímco jiným je přiřazena pravděpodobnost, že budou klíčovou frází. Například ve výše uvedeném textu se můžeme naučit pravidlo, které říká, že fráze se počátečními velkými písmeny budou pravděpodobně fráze. Po zaškolení studenta můžeme následujícím způsobem vybrat klíčové fráze pro testovací dokumenty. Stejnou strategii generování příkladů aplikujeme na testovací dokumenty a poté každý příklad provedeme skrze studenta. Můžeme určit klíčové fráze při pohledu na rozhodnutí o binární klasifikaci nebo pravděpodobnosti vrácené z našeho naučeného modelu. Pokud jsou uvedeny pravděpodobnosti, použije se prahová hodnota pro výběr klíčových frází. Vytahovače klíčových slov se obecně hodnotí pomocí přesnosti a vyvolání. Přesnost měří, kolik navrhovaných klíčových slov je ve skutečnosti správných. Recall měří, kolik skutečných klíčových frází váš systém navrhl. Tyto dvě míry lze kombinovat do F-skóre, což je harmonický průměr obou ( F  = 2 PR / ( P  +  R )). Shody mezi navrhovanými frázemi a známými frázemi lze zkontrolovat po ukončení nebo použití jiné normalizace textu.

Návrh systému pro extrakci klíčových frází zahrnuje rozhodnutí o několika možnostech (některé z nich platí i pro bez dozoru). První volbou je přesně způsob generování příkladů. Turney a další použili všechny možné unigramy, bigramy a trigramy bez zásahu interpunkce a po odstranění stopwords. Hulth ukázal, že můžete dosáhnout nějakého vylepšení výběrem příkladů jako sekvencí tokenů, které odpovídají určitým vzorům značek řeči. V ideálním případě mechanismus pro generování příkladů produkuje všechny známé označené fráze jako kandidáty, i když tomu tak často není. Pokud například použijeme pouze unigramy, bigramy a trigramy, nikdy nebudeme moci extrahovat známou frázi obsahující čtyři slova. Může tak dojít k odvolání. Generování příliš mnoha příkladů však může také vést k nízké přesnosti.

Musíme také vytvořit funkce, které popisují příklady a jsou dostatečně informativní, aby umožnily algoritmu učení rozlišovat klíčové fráze od jiných než frází. Typicky prvky zahrnují různé četnosti termínů (kolikrát se fráze objeví v aktuálním textu nebo ve větším korpusu), délka příkladu, relativní poloha prvního výskytu, různé booleovské syntaktické znaky (např. Obsahuje všechna velká písmena) atd. Papír Turney používal asi 12 takových funkcí. Hulth používá omezenou sadu funkcí, které byly nejúspěšnější v práci KEA (Keyphrase Extraction Algorithm) odvozené od Turneyho seminární práce.

Na konci bude systém muset vrátit seznam klíčových frází pro testovací dokument, takže musíme mít způsob, jak omezit počet. Metody souboru (tj. Použití hlasů od několika klasifikátorů) byly použity k výrobě číselných skóre, která mohou být prahována, aby poskytla počet klíčových slov poskytnutých uživatelem. Toto je technika, kterou používá Turney s rozhodovacími stromy C4.5. Hulth použil jediný binární klasifikátor, takže algoritmus učení implicitně určuje příslušné číslo.

Jakmile jsou vytvořeny příklady a funkce, potřebujeme způsob, jak se naučit předpovídat klíčové fráze. Lze použít prakticky jakýkoli algoritmus učení pod dohledem, jako jsou rozhodovací stromy, Naive Bayes a indukce pravidel. V případě Turneyova algoritmu GenEx se používá genetický algoritmus ke zjištění parametrů algoritmu pro extrakci klíčových frází pro konkrétní doménu. Extraktor sleduje řadu heuristik k identifikaci klíčových frází. Genetický algoritmus optimalizuje parametry těchto heuristik s ohledem na výkon tréninkových dokumentů se známými klíčovými frázemi.

Přístup bez dozoru: TextRank

Dalším algoritmem pro extrakci klíčových slov je TextRank. Zatímco supervizované metody mají některé pěkné vlastnosti, jako je schopnost vytvářet interpretovatelná pravidla pro to, jaké funkce charakterizují klíčovou frázi, vyžadují také velké množství tréninkových dat . Je zapotřebí mnoho dokumentů se známými frázemi. Kromě toho má školení v konkrétní doméně tendenci přizpůsobit proces extrakce této doméně, takže výsledný klasifikátor nemusí být nutně přenosný, jak ukazují některé výsledky Turney. Bezobslužná extrakce klíčových slov odstraňuje potřebu tréninkových dat. Přistupuje k problému z jiného úhlu. Místo toho, aby se pokusil naučit explicitní funkce, které charakterizují klíčové fráze, využívá algoritmus TextRank strukturu samotného textu k určení klíčových frází, které vypadají „centrálně“ v textu stejným způsobem, jakým PageRank vybírá důležité webové stránky. Připomeňme, že toto je založeno na představě „prestiže“ nebo „doporučení“ ze sociálních sítí . Tímto způsobem TextRank vůbec nespoléhá na žádná předchozí tréninková data, ale může být spuštěn na libovolném libovolném kousku textu a může produkovat výstup jednoduše na základě vnitřních vlastností textu. Algoritmus je tedy snadno přenositelný do nových domén a jazyků.

TextRank je obecný algoritmus pro hodnocení NLP na základě grafů . V podstatě běží PageRank na grafu speciálně navrženém pro konkrétní úkol NLP. Pro extrakci klíčových slov vytváří graf pomocí některé sady textových jednotek jako vrcholy. Okraje jsou založeny na určité míře sémantické nebo lexikální podobnosti mezi vrcholy textových jednotek. Na rozdíl od PageRank jsou okraje obvykle neorientované a lze je vážit tak, aby odrážely stupeň podobnosti. Jakmile je graf sestaven, je použit k vytvoření stochastické matice v kombinaci s tlumícím faktorem (jako v „modelu náhodného surfaře“) a hodnocení nad vrcholy je získáno nalezením vlastního vektoru odpovídajícího vlastní hodnotě 1 (tj. stacionární rozdělení na náhodné procházky na grafu).

Vrcholy by měly odpovídat tomu, co chceme zařadit. Potenciálně bychom mohli udělat něco podobného metodám pod dohledem a vytvořit vrchol pro každý unigram, bigram, trigram atd. Aby však byl graf malý, rozhodli se autoři v prvním kroku zařadit jednotlivé unigramy a poté zahrnout druhý krok, který sloučí vysoce hodnocené sousední unigramy a vytvoří víceslovné fráze. To má pěkný vedlejší účinek, protože nám umožňuje vytvářet klíčové fráze libovolné délky. Pokud například vyhodnotíme unigramy a zjistíme, že „pokročilý“, „přirozený“, „jazyk“ a „zpracování“ získávají vysoké hodnocení, podíváme se na původní text a uvidíme, že se tato slova objevují postupně, a vytvoříme konečnou klíčová fráze používající všechny čtyři dohromady. Všimněte si, že unigramy umístěné v grafu lze filtrovat podle části řeči. Autoři zjistili, že bylo nejlepší zahrnout adjektiva a podstatná jména. V tomto kroku tedy vstupují do hry některé jazykové znalosti.

Hrany jsou vytvářeny na základě společného výskytu slov v této aplikaci TextRank. Pokud se unigramy objeví v okně velikosti N v původním textu, jsou dva vrcholy spojeny hranou . N je obvykle kolem 2–10. V textu o NLP tedy mohou být spojeny výrazy „přirozený“ a „jazyk“. „Přirozené“ a „zpracování“ by byly také propojeny, protože by se oba objevily ve stejném řetězci N slov. Tyto okraje staví na pojmu „ soudržnost textu “ a na myšlence, že slova, která se objevují blízko sebe, jsou pravděpodobně smysluplně spjata a navzájem se čtenáři „doporučují“.

Jelikož tato metoda jednoduše řadí jednotlivé vrcholy, potřebujeme způsob, jak dosáhnout prahové hodnoty nebo vytvořit omezený počet klíčových frází. Zvolenou technikou je nastavení počtu T jako uživatelem zadaného zlomku z celkového počtu vrcholů v grafu. Poté jsou vybrány horní T vrcholy / unigramy na základě jejich stacionárních pravděpodobností. Krok následného zpracování se poté použije ke sloučení sousedních instancí těchto T unigramů. Ve výsledku bude vytvořeno potenciálně více nebo méně než T finálních klíčových frází, ale počet by měl být zhruba úměrný délce původního textu.

Zpočátku není jasné, proč by aplikace PageRank na graf společného výskytu vytvořila užitečné klíčové fráze. Jeden způsob, jak o tom přemýšlet, je následující. Slovo, které se v textu objeví vícekrát, může mít mnoho různých sousedních sousedů. Například v textu o strojovém učení se může unigramové „učení“ vyskytovat společně se slovy „stroj“, „pod dohledem“, „bez dozoru“ a „částečně pod dohledem“ ve čtyřech různých větách. „Učící se“ vrchol by tedy byl ústředním „centrem“, který se připojuje k těmto dalším modifikujícím slovům. Spuštění PageRank / TextRank v grafu pravděpodobně „učí“ velmi vysoko. Podobně, pokud text obsahuje frázi „kontrolovaná klasifikace“, pak by byla hranice mezi „kontrolovanou“ a „klasifikací“. Pokud se „klasifikace“ objeví na několika dalších místech a má tedy mnoho sousedů, její důležitost by přispěla k důležitosti „pod dohledem“. Pokud skončí s vysokou hodností, bude vybrán jako jeden z nejlepších T unigramů spolu s „učením“ a pravděpodobně „klasifikací“. V závěrečném kroku následného zpracování bychom pak skončili s frázemi „kontrolované učení“ a „kontrolovaná klasifikace“.

Stručně řečeno, graf společného výskytu bude obsahovat hustě propojené oblasti pro termíny, které se objevují často a v různých kontextech. Náhodná procházka v tomto grafu bude mít stacionární rozdělení, které přiřadí velkou pravděpodobnost termínům ve středech klastrů. Je to podobné jako u hustě propojených webových stránek, které jsou hodnoceny podle hodnocení PageRank. Tento přístup byl také použit při shrnutí dokumentů, které jsou uvedeny níže.

Shrnutí dokumentu

Stejně jako extrakce klíčových slov má i sumarizace dokumentů za cíl identifikovat podstatu textu. Jediným skutečným rozdílem je, že nyní máme co do činění s většími textovými jednotkami - celými větami místo slov a frází.

Než se podíváme na podrobnosti některých metod sumarizace, zmíníme se, jak se systémy sumarizace obvykle hodnotí. Nejběžnějším způsobem je použití takzvaného opatření ROUGE (Recall-Oriented Understudy for Gisting Evaluation). Toto je opatření založené na vyvolání, které určuje, jak dobře systémově generovaný souhrn pokrývá obsah přítomný v jednom nebo více souhrnech modelů generovaných člověkem známých jako odkazy. Je založen na odvolání, aby povzbudil systémy k začlenění všech důležitých témat do textu. Vyvolání lze vypočítat s ohledem na shodu unigramu, bigramu, trigramu nebo 4 gramů. Například ROUGE-1 se počítá jako rozdělení počtu unigramů v odkazu, které se objevují v systému, a počtu unigramů v souhrnu referencí.

Pokud existuje více referencí, skóre ROUGE-1 se zprůměrují. Protože ROUGE je založen pouze na překrývání obsahu, může určit, zda jsou diskutovány stejné obecné pojmy mezi automatickým shrnutím a referenčním souhrnem, ale nemůže určit, zda je výsledek koherentní nebo věty plynou společně rozumným způsobem. Opatření N-gram ROUGE vysokého řádu se do určité míry snaží posoudit plynulost. Všimněte si, že ROUGE je podobný míře BLEU pro strojový překlad, ale BLEU je založen na přesnosti, protože překladové systémy upřednostňují přesnost.

Slibnou linií při sumarizaci dokumentů je adaptivní sumarizace dokumentů / textů. Myšlenka adaptivní sumarizace zahrnuje předběžné rozpoznání žánru dokumentu / textu a následnou aplikaci algoritmů sumarizace optimalizovaných pro tento žánr. Byly vytvořeny první souhrny provádějící adaptivní sumarizaci.

Kontrolované přístupy k učení

Souhrn textů pod dohledem se velmi podobá supervizované extrakci klíčových slov. V zásadě platí, že pokud pro ně máte sbírku dokumentů a souhrnů generovaných člověkem, můžete se naučit funkce vět, díky nimž jsou dobrými kandidáty na zahrnutí do souhrnu. Mezi funkce může patřit pozice v dokumentu (tj. Prvních pár vět je pravděpodobně důležitých), počet slov ve větě atd. Hlavní obtíže při supervizním extrakčním shrnutí je, že známé souhrny musí být vytvořeny ručně extrahováním vět, takže věty v původním výcvikovém dokumentu lze označit jako „souhrnně“ nebo „ne souhrnně“. Toto není obvykle způsob, jakým lidé vytvářejí souhrny, takže pouhé použití abstraktů deníku nebo existujících souhrnů obvykle nestačí. Věty v těchto souhrnech se nemusí nutně shodovat s větami v původním textu, takže by bylo obtížné přiřadit štítky příkladům pro školení. Všimněte si však, že tyto přirozené souhrny lze stále použít pro účely vyhodnocení, protože ROUGE-1 se stará pouze o unigramy.

Maximální entropická sumarizace

Během hodnotících workshopů DUC 2001 a 2002 vyvinula společnost TNO systém extrakce vět pro shrnutí více dokumentů v oblasti zpráv. Systém byl založen na hybridním systému využívajícím naivní Bayesův klasifikátor a statistické jazykové modely pro modelování význačnosti. Ačkoli systém vykazoval dobré výsledky, vědci chtěli prozkoumat účinnost klasifikátoru maximální entropie (ME) pro úkol sumarizace schůzky, protože ME je známo, že je robustní vůči závislostem funkcí. Maximální entropie byla také úspěšně použita pro sumarizaci v doméně zpravodajských zpráv.

TextRank a LexRank

Nekontrolovaný přístup ke shrnutí je také v duchu docela podobný extrakci bez frází klíčové fráze a obchází problém nákladných tréninkových dat. Některé nekontrolované sumarizační přístupy jsou založeny na nalezení „ těžiště “ věty, což je střední vektor slov všech vět v dokumentu. Poté lze věty seřadit podle jejich podobnosti s touto těžištěm věty.

Zásadnějším způsobem, jak odhadnout důležitost věty, je použití náhodných procházek a ústřednosti vlastních vektorů. LexRank je algoritmus v podstatě identický s TextRank a oba používají tento přístup pro sumarizaci dokumentů. Tyto dvě metody byly vyvinuty různými skupinami současně a LexRank se jednoduše zaměřil na sumarizaci, ale stejně snadno se dal použít pro extrakci klíčových slov nebo pro jakýkoli jiný úkol hodnocení NLP.

V LexRank i TextRank je graf vytvořen vytvořením vrcholu pro každou větu v dokumentu.

Okraje mezi větami jsou založeny na nějaké formě sémantické podobnosti nebo překrývání obsahu. Zatímco LexRank používá kosinus podobnost s TF-IDF vektorů, TextRank používá velmi podobné opatření na základě počtu slov dvě věty mají společné ( normalizováno podle délky věty). Papír LexRank zkoumal pomocí nevážených hran po použití prahové hodnoty na kosinové hodnoty, ale také experimentoval s použitím hran s váhami rovnými skóre podobnosti. TextRank používá průběžné skóre podobnosti jako váhy.

V obou algoritmech jsou věty seřazeny podle hodnocení PageRank na výsledný graf. Souhrn je tvořen kombinací vět s nejvyšším hodnocením a omezením souhrnu pomocí prahové hodnoty nebo mezní délky.

Stojí za zmínku, že TextRank byl aplikován na sumarizaci přesně tak, jak je zde popsáno, zatímco LexRank byl použit jako součást většího sumárního systému ( MEAD ), který kombinuje skóre LexRank (stacionární pravděpodobnost) s dalšími funkcemi, jako je pozice věty a délka pomocí lineární kombinace s váhou zadanou uživatelem nebo automaticky vyladěnou. V tomto případě mohou být potřebné některé tréninkové dokumenty, ačkoli výsledky TextRank ukazují, že další funkce nejsou absolutně nutné.

Dalším důležitým rozdílem je, že TextRank byl použit pro shrnutí jednoho dokumentu, zatímco LexRank byl použit pro shrnutí více dokumentů. Úkol zůstává v obou případech stejný - narostl pouze počet vět, ze kterých si můžete vybrat. Při sumarizaci více dokumentů však existuje větší riziko výběru duplicitních nebo vysoce nadbytečných vět, které se umístí do stejného shrnutí. Představte si, že máte shluk zpravodajských článků o konkrétní události a chcete vytvořit jedno shrnutí. Každý článek pravděpodobně bude mít mnoho podobných vět a do souhrnu byste chtěli zahrnout pouze odlišné myšlenky. K vyřešení tohoto problému použije LexRank heuristický krok následného zpracování, který vytvoří souhrn přidáním vět v pořadí, ale zahodí všechny věty, které jsou příliš podobné těm, které jsou již v souhrnu umístěny. Použitá metoda se nazývá Cross-Sentence Information Subsumption (CSIS).

Tyto metody fungují na základě myšlenky, že věty čtenáři „doporučují“ jiné podobné věty. Pokud je tedy jedna věta velmi podobná mnoha jiným, bude to pravděpodobně věta velkého významu. Důležitost této věty vyplývá také z důležitosti vět, které ji „doporučují“. Chcete-li tedy získat vysoké hodnocení a umístit jej do souhrnu, musí být věta podobná mnoha větám, které jsou zase také podobné mnoha jiným větám. To dává intuitivní smysl a umožňuje použití algoritmů na libovolný nový text. Metody jsou nezávislé na doméně a snadno přenosné. Lze si představit, že funkce naznačující důležité věty ve zpravodajské doméně se mohou od biomedicínské domény značně lišit. Přístup bez dohledu založený na doporučení se však vztahuje na jakoukoli doménu.

Shrnutí více dokumentů

Shrnutí více dokumentů je automatický postup zaměřený na extrakci informací z více textů napsaných na stejné téma. Výsledná souhrnná zpráva umožňuje jednotlivým uživatelům, například profesionálním spotřebitelům informací, rychle se seznámit s informacemi obsaženými ve velkém shluku dokumentů. Tímto způsobem systémy souhrnů více dokumentů doplňují agregátory zpráv provádějící další krok na cestě zvládnutí informačního přetížení . Souhrn více dokumentů lze provést také v reakci na otázku.

Shrnutí více dokumentů vytváří stručné a komplexní informační zprávy. S různými názory a shrnutím různých názorů je každé téma popsáno z různých pohledů v jednom dokumentu. Zatímco cílem stručného shrnutí je zjednodušit vyhledávání informací a zkrátit čas poukazem na nejrelevantnější zdrojové dokumenty, komplexní souhrnný souhrn pro více dokumentů by měl sám obsahovat požadované informace, a tím omezit potřebu přístupu k původním souborům na případy, kdy je upřesnění Požadované. Automatické souhrny představují informace získané z více zdrojů algoritmicky, bez jakýchkoli redakčních zásahů nebo subjektivního lidského zásahu, což je činí zcela nezaujatými.

Začlenění rozmanitosti

Extrakční shrnutí více dokumentů čelí problému potenciální nadbytečnosti. V ideálním případě bychom chtěli extrahovat věty, které jsou „ústřední“ (tj. Obsahují hlavní myšlenky) a „různorodé“ (tj. Liší se od sebe navzájem). LexRank se zabývá diverzitou jako heuristickou závěrečnou fází pomocí CSIS a další systémy používají podobné metody, jako je Maximal Marginal Relevance (MMR), ve snaze eliminovat nadbytečnost ve výsledcích získávání informací. Existuje obecný algoritmus hodnocení založený na grafech, jako je Page / Lex / TextRank, který zpracovává jak „ústřednost“, tak „rozmanitost“ v jednotném matematickém rámci založeném na absorpci náhodných procházek Markovovým řetězcem . (Absorpční náhodná chůze je jako standardní náhodná chůze, kromě toho, že některé státy nyní absorbují stavy, které fungují jako „černé díry“, které způsobí, že chůze v tomto stavu náhle skončí.) Algoritmus se nazývá GRASSHOPPER. Kromě výslovné podpory rozmanitosti během procesu hodnocení obsahuje GRASSHOPPER předchozí hodnocení (v případě shrnutí na základě polohy věty).

Nejmodernější výsledky pro shrnutí více dokumentů jsou však získány pomocí směsí submodulárních funkcí. Tyto metody dosáhly nejmodernějších výsledků u Document Summarisation Corpora, DUC 04 - 07. Podobných výsledků bylo dosaženo také při použití determinantních bodových procesů (což jsou speciální případy submodulárních funkcí) pro DUC-04.

Nedávno byla vyvinuta nová metoda pro shrnutí vícejazyčných více dokumentů, která se vyhýbá nadbytečnosti, zjednodušením a vytvořením ideogramů, které představují význam každé věty v každém dokumentu, a poté "kvalitativně" vyhodnotí podobnost porovnáním tvaru a polohy uvedených ideogramů. . Tento nástroj nepoužívá frekvenci slov, nepotřebuje žádné školení ani předzpracování a pracuje generováním ideogramů, které představují význam každé věty, a poté shrnuje pomocí dvou uživatelem zadaných parametrů: ekvivalence (kdy jsou dvě věty považovány za rovnocenné) a relevance (jak dlouho je požadované shrnutí).


Submodulární funkce jako obecné nástroje pro sumarizaci

Myšlenka funkce submodulární množiny se nedávno objevila jako mocný nástroj pro modelování různých problémů se sumarizací. Submodulární funkce přirozeně modelují pojmy pokrytí , informace , reprezentace a rozmanitost . Kromě toho dochází k několika důležitým kombinatorickým optimalizačním problémům jako speciální instance submoduulární optimalizace. Například problém se sadou krytů je speciální případ submodulární optimalizace, protože funkce sady krytí je submodulární. Funkce sady krytů se pokouší najít podmnožinu objektů, které pokrývají danou sadu konceptů. Například při shrnutí dokumentu by člověk chtěl, aby shrnutí zahrnovalo všechny důležité a relevantní pojmy v dokumentu. Toto je příklad krytí sady. Podobně je problém s umístěním zařízení zvláštním případem submodulárních funkcí. Funkce Umístění zařízení také přirozeně modeluje pokrytí a rozmanitost. Dalším příkladem problému submodulární optimalizace je použití procesu determinantálního bodu k modelování rozmanitosti. Podobně lze proceduru Maximum-Marginal-Relevance považovat za instanci submodular optimalizace. Všechny tyto důležité modely podporující pokrytí, rozmanitost a informace jsou všechny submodulární. Submodulární funkce lze navíc efektivně kombinovat dohromady a výsledná funkce je stále submodulární. Dalo by se tedy kombinovat jednu submodulární funkci, která modeluje rozmanitost, druhou, která modeluje pokrytí, a pomocí lidského dohledu se naučit správný model submodulární funkce pro daný problém.

Zatímco submodulární funkce jsou vhodné pro sumarizaci, připouštějí také velmi účinné algoritmy pro optimalizaci. Například jednoduchý chamtivý algoritmus připouští záruku konstantního faktoru. Chamtivý algoritmus je navíc extrémně jednoduchý na implementaci a lze jej škálovat na velké datové sady, což je velmi důležité pro problémy se sumarizací.

Submodulární funkce dosáhly nejmodernějšího stavu téměř u všech problémů se sumarizací. Například práce Lin a Bilmes, 2012 ukazuje, že submodulární funkce dosahují dosud nejlepších výsledků v systémech DUC-04, DUC-05, DUC-06 a DUC-07 pro sumarizaci dokumentů. Podobně práce Lin a Bilmes, 2011, ukazuje, že mnoho stávajících systémů pro automatickou sumarizaci je instancí submodulových funkcí. Jednalo se o průlomový výsledek zakládající submodulární funkce jako správné modely pro problémy se shrnutím.

Submodulární funkce byly také použity pro další souhrnné úlohy. Tschiatschek et al., 2014 ukazují, že směsi submodulárních funkcí dosahují nejmodernějších výsledků pro sumarizaci obrazových sbírek. Podobně Bairi et al., 2015 ukazují užitečnost submodulárních funkcí pro shrnutí hierarchií témat více dokumentů. Submodular Functions have also successfully been used for summarizing machine learning datasets.

Aplikace

Mezi konkrétní aplikace automatické sumarizace patří:

  • Reddit bot „autotldr“, vytvořil v roce 2011 shrnuje novinové články v připomínkovém řezu reddit míst. Bylo shledáno jako velmi užitečné komunitou redditů, která stotisíckrát potvrdila svá shrnutí. Název je odkazem na TL; DR - internetový slang pro „příliš dlouho; nečetl“.

Techniky hodnocení

Nejběžnějším způsobem, jak vyhodnotit informativitu automatických souhrnů, je porovnat je se souhrny modelů vytvořenými člověkem.

Techniky hodnocení spadají do vnitřní a vnější, intertextové a intratextové.

Vnitřní a vnější hodnocení

Vnitřní hodnocení testuje sumarizační systém sám o sobě, zatímco vnější hodnocení testuje sumarizaci na základě toho, jak ovlivňuje dokončení nějakého jiného úkolu. Vnitřní hodnocení hodnotila zejména soudržnost a informativitu souhrnů. Vnější hodnocení na druhé straně testovala dopad sumarizace na úkoly, jako je hodnocení relevance, čtení s porozuměním atd.

Intertextové a intratextové

Intratextové metody hodnotí výstup konkrétního sumarizačního systému a intertextové se zaměřují na kontrastní analýzu výstupů několika sumarizačních systémů.

Lidský úsudek má často velké rozdíly v tom, co je považováno za „dobré“ shrnutí, což znamená, že automatizace procesu hodnocení je obzvláště obtížná. Lze použít ruční vyhodnocení, ale je časově i pracovně náročné, protože vyžaduje, aby si lidé přečetli nejen shrnutí, ale také zdrojové dokumenty. Další otázky se týkají soudržnosti a pokrytí.

Jednou z metrik používaných ve výročních konferencích o porozumění dokumentu NIST , ve kterých výzkumné skupiny předkládají své systémy jak pro sumarizační, tak překladové úkoly, je metrika ROUGE (Recall-Oriented Understudy for Gisting Evaluation [2] ). V podstatě vypočítává překrývání n-gramů mezi automaticky generovanými souhrny a dříve napsanými souhrny pro lidi. Vysoká úroveň překrývání by měla naznačovat vysokou úroveň sdílených konceptů mezi těmito dvěma souhrny. Všimněte si, že překrývající se metriky, jako je tato, nemohou poskytnout zpětnou vazbu o soudržnosti souhrnu. Anaforové rozlišení zůstává dalším problémem, který ještě není zcela vyřešen. Podobně pro sumarizaci obrázků vyvinuli Tschiatschek et al. Skóre Visual-ROUGE, které posuzuje výkonnost algoritmů pro sumarizaci obrázků.

Techniky sumarizace specifické pro doménu versus doména nezávislé

Techniky sumarizace nezávislé na doméně obecně používají sady obecných funkcí, které lze použít k identifikaci segmentů textu bohatých na informace. Nedávný výzkum se zaměřil na techniky sumarizace specifické pro doménu, které využívají dostupné znalosti specifické pro doménu textu. Například automatický souhrnný výzkum lékařského textu se obecně pokouší využít různé zdroje kodifikovaných lékařských znalostí a ontologií.

Kvalitativní hodnocení shrnutí

Hlavní nevýhodou dosud existujících systémů hodnocení je, že potřebujeme alespoň jedno referenční shrnutí a u některých metod více než jeden, abychom mohli porovnávat automatické shrnutí s modely. To je těžký a nákladný úkol. Je třeba vyvinout značné úsilí, aby byl vytvořen korpus textů a jejich odpovídající shrnutí. Kromě toho u některých metod nejen potřebujeme mít k dispozici souhrny vytvořené člověkem pro srovnání, ale u některých z nich je třeba provést manuální anotaci (např. SCU v pyramidové metodě). V každém případě to, co hodnotící metody potřebují jako vstup, je sada shrnutí, která slouží jako zlaté standardy, a sada automatických shrnutí. Kromě toho všichni provádějí kvantitativní hodnocení s ohledem na různé metriky podobnosti.

Dějiny

První publikace v této oblasti pochází z roku 1958 (Lun), počínaje statistickou technikou. Výzkum se v roce 2015 významně zvýšil. Frekvence termínů - četnost inverzních dokumentů byla použita do roku 2016. Sumarizace založená na vzorcích byla nejsilnější možností pro souhrnnou analýzu více dokumentů nalezenou v roce 2016. V následujícím roce byla překonána latentní sémantickou analýzou (LSA) v kombinaci s nezápornou maticovou faktorizací (NMF). Ačkoli nenahrazovaly jiné přístupy a jsou s nimi často kombinovány, do roku 2019 dominovaly metody strojového učení v extrakční sumarizaci jednotlivých dokumentů, která byla považována za blížící se dospělosti. Do roku 2020 byla oblast stále velmi aktivní a výzkum se posouvá směrem k abstraktnímu sčítání a sumarizaci v reálném čase.

Viz také

Reference

Další čtení