Sémantická komprese - Semantic compression

Při zpracování přirozeného jazyka je sémantická komprese proces zhutňování lexikonu použitého k vytvoření textového dokumentu (nebo sady dokumentů) snížením heterogenity jazyka při zachování sémantiky textu . Výsledkem je, že stejné myšlenky lze vyjádřit pomocí menší sady slov.

Ve většině aplikací je sémantická komprese ztrátová komprese, to znamená, že zvýšená prolixita nekompenzuje lexikální kompresi a původní dokument nelze rekonstruovat v obráceném procesu.

Zobecněním

Sémantická komprese je v zásadě dosažena ve dvou krocích pomocí frekvenčních slovníků a sémantické sítě :

  1. stanovení kumulovaných četností termínů k identifikaci cílového lexikonu,
  2. nahrazení méně častých termínů jejich hypernymy ( zobecnění ) z cílového lexikonu.

Krok 1 vyžaduje sestavení frekvencí slov a informace o sémantických vztazích, konkrétně hyponymii . Pohybem vzhůru v hierarchii slov se kumulativní konceptová frekvence počítá přidáním součtu frekvencí hyponym k frekvenci jejich hypernym: kde je hypernym of . Poté se vybere požadovaný počet slov s nejvyššími kumulovanými frekvencemi, aby se vytvořil cílený lexikon.

Ve druhém kroku jsou pro zbývající slova definována pravidla mapování komprese, aby se ve výstupním textu zpracoval každý výskyt méně častého hyponyma jako jeho hypernym.

Příklad

Níže uvedený fragment textu byl zpracován sémantickou kompresí. Tučná slova byla nahrazena jejich hypernymy.

Oba jsou hnízdem vytvářejícím společenský hmyz , ale jejich kolonie organizují papírové vosy a včely

velmi různými způsoby . V nové studii vědci uvádějí, že navzdory svým rozdílům se tento hmyz spoléhá na stejnou síť genů, která vede jejich sociální chování . Studie se objevuje v Proceedings of the Royal Society B : Biological Sciences. Včely medonosné a papírové vosy od sebe dělí více než 100 milionů let

evoluce , a tam jsou nápadné rozdíly v tom, jak oni divvy up práci udržet si kolonii .

Výstupem postupu je následující text:

Oba jsou zařízení stavební hmyz , ale hmyz a med hmyz uspořádat své biologické skupiny

ve velmi odlišné struktuře . V nové studii vědci uvádějí, že navzdory rozdílným názorům tento hmyz působí stejnou sítí genů, aby řídil své stranické chování . Studie se objevuje v řízení instituce bakteriální biologické vědy. Medový hmyz a hmyz jsou odděleny více než sto miliony let

organické procesy , a tam jsou dopadající rozdíly v názorech na způsob, jakým divvy up práci tvrdit o biologickou skupinu .

Implicitní sémantická komprese

Přirozenou tendenci udržovat výstižné výrazy v přirozeném jazyce lze vnímat jako formu implicitní sémantické komprese vynecháním nemyslitelných slov nebo nadbytečných smysluplných slov (zejména proto, aby se zabránilo pleonasmu ).

Aplikace a výhody

V modelu vektorového prostoru vede zhutnění lexikonu ke snížení rozměrnosti , což má za následek menší výpočetní složitost a pozitivní vliv na účinnost.

Sémantická komprese je výhodná v úlohách získávání informací a zvyšuje jejich efektivitu (z hlediska přesnosti i odvolání). To je způsobeno přesnějšími deskriptory (snížený účinek jazykové rozmanitosti - omezená redundance jazyka, krok k řízenému slovníku).

Stejně jako v předchozím příkladu je možné výstup zobrazit jako přirozený text (opětovné použití inflexe, přidání zastavovacích slov).

Viz také

Reference

  1. ^ Ceglarek, D .; Haniewicz, K .; Rutkowski, W. (2010). "Sémantická komprese pro systémy pro vyhledávání specializovaných informací". Pokroky v inteligentních informačních a databázových systémech . Studium výpočetní inteligence. 283 : 111–121. doi : 10.1007 / 978-3-642-12090-9_10 . ISBN 978-3-642-12089-3.
  2. ^ Percova, NN (1982). Msgstr "O typech sémantické komprese textu". COLING '82 Proceedings of the 9th Conference on Computational Linguistics . 2 . s. 229–231. doi : 10.3115 / 990100.990155 . ISBN 0-444-86393-1. S2CID  33742593 .
  3. ^ Ceglarek, D .; Haniewicz, K .; Rutkowski, W. (2010). Msgstr "Kvalita sémantické komprese v klasifikaci" . Sborník z 2. mezinárodní konference o výpočetní kolektivní inteligenci: technologie a aplikace . 1 . Springer. 162–171. ISBN 978-3-642-16692-1.

externí odkazy