Porozumění dotazu - Query understanding

Porozumění dotazu je proces odvození záměru uživatele vyhledávacího stroje extrahováním sémantického významu z klíčových slov hledajícího. Metody porozumění dotazům obvykle probíhají předtím, než vyhledávač načte a vyhodnotí výsledky. Souvisí to se zpracováním přirozeného jazyka, ale konkrétně se zaměřuje na porozumění vyhledávacím dotazům. Dotaz pochopení je jádrem technologií, jako jsou Amazon Alexa , Apple ‚s Siri . Google Assistant , IBM 's Watson , a Microsoft ' s Cortana .

Metody

Tokenizace

Tokenizace je proces rozdělení textového řetězce na slova nebo jiné smysluplné prvky zvané tokeny. Tokenizace se obvykle vyskytuje na úrovni slov. Někdy je však obtížné definovat, co se rozumí „slovem“. Tokenizer často spoléhá na jednoduchou heuristiku, jako je rozdělení řetězce na interpunkční znaménka a mezery . Tokenizace je náročnější v jazycích bez mezer mezi slovy, jako je čínština a japonština . Tokenizace textu v těchto jazycích vyžaduje použití algoritmů segmentace slov .

Oprava pravopisu

Oprava pravopisu je proces automatické detekce a opravy pravopisných chyb ve vyhledávacích dotazech. Většina algoritmů pro korekci pravopisu je založena na jazykovém modelu , který určuje apriorní pravděpodobnost zamýšleného dotazu, a na chybovém modelu (typicky model hlučného kanálu ), který určuje pravděpodobnost konkrétního překlepu, vzhledem k zamýšlenému dotazu.

Stemming a lemmatizace

Mnoho, ale ne všechny, jazyky skloňují slova, aby odrážely jejich roli v promluvě, ve které se objevují: slovo jako * péče * se může objevit jako, kromě základní formy. jako * stará se *, * stará se *, * pečující * a další. Variace mezi různými formami slova pravděpodobně nebude mít pro relativně hrubozrnný významový model zapojený do vyhledávacího systému malý význam, a z tohoto důvodu je úkol spojovat různé formy slova potenciálně užitečnou technikou pro zvýšit vybavenost vyhledávacím systémem.

Jazyky světa se liší v tom, kolik morfologických variací vykazují, a pro některé jazyky existují jednoduché metody, jak snížit slovo v dotazu na jeho lemma nebo kořenovou formu nebo jeho kmen . U některých dalších jazyků zahrnuje tato operace netriviální zpracování řetězců. Podstatné jméno v angličtině se obvykle objevuje ve čtyřech variantách: * kočka * * kočka * * kočky * * kočky * nebo * dítě * * dítě * * děti * * děti *. Jiné jazyky mají více variací. Finština např. Potenciálně vykazuje asi 5 000 forem podstatného jména a pro mnoho jazyků se inflekční tvary neomezují pouze na přípony, ale mění jádro samotného slova.

Algoritmy zastavování, známé také jako stemmers, obvykle používají kolekci jednoduchých pravidel k odstranění přípon určených k modelování pravidel skloňování jazyka.

Pokročilejší metody, lemmatizační metody, seskupují skloňované tvary slova prostřednictvím složitějších sad pravidel založených na slovní části řeči nebo na jejím záznamu v lexikální databázi , transformují skloňované slovo vyhledáváním nebo řadou transformací na jeho lemma. Po dlouhou dobu se mělo prokázat, že morfologická normalizace obecně nepomohla výkonu načítání.

Jakmile se pozornost pole pro vyhledávání informací přesunula do jiných jazyků než do angličtiny, bylo zjištěno, že u některých jazyků lze nalézt zjevné zisky.

Uznání subjektu

Rozpoznávání entit je proces vyhledání a klasifikace entit v textovém řetězci. Rozpoznávání pojmenovaných entit se konkrétně zaměřuje na pojmenované entity , jako jsou jména lidí, míst a organizací. Kromě toho rozpoznávání entit zahrnuje identifikaci konceptů v dotazech, které mohou být reprezentovány víceslovnými frázemi. Systémy rozpoznávání entit obvykle používají gramatické jazykové techniky nebo statistické modely strojového učení .

Přepisování dotazů

Přepisování dotazů je proces automatické přeformulování vyhledávacího dotazu, který přesněji zachycuje jeho záměr. Rozšíření dotazu přidává další výrazy dotazu, jako jsou synonyma, aby bylo možné načíst více dokumentů a tím zvýšit výbavu. Uvolnění dotazu odstraní podmínky dotazu, aby se snížily požadavky na dokument tak, aby odpovídal dotazu, a tím se také zvýšila vybavenost . Další formy přepisování dotazů, jako je automatický převod po sobě jdoucích výrazů dotazu do frází a omezení výrazů dotazu na konkrétní pole , mají za cíl zvýšit přesnost . Vyhledávací stroj Apache Lucene používá přepisování dotazů k transformaci složitých dotazů na primitivnější dotazy, jako jsou výrazy se zástupnými znaky (např. Quer *), na booleovský dotaz odpovídajících výrazů z indexu (například dotaz NEBO dotazy).

Viz také

Reference