Podnikové vyhledávání - Enterprise search

Podnikové vyhledávání je postup, při kterém lze obsah z více zdrojů podnikového typu, jako jsou databáze a intranety , vyhledávat podle definovaného publika.

„Podnikové vyhledávání“ se používá k popisu softwaru vyhledávacích informací v rámci podniku (i když funkce vyhledávání a jeho výsledky mohou být stále veřejné). Podnikové vyhledávání lze porovnat s webovým vyhledáváním , které používá vyhledávací technologii na dokumenty na otevřeném webu, a stolním vyhledáváním , které aplikuje vyhledávací technologii na obsah na jednom počítači.

Podnikové vyhledávací systémy indexují data a dokumenty z různých zdrojů, jako jsou: souborové systémy , intranety , systémy pro správu dokumentů , e-maily a databáze . Mnoho systémů podnikového vyhledávání integruje do svých kolekcí strukturovaná a nestrukturovaná data . Podnikové vyhledávací systémy také používají řízení přístupu k vynucení zásad zabezpečení u svých uživatelů.

Na podnikové vyhledávání lze pohlížet jako na typ vertikálního vyhledávání v podniku.

Součásti systému podnikového vyhledávání

V systému podnikového vyhledávání prochází obsah různými fázemi od zdrojového úložiště po výsledky vyhledávání:

Informovanost o obsahu

Povědomí o obsahu (nebo „shromažďování obsahu“) je obvykle model typu push nebo pull. V modelu push je zdrojový systém integrován s vyhledávačem takovým způsobem, že se k němu připojí a přenese nový obsah přímo do jeho API . Tento model se používá, když je důležité indexování v reálném čase. V modelu Pull software shromažďuje obsah ze zdrojů pomocí konektoru, jako je webový prolézací modul nebo databázový konektor. Konektor obvykle vyhledává zdroj v určitých intervalech a hledá nový, aktualizovaný nebo odstraněný obsah.

Zpracování a analýza obsahu

Obsah z různých zdrojů může mít mnoho různých formátů nebo typů dokumentů, například XML, HTML, formáty dokumentů Office nebo prostý text. Fáze zpracování obsahu zpracovává příchozí dokumenty na prostý text pomocí filtrů dokumentů. Je také často nutné normalizovat obsah různými způsoby, aby se zlepšilo vyvolání nebo přesnost . Mezi ně může patřit odstopkování , lemmatizace , rozšíření synonym , extrakce entit , označování částí řeči .

Jako součást zpracování a analýzy se používá tokenizace k rozdělení obsahu na tokeny, což je základní jednotka shody. Je také obvyklé normalizovat tokeny na malá písmena, aby bylo umožněno vyhledávání bez rozlišování malých a velkých písmen, a také normalizovat akcenty, aby se lépe vyvolávalo.

Indexování

Výsledný text je uložen v rejstříku , který je optimalizován pro rychlé vyhledávání bez uložení celého textu dokumentu. Rejstřík může obsahovat slovník všech jedinečných slov v korpusu a také informace o hodnocení a četnosti výrazů .

Zpracování dotazu

Pomocí webové stránky uživatel zadá dotaz systému. Dotaz se skládá z libovolných výrazů, které uživatel zadá, a navigačních akcí, jako jsou informace o fazetování a stránkování.

Vhodný

Zpracovaný dotaz je poté porovnán s uloženým indexem a vyhledávací systém vrací výsledky (nebo „zásahy“) odkazující na zdrojové dokumenty, které se shodují. Některé systémy dokážou dokument prezentovat tak, jak byl indexován.

Rozdíly od webového vyhledávání

Kromě rozdílu v druzích materiálů, které jsou indexovány, systémy podnikového vyhledávání také obvykle obsahují funkce, které nejsou spojeny s běžnými webovými vyhledávači . Tyto zahrnují:

Adaptéry pro indexování obsahu z různých úložišť, jako jsou databáze a systémy pro správu obsahu .
Federativní vyhledávání , které se skládá z

transformace dotazu a jeho vysílání do skupiny nesourodých databází nebo externích zdrojů obsahu s příslušnou syntaxí,
sloučení výsledků shromážděných z databází,
jejich prezentace ve stručném a jednotném formátu s minimální duplikací a
poskytnutí prostředku, který provádí automaticky nebo uživatel portálu, k třídění sloučené sady výsledků.

Podnikové záložky , kolaborativní značkovací systémy pro získávání znalostí o strukturovaných a polostrukturovaných podnikových datech.
Extrakce entit, která se snaží lokalizovat a klasifikovat prvky v textu do předdefinovaných kategorií, jako jsou jména osob, organizací, umístění, vyjádření času, množství, peněžní hodnoty, procenta atd.
Fazetové vyhledávání , technika pro přístup ke sbírce informací reprezentovaných pomocí fazetové klasifikace , která uživatelům umožňuje prozkoumávat filtrováním dostupných informací.
Řízení přístupu, obvykle ve formě seznamu řízení přístupu (ACL), je často vyžadováno k omezení přístupu k dokumentům na základě individuálních identit uživatelů. Existuje mnoho typů mechanismů řízení přístupu pro různé zdroje obsahu, což činí z tohoto komplexního úkolu komplexní řešení v prostředí podnikového vyhledávání (viz níže).
Seskupování textu , které seskupuje několik stovek nejlepších výsledků vyhledávání do témat, která jsou vypočítávána za běhu z popisů výsledků vyhledávání, obvykle titulů, úryvků (úryvků) a metadat. Tato technika umožňuje uživatelům procházet obsah podle tématu, nikoli podle metadat, která se používají ve fazetování. Klastrování kompenzuje problém nekompatibilních metadat napříč více podnikovými úložišti, což brání užitečnosti fazetování.
Uživatelská rozhraní , která jsou ve webovém vyhledávání záměrně jednoduchá, aby uživatele neodváděla od klikání na reklamy, což generuje příjmy. Přestože obchodní model pro podnikové vyhledávání může zahrnovat zobrazování reklam, v praxi se to nedělá. Aby se zvýšila produktivita koncových uživatelů, prodejci podniků neustále experimentují s bohatou funkcí uživatelského rozhraní, která zabírá značný prostor na obrazovce, což by bylo pro vyhledávání na webu problematické.

Relevantní faktory

Faktory, které určují relevanci výsledků vyhledávání v kontextu podniku, se překrývají s, ale jsou jiné než ty, které platí pro vyhledávání na webu. Podnikové vyhledávače obecně nemohou využívat bohatou strukturu odkazů, jak se nachází v hypertextovém obsahu webu , nicméně nová řada podnikových vyhledávačů založená na technologii Web 2.0 zdola nahoru poskytuje jak příspěvkový přístup, tak hypertextové odkazy v rámci podnik. Algoritmy jako PageRank využívají strukturu hypertextových odkazů k přiřazení oprávnění k dokumentům a poté toto oprávnění používají jako faktor relevance nezávislý na dotazu. Naproti tomu podniky obvykle musí používat další faktory nezávislé na dotazech, jako je aktuálnost nebo popularita dokumentu, spolu s faktory závislými na dotazech, které jsou tradičně spojeny s algoritmy pro získávání informací . Bohatá funkčnost uživatelského rozhraní podnikového vyhledávání, jako je klastrování a fazetování, také snižuje závislost na hodnocení jako prostředku, kterým lze upoutat pozornost uživatele.

Řízení přístupu: časná vazba vs pozdní vazba

Zabezpečení a omezený přístup k dokumentům je důležitou záležitostí podnikového vyhledávání. Existují dva hlavní přístupy k použití omezeného přístupu: časná vazba vs pozdní vazba.

Pozdní vazba

Oprávnění jsou analyzována a přiřazena dokumentům ve fázi dotazu. Query engine generuje sadu dokumentů a před jejím vrácením uživateli je tato sada filtrována na základě přístupových práv uživatele. Je to nákladný proces, ale přesný (na základě oprávnění uživatele v okamžiku dotazu).

Raná vazba

Oprávnění jsou analyzována a přiřazena dokumentům ve fázi indexování. Je mnohem efektivnější než pozdní vazba, ale může být nepřesný (uživateli může být uděleno nebo zrušeno oprávnění mezi v období mezi indexováním a dotazováním).

Hledat možnosti testování relevance

Relevanci vyhledávací aplikace lze určit pomocí následujících možností testování relevance, jako je

Zaměřit se na skupiny
Referenční hodnotící protokol (na základě relevantních úsudků výsledků z dohodnutých dotazů prováděných proti běžným korpusům dokumentů)
Empirické testování
A/B testování
Protokolovat analýzu na produkčním webu beta
Hodnocení online

Languages

In other projects