Hlasové uživatelské rozhraní - Voice user interface

Voice-uživatelské rozhraní ( VUI ) činí ústní interakce člověka s počítači je to možné, pomocí rozpoznávání řeči rozumět mluvené příkazy a odpovědět na otázky a typicky textu na řeč hrát odpověď. Zařízení hlasového ovládání ( VCD ) je zařízení ovládané hlasovým uživatelským rozhraním.

Hlasová uživatelská rozhraní byla přidána do automobilů , systémů domácí automatizace , počítačových operačních systémů , domácích spotřebičů, jako jsou pračky a mikrovlnné trouby , a dálkových ovladačů televize . Jsou hlavním způsobem interakce s virtuálními asistenty na chytrých telefonech a chytrých reproduktorech . Starší automatizované obsluhy (které směrují telefonní hovory na správnou pobočku) a interaktivní systémy hlasové odezvy (které provádějí složitější transakce po telefonu) mohou reagovat na stisknutí tlačítek klávesnice pomocí tónů DTMF , ale ti s plným hlasovým uživatelským rozhraním umožňují volajícím vyslovovat žádosti a odpovědi, aniž byste museli mačkat jakákoli tlačítka.

Novější VCD jsou nezávislé na reproduktorech, takže mohou reagovat na více hlasů, bez ohledu na přízvuk nebo nářeční vlivy. Jsou také schopni reagovat na několik příkazů najednou, oddělit hlasové zprávy a poskytnout vhodnou zpětnou vazbu , přesně napodobující přirozenou konverzaci.

Přehled

VUI je rozhraní pro jakoukoli řečovou aplikaci. Ovládat stroj pouhým rozhovorem s ním bylo sci -fi jen před krátkým časem. Až donedávna byla tato oblast považována za umělou inteligenci . Pokroky v technologiích, jako je převod textu na řeč, převod řeči na text, zpracování přirozeného jazyka a cloudové služby, obecně přispěly k masovému přijetí těchto typů rozhraní. VUI se staly běžnější a lidé využívají výhody hodnoty, kterou tato rozhraní hands-free a očí nabízejí v mnoha situacích.

VUI musí reagovat na vstup spolehlivě, jinak budou odmítnuty a často zesměšňovány svými uživateli. Navrhování dobrého VUI vyžaduje interdisciplinární talent počítačové vědy , lingvistiky a psychologie lidských faktorů - to vše jsou dovednosti, které jsou drahé a těžko dostupné. I u pokročilých vývojových nástrojů vyžaduje vybudování efektivní VUI důkladné porozumění jak úkolům, které mají být provedeny, tak cílovému publiku, které bude používat konečný systém. Čím blíže se VUI shoduje s mentálním modelem úkolu uživatele, tím snazší bude použití s ​​malým nebo žádným školením, což má za následek vyšší účinnost a vyšší spokojenost uživatelů.

VUI navržený pro širokou veřejnost by měl klást důraz na snadné použití a poskytovat spoustu pomoci a pokynů pro ty, kdo poprvé volají. Naproti tomu VUI navržené pro malou skupinu zkušených uživatelů (včetně pracovníků terénních služeb) by se mělo více soustředit na produktivitu a méně na pomoc a vedení. Takové aplikace by měly zefektivnit toky hovorů, minimalizovat výzvy, eliminovat zbytečné iterace a umožnit propracované „smíšené iniciativní dialogy “, které umožňují volajícím zadat několik informací v rámci jedné výpovědi a v libovolném pořadí nebo kombinaci. Stručně řečeno, řečové aplikace musí být pečlivě vytvořeny pro konkrétní obchodní proces, který je automatizován.

Ne všechny obchodní procesy jsou pro automatizaci řeči stejně dobré. Obecně platí, že čím složitější jsou šetření a transakce, tím náročnější bude jejich automatizace a čím větší je pravděpodobnost, že u široké veřejnosti neuspějí. V některých scénářích automatizace jednoduše není použitelná, takže pomoc živého agenta je jedinou možností. Například horkou linku právního poradenství by bylo velmi obtížné automatizovat. Na druhou stranu je řeč ideální pro zpracování rychlých a rutinních transakcí, jako je změna stavu pracovního příkazu, vyplnění zadání času nebo výdajů nebo převod finančních prostředků mezi účty.

Dějiny

Rané aplikace pro VUI zahrnovaly hlasovou aktivaci vytáčení telefonů, a to buď přímo, nebo prostřednictvím (obvykle Bluetooth ) náhlavní soupravy nebo audio systému vozidla.

V roce 2007 obchodní článek CNN uvedl, že hlasové ovládání je přes miliardu dolarů a že společnosti jako Google a Apple se pokoušejí vytvořit funkce rozpoznávání řeči. Od zveřejnění článku uplynuly roky a od té doby byl svět svědkem různých zařízení pro hlasové ovládání. Kromě toho Google vytvořil nástroj pro rozpoznávání řeči s názvem Pico TTS a Apple vydal Siri. Zařízení pro hlasové ovládání jsou stále více dostupná a vždy se vytvářejí inovativní způsoby používání lidského hlasu. Business Week například naznačuje, že budoucím dálkovým ovladačem bude lidský hlas. Xbox Live v současné době takové funkce umožňuje a Jobs na tuto funkci na nové Apple TV upozornil .

Softwarové produkty pro hlasové povely na výpočetních zařízeních

Apple Mac i Windows PC poskytují vestavěné funkce rozpoznávání řeči pro jejich nejnovější operační systémy .

Microsoft Windows

Dva operační systémy Microsoft, Windows 7 a Windows Vista , poskytují funkce rozpoznávání řeči. Microsoft integroval do svých operačních systémů hlasové příkazy, aby poskytl mechanismus pro lidi, kteří chtějí omezit používání myši a klávesnice, ale přesto chtějí zachovat nebo zvýšit svou celkovou produktivitu.

Windows Vista

Díky hlasovému ovládání Windows Vista může uživatel diktovat dokumenty a e -maily v běžných aplikacích, spouštět a přepínat mezi aplikacemi, ovládat operační systém, formátovat dokumenty, ukládat dokumenty, upravovat soubory, efektivně opravovat chyby a vyplňovat formuláře na webu . Software pro rozpoznávání řeči se automaticky učí pokaždé, když jej uživatel používá, a rozpoznávání řeči je k dispozici v angličtině (USA), angličtině (Velké Británii), němčině (Německu), francouzštině (Francii), španělštině (Španělsko), japonštině, čínštině (tradiční) a čínština (zjednodušená). Kromě toho je software dodáván s interaktivním tutoriálem, který lze použít k zaškolení uživatele i modulu rozpoznávání řeči.

Windows 7

Kromě všech funkcí poskytovaných v systému Windows Vista poskytuje systém Windows 7 průvodce nastavením mikrofonu a návod, jak tuto funkci používat.

Mac OS X

Na všech počítačích Mac OS X je předinstalován software pro rozpoznávání řeči. Tento software je nezávislý na uživateli a umožňuje uživateli „procházet nabídky a zadávat klávesové zkratky; vyslovovat názvy zaškrtávacích políček, názvy přepínačů, položky seznamu a názvy tlačítek; a otevírat, zavírat, ovládat a přepínat mezi aplikacemi. " Web Apple však uživateli doporučuje koupit komerční produkt s názvem Dictate .

Komerční produkty

Pokud uživatel není spokojen s integrovaným softwarem pro rozpoznávání řeči nebo uživatel nemá vestavěný software pro rozpoznávání řeči pro svůj operační systém, může uživatel experimentovat s komerčním produktem, jako je Braina Pro nebo DragonNaturallySpeaking pro počítače se systémem Windows, a diktovat, název stejného softwaru pro Mac OS.

Hlasové ovládání mobilních zařízení

Jakékoli mobilní zařízení s operačním systémem Android, Microsoft Windows Phone, iOS 9 nebo novějším nebo Blackberry OS poskytuje funkce hlasového ovládání. Kromě vestavěného softwaru pro rozpoznávání řeči pro operační systém každého mobilního telefonu si uživatel může stáhnout aplikace hlasových příkazů třetích stran z úložiště aplikací každého operačního systému: Apple App store , Google Play , Windows Phone Marketplace (původně Windows Marketplace pro mobilní zařízení ) nebo Svět aplikace BlackBerry .

OS Android

Google vyvinul open source operační systém s názvem Android , který uživateli umožňuje provádět hlasové příkazy, například: odesílat textové zprávy, poslouchat hudbu, vyhledávat trasy, volat firmám, volat kontaktům, odesílat e -maily, prohlížet mapu, procházet webové stránky, napište poznámku a prohledejte Google. Software pro rozpoznávání řeči je k dispozici pro všechna zařízení od Androidu 2.2 „Froyo“ , ale nastavení musí být nastaveno na angličtinu. Google umožňuje uživateli změnit jazyk a uživatel je vyzván, když poprvé používá funkci rozpoznávání řeči, pokud chce, aby jeho hlasová data byla připojena k jeho účtu Google. Pokud se uživatel rozhodne aktivovat tuto službu, umožní společnosti Google vycvičit software na hlas uživatele.

Google představil Google Assistant s Androidem 7.0 „Nougat“ . Je mnohem pokročilejší než starší verze.

Amazon.comEcho, které k poskytování hlasového rozhraní používá vlastní verzi Androidu od Amazonu.

Microsoft Windows

Windows Phone je operační systém mobilního zařízení společnosti Microsoft . V systému Windows Phone 7.5 je aplikace pro řeč nezávislá na uživateli a lze ji použít k: volání někomu ze seznamu kontaktů, volání na jakékoli telefonní číslo, opětovné vytočení posledního čísla, odeslání textové zprávy, volání do vaší hlasové pošty, otevření aplikace, čtení schůzek , zjišťujte stav telefonu a prohledávejte web. Kromě toho lze během telefonního hovoru používat také řeč a během telefonního hovoru jsou možné následující akce: stiskněte číslo, zapněte hlasitý telefon nebo zavolejte někomu, čímž se aktuální hovor podrží.

Windows 10 představuje Cortanu , systém hlasového ovládání, který nahrazuje dříve používané hlasové ovládání na telefonech s Windows.

iOS

Apple přidal hlasové ovládání do své rodiny zařízení iOS jako novou funkci iPhone OS 3 . IPhone 4S , iPad 3 , iPad Mini 1G , iPad Air , iPad Pro 1G , iPod Touch 5G a později, všichni přicházejí s pokročilejší hlasového asistenta s názvem Siri . Hlasové ovládání lze stále povolit prostřednictvím nabídky Nastavení novějších zařízení. Siri je vestavěná funkce rozpoznávání řeči nezávislá na uživateli, která uživateli umožňuje vydávat hlasové příkazy. S pomocí Siri může uživatel vydávat příkazy, jako je odeslání textové zprávy, kontrola počasí, nastavení připomenutí, hledání informací, plánování schůzek, odeslání e -mailu, nalezení kontaktu, nastavení budíku, získání trasy, sledování vašich zásob, nastavit časovač a požádat o příklady ukázkových dotazů na hlasové příkazy. Siri navíc pracuje s Bluetooth a kabelovými sluchátky.

Amazon Alexa

V roce 2014 Amazon představil chytré domácí zařízení Alexa . Jeho hlavním účelem byl pouze chytrý reproduktor, který spotřebiteli umožňoval ovládat zařízení hlasem. Nakonec se z toho stalo novinkové zařízení, které mělo schopnost ovládat domácí zařízení hlasem. Nyní lze pomocí Alexa ovládat téměř všechny spotřebiče, včetně žárovek a teploty. Povolením hlasového ovládání se Alexa může připojit k inteligentní domácí technologii, která vám umožní zamknout dům, ovládat teplotu a aktivovat různá zařízení. Tato forma AI umožňuje, aby jí někdo jednoduše položil otázku, a jako odpověď na ni Alexa odpověď hledá, nachází a recituje.

Rozpoznávání řeči v automobilech

Jak se technologie automobilů zdokonaluje, budou do automobilů přidávány další funkce a tyto funkce budou s největší pravděpodobností rušit řidiče. Hlasové příkazy pro automobily by podle CNET měly řidiči umožňovat vydávat příkazy a nenechat se rozptylovat. CNET uvedl, že Nuance navrhuje, aby v budoucnu vytvořili software, který by připomínal Siri, ale pro automobily. Většina softwaru pro rozpoznávání řeči na trhu v roce 2011 měla jen asi 50 až 60 hlasových příkazů, ale Ford Sync měl 10 000. CNET však naznačil, že ani 10 000 hlasových příkazů není dostačujících vzhledem ke složitosti a různorodosti úkolů, které by uživatel mohl chtít dělat za jízdy. Hlasové ovládání pro automobily se liší od hlasových příkazů pro mobilní telefony a pro počítače, protože řidič může pomocí této funkce vyhledávat okolní restaurace, hledat benzín, směry jízdy, stav vozovek a polohu nejbližšího hotelu. V současné době technologie umožňuje řidiči vydávat hlasové příkazy jak na přenosném GPS, jako je Garmin, tak na navigačním systému výrobce automobilu.

Seznam systémů hlasového ovládání poskytovaných výrobci motorů:

Neverbální vstup

Zatímco většina hlasových uživatelských rozhraní je navržena tak, aby podporovala interakci prostřednictvím mluveného lidského jazyka, došlo také k nedávnému zkoumání při navrhování rozhraní, které by zahrnovalo neverbální lidské zvuky. V těchto systémech uživatel ovládá rozhraní vydáváním jiných než řečových zvuků, jako je hučení, pískání nebo foukání do mikrofonu.

Jedním z takových příkladů neverbálního hlasového uživatelského rozhraní je Blendie, interaktivní umělecká instalace vytvořená Kelly Dobson. Kus obsahoval klasický mixér z 50. let, který byl dodatečně vybaven tak, aby reagoval na vstup mikrofonu. Chcete-li ovládat mixér, musí uživatel napodobit bzučivé mechanické zvuky, které mixér obvykle vydává: mixér se bude pomalu otáčet v reakci na nízko posazené vrčení uživatele a bude se zvyšovat rychlost, protože uživatel bude vydávat hlasitější zvuky.

Dalším příkladem je VoiceDraw, výzkumný systém, který umožňuje digitální kreslení jednotlivcům s omezenými pohybovými schopnostmi. VoiceDraw umožňuje uživatelům „malovat“ tahy na digitální plátno modulací zvuků samohlásek, které jsou mapovány do směrů štětce. Modulace dalších paralingvistických rysů (např. Hlasitost jejich hlasu) umožňuje uživateli ovládat různé rysy kresby, například tloušťku tahu štětce.

Mezi další přístupy patří přijímání neverbálních zvuků za účelem posílení dotykových rozhraní (např. Na mobilním telefonu) za účelem podpory nových typů gest, která by nebyla možná pouze při zadávání prstem.

Konstrukční výzvy

Hlasová rozhraní představují značný počet výzev pro použitelnost. Na rozdíl od grafických uživatelských rozhraní (GUI) se osvědčené postupy pro návrh hlasového rozhraní stále objevují.

Zjistitelnost

Díky čistě zvukové interakci trpí hlasová uživatelská rozhraní nízkou viditelností : pro uživatele je obtížné pochopit rozsah schopností systému. Aby systém sdělil, co je možné bez vizuálního zobrazení, musel by vyjmenovat dostupné možnosti, které mohou být únavné nebo neproveditelné. Nízká objevitelnost často vede k tomu, že uživatelé hlásí zmatek ohledně toho, co jim „je dovoleno“ říci, nebo nesoulad v očekáváních ohledně šíře porozumění systému.

Transkripce

Zatímco technologie rozpoznávání řeči se v posledních letech značně zlepšila, hlasová uživatelská rozhraní stále trpí chybami při analýze nebo přepisu, ve kterých není řeč uživatele interpretována správně. Tyto chyby bývají obzvláště rozšířené, když obsah řeči používá odbornou slovní zásobu (např. Lékařskou terminologii) nebo nekonvenční hláskování, jako je hudební umělec nebo názvy písní.

Porozumění

Efektivní návrh systému k maximalizaci porozumění konverzaci zůstává otevřenou oblastí výzkumu. Rozhraní hlasových uživatelských rozhraní, která interpretují a spravují stav konverzace, je náročné navrhnout kvůli inherentní obtížnosti integrace komplexních úloh zpracování přirozeného jazyka, jako je rozlišení koreference , rozpoznávání pojmenovaných entit , načítání informací a správa dialogů . Většina dnešních hlasových asistentů je schopna velmi dobře provádět jednotlivé příkazy, ale jejich schopnost řídit dialog nad rámec úzkého úkolu nebo pár obratů v konverzaci je omezená.

Budoucí využití

Kapesní zařízení, jako jsou PDA nebo mobilní telefony , aktuálně spoléhají na malá tlačítka pro zadávání uživatelem. Ty jsou buď integrovány do zařízení, nebo jsou součástí rozhraní dotykové obrazovky, jako je tomu v aplikacích Apple iPod Touch a iPhone Siri. Rozsáhlé mačkání tlačítek na zařízeních s tak malými tlačítky může být únavné a nepřesné, takže snadno použitelné, přesné a spolehlivé VUI by potenciálně představovalo zásadní průlom ve snadnosti jejich používání. Nicméně takové VUI by bylo přínosem také pro uživatele počítačů velikosti laptopů a stolních počítačů, protože by vyřešilo mnoho problémů, které jsou v současné době spojeny s používáním klávesnice a myši , včetně zranění způsobených opakovaným namáháním, jako je syndrom karpálního tunelu a pomalá rychlost psaní na část nezkušených uživatelů klávesnice. Kromě toho používání klávesnice obvykle znamená, že sedíte nebo stojíte nehybně před připojeným displejem; Naproti tomu VUI by umožnilo uživateli být mnohem mobilnějším, protože hlasový vstup eliminuje potřebu dívat se na klávesnici.

Takový vývoj by mohl doslova změnit tvář současných strojů a mít dalekosáhlé důsledky na to, jak s nimi uživatelé interagují. Ruční zařízení by byla navržena s většími, snadněji zobrazitelnými obrazovkami, protože by nebyla vyžadována žádná klávesnice. Zařízení s dotykovým displejem již nebudou muset rozdělovat displej mezi obsah a klávesnici na obrazovce, což zajistí prohlížení obsahu na celé obrazovce. Přenosné počítače by se daly v podstatě snížit na polovinu, pokud jde o velikost, protože polovina klávesnice by byla odstraněna a všechny vnitřní komponenty by byly integrovány za displejem, což by vedlo k jednoduchému tabletovému počítači . Stolní počítače by sestávaly z CPU a obrazovky, což by šetřilo místo na stole, které jinak zabírá klávesnice, a eliminovalo posuvné opěrky klávesnice zabudované pod povrchem stolu. Také by mohla být odstraněna dálková ovládání televize a klávesnice na desítkách dalších zařízení, od mikrovlnných trub po kopírky.

Aby však k takovému vývoji došlo, muselo by být překonáno mnoho výzev. Za prvé, VUI by musel být dostatečně propracovaný, aby rozlišoval mezi vstupy, jako jsou příkazy, a konverzací na pozadí; jinak by byl zaregistrován falešný vstup a připojené zařízení by se chovalo nevyrovnaně. Standardní výzva, například slavný „Počítač!“ volání postav ve sci -fi televizních pořadech a filmech, jako je Star Trek , by mohlo aktivovat VUI a připravit jej na příjem dalších vstupů od stejného mluvčího. Představitelné je, že VUI může také zahrnovat reprezentaci podobnou člověku: například hlas nebo dokonce postavu na obrazovce, která odpovídá zpět (např. „Ano, Vamshi?“) A pokračuje v komunikaci tam a zpět s uživatelem v za účelem vyjasnění přijatého vstupu a zajištění přesnosti.

Za druhé, VUI by muselo pracovat ve shodě s vysoce sofistikovaným softwarem, aby bylo možné přesně zpracovat a najít/načíst informace nebo provést akci podle preferencí konkrétního uživatele. Pokud například Samantha upřednostňuje informace z konkrétních novin a pokud dává přednost tomu, aby byly informace shrnuty v bodové formě, mohla by říci: „Počítači, najdi mi nějaké informace o povodních v jižní Číně v noci“; VUI, která je obeznámena s jejími preferencemi, by v reakci na to z tohoto zdroje „našla“ fakta o „záplavách“ v „jižní Číně“, převedla je do bodového tvaru a doručila jí je na obrazovce a/nebo v hlasové podobě, doplněno citací. Proto by byl vyžadován přesný software pro rozpoznávání řeči spolu s určitým stupněm umělé inteligence na straně stroje spojeného s VUI.

Důsledky ochrany osobních údajů

Obavy ohledně ochrany osobních údajů vyvolává skutečnost, že hlasové příkazy jsou poskytovatelům hlasových uživatelských rozhraní k dispozici v nešifrované podobě, a lze je tedy sdílet se třetími stranami a zpracovávat je neautorizovaným nebo neočekávaným způsobem. Kromě jazykového obsahu zaznamenané řeči může způsob vyjadřování a hlasové charakteristiky uživatele implicitně obsahovat informace o jeho biometrické identitě, osobnostních rysech, tvaru těla, fyzickém a duševním zdravotním stavu, pohlaví, pohlaví, náladách a emocích, socioekonomickém stavu a geografický původ.

Viz také

Reference

externí odkazy