Detekce hlasové aktivity - Voice activity detection

Detekce hlasové aktivity ( VAD ), také známá jako detekce aktivity řeči nebo detekce řeči , je detekce přítomnosti nebo nepřítomnosti lidské řeči, která se používá při zpracování řeči . Hlavní využití VAD je v kódování řeči a rozpoznávání řeči . Může usnadnit zpracování řeči a může být také použit k deaktivaci některých procesů během ne-řečové sekce zvukové relace: může se vyhnout zbytečnému kódování/přenosu tichých paketů v aplikacích VoIP ( Voice over Internet Protocol ), šetřit na výpočtu a na šířka pásma sítě .

VAD je důležitá podporující technologie pro různé aplikace založené na řeči. Proto byly vyvinuty různé VAD algoritmy, které poskytují různé funkce a kompromisy mezi latencí , citlivostí , přesností a výpočetními náklady. Některé algoritmy VAD také poskytují další analýzu, například zda je řeč znělá , neznělá nebo trvalá . Detekce hlasové aktivity je obvykle nezávislá na jazyce.

Poprvé byl zkoumán pro použití na systémech interpolace řeči s časovým přiřazením (TASI).

Přehled algoritmů

Typický návrh algoritmu VAD je následující:

  1. Nejprve může dojít ke stupni redukce šumu, např. Prostřednictvím spektrálního odčítání .
  2. Poté se z části vstupního signálu vypočítají některé funkce nebo veličiny.
  3. K klasifikaci sekce jako řeči nebo bez řeči se používá klasifikační pravidlo-často toto klasifikační pravidlo najde, když hodnota překročí určitou prahovou hodnotu.

V této sekvenci může existovat určitá zpětná vazba, ve které se rozhodnutí VAD používá ke zlepšení odhadu hluku ve fázi redukce hluku nebo k adaptivní změně prahových hodnot. Tyto operace zpětné vazby zlepšují výkon VAD v nestacionárním hluku (tj. Když se hluk hodně mění).

Reprezentativní soubor nedávno publikovaných metod VAD formuluje rozhodovací pravidlo na základě jednotlivých snímků pomocí okamžitých měření vzdálenosti divergence mezi řečí a šumem. Různá opatření, která se používají v metodách VAD, zahrnují spektrální sklon , korelační koeficienty, poměr pravděpodobnosti log, cepstral, vážený cepstral a modifikovaná měření vzdálenosti.

Nezávisle na volbě VAD algoritmu musí být učiněn kompromis mezi hlasem detekovaným jako šum nebo šumem detekovaným jako hlas (mezi falešně pozitivním a falešně negativním ). VAD pracující v mobilním telefonu musí být schopen detekovat řeč v přítomnosti řady velmi rozmanitých typů akustického hluku v pozadí. V těchto obtížných podmínkách detekce je často vhodnější, aby VAD byl bezpečný pro selhání , indikující řeč detekovanou v případě pochybností o rozhodnutí, aby se snížila šance na ztrátu řečových segmentů. Největší obtíž při detekci řeči v tomto prostředí jsou velmi nízké poměry signálu k šumu (SNR), se kterými se setkáváme. Pokud jsou části řečové výpovědi zakopány pod hlukem, může být nemožné rozlišit řeč a hluk pomocí jednoduchých technik detekce úrovně.

Aplikace

Pro širokou škálu aplikací, jako je digitální mobilní rádio, digitální simultánní hlas a data (DSVD) nebo ukládání řeči, je žádoucí zajistit diskontinuální přenos parametrů kódování řeči. Mezi výhody může patřit nižší průměrná spotřeba energie v mobilních telefonech, vyšší průměrná přenosová rychlost pro simultánní služby, jako je přenos dat, nebo vyšší kapacita na paměťových čipech . Zlepšení však závisí hlavně na procentu přestávek během řeči a spolehlivosti VAD použité k detekci těchto intervalů. Na jedné straně je výhodné mít nízké procento řečové aktivity. Na druhou stranu, oříznutí, což je ztráta milisekund aktivní řeči, by mělo být minimalizováno, aby byla zachována kvalita. Toto je zásadní problém pro algoritmus VAD v podmínkách silného hluku.

Použití v telemarketingu

Jedna kontroverzní aplikace VAD je ve spojení s prediktivními voliči používanými telemarketingovými firmami. Aby se maximalizovala produktivita agentů, telemarketingové firmy nastavily prediktivní vytáčení, aby volalo na více čísel, než mají k dispozici agenti, protože věděli, že většina hovorů skončí buď „vyzvánění - žádná odpověď“, nebo záznamníky. Když někdo odpoví, obvykle krátce promluví („ Dobrý den “, „ Dobrý večer “ atd.) A poté krátce mlčí. Zprávy záznamníku jsou obvykle 3–15 sekund nepřetržité řeči. Správným nastavením parametrů VAD mohou uživatelé vytáčení určit, zda hovor přijal člověk nebo počítač, a pokud se jedná o osobu, přepojit hovor k dostupnému agentovi. Pokud detekuje zprávu záznamníku, telefon zavěsí. Často, i když systém správně detekuje osobu, která na hovor odpovídá, nemusí být k dispozici žádný agent, což má za následek „ tichý hovor “. Screening hovorů s vícesekundovou zprávou typu „řekněte prosím, kdo jste, a já mohu zvednout telefon“ takové automatické hovory zmaří.

Hodnocení výkonnosti

K vyhodnocení VAD je jeho výstup pomocí testovacích záznamů porovnán s výstupy „ideálního“ VAD-vytvořeného ruční anotací přítomnosti nebo nepřítomnosti hlasu v nahrávkách. Výkon VAD se běžně vyhodnocuje na základě následujících čtyř parametrů:

  • FEC (Front End Clipping): oříznutí zavedené přechodem z hluku do řečové aktivity;
  • MSC (Mid Speech Clipping): oříznutí z důvodu nesprávně klasifikované řeči jako šum;
  • NAD: hluk interpretovaný jako řeč kvůli tomu, že příznak VAD zůstává aktivní při přechodu z řečové aktivity na hluk;
  • NDS (Noise Detected as Speech): šum interpretovaný jako řeč v období ticha.

Přestože výše popsaná metoda poskytuje užitečné objektivní informace týkající se výkonu VAD, je pouze přibližným měřítkem subjektivního účinku. Například efekty ořezávání řečových signálů mohou být občas skryty přítomností šumu na pozadí, v závislosti na modelu zvoleném pro komfortní syntézu šumu, takže část ořezů měřených pomocí objektivních testů ve skutečnosti není slyšet. Je proto důležité provádět subjektivní testy na VAD, jejichž hlavním cílem je zajistit, aby vnímané ořezávání bylo přijatelné. Tento druh testu vyžaduje, aby určitý počet posluchačů posoudil nahrávky obsahující výsledky zpracování testovaných VAD, což značí několik řečových sekvencí o následujících funkcích:

  • Kvalitní;
  • Obtížnost porozumění;
  • Slyšitelnost oříznutí.

Tyto značky se pak použijí k výpočtu průměrných výsledků pro každý z výše uvedených znaků, čímž se získá globální odhad chování testovaného VAD.

Závěrem lze říci, že zatímco objektivní metody jsou v počáteční fázi pro hodnocení kvality VAD velmi užitečné, subjektivní metody jsou významnější. Vzhledem k tomu, že vyžadují účast několika lidí po dobu několika dnů, což zvyšuje náklady, obvykle se používají pouze tehdy, když se návrh chystá standardizovat.

Implementace

  • Jedním z prvních standardů VAD je ten, který vyvinula společnost British Telecom pro použití v celoevropské digitální mobilní mobilní telefonní službě v roce 1991. K filtrování šumu pozadí používá inverzní filtrování vycvičené na ne-řečových segmentech, takže pak může spolehlivěji používat jednoduchý práh výkonu k rozhodnutí, zda je přítomen hlas.
  • Standard G.729 vypočítává pro svůj VAD následující funkce: spektrální frekvence čar , energie v plném pásmu, energie v dolním pásmu (<1 kHz) a rychlost křížení nuly . Aplikuje jednoduchou klasifikaci pomocí pevné hranice rozhodování v prostoru definovaném těmito vlastnostmi a poté aplikuje vyhlazování a adaptivní korekci ke zlepšení odhadu.
  • Standard GSM obsahuje dvě možnosti VAD vyvinuté společností ETSI . Možnost 1 vypočítá SNR v devíti pásmech a na tyto hodnoty použije prahovou hodnotu. Možnost 2 vypočítává různé parametry: výkon kanálu, metriky hlasu a výkon šumu. Poté prahové hodnoty hlasové metriky pomocí prahu, který se liší podle odhadované SNR.
  • Knihovna komprese zvuku Speex používá proceduru s názvem Improved Minima Controlled Recursive Averaging , která používá vyhlazenou reprezentaci spektrálního výkonu a poté se dívá na minima vyhlazeného periodogramu . Od verze 1.2 byl nahrazen tím, co autor nazval kludge .
  • Lingua Libre , nástroj Wikimedia a projekt jazykové dokumentace , který pomocí VAD umožňuje zaznamenat mnoho výslovností v krátkém čase.

Viz také

Reference