WaveNet - WaveNet

WaveNet je hluboká neuronová síť pro generování surového zvuku. To bylo vytvořeno vědci z londýnské firmy s umělou inteligencí DeepMind . Tato technika, popsaná v článku v září 2016, je schopna generovat relativně realisticky znějící hlasy podobné člověku přímým modelováním křivek pomocí metody neuronové sítě trénované se záznamy skutečné řeči. Testy s americkou angličtinou a mandarínským jazykem údajně ukázaly, že systém překonává nejlepší stávající systémy Google pro převod textu na řeč (TTS), ačkoli od roku 2016 byla jeho syntéza převodu textu na řeč stále méně přesvědčivá než skutečná lidská řeč. Schopnost WaveNet generovat surové křivky znamená, že může modelovat jakýkoli druh zvuku, včetně hudby.

Dějiny

Generování řeči z textu je stále častějším úkolem díky popularitě softwaru, jako je Apple Siri , Microsoft Cortana , Amazon Alexa a Google Assistant .

Většina takových systémů používá variaci techniky, která zahrnuje zřetězené zvukové fragmenty dohromady a tvoří rozpoznatelné zvuky a slova. Nejběžnější z nich se nazývá concatenative TTS. Skládá se z velké knihovny fragmentů řeči zaznamenaných jedním reproduktorem, které jsou poté zřetězeny tak, aby vytvářely úplná slova a zvuky. Výsledek zní nepřirozeně, s podivnou kadencí a tónem. Spoléhání se na zaznamenanou knihovnu také ztěžuje úpravu nebo změnu hlasu.

Jiná technika, známá jako parametrická TTS, používá matematické modely k vytváření zvuků, které se poté skládají do slov a vět. Informace potřebné ke generování zvuků jsou uloženy v parametrech modelu. Vlastnosti výstupní řeči jsou řízeny vstupy do modelu, zatímco řeč je obvykle vytvářena pomocí hlasového syntetizátoru známého jako vokodér . To může také vést k nepřirozeně znějícímu zvuku.

Design a probíhající výzkum

Pozadí

WaveNet je typ dopředné neurální sítě známé jako hluboká konvoluční neurální síť (CNN). Ve WaveNet CNN přijímá surový signál jako vstup a syntetizuje výstup po jednom vzorku. Činí tak vzorkováním z softmax (tj. Kategorické ) distribuce hodnoty signálu, která je zakódována pomocí μ-law kompaktní transformace a kvantována na 256 možných hodnot.

Počáteční koncepce a výsledky

Podle původního výzkumného příspěvku DeepMind ze září 2016 WaveNet : Generativní model pro surový zvuk byla síť napájena skutečnými průběhy řeči v angličtině a mandarínštině. Při průchodu sítí se naučí sadu pravidel, která popisují, jak se průběh zvuku vyvíjí v průběhu času. Cvičenou síť lze poté použít k vytvoření nových křivek podobných řeči při 16 000 vzorcích za sekundu. Tyto křivky zahrnují realistické dechy a plácnutí rtů - ale neodpovídají žádnému jazyku.

WaveNet je schopen přesně modelovat různé hlasy, přičemž akcent a tón vstupu korelují s výstupem. Například pokud je trénován s němčinou, produkuje německou řeč. Tato schopnost také znamená, že pokud je WaveNet napájen jinými vstupy - například hudbou - bude jeho výstup hudební. V době svého vydání DeepMind ukázal, že WaveNet může vytvářet vlnové tvary, které zní jako klasická hudba .

Výměna obsahu (hlasu)

Podle příspěvku Disentangled Sequential Autoencoder z června 2018 společnost DeepMind úspěšně použila WaveNet pro zvukové a hlasové „přepínání obsahu“: síť může vyměnit hlas na zvukové nahrávce za jiný, již existující hlas při zachování textu a dalších funkcí z původní nahrávka. „Experimentujeme také se zvukovými sekvenčními daty. Naše oddělená reprezentace nám umožňuje převádět identity řečníků na sebe navzájem, přičemž je nutné upravovat obsah řeči.“ (str. 5) „U zvuku nám to umožňuje převést mužský reproduktor na ženský reproduktor a naopak [...] .“ (str. 1) Podle příspěvku je do programu WaveNet nutné zavést dvouciferný minimální počet hodin (přibližně 50 hodin) již existujících záznamů řeči zdrojového i cílového hlasu, aby se program naučil své individuální funkce, než bude schopen provést převod z jednoho hlasu do druhého v uspokojivé kvalitě. Autoři zdůrazňují, že „ [a] n výhodou modelu je, že odděluje dynamické a statické prvky [...] .“ (str. 8), tj. WaveNet je schopen rozlišovat mezi mluveným textem a způsoby doručení (modulace, rychlost, výška, nálada atd.), které se mají udržovat během převodu z jednoho hlasu na druhý na jedné straně, a základní funkce zdrojového i cílového hlasu, které je nutné vyměnit za druhé.

Následný dokument z ledna 2019 Neobsazené učení reprezentace řeči pomocí automatických kodérů WaveNet podrobně popisuje metodu, jak úspěšně vylepšit správné automatické rozpoznávání a diskriminaci mezi dynamickými a statickými funkcemi pro „výměnu obsahu“, zejména včetně výměny hlasů u stávajících zvukových záznamů, aby spolehlivější. Další navazující práce, Sample Efficient Adaptive Text-to-Speech , ze září 2018 (poslední revize v lednu 2019), uvádí, že DeepMind úspěšně snížil minimální množství skutečných nahrávek potřebných pro vzorkování stávajícího hlasu přes WaveNet na „pouze několik minut zvukových dat “při zachování vysoce kvalitních výsledků.

Jeho schopnost klonovat hlasy vyvolala etické obavy ohledně schopnosti WaveNet napodobovat hlasy živých a mrtvých osob. Podle článku BBC z roku 2016 mají společnosti pracující na podobných technologiích klonování hlasu (jako je Adobe Voco ) vložit vodoznaky neslyšitelné pro člověka, aby se zabránilo padělání, při zachování tohoto klonování hlasu, které by uspokojilo například potřeby zábavního průmyslu. být mnohem méně složitý a používat jiné metody, než jaké jsou požadovány, aby oklamal metody forenzního dokazování a zařízení elektronických identifikací, takže přirozené hlasy a hlasy klonované pro účely zábavního průmyslu mohly být stále snadno rozeznány technologickou analýzou.

Aplikace

V době svého vydání DeepMind uvedl, že WaveNet vyžaduje příliš mnoho výpočetního výkonu, aby mohl být použit v reálných aplikacích. V říjnu 2017 společnost Google oznámila 1000násobné zlepšení výkonu spolu s lepší kvalitou hlasu. WaveNet byl poté použit ke generování hlasů Google Assistant pro americkou angličtinu a japonštinu napříč všemi platformami Google. V listopadu 2017 vydali vědci DeepMind výzkumný dokument popisující navrhovanou metodu „generování vysoce věrných vzorků řeči více než 20krát rychlejší než v reálném čase“, nazvanou „Pravděpodobnost hustoty destilace“. Na výroční konferenci vývojářů I / O v květnu 2018 bylo oznámeno, že jsou k dispozici nové hlasy Google Assistant, které umožňuje WaveNet; WaveNet výrazně snížil počet zvukových nahrávek, které byly nutné k vytvoření hlasového modelu, modelováním surového zvuku vzorků hlasového herce.

Reference

externí odkazy