Latence (zvuk) - Latency (audio)

Latence označuje krátkou dobu zpoždění (obvykle měřenou v milisekundách ) mezi okamžikem vstupu zvukového signálu do systému a jeho vznikem. Potenciální přispívají k latenci ve zvukovém systému patří analogově-digitální převod , ukládání do vyrovnávací paměti , zpracování digitálního signálu , vysílací čas , digitálně-analogový převod a rychlosti zvuku v přenosovém médiu .

Čekací doba může být kritické výkonnostní parametry v profesionálním audio včetně systémy zesílení zvuku , Foldback systémy (zejména ti, kteří využívají in-ear monitorů ) živé rádio a televizi . Nadměrná latence zvuku má potenciál snížit kvalitu hovorů v telekomunikačních aplikacích. Nízká latence zvuku v počítačích je důležitá pro interaktivitu .

Telefonní hovory

Ve všech systémech lze říci, že latence se skládá ze tří prvků: zpoždění kodeku, zpoždění přehrávání a zpoždění sítě.

Latence v telefonních hovorech se někdy označuje jako zpoždění z ucha do ucha ; telekomunikační průmysl také používá termínkvalita zkušeností(QoE). Kvalita hlasu se měří podlemodeluITU; měřitelná kvalita hovoru se rychle degraduje tam, kde latence zpoždění od ucha k uchu přesahuje 200 milisekund. Mean Opinion Score(MOS), je rovněž srovnatelný v téměř lineárně s ITU stupnice kvality - je definován v normách G.107, G.108 a G.109 - se faktor kvalityRv rozmezí od 0 do 100. MOS ze 4 ('Dobrý') bude mítRskóre 80 nebo vyšší; k dosažení 100R vyžaduje MOS vyšší než 4,5.

ITU a 3GPP seskupují služby koncových uživatelů do tříd na základě citlivosti latence:

Velmi citlivý na zpoždění Méně citlivé na zpoždění
Třídy
  • Konverzační třída (3GPP)
  • Interaktivní třída (ITU)
  • Interaktivní třída (3GPP)
  • Responzivní třída (ITU)
  • Třída streamování (3GPP)
  • Včasná třída (ITU)
  • Třída na pozadí (3GPP)
  • Nekritická třída (ITU)
Služby Konverzační video/hlas, video v reálném čase Hlasové zprávy Streamování videa a hlasu Fax
Data v reálném čase Transakční data Data v reálném čase Data na pozadí

Podobně doporučení G.114 týkající se zpoždění z ucha do ucha naznačuje, že většina uživatelů je „velmi spokojena“, pokud latence nepřekročí 200 ms, podle R 90+. Výběr kodeků také hraje důležitou roli; kodeky nejvyšší kvality (a nejvyšší šířky pásma), jako je G.711, jsou obvykle konfigurovány tak, aby vykazovaly nejnižší latenci kódování a dekódování, takže v síti s dostatečnou propustností lze dosáhnout latencí pod 100 ms . G.711 s přenosovou rychlostí 64 kbit/s je metoda kódování používaná převážně ve veřejné telefonní síti .

Mobilní hovory

AMR úzkopásmové kodek, použitý v GSM a UMTS sítích, představuje latence v kódování a dekódování procesy.

Vzhledem k tomu, že mobilní operátoři upgradují stávající sítě s nejlepším úsilím, aby podporovaly souběžné více typů služeb přes sítě IP, služby jako Hierarchical Quality of Service ( H-QoS ) umožňují zásadám QoS na uživatele a na služby upřednostňovat časově citlivé protokoly, jako jsou hlasové hovory a další bezdrátový provoz páteřního připojení.

Dalším aspektem latence mobilních zařízení je předávání mezi sítěmi; jako zákazník v síti A volá zákazníka sítě B, hovor musí procházet dvěma samostatnými rádiovými přístupovými sítěmi , dvěma základními sítěmi a propojovacím centrem Gateway Mobile Switching Center (GMSC), které provádí fyzické propojení mezi těmito dvěma poskytovateli.

IP hovory

S připojením end-to-end QoS spravovaným a zajištěným tarifem lze latenci snížit na analogové úrovně PSTN/POTS. Na stabilním připojení s dostatečnou šířkou pásma a minimální latencí mají systémy VoIP obvykle vlastní latenci minimálně 20 ms. Za méně ideálních síťových podmínek se pro obecné spotřebitelské použití hledá maximální latence 150 ms. Latence je důležitější, když je přítomna ozvěna a systémy musí provádět potlačení a zrušení ozvěny .

Počítačový zvuk

Latence může být zvláštním problémem audio platforem na počítačích. Podporované optimalizace rozhraní snižují zpoždění až na časy, které jsou pro lidské ucho příliš krátké. Snížením velikosti vyrovnávací paměti lze snížit latenci. Oblíbeným optimalizačním řešením je Steinbergův ASIO , který obchází zvukovou platformu a propojuje zvukové signály přímo s hardwarem zvukové karty. Mnoho profesionálních a poloprofesionálních zvukových aplikací využívá ovladač ASIO, což uživatelům umožňuje pracovat se zvukem v reálném čase. Pro Tools HD nabízí systém s nízkou latencí podobný ASIO. Pro Tools 10 a 11 jsou také kompatibilní s ovladači rozhraní ASIO.

Linuxové jádro v reálném čase je upravené jádro, které mění standardní frekvenci časovače, které jádro Linuxu používá, a dává všem procesům nebo vláknům prioritu v reálném čase. To znamená, že časově kritický proces, jako je audio stream, může mít přednost před jiným méně kritickým procesem, jako je síťová aktivita. Toto je také konfigurovatelné pro uživatele (například procesy uživatelského „tuxu“ mohou mít přednost před procesy uživatele „nikdo“ nebo před procesy několika systémových démonů ).

Zvuk digitální televize

Mnoho moderních digitálních televizních přijímačů, set-top boxů a AV přijímačů využívá důmyslné zpracování zvuku, které může vytvořit prodlevu mezi okamžikem přijetí zvukového signálu a časem, kdy je slyšet na reproduktorech. Vzhledem k tomu, že televizory také zavádějí zpoždění při zpracování video signálu, může to mít za následek, že jsou dva signály dostatečně synchronizovány, aby si je divák nevšiml. Pokud je však rozdíl mezi zpožděním zvuku a videa významný, může být účinek znepokojující. Některé systémy mají nastavení synchronizace rtů, které umožňuje upravit zpoždění zvuku tak, aby se synchronizovalo s videem, a jiné mohou mít pokročilá nastavení, kde lze některé kroky zpracování zvuku vypnout.

Zpoždění zvuku je také významnou škodou v rytmických hrách , kde je pro úspěch vyžadováno přesné načasování. Většina těchto her má nastavení kalibrace zpoždění, načež hra upraví časovací okna o určitý počet milisekund, aby to vyrovnala. V těchto případech budou tóny písně odeslány reproduktorům dříve, než hra vůbec obdrží požadovaný vstup od hráče, aby byla zachována iluze rytmu. Hry, které se spoléhají na hudební improvizaci , jako jsou bicí Rock Band nebo DJ Hero , mohou stále nesmírně trpět, protože hra nedokáže předvídat, na co se hráč v těchto případech trefí, a nadměrné zpoždění bude stále vytvářet znatelné zpoždění mezi trefami not a jejich slyšením hrát si.

Vysílání zvuku

Latenci zvuku lze zaznamenat ve vysílacích systémech, kde někdo přispívá k živému vysílání přes satelit nebo podobné spojení s velkým zpožděním. Osoba v hlavním studiu musí počkat, až přispěvatel na druhém konci odkazu zareaguje na otázky. Latence v tomto kontextu může být mezi několika stovkami milisekund a několika sekundami. Vypořádání se s tak vysokou latencí zvuku vyžaduje speciální školení, aby byl výsledný kombinovaný zvukový výstup přiměřeně přijatelný pro posluchače. Kdekoli je to praktické, je důležité snažit se udržet nízkou latenci zvuku živé produkce, aby reakce a výměna účastníků byly co nejpřirozenější. Latence 10 milisekund nebo lepší je cílem pro zvukové obvody v profesionálních produkčních strukturách.

Živý výkon zvuku

Latence v živém hraní se přirozeně vyskytuje podle rychlosti zvuku . Cestování 1 metr trvá zvuku přibližně 3 milisekundy. Mezi umělci se vyskytuje malé množství latence v závislosti na tom, jak jsou od sebe navzájem vzdáleny a od monitorů pódia, pokud jsou použity. To vytváří praktickou hranici toho, jak daleko od sebe mohou být umělci ve skupině. Monitorování fáze tento limit rozšiřuje, protože zvuk se šíří rychlostí světla přes kabely, které spojují pódiové monitory.

Účinkující, zejména ve velkých prostorách, uslyší také dozvuk nebo ozvěnu své hudby, protože zvuk, který se promítá z pódia, se odráží od stěn a struktur a vrací se s latencí a zkreslením. Primárním účelem fázového monitorování je poskytnout umělcům více primárního zvuku, aby nebyli hozeni latencí těchto dozvuků.

Živé zpracování signálu

Zatímco analogové zvukové zařízení nemá žádnou znatelnou latenci, digitální zvukové zařízení má latenci spojenou se dvěma obecnými procesy: převod z jednoho formátu do druhého a úkoly zpracování digitálního signálu (DSP), jako je ekvalizace, komprese a směrování.

Procesy digitální konverze zahrnují převodníky analogového signálu na digitální (ADC), převodníky digitálního signálu na analogový (DAC) a různé změny z jednoho digitálního formátu do druhého, například AES3, který přenáší nízkonapěťové elektrické signály na ADAT , optický transport . Realizace jakéhokoli takového procesu vyžaduje malé množství času; typické latence jsou v rozmezí 0,2 až 1,5 milisekundy, v závislosti na vzorkovací frekvenci, návrhu softwaru a hardwarové architektuře.

Různé operace zpracování zvukového signálu, jako jsou filtry s konečnou impulsní odezvou (FIR) a nekonečná impulsní odezva (IIR), využívají ke stejnému konci různé matematické přístupy a mohou mít různé latence. Vyrovnávací paměť vstupních a výstupních vzorků navíc přidává zpoždění. Typické latence se pohybují od 0,5 do deseti milisekund, u některých návrhů má zpoždění až 30 milisekund.

Latence v digitálním zvukovém zařízení je nejnápadnější, když je hlas zpěváka přenášen přes jejich mikrofon, přes cesty digitálního míchání, zpracování a směrování zvuku a poté odeslán do vlastních uší prostřednictvím monitorů uší nebo sluchátek. V tomto případě je vokální zvuk zpěváka veden do jejich vlastního ucha přes kosti hlavy, poté o několik milisekund později digitální cestou do jejich uší. V jedné studii posluchači zjistili, že je patrná latence větší než 15 ms. Latence pro jiné hudební činnosti, jako je hra na kytaru, nemá stejné kritické obavy. Deset milisekund latence není tak nápadné pro posluchače, který neslyší svůj vlastní hlas.

Zpožděné reproduktory

Při posílení zvuku při prezentaci hudby nebo řeči na velkých místech je optimální dodat dostatečnou hlasitost do zadní části místa, aniž byste se uchýlili k nadměrným hlasitostem zvuku v přední části. Jedním ze způsobů, jak toho mohou zvukoví inženýři dosáhnout, je použít další reproduktory umístěné ve vzdálenosti od pódia, ale blíže k zadní části publika. Zvuk se šíří vzduchem rychlostí zvuku (přibližně 343 metrů (1 125 stop) za sekundu v závislosti na teplotě a vlhkosti vzduchu). Měřením nebo odhadováním rozdílu latence mezi reproduktory v blízkosti pódia a reproduktory blíže k publiku může zvukový technik zavést přiměřené zpoždění zvukového signálu procházejícího k druhým reproduktorům, takže vlnoplochy z blízkých a vzdálených reproduktorů dorazí na stejný čas. Vzhledem k účinku Haas an dalších 15 milisekund může být přidána do doby zpoždění reproduktorů blíž k publiku, takže wavefront jevišti se jim jako první dosáhne, zaměřit pozornost publika na jevišti, spíše než místní reproduktoru. Mírně pozdější zvuk ze zpožděných reproduktorů jednoduše zvyšuje vnímanou úroveň zvuku, aniž by byla negativně ovlivněna lokalizace.

Viz také

Reference

externí odkazy