ZPEG - ZPEG

ZPEG
Přípony názvu souboru
zpeg
Typový kód zpg1
Vyvinul ZPEG, Inc.
První vydání 2020
Typ formátu Formát komprese videa
webová stránka www .zpeg .com

ZPEG je technologie pohybového videa, která aplikuje model zrakové ostrosti člověka na dekorovaný prostor transformační domény, čímž optimálně redukuje redundance v pohybovém videu odstraněním subjektivně nepostřehnutelného. Tato technologie je použitelná pro širokou škálu problémů se zpracováním videa, jako je optimalizace videa, komprese videa v reálném čase , subjektivní sledování kvality a převod formátu.

Společnost ZPEG vyrábí upravené verze x264 , x265 , AV1 a FFmpeg pod názvem ZPEG Engine (viz § Optimalizace videa ).

Decorrelated Transform Space

Distribuce pixelů jsou dobře modelovány jako stochastický proces a transformace na jejich ideální dekorelační reprezentaci je provedena Karhunen-Loève transformací (KLT) definovanou Karhunen-Loèveovou větou . Diskrétní kosinová transformace (DCT), je často používán jako výpočetně efektivní transformace, které se výrazně přibližuje k práci Karhunen-Loève transformace pro video data vzhledem k velmi silné korelaci v pixel prostoru typické pro video snímků ..... jako korelace ve směru časové je stejně vysoká jako v prostorových směrech, může být k dekorelaci pohybového videa použit trojrozměrný DCT

Lidský vizuální model

Lidský vizuální model lze formulovat na základě kontrastní citlivosti systému vizuálního vnímání . Může být specifikován časově proměnlivý model kontrastní citlivosti, který je použitelný pro trojrozměrnou diskrétní kosinovou transformaci (DCT). Trojrozměrný model kontrastní citlivosti se používá ke generování kvantizátorů pro každý z trojrozměrných základních vektorů, což vede k téměř optimálnímu vizuálně bezztrátovému odstranění nepostřehnutelných video artefaktů pohybu

Percepční síla ve visiBels

Percepční Síla lidského oka proces generování kvantizátor model je kalibrován v visiBels (VB), je logaritmické měřítko hrubě odpovídající zřetelnost měřeno výškou nad prahem. Jak se oko pohybuje dále od obrazovky, stává se méně schopným vnímat detaily v obraze. Model ZPEG také obsahuje časovou složku, a proto není plně popsán pozorovací vzdáleností. Pokud jde o pozorovací vzdálenost, síla visiBel se zvyšuje o šest, protože vzdálenost obrazovky klesá na polovinu. Standardní sledovací vzdálenost pro televizi se standardním rozlišením (přibližně 7 výšek obrazovky) je definována jako 0vB. Běžná vzdálenost pro sledování videa ve vysokém rozlišení , přibližně 4 výšky obrazovky, by byla definována jako přibližně −6 vB (3,5 výšky obrazovky).

Optimalizace videa

Předprocesor ZPEG optimalizuje pohybové videosekvence pro kompresi pomocí stávajících video kompresorů založených na odhadu pohybu, jako je Advanced Video Coding (AVC) (H.264) a High Efficiency Video Coding (HEVC) (H.265). Model lidské zrakové ostrosti se převádí na kvantizátory pro přímou aplikaci na trojrozměrný transformovaný blok videosekvence pohybu, po kterém následuje krok inverzní kvantizace (zpracování signálu) stejnými kvantizátory. Pohybová video sekvence vrácená z tohoto procesu se poté použije jako vstup do existujícího kompresoru.

Síla zvýšení komprese

Aplikace kvantizátorů generovaných lidským vizuálním systémem na diskrétní kosinovou transformaci založenou na blocích má za následek zvýšenou stlačitelnost proudu videa videa odstraněním nepostřehnutelného obsahu ze proudu. Výsledkem je upravený proud, který odstranil podrobné prostorové a časové podrobnosti, které by kompresor jinak musel reprodukovat. Proud také vytváří lepší shody pro algoritmy odhadu pohybu . Kvantizéry jsou generovány tak, aby byly nepostřehnutelné při zadané vzdálenosti sledování, zadané ve visiBels. Typické podmínky sledování před zpracováním při běžném používání jsou:

  • Video se standardním rozlišením se zpracovává při -6 vB
  • Video ve vysokém rozlišení se zpracovává při −12 vB
  • Video v ultravysokém rozlišení (UHD, 4K) se zpracovává při −12 vB
  • Pohlcující video ve vysokém rozlišení (virtuální realita) se zpracovává při −18 vB

Průměrné úspory komprese pro 6Mbs HD video pomocí kodeku x.264 při zpracování na −12vB je 21,88%. Průměrné úspory komprese pro video testovací sady Netflix 4K s rychlostí 16 Mb pomocí kodeku x.264 zpracovaného při −12 vB je 29,81%. Stejná testovací sada Netflix po kompresi pro pohlcující prohlížení (−18vB) generuje úsporu 25,72%. Tyto výsledky jsou reprodukovatelné pomocí veřejně přístupného zkušebního zařízení

Deblokování

I když jsou účinky předběžného zpracování ZPEG pro průměrného diváka ve stanovené pozorovací vzdálenosti nepostřehnutelné, okrajové efekty zavedené blokovým transformačním zpracováním stále ovlivňují výhodu výkonu procesu optimalizace videa. Zatímco ke zlepšení tohoto výkonu lze použít existující deblokovací filtry , optimálních výsledků se dosáhne použitím víceúrovňového deblokovacího algoritmu. Každá rovina je posunuta o polovinu velikosti bloku v každém ze čtyř směrů, takže offset roviny je jeden z (0,0), (0,4), (4, 0) a (4,4 ) v případě bloků 8x8 a čtyř rovin. Hodnoty pixelů jsou poté vybrány podle jejich vzdálenosti od okraje bloku, přičemž vnitřní hodnoty pixelů jsou upřednostňovány před hraničními hodnotami pixelů . Výsledné odblokované video generuje podstatně lepší optimalizaci v širokém rozsahu sil předzpracování.

Komprese videa v reálném čase

Konvenční řešení komprese pohybu jsou založena na technologii odhadu pohybu . I když existují některé technologie video kodeků v transformační doméně , ZPEG je založen na trojrozměrné diskrétní kosinové transformaci (DCT), kde tyto tři dimenze jsou pixel v linii, linka v rámci a časová posloupnost rámců. Extrakce nadbytečných vizuálních dat se provádí výpočetně efektivním procesem kvantizace reprezentace videa v transformační doméně, a nikoli mnohem výpočetně nákladnějším procesem hledání shody objektů mezi bloky. Hodnoty kvantizátoru jsou odvozeny použitím lidského vizuálního modelu na základní sadu DCT koeficientů při předem určené intenzitě vnímání. Tím se odstraní všechny vnímané nadbytečné informace z reprezentace videa transformační domény. Komprese se poté provádí procesem odstraňování entropie .

Kvantování

Jakmile byly zvoleny podmínky zobrazení, za kterých se má komprimovaný obsah zobrazit, vygeneruje Human Visual Model kvantizátory pro aplikaci na trojrozměrnou diskrétní kosinovou transformaci (DCT). Tyto kvantizátory jsou vyladěny tak, aby odstranily veškerý nepostřehnutelný obsah z videoproudu pohybu, což výrazně snižuje entropii reprezentace. Podmínky sledování vyjádřené v visiBels a korelace pixelů před transformací jsou generovány pro referenci entropickým kódováním .

Kontextové kódování entropie

Zatímco kvantované DCT koeficienty byly tradičně modelovány jako Laplaceovy distribuce , novější práce navrhly Cauchyho distribuci, lepší modely kvantovaných distribucí koeficientů. Enkodér entropie ZPEG kóduje kvantované trojrozměrné hodnoty DCT podle distribuce, která je zcela charakterizována kvantizační maticí a korelací pixelů . Tato informace v postranním pásmu přenášená v komprimovaném proudu umožňuje dekodéru synchronizovat svůj vnitřní stav s kodérem

Rozklad subbandu

Každé pásmo DCT je samostatně entropicky kódováno pro všechna ostatní pásma. Tyto koeficienty jsou přenášeny v pásmovém pořadí, počínaje stejnosměrnou složkou, následované po sobě následujícími pásmy v pořadí od nízkého rozlišení po vysoké, podobně jako při rozkladu Waveletových paketů . Dodržování této konvence zajišťuje, že přijímač vždy obdrží maximální možné rozlišení pro jakékoli pásmové propusti, což umožňuje přenosový protokol bez vyrovnávací paměti.

Subjektivní metriky kvality

Zlatá míra vnímaného rozdílu v kvalitě mezi referenčním videem a jeho zhoršenou reprezentací je definována v doporučení ITU-R BT-500. Metoda kontinuální škály dvojité stimulace (DSCQS) hodnotí vnímaný rozdíl mezi referenčním a zkresleným videem a vytváří tak celkové rozdílové skóre odvozené z jednotlivých skóre v rozmezí od -3 do 3:

  • -3: zhoršené video je mnohem horší
  • -2: zhoršené video je horší
  • -1: poškozené video je o něco horší
  • 0: Videa jsou stejná
  • 1: zhoršené video je o něco lepší
  • 2: zhoršené video je lepší
  • 3: zhoršené video je mnohem lepší

V analogii s normalizovaným metrickým průměrným skóre mínění (SSCQS) s jediným stimulem (MOS) se celkové skóre DSCQS normalizuje na rozmezí (−100, 100) a nazývá se Diferenční průměrné skóre mínění (DMOS). , míra subjektivní kvality videa . Ideální objektivní měřítko bude silně korelovat se skóre DMOS, když se použije na referenční / poškozený video pár. Přehled stávajících technik a jejich celkových výhod lze najít na blogu Netflix . ZPEG rozšiřuje seznam dostupných technik tím, že poskytuje metriku subjektivní kvality generovanou porovnáním metriky Střední kvadratická chyba rozdílu mezi referenčním a poškozeným videem po předběžném zpracování při různých silách vnímání (ve visiBels). Efektivní sledovací vzdálenost, při které již není patrný rozdíl ze snížení hodnoty, se uvádí jako metrika snížení hodnoty.

Převod formátu

Statisticky ideální převod formátu se provádí interpolací videoobsahu v prostoru diskrétní kosinové transformace . Proces převodu, zejména v případě vzorkování, musí vzít v úvahu vyzváněcí artefakty , ke kterým dochází, když v sekvenci pixelů, které jsou znovu vzorkovány, dojde k náhlým kontinuitám. Výsledný algoritmus může down-sample nebo up-sample video formáty změnou rozměrů snímků, poměru stran pixelů a snímkové frekvence .

Reference