MPEG -1 - MPEG-1

Moving Picture Experts Group Fáze 1 (MPEG-1)
Přípona názvu souboru	.dat, .mpg, .mpeg, .mp1, .mp2, .mp3, .m1v, .m1a, .m2a, .mpa, .mpv
Typ internetového média	audio/mpeg, video/mpeg
Vyvinuto	MPEG (součást ISO/IEC JTC 1 )
První vydání	1991
Typ formátu	audio, video, kontejner
Rozšířeno z	JPEG , H.261
Rozšířeno na	MPEG-2
Standard	ISO / IEC 11172

MPEG-1 je standard pro ztrátovou kompresi videa a zvuku . Je navržen tak, aby komprimoval prvotřídní digitální video a zvuk CD s kvalitou VHS až na 1,5 Mbit / s (kompresní poměr 26: 1 respektive 6: 1) bez nadměrné ztráty kvality, čímž vytváří video CD , digitální kabelovou / satelitní televizi a digitální zvuk vysílání (DAB) praktické.

Dnes se MPEG-1 stal nejkompatibilnějším ztrátovým audio/video formátem na světě a používá se ve velkém množství produktů a technologií. Asi nejznámější částí standardu MPEG-1 je první verze zvukového formátu MP3, který zavedl.

Standard MPEG-1 je publikován jako ISO / IEC 11172 -Informační technologie-Kódování pohyblivých obrázků a souvisejícího zvuku pro digitální paměťová média rychlostí až 1,5 Mbit / s.
Standard se skládá z následujících pěti částí :

Systémy (ukládání a synchronizace obrazových, zvukových a dalších dat dohromady)
Video (komprimovaný videoobsah)
Audio (komprimovaný zvukový obsah)
Testování shody (testování správnosti implementace normy)
Referenční software (ukázkový software ukazující, jak kódovat a dekódovat podle normy)

Dějiny

Předchůdcem MPEG-1 pro kódování videa byl standard H.261 vytvořený CCITT (nyní známý jako ITU-T ). Základní architekturou zavedenou v H.261 byla hybridní struktura kódování videa DCT s kompenzací pohybu . Využívá makrobloky o velikosti 16 × 16 s blokovým odhadem pohybu v kodéru a kompenzací pohybu pomocí kodérem vybraných pohybových vektorů v dekodéru, s kódováním zbytkového rozdílu pomocí diskrétní kosinové transformace (DCT) velikosti 8 × 8, skalární kvantování , a kódy s proměnnou délkou (jako Huffmanovy kódy ) pro kódování entropie . H.261 byl první praktický standard pro kódování videa a všechny jeho popsané konstrukční prvky byly také použity v MPEG-1.

Po vzoru úspěšného kolaborativního přístupu a kompresních technologií vyvinutých skupinou Joint Photographic Experts Group a CCITT 's Experts Group on Telephony (tvůrci standardu komprese obrázků JPEG a standardu H.261 pro videokonference ), skupiny odborníků na pohyblivé obrázky Pracovní skupina (MPEG) byla založena v lednu 1988 z iniciativy Hiroshi Yasuda ( Nippon Telegraph and Telephone ) a Leonardo Chiariglione ( CSELT ). MPEG byl vytvořen tak, aby řešil potřebu standardních video a audio formátů a stavěl na H.261, aby získal lepší kvalitu pomocí poněkud složitějších metod kódování (např. Podpora vyšší přesnosti pro pohybové vektory).

Vývoj standardu MPEG-1 byl zahájen v květnu 1988. Jednotlivé společnosti a instituce předložily k hodnocení čtrnáct návrhů video a čtrnáct zvukových kodeků. Kodeky byly rozsáhle testovány na výpočetní složitost a subjektivní (vnímanou člověkem) kvalitu při rychlostech dat 1,5 Mbit/s. Tento specifický datový tok byl zvolen pro přenos po linkách T-1 / E-1 a jako přibližný datový tok zvukových disků CD . Kodeky, které vynikly v tomto testování, byly použity jako základ pro standard a dále upřesněny, přičemž do procesu byly začleněny další funkce a další vylepšení.

Po 20 setkáních celé skupiny v různých městech po celém světě a 4½ letech vývoje a testování byl konečný standard (pro části 1–3) schválen na začátku listopadu 1992 a zveřejněn o několik měsíců později. Hlášené datum dokončení standardu MPEG-1 se velmi liší: v září 1990 byl vyroben z velké části kompletní návrh normy a od té chvíle byly zavedeny pouze drobné změny. Návrh normy byl veřejně dostupný ke koupi. Standard byl dokončen schůzkou 6. listopadu 1992. Skupina Berkeley Plateau Multimedia Research Group vyvinula dekodér MPEG-1 v listopadu 1992. V červenci 1990, ještě než byl vůbec napsán první návrh standardu MPEG-1, byly zahájeny práce na druhém standardu, MPEG-2 , určeném k rozšíření MPEG. -1 technologie pro poskytování videa v plné kvalitě vysílání (podle CCIR 601 ) s vysokými přenosovými rychlostmi (3–15 Mbit/s) a podporou prokládaného videa. Částečně kvůli podobnosti mezi těmito dvěma kodeky obsahuje standard MPEG-2 plnou zpětnou kompatibilitu s videem MPEG-1, takže jakýkoli dekodér MPEG-2 může přehrávat videa MPEG-1.

Je pozoruhodné, že standard MPEG-1 velmi striktně definuje funkci bitového toku a dekodéru, ale nedefinuje, jak má být prováděno kódování MPEG-1, ačkoli referenční implementace je poskytována v ISO/IEC-11172-5. To znamená, že účinnost kódování MPEG-1 se může výrazně lišit v závislosti na použitém kodéru, a obecně to znamená, že novější kodéry fungují výrazně lépe než jejich předchůdci. První tři části (systémy, video a zvuk) normy ISO/IEC 11172 byly zveřejněny v srpnu 1993.

Díly MPEG-1
Část	Číslo	Datum prvního veřejného vydání (první vydání)	nejnovější oprava	Titul
Část 1	ISO/IEC 11172-1	1993	1999	Systémy
Část 2	ISO/IEC 11172-2	1993	2006	Video
Část 3	ISO/IEC 11172-3	1993	1996	Zvuk
Část 4	ISO/IEC 11172-4	1995	2007	Testování shody
Část 5	ISO/IEC TR 11172-5	1998	2007	Softwarová simulace

Patenty

Vzhledem ke svému stáří již MPEG-1 nepodléhá žádným základním patentům a lze jej tedy používat bez získání licence nebo placení jakýchkoli poplatků. Patentová databáze ISO uvádí jeden patent pro ISO 11172, US 4 472 747, jehož platnost skončila v roce 2003. Téměř úplný návrh standardu MPEG-1 byl veřejně dostupný jako ISO CD 11172 do 6. prosince 1991. Ani článek Kuro5hin z července 2008 “ Patentový status MPEG-1, H.261 a MPEG-2 ", ani vlákno ze srpna 2008 na mailing listu gstreamer-devel nedokázalo vypsat jediný patent I/II MPEG-1 Video a MPEG-1 Audio Layer. V diskusi z května 2009 o mailing listu whatwg byl uveden patent US 5 214 678, který pravděpodobně pokrývá MPEG-1 Audio Layer II. Podání v roce 1990 a zveřejnění v roce 1993, platnost tohoto patentu nyní vypršela.

Plný dekodér a kodér MPEG-1 se zvukem „Layer III“ nemohl být zaveden bez licenčních poplatků, protože existovaly společnosti, které požadovaly patentové poplatky za implementaci MPEG-1 Audio Layer III, jak je uvedeno v článku MP3 . Platnost všech patentů na světě připojených k MP3 skončila 30. prosince 2017, což činí tento formát zcela zdarma k použití. Dne 23. dubna 2017 Fraunhofer IIS přestal účtovat poplatky za licenční program MP3 společnosti Technicolor pro určité patenty a software související s MP3.

Bývalí držitelé patentů

Následující korporace podaly prohlášení u ISO s tím, že jsou držiteli patentů pro formát MPEG-1 Video (ISO/IEC-11172-2), ačkoli platnost všech takových patentů mezitím vypršela.

Aplikace

Nejoblíbenější software pro přehrávání videa obsahuje kromě jiných podporovaných formátů také dekódování MPEG-1.
Popularita zvuku ve formátu MP3 zavedla rozsáhlou instalovanou základnu hardwaru, který dokáže přehrávat zvuk MPEG-1 (všechny tři vrstvy).
„Prakticky všechna digitální zvuková zařízení “ mohou přehrávat zvuk MPEG-1. Do dnešního dne bylo prodáno mnoho milionů.
Než se MPEG-2 rozšířil, mnoho služeb digitální satelitní/kabelové televize používalo výhradně MPEG-1.
Rozšířená popularita MPEG-2 u vysílacích společností znamená, že MPEG-1 lze díky zpětné kompatibilitě přehrávat na většině digitálních kabelových a satelitních set-top boxů a přehrávačů digitálních disků a kazet.
MPEG-1 byl použit pro video na celou obrazovku na Green Book CD-i a na Video CD (VCD).
Standard Super Video CD , založený na VCD, používá výhradně zvuk MPEG-1 a také video MPEG-2.
Formát DVD-Video používá primárně video MPEG-2, ale podpora MPEG-1 je ve standardu výslovně definována.
Standard DVD-Video původně vyžadoval MPEG-1 Audio Layer II pro země PAL, ale byl změněn tak, aby umožňoval pouze disky AC-3/ Dolby Digital . MPEG-1 Audio Layer II je stále povolen na DVD, i když novější rozšíření formátu, jako MPEG Multichannel , jsou podporována jen zřídka.
Většina přehrávačů DVD také podporuje přehrávání disků Video CD a MP3 CD , které používají MPEG-1.
Mezinárodní standard digitálního vysílání videa (DVB) primárně používá MPEG-1 Audio Layer II a MPEG-2 video.
Mezinárodní standard DAB ( Digital Audio Broadcasting ) používá výhradně MPEG-1 Audio Layer II, a to díky obzvláště vysoké kvalitě, skromným požadavkům na výkon dekodéru a toleranci chyb.
Digital Compact Cassette používá PASC (Precision Adaptive Úsek Coding) k zakódování svého zvuku. PASC je raná verze MPEG-1 Audio Layer I s pevnou bitovou rychlostí 384 kilobitů za sekundu.

Část 1: Systémy

Část 1 standardu MPEG-1 zahrnuje systémy a je definována v ISO/IEC-11172-1.

Systémy MPEG-1 specifikují logické rozložení a metody používané k ukládání kódovaných zvukových, obrazových a jiných dat do standardního bitového toku a k udržování synchronizace mezi různým obsahem. Tento formát souboru je speciálně navržen pro ukládání na média a přenos přes komunikační kanály , které jsou považovány za relativně spolehlivé. Standard definuje pouze omezenou ochranu proti chybám a malé chyby v bitovém toku mohou způsobit znatelné vady.

Tato struktura byla později pojmenována jako programový proud MPEG : „Návrh systémů MPEG-1 je v podstatě identický se strukturou programového proudu MPEG-2.“ Tato terminologie je oblíbenější, přesnější (odlišuje ji od přenosového proudu MPEG ) a bude zde použita.

Elementární streamy, pakety a odkazy na hodiny

Elementary Streams (ES) jsou surové bitové toky dat kódovaných zvukem a videem MPEG-1 (výstup z kodéru). Tyto soubory lze distribuovat samostatně, jako je tomu v případě souborů MP3.
Packetized Elementary Streams (PES) jsou elementární toky zabalené do paketů s proměnnou délkou, tj. Rozdělené ES na nezávislé bloky, kde byl ke každému paketu přidán kontrolní součet kontroly cyklické redundance (CRC) pro detekci chyb.
System Clock Reference (SCR) je časovací hodnota uložená v 33bitové hlavičce každého PES, s frekvencí/přesností 90 kHz, s extra 9bitovým rozšířením, které ukládá další časovací data s přesností 27 MHz. Ty jsou vloženy kodérem, odvozeným od systémových hodin (STC). Simultánně kódované zvukové a obrazové toky nebudou mít identické hodnoty SCR, kvůli vyrovnávací paměti, kódování, chvění a dalším zpožděním.

Programové toky

Programové toky (PS) se zabývají kombinací více paketových elementárních proudů (obvykle pouze jednoho zvukového a obrazového PES) do jednoho streamu, zajišťujícího současné doručování a udržování synchronizace. Struktura PS je známá jako multiplex nebo kontejnerový formát .

V PS existují časová razítka prezentace (PTS), která opravují nevyhnutelný rozdíl mezi hodnotami SCR zvuku a videa (korekce časové základny). Hodnoty PTS 90 kHz v záhlaví PS sdělují dekodéru, které hodnoty SCR videa odpovídají hodnotám SCR zvuku. PTS určuje, kdy se má zobrazit část programu MPEG, a dekodér jej také používá k určení, kdy lze data z vyrovnávací paměti vyřadit . Video nebo zvuk bude dekodér zpožděn, dokud nedorazí odpovídající segment druhého a lze je dekódovat.

Manipulace s PTS může být problematická. Dekodéry musí akceptovat více programových proudů , které byly zřetězeny (spojeny postupně). To způsobí, že se hodnoty PTS uprostřed videa resetují na nulu, které se pak začnou znovu zvyšovat. Takové Papar wraparound disparities mohou způsobit problémy s časováním, které musí dekodér speciálně řešit.

Dekódovací časová razítka (DTS) jsou navíc vyžadována kvůli B rámcům. U B-snímků ve video proudu musí být sousední snímky kódovány a dekódovány mimo pořadí (přeuspořádané snímky). DTS je docela podobný PTS, ale místo toho, aby zpracovával pouze sekvenční snímky, obsahuje správná časová razítka, která dekodéru sdělují, kdy má dekódovat a zobrazit další snímek B (typy rámců vysvětleno níže), před jeho ukotvením (P - nebo I-) rám. Bez B-snímků ve videu jsou hodnoty PTS a DTS totožné.

Multiplexování

Pro generování PS multiplexor prokládá (dva nebo více) paketových elementárních proudů. To se provádí tak, že pakety simultánních toků lze přenášet přes stejný kanál a je zaručeno, že oba dorazí do dekodéru přesně ve stejnou dobu. Toto je případ multiplexování s časovým dělením .

Určení, kolik dat z každého proudu by mělo být v každém prokládaném segmentu (velikost prokládaného), je komplikované, přesto je to důležitý požadavek. Nesprávné prokládání bude mít za následek přetečení nebo přetečení vyrovnávací paměti, protože přijímač získá více z jednoho proudu, než může uložit (např. Zvuk), než získá dostatek dat k dekódování druhého současného proudu (např. Videa). MPEG Video Buffering Verifier (VBV) pomáhá při určování, zda lze multiplexovaný PS dekódovat zařízením se zadanou rychlostí propustnosti dat a velikostí vyrovnávací paměti. To nabízí zpětnou vazbu muxeru a kodéru, aby mohli podle potřeby měnit velikost muxu nebo upravovat přenosové rychlosti.

Část 2: Video

Část 2 standardu MPEG-1 zahrnuje video a je definována v ISO/IEC-11172-2. Design byl silně ovlivněn H.261 .

MPEG-1 Video využívá metody vjemové komprese, aby výrazně snížil rychlost přenosu dat požadovanou video streamem. Redukuje nebo zcela zahodí informace v určitých frekvencích a oblastech obrazu, které má lidské oko omezenou schopnost plně vnímat. Využívá také časovou (v průběhu času) a prostorovou (přes obrázek) redundanci běžnou ve videu k dosažení lepší komprese dat, než by bylo možné jinak. (Viz: Komprese videa )

Barevný prostor

Příklad podvzorkování 4: 2: 0. Dva překrývající se středové kruhy představují chroma modrou a chroma červenou (barevnou) pixely, zatímco 4 vnější kruhy představují luma (jas).

Před kódováním videa do MPEG-1 je barevný prostor transformován na Y'CbCr (Y '= Luma, Cb = Chroma Blue, Cr = Chroma Red). Luma (jas, rozlišení) je uložena odděleně od chroma (barva, odstín, fáze) a ještě dále rozdělena na červenou a modrou složku.

Chroma je také podvzorkována na 4: 2: 0 , což znamená, že je snížena na poloviční rozlišení svisle a poloviční rozlišení vodorovně, tj. Na pouhou jednu čtvrtinu počtu vzorků použitých pro luma složku videa. Toto použití vyššího rozlišení u některých barevných komponent je svým konceptem podobné filtru vzorů Bayer, který se běžně používá pro snímač zachycení obrazu v digitálních barevných kamerách. Protože je lidské oko mnohem citlivější na malé změny jasu (složka Y) než v barvě (složky Cr a Cb), je podvzorkování chroma velmi účinným způsobem, jak snížit množství obrazových dat, která je třeba komprimovat. U videí s jemnými detaily (vysoká prostorová složitost ) se to však může projevit jako artefakty chroma aliasingu . Ve srovnání s jinými artefakty digitální komprese se zdá, že tento problém je velmi zřídka zdrojem obtěžování. Kvůli podvzorkování je video Y′CbCr 4: 2: 0 běžně ukládáno pomocí sudých rozměrů ( dělitelné 2 vodorovně a svisle).

Barva Y'CbCr se často neformálně nazývá YUV, aby se zjednodušil zápis, i když tento termín se vhodněji vztahuje na poněkud odlišný barevný formát. Podobně se často používají termíny luminance a chrominance místo (přesnějších) termínů luma a chroma.

Rozlišení/bitrate

MPEG-1 podporuje rozlišení až 4095 × 4095 (12 bitů) a přenosové rychlosti až 100 Mbit/s.

Videa MPEG-1 jsou nejčastěji k vidění s rozlišením Source Input Format (SIF): 352 × 240, 352 × 288 nebo 320 × 240. Tato relativně nízká rozlišení v kombinaci s přenosovou rychlostí nižší než 1,5 Mbit/s tvoří takzvaný bitstream s omezenými parametry (CPB), později přejmenovaný na profil „Low Level“ (LL) v MPEG-2. Toto je minimální specifikace videa, kterou by měl zvládnout jakýkoli dekodér , aby byl považován za kompatibilní s MPEG-1 . Toto bylo vybráno tak, aby poskytovalo dobrou rovnováhu mezi kvalitou a výkonem, což umožňuje použití přiměřeně levného hardwaru té doby.

Typy rámců/obrázků/bloků

MPEG-1 má několik typů rámců/obrázků, které slouží různým účelům. Nejdůležitější, a přitom nejjednodušší, je I-frame .

I-rámy

„I-frame“ je zkratka pro „ Intra-frame “, takzvaně proto, že je lze dekódovat nezávisle na jakýchkoli jiných rámcích. Mohou být také známé jako I-obrázky nebo klíčové snímky kvůli jejich poněkud podobné funkci jako klíčové snímky používané v animaci. I-snímky lze považovat za účinně totožné se základními obrázky JPEG .

Vysokorychlostní vyhledávání prostřednictvím videa MPEG-1 je možné pouze na nejbližší I-snímek. Při stříhání videa není možné spustit přehrávání segmentu videa před prvním I-rámcem v segmentu (alespoň ne bez výpočetně intenzivního překódování). Z tohoto důvodu se v editačních aplikacích používají videa MPEG pouze ve formátu I-frame.

Komprese pouze I snímků je velmi rychlá, ale vytváří velmi velké velikosti souborů: faktor 3 × (nebo více) větší než normálně kódované video MPEG-1, v závislosti na tom, jak je konkrétní video časově složité. I-frame pouze MPEG-1 video je velmi podobné MJPEG videu. Natolik, že lze velmi rychle a teoreticky bezeztrátově (ve skutečnosti existují chyby zaokrouhlování) provádět převod z jednoho formátu do druhého za předpokladu, že při vytváření se bude dodržovat několik omezení (barevný prostor a kvantovací matice). bitstream.

Délka mezi snímky I je známá jako velikost skupiny obrázků (GOP). MPEG-1 nejčastěji používá velikost GOP 15–18. tj. 1 I-snímek na každých 14-17 ne-I-snímků (nějaká kombinace P- a B-rámců). U inteligentnějších kodérů se velikost GOP volí dynamicky, až do předem zvoleného maximálního limitu.

Limity jsou kladeny na maximální počet snímků mezi I-snímky kvůli dekódování komplexování, velikosti vyrovnávací paměti dekodéru, době zotavení po chybách dat, schopnosti vyhledávání a akumulaci chyb IDCT v implementacích s nízkou přesností nejběžnějších v hardwarových dekodérech (Viz: IEEE -1180).

P-rámy

„P-snímek“ je zkratka pro „Předvídaný rámec“. Mohou se také nazývat dopředvídané rámce nebo mezisnímky (B rámce jsou také mezisnímky).

P-snímky existují za účelem zlepšení komprese využitím dočasné (v průběhu času) redundance ve videu. P-snímky ukládají pouze rozdíl v obrazu od rámce (buď I-rámce nebo P-rámce) bezprostředně předcházejícímu (tento referenční rámec se také nazývá kotevní rámec ).

Rozdíl mezi P-rámcem a jeho kotevním rámcem se vypočítá pomocí pohybových vektorů na každém makrobloku rámce (viz níže). Taková vektorová data pohybu budou vložena do P-rámce pro použití dekodérem.

P-rámec může obsahovat libovolný počet uvnitř kódovaných bloků, navíc k jakýmkoli dopředu předpovídaným blokům.

Pokud se video drasticky změní z jednoho snímku na druhý (například oříznutí ), je efektivnější jej zakódovat jako I-snímek.

B-rámy

„B-frame“ znamená „obousměrný rám“ nebo „biprediktivní rámec“. Mohou být také známé jako zpětně predikované rámce nebo B-obrázky. B-rámce jsou docela podobné P-rámcům, kromě toho, že mohou provádět předpovědi pomocí předchozího i budoucího rámce (tj. Dvou rámců ukotvení).

Je proto nutné, aby hráč nejprve dekódoval další I- nebo P-kotevní rámec sekvenčně po B-rámci, než může být B-snímek dekódován a zobrazen. To znamená, že dekódování B rámců vyžaduje větší vyrovnávací paměti dat a způsobuje zvýšené zpoždění jak při dekódování, tak během kódování. To také vyžaduje funkci dekódování časových razítek (DTS) v proudu kontejneru/systému (viz výše). B-snímky jako takové jsou již dlouho předmětem mnoha kontroverzí, často se jim ve videích vyhýbají a někdy nejsou plně podporovány hardwarovými dekodéry.

Z B-snímku nejsou předpovídány žádné další snímky. Z tohoto důvodu lze v případě potřeby vložit B-rámec s velmi nízkou přenosovou rychlostí, který pomáhá řídit přenosovou rychlost. Pokud by to bylo provedeno s P-rámcem, byly by z něj předpovídány budoucí P-rámce a snížily by kvalitu celé sekvence. Podobně však budoucí P-snímek musí stále kódovat všechny změny mezi ním a předchozím rámcem I- nebo P- kotvy. B-snímky mohou být také užitečné ve videích, kde se pozadí za objektem odhaluje v několika snímcích, nebo při blednutí přechodů, jako jsou změny scény.

Rámeček B může obsahovat libovolný počet intrakódovaných bloků a dopředu předpovídaných bloků, navíc zpětně předpovídaných nebo obousměrně predikovaných bloků.

D-rámy

MPEG-1 má jedinečný typ rámce, který se v pozdějších video standardech nenachází. „D-snímky“ nebo DC-obrázky jsou nezávisle kódované obrazy (intra-snímky), které byly kódovány pouze pomocí DC transformačních koeficientů (AC koeficienty jsou odstraněny při kódování D-rámců-viz DCT níže), a proto mají velmi nízkou kvalitu. Rámečky D nejsou nikdy odkazovány na rámce I, P nebo B. D-snímky se používají pouze pro rychlé náhledy videa, například při vysokorychlostním vyhledávání videa.

Vzhledem k mírně vyššímu výkonnému dekódovacímu zařízení lze rychlého náhledu dosáhnout dekódováním I-rámců namísto D-rámců. To poskytuje náhledy ve vyšší kvalitě, protože I-snímky obsahují AC koeficienty i DC koeficienty. Pokud kodér může předpokládat, že v dekodérech je k dispozici schopnost rychlého dekódování I snímků, může ukládat bity tím, že neposílá D-snímky (čímž se zlepšuje komprese video obsahu). Z tohoto důvodu se D-rámce jen zřídka skutečně používají při kódování videa MPEG-1 a funkce D-rámce nebyla zahrnuta v žádných pozdějších standardech kódování videa.

Macrobloky

MPEG-1 pracuje na videu v sérii 8 × 8 bloků pro kvantování. Aby se však snížila bitová rychlost potřebná pro pohybové vektory a protože chroma (barva) je podvzorkována faktorem 4, každý pár (červených a modrých) chroma bloků odpovídá 4 různým blokům luma. Tato sada 6 bloků s rozlišením 16 × 16 je zpracována společně a nazývá se makroblok .

Makroblok je nejmenší nezávislou jednotkou (barevného) videa. Vektory pohybu (viz níže) fungují pouze na úrovni makrobloku.

Pokud výška nebo šířka videa nejsou přesné násobky 16, úplné řádky a plné sloupce makrobloků musí být stále zakódovány a dekódovány, aby se vyplnil obrázek (ačkoli extra dekódované pixely nejsou zobrazeny).

Pohybové vektory

Aby se snížilo množství dočasné redundance ve videu, aktualizují se pouze bloky, které se mění (až do maximální velikosti GOP). Toto je známé jako podmíněné doplňování. To však samo o sobě není příliš účinné. Pohyb objektů a/nebo fotoaparátu může mít za následek aktualizaci velkých částí rámce, přestože se změnila pouze poloha dříve kódovaných objektů. Prostřednictvím odhadu pohybu může kodér tento pohyb kompenzovat a odstranit velké množství nadbytečných informací.

Kodér porovnává aktuální snímek s přilehlými částmi videa z ukotveného rámce (předchozí I- nebo P- snímek) v kosočtvercovém vzoru, a to až do (předem specifického kodéru) předdefinovaného limitu poloměru z oblasti aktuálního makrobloku. Pokud je nalezena shoda, pouze směr a vzdálenost (tj vektor v pohybu ) z předchozí oblasti videa na aktuální makroblok potřeby být zakódovány do inter-rámec (P- nebo B-rámce). Opak tohoto procesu, prováděný dekodérem k rekonstrukci obrazu, se nazývá kompenzace pohybu .

Předpovídaný makroblok však jen málokdy odpovídá aktuálnímu obrázku dokonale. Rozdíly mezi odhadovanou oblastí shody a skutečným rámcem/makroblokem se nazývají chyba predikce. Čím větší je množství chyby predikce, tím více dat musí být dodatečně zakódováno v rámci. Pro efektivní kompresi videa je velmi důležité, aby kodér byl schopen efektivně a přesně provádět odhad pohybu.

Vektory pohybu zaznamenávají vzdálenost mezi dvěma oblastmi na obrazovce na základě počtu pixelů (také nazývaných pels). Video MPEG-1 používá přesnost vektoru pohybu (MV) polovinu jednoho pixelu nebo polovinu pel. Čím jemnější je přesnost MV, tím přesnější shoda pravděpodobně bude a tím efektivnější je komprese. Existují však kompromisy vyšší přesnosti. Jemnější přesnost MV má za následek použití většího množství dat k reprezentaci MV, protože pro každý jednotlivý MV musí být v rámci uložena větší čísla, pro kodér i dekodér je vyžadována vyšší složitost kódování, protože pro kodér i dekodér jsou vyžadovány rostoucí úrovně interpolace na makrobloku, a klesající výnosy (minimální zisky) s MV s vyšší přesností. Jako ideální kompromis pro daný časový okamžik byla zvolena přesnost poloviční pel. (Viz: qpel )

Protože sousední makrobloky pravděpodobně budou mít velmi podobné pohybové vektory, lze tyto nadbytečné informace komprimovat docela efektivně tím, že budou uloženy s kódováním DPCM . Do konečného bitového toku je třeba uložit pouze (menší) množství rozdílu mezi MV pro každý makroblok.

P-snímky mají jeden pohybový vektor na makroblok, relativně k předchozímu kotevnímu rámci. B-snímky však mohou používat dva pohybové vektory; jeden z předchozího kotevního rámu a jeden z budoucího kotevního rámu.

Částečné makrobloky a černé okraje/pruhy zakódované do videa, které nespadají přesně na hranici makrobloku, způsobují zmatek v predikci pohybu. Informace o blokování odsazení/ohraničení brání tomu, aby se makroblok těsně shodoval s jakoukoli jinou oblastí videa, a proto musí být pro každý z několika desítek dílčích makrobloků podél okraje obrazovky zakódovány výrazně větší informace o chybách predikce. Kódování a kvantování DCT (viz níže) také není tak účinné, když je v bloku velký/ostrý kontrast obrazu.

Ještě vážnější problém existuje u makrobloků, které obsahují výrazný, náhodný, okrajový šum , kde obraz přechází do (obvykle) černé. Všechny výše uvedené problémy platí také pro hluk hran. Navíc přidanou nahodilost jednoduše nelze výrazně komprimovat. Všechny tyto efekty podstatně sníží kvalitu (nebo zvýší přenosovou rychlost) videa.

DCT

Každý blok 8 × 8 je kódován nejprve použitím dopředné diskrétní kosinové transformace (FDCT) a poté kvantizačním procesem. Proces FDCT (sám o sobě) je teoreticky bezeztrátový a lze jej zvrátit použitím inverzního DCT ( IDCT ) k reprodukci původních hodnot (při absenci jakýchkoli chyb kvantování a zaokrouhlování). Ve skutečnosti existují některé (někdy velké) chyby zaokrouhlování, které jsou způsobeny kvantováním v kodéru (jak je popsáno v následující části) a chybou aproximace IDCT v dekodéru. Minimální povolená přesnost aproximace dekodéru IDCT je definována normou ISO/IEC 23002-1. (Před rokem 2006 to bylo specifikováno IEEE 1180-1990.)

Proces FDCT převádí blok 8 × 8 nekomprimovaných hodnot pixelů (hodnoty jasu nebo rozdílu barev) na indexované pole hodnot frekvenčního koeficientu 8 × 8 . Jedním z nich je (statisticky vysoký rozptyl) „DC koeficient“, který představuje průměrnou hodnotu celého bloku 8 × 8. Dalších 63 koeficientů je statisticky menších „AC koeficientů“, které mají kladné nebo záporné hodnoty, z nichž každý představuje sinusové odchylky od hodnoty plochého bloku reprezentované DC koeficientem.

Příklad kódovaného bloku 8 × 8 FDCT:

{\ displaystyle {\ begin {bmatrix} -415 & -30 & -61 & 27 & 56 & -20 & -2 & 0 \\ 4 & -22 & -61 & 10 & 13 & -7 & -9 & 5 \\-47 & 7 & 77 & -25 & -29 & 10 & 5 & -6 \\-49 & 12 & 34 & -15 & -10 & 6 & 2 & 2 \\ 12 & -7 & -13 & -4 & -2 & 2 & -3 & 3 \\-8 & 3 & 2 & -6 & -2 & 1 & 4 & 2 \\-1 & 0 & 0 & -2 & -1 & -3 & 4 & -1 \\ 0 & 0 & -1 & -4 & -1 & 0 & 1 & 2 \ end {bmatrix}}}

Protože je hodnota DC koeficientu statisticky korelována z jednoho bloku do druhého, je komprimována pomocí kódování DPCM . V konečném bitovém toku musí být zastoupeno pouze (menší) množství rozdílu mezi každou hodnotou DC a hodnotou DC koeficientu v bloku nalevo.

Frekvenční převod prováděný aplikací DCT navíc poskytuje funkci statistické dekorelace pro efektivní koncentraci signálu na méně hodnot s vysokou amplitudou před aplikací kvantizace (viz níže).

Kvantizace

Kvantizace je v podstatě proces snižování přesnosti signálu jeho dělením o větší velikost kroku a zaokrouhlováním na celočíselnou hodnotu (tj. Nalezení nejbližšího násobku a vyřazení zbytku).

Kvantizér na úrovni rámců je číslo od 0 do 31 (ačkoli kodéry obvykle vynechají/deaktivují některé extrémní hodnoty), které určuje, kolik informací bude z daného rámce odstraněno. Kvantizér na úrovni snímků je obvykle buď dynamicky vybrán kodérem pro udržení určitého uživatelem zadaného datového toku, nebo (mnohem méně často) přímo zadán uživatelem.

„Kvantovací matice“ je řetězec 64 čísel (v rozsahu od 0 do 255), který kodéru říká, jak je každá vizuální informace relativně důležitá nebo nedůležitá. Každé číslo v matici odpovídá určité frekvenční složce video obrazu.

Příklad kvantovací matice:

{\ Displaystyle {\ begin {bmatrix} 16 11 10 16 24 a 40 a 51 a 61 \\ 12 a 12 a 14 a 19 a 26 a 58 a 60 a 55 \\ 14 a 13 a 16 a 24 a 40 a 57 a 69 a 56 \\ 14 a 17 a 22 a 29 a 51 a 87 a 80 a 62 \\ 18 a 22 a 37 a 56 a 68 a 109 a 103 a 77 \\ 24 a 35 a 55 a 64 a 81 a 104 a 113 a 92 \\ 49 a 64 a 78 a 87 a 103 a 121 a 120 a 101 \\ 72 a 92 a 95 a 98 a 112 a 100 a 103 a 99 \ end {bmatrix}}}

Kvantizace se provádí tak, že se vezme každá ze 64 hodnot frekvence frekvenčního bloku DCT, rozdělí se pomocí kvantizátoru na úrovni rámců a poté se rozdělí odpovídajícími hodnotami v kvantovací matici. Nakonec se výsledek zaokrouhlí dolů. To výrazně snižuje nebo zcela eliminuje informace v některých frekvenčních složkách obrazu. Vysokofrekvenční informace jsou obvykle méně vizuálně důležité, a tak jsou vysoké frekvence mnohem silněji kvantovány (drasticky sníženy). MPEG-1 ve skutečnosti používá dvě oddělené kvantizační matice, jednu pro vnitrobloky (I-bloky) a jednu pro mezibloky (P- a B- bloky), takže kvantování různých typů bloků lze provádět nezávisle, a tak efektivněji .

Tento kvantizační proces obvykle redukuje značný počet AC koeficientů na nulu (známý jako řídká data), které pak mohou být účinněji komprimovány entropickým kódováním (bezeztrátová komprese) v dalším kroku.

Příklad kvantovaného bloku DCT:

{\ Displaystyle {\ begin {bmatrix} -26 & -3 -6 2 2 -1 0 0 \\ 0 -2 a -4 1 1 0 0 0 \\ - 3 1 5 -1 -1 0 0 0 \\ - 4 1 2 -1 0 0 0 0 \\ 1 0 0 0 0 0 0 0 \\ 0 0 0 0 0 0 0 0 \\ 0 0 0 0 0 0 0 0 \\ 0 0 0 0 0 0 0 0 \ end {bmatrix}}}

Kvantizace eliminuje velké množství dat a je hlavním ztrátovým krokem zpracování při kódování videa MPEG-1. Toto je také primární zdroj většiny artefaktů komprese videa MPEG-1 , jako je blokování , barevné pruhy , šum , vyzvánění , změna barvy atd. K tomu dochází, když je video kódováno s nedostatečným datovým tokem, a kodér je proto nucen používat ve velké části videa vysoké kvantizéry na úrovni snímků ( silná kvantizace ).

Entropické kódování

Několik kroků v kódování videa MPEG-1 je bezztrátových, což znamená, že budou po dekódování obráceny, aby se vytvořily přesně stejné (původní) hodnoty. Vzhledem k tomu, že tyto kroky bezeztrátové komprese dat nepřidávají hluk ani jinak nemění obsah (na rozdíl od kvantování), je někdy označováno jako bezhlučné kódování . Protože bezztrátová komprese má za cíl odstranit co nejvíce nadbytečnosti, je v oblasti teorie informací známé jako kódování entropie .

Koeficienty kvantovaných bloků DCT mají tendenci nulovat se směrem vpravo dole. Maximální komprese lze dosáhnout cik-cakovým skenováním bloku DCT počínaje zleva nahoře a pomocí technik kódování Run-length.

DC koeficienty a pohybové vektory jsou kódovány DPCM .

Kódování běhu (RLE) je jednoduchá metoda komprese opakování. Sekvenční řetězec znaků, bez ohledu na to, jak dlouhý, lze nahradit několika bajty, přičemž se zaznamenává hodnota, která se opakuje a kolikrát. Pokud by někdo například řekl „pět devítek“, věděli byste, že to znamená číslo: 99999.

RLE je zvláště účinný po kvantizaci, protože značný počet AC koeficientů je nyní nulový (nazývá se řídká data) a může být reprezentován pouze několika bajty. To je uloženo ve speciální 2- dimenzionální Huffmanově tabulce, která kóduje délku běhu a znak konce konce.

Huffman Coding je velmi populární a relativně jednoduchá metoda kódování entropie a používá se ve videu MPEG-1 ke zmenšení velikosti dat. Data jsou analyzována, aby se našly řetězce, které se často opakují. Tyto řetězce jsou poté vloženy do speciální tabulky, přičemž nejčastěji se opakujícím datům je přiřazen nejkratší kód. Díky této formě komprimace jsou data co nejmenší. Jakmile je tabulka vytvořena, tyto řetězce v datech jsou nahrazeny jejich (mnohem menšími) kódy, které odkazují na příslušný záznam v tabulce. Dekodér jednoduše obrátí tento proces a vytvoří původní data.

Toto je poslední krok v procesu kódování videa, takže výsledek Huffmanova kódování je známý jako „bitstream“ videa MPEG-1.

Konfigurace GOP pro konkrétní aplikace

I-snímky ukládají kompletní rámcové informace v rámci, a jsou proto vhodné pro náhodný přístup. P-snímky poskytují kompresi pomocí pohybových vektorů vzhledem k předchozímu snímku (I nebo P). B-snímky poskytují maximální kompresi, ale pro výpočet vyžadují předchozí i následující snímek. Proto zpracování B rámců vyžaduje více vyrovnávací paměti na dekódované straně. Na základě těchto faktorů by měla být vybrána konfigurace skupiny obrázků (GOP). Sekvence pouze rámce I poskytují nejmenší kompresi, ale jsou užitečné pro náhodný přístup, FF/FR a editovatelnost. Sekvence rámců I a P poskytují mírnou kompresi, ale přidávají určitý stupeň náhodného přístupu, funkce FF/FR. Sekvence rámců I, P a B poskytují velmi vysokou kompresi, ale také výrazně prodlužují zpoždění kódování/dekódování. Takové konfigurace proto nejsou vhodné pro aplikace pro videotelefonii nebo videokonference.

Typická datová rychlost I-snímku je 1 bit na pixel, zatímco v P-snímku je 0,1 bit na pixel a pro B-snímek 0,015 bitů na pixel.

Část 3: Zvuk

Část 3 standardu MPEG-1 zahrnuje zvuk a je definována v ISO/IEC-11172-3.

MPEG-1 Audio využívá psychoakustiku k výraznému snížení datové rychlosti požadované zvukovým streamem. Snižuje nebo zcela zahodí určité části zvuku, které vyvozuje, že lidské ucho neslyší , a to buď proto, že jsou na frekvencích, kde má ucho omezenou citlivost, nebo jsou maskovány jinými (obvykle hlasitějšími) zvuky.

Kódování kanálu:

Mono
Joint Stereo - kódování intenzity
Joint Stereo - M/S kódováno pouze pro vrstvu III
Stereo
Duální (dva nekorelované mono kanály)
Vzorkovací frekvence : 32 000, 44 100 a 48 000 Hz
Bitové rychlosti pro vrstvu I: 32, 64, 96, 128, 160, 192, 224, 256, 288, 320, 352, 384, 416 a 448 kbit/s
Bitové rychlosti pro vrstvu II: 32, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256, 320 a 384 kbit/s
Bitové rychlosti pro vrstvu III: 32, 40, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256 a 320 kbit/s

MPEG-1 Audio je rozdělen do 3 vrstev. Každá vyšší vrstva je výpočetně složitější a obecně efektivnější při nižších přenosových rychlostech než předchozí. Vrstvy jsou částečně zpětně kompatibilní, protože vyšší vrstvy znovu používají technologie implementované nižšími vrstvami. „Full“ dekodér Layer II může také přehrávat zvuk Layer I, ale nikoli zvuk Layer III, i když ne všichni hráči vyšší úrovně jsou „full“.

Vrstva I

MPEG-1 Audio Layer I je zjednodušená verze MPEG-1 Audio Layer II. Vrstva I používá menší velikost rámečku 384 vzorků pro velmi nízké zpoždění a jemnější rozlišení. To je výhodné pro aplikace jako telekonference, studiové úpravy atd. Má nižší složitost než vrstva II, aby usnadnilo kódování v reálném čase na dostupném hardwaru c. 1990 .

Vrstva jsem viděl omezené přijetí v jeho času, a především byl používán na Philips ' zaniklé digitální kompaktní kazety na bitrate 384 kbit / s. S podstatným zlepšením výkonu v digitálním zpracování od jeho zavedení se Layer I rychle stal nepotřebným a zastaralým.

Zvukové soubory vrstvy I obvykle používají příponu „.mp1“ nebo někdy „.m1a“.

Vrstva II

MPEG-1 Audio Layer II (první verze MP2, často neformálně nazývaná MUSICAM) je ztrátový zvukový formát navržený tak, aby poskytoval vysokou kvalitu asi 192 kbit/s pro stereofonní zvuk. Dekódování zvuku MP2 je výpočetně jednoduché ve srovnání s MP3, AAC atd.

Historie/MUSICAM

MPEG-1 Audio Layer II byl odvozen ze zvukového kodeku MUSICAM ( Universal Subband Integrated Coding And Multiplexing ) přizpůsobeného maskovacímu vzoru , vyvinutý společnostmi Centre commun d'études de télévision et télécommunications (CCETT), Philips a Institut für Rundfunktechnik (IRT/CNET ) jako součást celoevropské mezivládní iniciativy výzkumu a vývoje EUREKA 147 pro rozvoj digitálního zvukového vysílání.

Většina klíčových funkcí MPEG-1 Audio byla zděděna přímo z MUSICAM, včetně banky filtrů, zpracování v časové oblasti, velikostí zvukových rámců atd. Byla však provedena vylepšení a skutečný algoritmus MUSICAM nebyl v konečném MPEG-1 použit Standard Audio Layer II. Rozšířené používání výrazu MUSICAM k označení vrstvy II je zcela nesprávné a nedoporučuje se z technických ani právních důvodů.

Technické údaje

MP2 je kodér časové domény. Pro mapování časových kmitočtů používá 32pásmovou polyfázovou filtrační banku s nízkým zpožděním ; mající překrývající se rozsahy (tj. polyfázové), aby se zabránilo aliasingu. Psychoakustický model je založen na principech sluchového maskování , simultánních maskovacích efektů a absolutním prahu sluchu (ATH). Velikost rámce vrstvy II je pevně stanovena na 1152 vzorků (koeficienty).

Časová doména označuje, jak se provádí analýza a kvantizace na krátkých, diskrétních vzorcích/blocích zvukové vlny. To nabízí nízké zpoždění, protože před kódováním je analyzován pouze malý počet vzorků, na rozdíl od kódování frekvenční domény (jako MP3), které musí analyzovat mnohonásobně více vzorků, než se může rozhodnout, jak transformovat a vydávat kódovaný zvuk. To také nabízí vyšší výkon při komplexních, náhodných a přechodných impulzech (jako jsou perkusní nástroje a potlesk), což umožňuje vyhnout se artefaktům, jako je předzvěst.

Banka 32 dílčích pásem filtrů vrací 32 amplitudových koeficientů , jeden pro každé stejně velké frekvenční pásmo/segment zvuku, který je široký přibližně 700 Hz (v závislosti na vzorkovací frekvenci zvuku). Kodér pak využívá psychoakustický model k určení, která dílčí pásma obsahují zvukové informace, které jsou méně důležité, a kde tedy bude kvantizace neslyšitelná nebo alespoň mnohem méně nápadná.

Příklad analýzy FFT na vzorku zvukové vlny.

Psychoakustický model je aplikován pomocí 1024bodové rychlé Fourierovy transformace (FFT). Z 1152 vzorků na snímek je pro tuto analýzu ignorováno 64 vzorků v horní a dolní části frekvenčního rozsahu. Pravděpodobně nejsou dostatečně významné, aby změnily výsledek. Psychoakustický model používá empiricky určený maskovací model k určení, která dílčí pásma více přispívají k prahové hodnotě maskování a kolik kvantizačního šumu může každý obsahovat, aniž by byl vnímán. Všechny zvuky pod absolutním prahem sluchu (ATH) jsou zcela odstraněny. Dostupné bity jsou poté odpovídajícím způsobem přiřazeny každému dílčímu pásmu.

Subpásma jsou obvykle méně důležitá, pokud obsahují tišší zvuky (menší koeficient) než sousední (tj. Podobná frekvence) subpásmo s hlasitějšími zvuky (větší koeficient). Také „hlukové“ komponenty mají obvykle výraznější maskovací účinek než „tonální“ komponenty.

Méně významná dílčí pásma jsou přesností snížena kvantováním. V zásadě se jedná o stlačení frekvenčního rozsahu (amplituda koeficientu), tj. Zvýšení úrovně hluku. Poté se vypočítá zesilovací faktor, který dekodér použije k opětovnému rozšíření každého dílčího pásma do správného frekvenčního rozsahu.

Vrstva II může také volitelně používat intenzivní stereo kódování, což je forma společného stereo. To znamená, že frekvence nad 6 kHz obou kanálů jsou kombinovány/smíšeny do jednoho (mono) kanálu, ale informace o „bočním kanálu“ o relativní intenzitě (hlasitosti, amplitudě) každého kanálu jsou zachovány a zakódovány do bitstream samostatně. Při přehrávání se jeden kanál přehrává prostřednictvím levého a pravého reproduktoru, přičemž informace o intenzitě jsou aplikovány na každý kanál a vytvářejí iluzi stereofonního zvuku. Tento vjemový trik je známý jako „stereo irelevantnost“. To může umožnit další snížení přenosové rychlosti zvuku bez výrazně znatelné ztráty věrnosti, ale obecně se nepoužívá s vyššími přenosovými rychlostmi, protože neposkytuje velmi kvalitní (transparentní) zvuk.

Kvalitní

Subjektivní testování zvuku odborníky v nejkritičtějších podmínkách, jaké kdy byly implementovány, ukázalo, že MP2 nabízí transparentní kompresi zvuku při 256 kbit/s pro 16bitový zvuk 44,1 kHz CD pomocí nejstarší referenční implementace (novější kodéry by pravděpodobně měly fungovat ještě lépe) . Tento (přibližně) kompresní poměr 1: 6 pro audio CD je obzvláště působivý, protože je docela blízko odhadované horní hranici percepční entropie , těsně nad 1: 8. Dosažení mnohem vyšší komprese jednoduše není možné bez zahození některých vnímatelných informací.

MP2 zůstává oblíbeným standardem ztrátového kódování zvuku díky obzvláště vysokým kódovacím výkonům zvuku na důležitých zvukových materiálech, jako je kastanet, symfonický orchestr, mužské a ženské hlasy, a zvláště složité a vysoce energetické přechody (impulsy), jako jsou perkusivní zvuky: trojúhelník, glockenspiel a publikum potlesk. Novější testy ukázaly, že MPEG vícekanálový (založený na MP2), přestože byl kompromitován nižším maticovým režimem (kvůli zpětné kompatibilitě), je jen o něco nižší než mnohem novější zvukové kodeky, jako je Dolby Digital (AC-3) a Advanced Audio Coding (AAC) (většinou v rámci chybového rozpětí - a v některých případech podstatně lepší, jako například potlesk publika). To je jeden z důvodů, proč se stále hojně využívá zvuk MP2. Ověřovací testy MPEG-2 AAC Stereo došly k výrazně odlišnému závěru, nicméně ukázaly, že AAC poskytuje vynikající výkon MP2 při poloviční přenosové rychlosti. Důvod této nesrovnalosti u dřívějších i pozdějších testů není jasný, ale kupodivu u posledně jmenovaného testu chybí vzor potlesku.

Zvukové soubory vrstvy II obvykle používají příponu „.mp2“ nebo někdy „.m2a“.

Vrstva III

MPEG-1 Audio Layer III (první verze MP3 ) je ztrátový zvukový formát navržený tak, aby poskytoval přijatelnou kvalitu přibližně 64 kbit/s pro monofonní zvuk přes jednokanálové ( BRI ) odkazy ISDN a 128 kbit/s pro stereofonní zvuk .

Historie/ASPEC

ASPEC 91 v Deutsches Museum Bonn , s kodérem (níže) a dekodérem

MPEG-1 Audio Layer III byl odvozen z kodeku Adaptive Spectral Perceptual Entropy Coding (ASPEC) vyvinutého společností Fraunhofer jako součást celoevropské mezivládní iniciativy výzkumu a vývoje EUREKA 147 pro rozvoj digitálního zvukového vysílání. ASPEC byl přizpůsoben tak, aby odpovídal modelu Layer II (velikost rámce, filtrační banka, FFT atd.), Aby se stal vrstvou III.

ASPEC byl sám založen na Multiple adaptive Spectral audio Coding (MSC) od EF Schroeder , Optimum Coding in the Frequency domain (OCF) the doctoral thesis by Karlheinz Brandenburg at the University of Erlangen-Nuremberg , Perceptual Transform Coding (PXFM) by JD Johnston at AT & T Bell Labs , a transformační kódování zvukových signálů podle Y. Mahieux a J. Petit v institutu pro Rundfunktechnik (IRT / CNET).

Technické údaje

MP3 je kodér zvukové transformace ve frekvenční oblasti . I když využívá některé z funkcí spodní vrstvy, MP3 je zcela odlišný od MP2.

MP3 pracuje na 1152 vzorcích, jako je MP2, ale než může být účinné zpracování a kvantování ve frekvenční doméně (MDCT), musí analyzovat více snímků pro analýzu. Vytváří proměnný počet vzorků pomocí bitové vyrovnávací paměti, která umožňuje kódování této proměnné přenosové rychlosti (VBR) při zachování výstupních rámců velikosti vzorku 1152. To způsobuje podstatně delší zpoždění před výstupem, což způsobilo, že MP3 je považován za nevhodný pro studiové aplikace, kde je třeba provádět úpravy nebo jiné zpracování.

MP3 neprofituje z 32 subpásmové polyfázové filtrační banky, místo toho používá pouze 18bodovou transformaci MDCT na každém výstupu k rozdělení dat na 576 frekvenčních složek a jejich zpracování ve frekvenční oblasti. Tato extra granularita umožňuje MP3 mít mnohem jemnější psychoakustický model a pečlivěji aplikovat vhodnou kvantizaci na každé pásmo, což poskytuje mnohem lepší výkon s nízkým datovým tokem.

Zpracování ve frekvenční oblasti také přináší určitá omezení, což způsobuje faktor 12 nebo 36 × horší časové rozlišení než vrstva II. To způsobuje kvantizační artefakty v důsledku přechodných zvuků, jako jsou perkusní události a další vysokofrekvenční události, které se šíří do většího okna. Výsledkem je slyšitelné rozmazání a předzvěst . MP3 ve snaze snížit tento efekt používá rutiny pro detekci ozveny a kódování VBR, které mu umožňuje dočasně zvýšit přenosovou rychlost během obtížných pasáží. Je také schopen přepínat mezi normálním oknem kvantizace 36 vzorků a místo toho použít 3 × krátká okna 12 vzorků ke snížení časové (časové) délky kvantizačních artefaktů. A přesto při výběru poměrně malé velikosti okna, aby byla časová odezva MP3 dostatečně adekvátní, aby se zabránilo nejzávažnějším artefaktům, se MP3 stává mnohem méně efektivní při kompresi stacionárních, tonálních komponent ve frekvenční oblasti.

Být nuceni používat model hybridní časové domény (filtrační banka) /frekvenční doména (MDCT), aby zapadl do vrstvy II, jednoduše ztrácí čas zpracování a kompromituje kvalitu zavedením aliasingových artefaktů. MP3 má fázi zrušení aliasu specificky k maskování tohoto problému, ale místo toho produkuje energii frekvenční domény, která musí být zakódována ve zvuku. To je posunuto na vrchol frekvenčního rozsahu, kde má většina lidí omezený sluch, v naději, že zkreslení, které způsobí, bude méně slyšitelné.

1024bodový FFT vrstvy II nepokrývá úplně všechny vzorky a vynechal několik celých subpásem MP3, kde je třeba určit kvantizační faktory. MP3 místo toho používá dva průchody FFT analýzy pro spektrální odhad, pro výpočet globálních a individuálních prahových hodnot maskování. To umožňuje pokrýt všech 1152 vzorků. Z těchto dvou využívá globální prahovou hodnotu maskování od kritičtějšího průchodu s nejtěžším zvukem.

Kromě společného stereofonního kódovaného intenzity vrstvy II může MP3 používat také střední/boční (střední/boční, m/s, MS, maticové) společné stereo. Se středním/bočním stereem jsou určité frekvenční rozsahy obou kanálů sloučeny do jednoho (středního, středního, L+R) mono kanálu, zatímco rozdíl zvuku mezi levým a pravým kanálem je uložen jako samostatný (boční, LR) kanál . Na rozdíl od stereo intenzity tento proces nezbavuje žádné zvukové informace. V kombinaci s kvantizací to však může s artefakty přehánět.

Pokud je rozdíl mezi levým a pravým kanálem malý, boční kanál bude malý, což nabídne až 50% úsporu bitrate a související zlepšení kvality. Pokud je rozdíl mezi levou a pravou stranou velký, může být upřednostňováno standardní (diskrétní, levé/pravé) stereofonní kódování, protože stereofonní středový/boční kloub neposkytuje žádné výhody. Kodér MP3 může přepínat mezi stereo m/s a plným stereem po jednotlivých snímcích.

Na rozdíl od vrstev I a II používá MP3 kódování Huffman s proměnnou délkou (po vnímání) k dalšímu snížení přenosové rychlosti bez jakékoli další ztráty kvality.

Kvalitní

Jemněji zrnitá a selektivní kvantizace MP3 se ukazuje být výrazně lepší než MP2 při nižších přenosových rychlostech. Je schopen poskytnout téměř ekvivalentní kvalitu zvuku vrstvě II, s 15% nižším datovým tokem (přibližně). 128 kbit/s je považováno za „sweet spot“ pro MP3; to znamená, že poskytuje obecně přijatelný kvalitní stereofonní zvuk u většiny hudby a od dalšího zvýšení přenosové rychlosti dochází ke snižování kvality. MP3 je také považováno za vystavující artefakty, které jsou méně otravné než vrstva II, když jsou oba použity při bitratech, které jsou příliš nízké na to, aby mohly poskytovat věrnou reprodukci.

Zvukové soubory vrstvy III používají příponu „.mp3“.

Rozšíření zvuku MPEG-2

Standard MPEG-2 obsahuje několik rozšíření zvuku MPEG-1. Jsou známé jako MPEG-2 BC-zpětně kompatibilní se zvukem MPEG-1. MPEG-2 Audio je definován v ISO/IEC 13818-3.

MPEG vícekanálový -zpětně kompatibilní 5.1kanálový prostorový zvuk .
Vzorkovací frekvence : 16 000, 22050 a 24 000 Hz
Bitové rychlosti : 8, 16, 24, 32, 40, 48, 56, 64, 80, 96, 112, 128, 144 a 160 kbit/s

Tyto vzorkovací frekvence jsou přesně poloviční než původně definované pro MPEG-1 Audio. Byly zavedeny za účelem zachování vyšší kvality zvuku při kódování zvuku při nižších přenosových rychlostech. Byly zavedeny ještě nižší přenosové rychlosti, protože testy ukázaly, že MPEG-1 Audio může poskytovat vyšší kvalitu než jakýkoli existující ( c. 1994 ) velmi nízký datový tok (tj. Řeč ) zvukové kodeky.

Část 4: Testování shody

Část 4 normy MPEG-1 se týká testování shody a je definována v ISO/IEC-11172-4.

Shoda: Postupy pro testování shody.

Poskytuje dvě sady pokynů a referenčních bitových toků pro testování shody dekodérů zvuku a videa MPEG-1 a bitových toků produkovaných kodérem.

Část 5: Referenční software

Část 5 normy MPEG-1 obsahuje referenční software a je definována v ISO/IEC TR 11172–5.

Simulace: Referenční software.

Referenční kód C pro kódování a dekódování zvuku a videa, jakož i multiplexování a demultiplexování.

To zahrnuje kód kodéru zvuku ISO Dist10 , na kterém byly původně založeny LAME a TooLAME .

Přípona souboru

.mpg je jednou z řady přípon souborů pro kompresi zvuku a videa MPEG-1 nebo MPEG-2 . Video MPEG-1 Part 2 je v dnešní době vzácné a toto rozšíření se typicky týká MPEG programového proudu (definovaného v MPEG-1 a MPEG-2) nebo MPEG transportního proudu (definovaného v MPEG-2). Existují i další přípony, například .m2ts, které specifikují přesný kontejner, v tomto případě MPEG-2 TS, ale to má pro média MPEG-1 malý význam.

.mp3 je nejběžnější příponou pro soubory obsahující zvuk MP3 (obvykle MPEG-1 Audio, někdy MPEG-2 Audio). Soubor MP3 je obvykle nezachycený proud nezpracovaného zvuku; konvenční způsob označování souborů MP3 je zápis dat do „odpadkových“ segmentů každého rámce, které uchovávají informace o médiích, ale jsou vyřazeny přehrávačem. To je v mnoha ohledech podobné tomu, jak jsou označeny surové soubory .AAC (ale to je dnes méně podporováno, např. ITunes ).

Všimněte si toho, že ačkoli by to platilo, .mpg obvykle nepřidává nezpracovaný AAC nebo AAC v kontejnerech MPEG-2 část 7 . Přípona .aac obvykle označuje tyto zvukové soubory.

Viz také

MPEG The Moving Picture Experts Group, vývojáři standardu MPEG-1
MP3 Další méně technické podrobnosti o MPEG-1 Audio Layer III
MPEG vícekanálové zpětně kompatibilní 5.1kanálové rozšíření prostorového zvuku na MPEG-1 Audio Layer II
MPEG-2 Přímý nástupce standardu MPEG-1.
ISO/IEC JTC 1/SC 29

Implementace

Libavcodec obsahuje video/audio kodéry a dekodéry MPEG-1/2
Mjpegtools MPEG-1/2 video/audio kodéry
TooLAME Vysoce kvalitní kodér MPEG-1 Audio Layer II.
LAME Vysoce kvalitní kodér zvuku MP3.
Musepack Formát původně založený na MPEG-1 Audio Layer II, ale nyní nekompatibilní.

Languages

In other projects

MPEG -1 - MPEG-1

Dějiny

Patenty

Bývalí držitelé patentů

Aplikace

Část 1: Systémy

Elementární streamy, pakety a odkazy na hodiny

Programové toky

Multiplexování

Část 2: Video

Barevný prostor

Rozlišení/bitrate

Typy rámců/obrázků/bloků

I-rámy

P-rámy

B-rámy

D-rámy

Macrobloky

Pohybové vektory

DCT

Kvantizace

Entropické kódování

Konfigurace GOP pro konkrétní aplikace

Část 3: Zvuk

Vrstva I

Vrstva II

Historie/MUSICAM

Technické údaje

Kvalitní

Vrstva III

Historie/ASPEC

Technické údaje

Kvalitní

Rozšíření zvuku MPEG-2

Část 4: Testování shody

Část 5: Referenční software

Přípona souboru

Viz také

Reference

externí odkazy