Hlavní navigace

Do hlubin formátu MPEG-2

15. 6. 2006
Doba čtení: 8 minut

Sdílet

 Autor: 118483
Zkratku MPEG-2 zná důvěrně každý, kdo se o digitální vysílání jen trochu zajímá. Standard pro kódování videa na DVD hraje dnes hlavní roli také v české televizní digitalizaci. Co čtveřice písmen doplněná pomlčkou a číslem ale v praxi znamená? Jaká je podstata formátu MPEG-2?

Kódování digitální televize přizpůsobuje data k lepšímu přenosu i příjmu a dělí se na dva druhy. Prvním z nich je kanálové kódování, které zajišťuje přenos dat po různých cestách, kterými jsou tradičně antény, kabel a satelit. V dnešní době má základní digitální vysílání čtyři odnože: DVB-T pro zemský příjem, DVB-S na přenos přes družici, DVB-C do kabelových rozvodů a DVB-H, které je upravené pro přenosná zařízení.

Druhou částí kódovacího procesu je kódování zdrojové. Jeho úkolem je připravit data pro samotný přenos, zbavit je přebytečných informací a zabezpečit je k transportu. Zdrojové kódování má dnes jediný standard, a to MPEG. Za zkratkou se skrývá Motion Picture Expert Group, tedy expertní skupina pro kinematografii. MPEG-2 je druhou generací standardu, který vznikl původně už v roce 1991. První MPEG byl kvalitou obrazu srovnatelný s klasickým videozáznamem VHS a MPEG-2 se od něj liší mj. svou variabilitou. Modernější standard používá nejen digitální televizní vysílání – už dříve určil podobu filmového záznamu na DVD a své příznivce má i v oblasti počítačového střihu. MPEG-2 představuje komplexní řešení přenosu, ukládání a zpracování videa.

Podstata formátu a pohyblivých obrázků

Video je sekvence obrázků, které běží za sebou. Ačkoli jsou mezi každými dvěma obrázky rozdíly, nedokonalý lidský zrak je vnímá jako pohyb. Princip je známý minimálně od konce 19. století, kdy francouzští bratři Lumièrovi položili základy kinematografie. K iluzi pohybu používá film 24 snímků za vteřinu, televizní normou pro Evropu se stalo 25 snímků – televize se přizpůsobila frekvenci elektrického proudu, 50 Hz.

25 obrázku za vteřinu, 1500 za minutu, 90.000 za hodinu, to pro digitální techniku představuje obrovské množství dat (165 Mbit/s). Proto se důsledně odebírají přebytečné informace, čímž datový tok klesne bez citelné ztráty kvality až na 3–6 Mbit/s, alespoň v případě MPEG-2. Spodní hranice odpovídá zhruba poměru 50:1. K divákovi tedy stačí dopravit 50× méně informací pro jeho obdobný požitek.

Samotný snímek představuje komplexní celek složený z prvků. Nejzákladnější prvek se nazývá vzorek a udává informaci o barvě nebo jasu v osmibitovém čísle. Skupina 8×8 jasových nebo barevných vzorků tvoří blok a čtyři bloky jasové s odpovídajícími barevnými tvoří makroblok.

MPEG-2 A

Několik za sebou následujících makrobloků, které na obrazovce pokrývají 16 stejných řádků, tvoří pruh makrobloků. Dalším stupněm je obrázek tvořený buď televizními půlsnímky, nebo snímkem.

Popsali jsme celou strukturu snímku a nyní můžeme začít s kategorizací různých snímků. Existují tři druhy:

  • Snímek typu I (Interframe) představuje plnohodnotný snímek podobně jako u filmové pásky. Obsahuje veškeré informace a stává se základním pro další typy snímků.
  • Snímek typu P (Predicted) je kódovaný ve vztahu k předešlému snímku typu I. V praxi to znamená, že je závislý na předchozím základním snímku. Snímek typu P nese informace o změně mezi snímkem I a jím samým.
    Jak se vyhodnocuje změna mezi snímky? Snímek je rozdělen na jednotlivé makrobloky a ty se vezmou do porovnávače. Porovnají se v bináru a totožné makrobloky se nepřenáší (modrá obloha, jednolité stejnobarevné větší plochy představují typický příklad pro vynechávání). Při promítání se tato vynechaná místa nahradí makrobloky ze základního snímku I.
  • Poslední typ snímku je snímek typu B (Bidirectionally Predicted) a pro představu je nejsložitější. Tento snímek je závislý jak na předchozím snímku (a je jedno jestli I nebo P) a stejně tak i na následujícím snímku. Porovnává tedy makroblok, jak s předchozím snímkem, tak s následujícím a při zobrazování si půjčuje makrobloky z předchozího i následujícího snímku (tento typ neznal původní MPEG-1). Používá se při projíždění kamery krajinou, kde se krajní místa doplňují nadcházejícím snímkem typu P nebo I, tedy opět nebe a další plochy.
MPEG-2 B

Obrázek dokresluje fakt, že místo původních 25 snímků stačí formátu MPEG-2 za sekundu tři původní úplné snímky. Pokud přijde velká změna prostředí, jakou může být např. střih, výbuch atd., použije se samozřejmě základní plnohodnotný snímek typu I. Řetězec tedy není pevný, ale pouze ilustrativní a ideální.

Naskytuje se ovšem otázka, jak může snímek typu B brát makrobloky z následujících snímku? Samozřejmě nejde o žádné věštění. Snímky typu B se na vysílací cestě posílají za snímky, na kterých jsou závislé, a úkolem přijímače pak je snímky opětovně správně seřadit při zobrazování. Pro lepší představu si na předchozím obrázku přehoďte snímky B a P následujícím způsobem: I P B B P B B atd. Počet snímků I v řetězci pak udává kvalitu videa.

Další redukce informací

Existuje několik odlišných postupů, jak co nejefektivněji posílat data. Nejvýznamnějším je Huffmanovo kódování. Princip je jednoduchý a hojně využívaný i u počítačových komprimačních programů typu RAR nebo ZIP. Často opakující se úseky totožných bitů nahradí kratšími, vytvoří si tabulku a podle té pak zaměňuje. Tabulku má i přijímací strana a podle ní dešifruje. Další krok je poměrně složitý, a proto ho nebudu rozvádět úplně do detailu.

Diskrétní kosinová transformace je reverzibilní proces, který převádí blok obrazu do roviny prostorových kmitočtů podle daného vzorce. Transformací získáme matici 8×8 spektrálních koeficientů. Uvedená transformace sama osobě nijak nezmenšuje počet bitů nutných pro popis bloků. Právě naopak, spektrální koeficienty je nutno uchovat s kvantizační hloubkou alespoň 11 bitů. Její zásadní význam však spočívá v dekorelaci signálu, neboť koncentruje převážnou část energie do stejnosměrné složky a nízkofrekvenčních koeficientů, čehož se pak využívá k přenosu.

Další metodou pro lepší přenos je čtení „cik cak“. Koeficienty jsou seřazeny do sériové posloupnosti. Efektivnější kódování získáme, přečteme-li napřed nenulové koeficienty. Čteme proto koeficienty v pořadí stoupající pravděpodobnosti jejich nulové amplitudy, tedy v pořadí stoupajícího prostorového kmitočtu. Čtení probíhá pseudonáhodně, což znamená, že pro vnějšího pozorovatele vše vypadá chaoticky. Vysílací i přijímací strana ale zná postup, kterým se bude číst.

Poté, co proběhne řada takovýchto metod očištění od nepotřebných informací, jsou data připravena k přenosu.

MPEG-2 C

Zvuk

Samotný obraz by dnes už divákům nestačil, a tak ho musí doprovodit i zvuk. Také audio se musí oprostit od nepotřebnosti, které by zbytečně prodlužovaly jeho přenos. Zvuk prochází podobnou procedurou jako před ním obraz. Přenosová bitová rychlost nekomprimovaného zvukového signálu pro vzorkovací kmitočet 32 kHz a 16ti bitovou kvantizační hloubku činí pro dva přenosové kanály 1,024 Mb/s. Hodnotu nelze vzhledem k bitové rychlosti komprimovaného videosignálu zanedbat, a proto MPEG zavádí i kompresi zvukového signálu.

Opět se využívá nedokonalost lidského těla, kterou je tentokrát psychoakustický maskovací jev. Velmi zjednodušeně se dá popsat tak, že určitý tón o určité intenzitě překryje slabší tóny, které pak buď nevnímáme, nebo nás jen ruší. Intenzivnější tón by měl zamaskovat tóny slabší. Celý proces je navíc ohraničen prahem slyšitelnosti, za který se obecně považuje pásmo 20 Hz až 20 kHz. Práh slyšitelnosti je u každého člověka trošku jiný a určuje, jak slyšíme určité frekvence. Zvuk se při zpracování dále dělí pomocí filtrů do 32 subpásem, která rozdělují slyšitelné frekvence (od 20 Hz po 20 kHz). V každém ze subpásem se používá kódování s proměnným slovem, což je obdobný princip jako výše popsané Hoffmanovo kódování.

MPEG-2 na rozdíl od MPEG-1 dokáže zpracovávat i pětikanálový zvuk.

MPEG-2 D

Datové toky

Když máme všechna data očištěná od přebytků, můžeme je připravit do ucelených „balíčků“ určených k přenosu.

Kódovaný bitový tok jedné programové složky (obraz, zvuk, data) tvoří elementární tok, který se po uspořádání do paketů nazývá PES – paketizovaný datový tok (Packetised Elementary Stream). Délka paketu PES je typicky do 64 kB, ale může být i větší.

Každý PES přenáší kromě vlastních dat důležité informace o obsahu paketu a synchronizační informace (tzv. časová razítka) v hlavičce paketu. Časová razítka umožňují dekodéru správně dekódovat obrazový tok ze snímků I, P a B. Šest bytů je vyhrazeno pro záhlaví a minimálně tři byty pro informační pole.

Programový tok je určený pro další studiové zpracování nebo záznam. Skládá se z několika paketů elementárního toku. Na začátku je záhlaví, za kterým následuje synchronizace a údaj o přenosové rychlosti. Dále následuje systémové záhlaví a za ním jednotlivé pakety PES. Transportní tok představuje rozhraní mezi zdrojovým a kanálovým kodérem. Transportní pakety mají délku 188 bytů, skládají se ze záhlaví (čtyři byty) a adaptačního pole (0–182 bytů), za kterým už následují vlastní data.

Formáty

Počtem vzorků barev se liší jednotlivé formáty. Barevný vzorek se nazývá chrominanční a obsahuje údaje o barvě.
MPEG-2 E

Na obrázku jsou nejužívanější chrominanční formáty. Distribuční kvalita, pro kterou je standard MPEG-2 především určen, předpokládá rozlišení 720×576 obrazových bodů, hloubku kvantizace 8 bitů a formát 4:2:0. Současná studiová kvalita videosignálu představuje rozlišení 720×576 obrazových bodů, hloubkou kvantizace 10 bitů a formát 4:2:2.

Profily a úrovně

Standard MPEG-2 je určený pro velké množství uživatelů a pro různé druhy využití. Od průmyslových kamer, kterým nezáleží na kvalitě, až po velmi náročné studiové nahrávání. Proto MPEG-2 nabízí v současné době tři úrovně, které definují kvalitu obrazu a sedm profilů, jež popisují kódování. Popišme si ty nejzajímavější:

Nízká úroveň (Low Level)

Je určena pro televizi s nízkým rozlišením LDTV (Low Definition TV).

Hlavní úroveň (Main Level)

Odpovídá standardní domácí televizi.

Vysoká úroveň (High Level)

Je určena pro širokoúhlou televizi vysoké kvality. Širokoúhlý formát 16:9 však umožňují obecně všechny úrovně a profily.

Jednoduchý profil (Simple Profile)

Tento profil nepoužívá snímky typu B (stejně jako MPEG-1).

Hlavní profil (Main Profile)

Je základním profilem v projektu DVB. Poskytuje rozlišení 720×576, kvantizační hloubku 8 bitů, formát 4:2:0 s bitovou rychlostí do 15 Mbit/s.

Profil 4:2:2

Od hlavního profilu se liší především formátem 4:2:2 a maximální bitovou rychlostí 50 Mbit/s. Je určen pro studiové aplikace, kde se využije možnosti kódovat pouze I snímky, které umožňují snadné režijní zpracování signálu. Nevýhodou je značný vzrůst bitové rychlosti oproti hlavnímu profilu.

BRAND24

Šumově odstupňovaný profil

Tento profil umožňuje rozdělení datového toku do základní vrstvy (Base Layer), přídavné a vyšší vrstvy (Enhanced Layer) s různými stupni ochrany dat.

Vysoký profil (High Profile)

Zahrnuje veškeré výhody výše jmenovaných profilů ale je velmi náročný na datový tok, přenosová a koncová zařízení. Využívá se proto zejména ke studiové práci.

Uvítali byste i další články technického typu o podstatě digitálního vysílání?

Byl pro vás článek přínosný?

Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).