MPEG -4 del 3 - MPEG-4 Part 3

MPEG-4 Part 3 eller MPEG-4 Audio (formelt ISO / IEC 14496-3) er den tredje delen av ISO / IEC MPEG-4 internasjonale standarden utviklet av Moving Picture Experts Group . Den spesifiserer lydkodingsmetoder . Den første versjonen av ISO/IEC 14496-3 ble utgitt i 1999.

MPEG-4 del 3 består av en rekke audio-kodende teknologier - fra lossy talekodings ( HVXC , CELP ), generell lydkodingsdelen ( AAC , TwinVQ , BSAC), tapsfri lyd kompresjons ( MPEG-4-SLS , Audio Tapsfri koding , MPEG -4 DST ), et tekst-til-tale- grensesnitt (TTSI), strukturert lyd (ved bruk av SAOL , SASL, MIDI ) og mange flere lydsyntese- og kodeteknikker.

MPEG-4 Audio er ikke målrettet mot et enkelt program, for eksempel sanntidstelefoni eller lydkomprimering av høy kvalitet. Den gjelder for alle applikasjoner som krever bruk av avansert lydkomprimering, syntese, manipulering eller avspilling. MPEG-4 Audio er en ny type lydstandard som integrerer mange forskjellige typer lydkoding: naturlig lyd og syntetisk lyd, lav bithastighet og høy kvalitet, tale og musikk, komplekse lydspor og enkle, tradisjonelt innhold og interaktivt innhold .

Versjoner

MPEG-4 lydversjoner og utgaver
Utgave	Utgivelsesdato	Siste endring	Standard	Beskrivelse
Første utgave	1999	2001	ISO/IEC 14496-3: 1999	også kjent som "MPEG-4 Audio Version 1"
		2000	ISO/IEC 14496-3: 1999/Amd 1: 2000	også kjent som "MPEG-4 Audio Version 2", en endring av første utgave
Andre utgave	2001	2005	ISO/IEC 14496-3: 2001
Tredje utgave	2005	2008	ISO/IEC 14496-3: 2005
Fjerde utgave	2009	2015 og under utvikling	ISO/IEC 14496-3: 2009
Femte utgave	2019		ISO/IEC 14496-3: 2019	Gjeldende versjon

Deler

MPEG-4 del 3 inneholder følgende underdeler:

Del 1: Hoved (liste over lydobjekttyper, profiler, nivåer, grensesnitt til ISO/IEC 14496-1, MPEG-4 lydtransportstrøm, etc.)
Del 2: Talekoding - HVXC (Harmonic Vector eXcitation Coding)
Del 3: Talekoding - CELP (Code Excited Linear Prediction)
Del 4: General Audio Coding (GA) (Time/Frequency Coding) - AAC , TwinVQ , BSAC
Del 5: Structured Audio (SA)
Del 6: Tekst til tale -grensesnitt (TTSI)
Del 7: Parametrisk lydkoding - HILN (harmonisk og individuell linje pluss støy)
Del 8: Teknisk beskrivelse av parametrisk koding for lyd av høy kvalitet (SSC, Parametric Stereo )
Del 9: MPEG-1 / MPEG-2 lyd i MPEG-4
Del 10: Teknisk beskrivelse av tapsfri koding av oversamplet lyd (MPEG-4 DST- Direct Stream Transfer )
Del 11: Audio Lossless Coding (ALS)
Del 12: Skalerbar tapsløs koding (SLS)

MPEG-4 typer lydobjekter

MPEG-4 Audio inkluderer et system for å håndtere en mangfoldig gruppe lydformater på en enhetlig måte. Hvert format er tildelt en unik lydobjekttype for å representere det. Objekttype brukes til å skille mellom forskjellige kodingsmetoder. Den bestemmer direkte MPEG-4-verktøydelsettet som er nødvendig for å dekode et bestemt objekt. MPEG-4-profilene er basert på objekttypene, og hver profil støtter en annen liste med objekttyper.

MPEG-4 typer lydobjekter
Objekttype -ID	Lydobjekttype	Første offentlige utgivelsesdato	Beskrivelse
1	AAC Main	1999	inneholder AAC LC
2	AAC LC (lav kompleksitet)	1999	Brukes i "AAC -profilen". MPEG-4 AAC LC Audio Object Type er basert på MPEG-2 Part 7 Low Complexity-profilen (LC) kombinert med Perceptual Noise Substitution (PNS) (definert i MPEG-4 Part 3 Subpart 4).
3	AAC SSR (skalerbar prøvehastighet)	1999	MPEG-4 AAC SSR lydobjekttype er basert på MPEG-2 del 7 skalerbar samplingsfrekvensprofil (SSR) kombinert med perceptuell støysubstitusjon (PNS) (definert i MPEG-4 del 3 underdel 4).
4	AAC LTP ( Long Term Prediction )	1999	inneholder AAC LC
5	SBR ( Spectral Band Replication )	2003	brukt med AAC LC i "High Efficiency AAC Profile" ( HE-AAC v1)
6	AAC skalerbar	1999
7	TwinVQ	1999	lydkoding med svært lave bithastigheter
8	CELP ( Code Excited Linear Prediction )	1999	talekoding
9	HVXC (Harmonic Vector eXcitation Coding)	1999	talekoding
10	(Reservert)
11	(Reservert)
12	TTSI ( tekst-til-tale- grensesnitt)	1999
1. 3	Hovedsyntese	1999	inneholder " wavetable " prøvebasert syntese og algoritmisk syntese og lydeffekter
14	' wavetable ' prøvebasert syntese	1999	basert på SoundFont og DownLoadable Sounds , inneholder General MIDI
15	Generelt MIDI	1999
16	Algoritmisk syntese og lydeffekter	1999
17	ER AAC LC	2000	Feil motstandsdyktig
18	(Reservert )
19	ER AAC LTP	2000	Feil motstandsdyktig
20	ER AAC skalerbar	2000	Feil motstandsdyktig
21	ER TwinVQ	2000	Feil motstandsdyktig
22	ER BSAC (Bit-Sliced Arithmetic Coding)	2000	Det er også kjent som "Fine Granule Audio" eller finkorns skalerbarhetsverktøy. Den brukes i kombinasjon med AAC-kodingsverktøyene og erstatter den lydløse kodingen og bitstrømformateringen av MPEG-4 versjon 1 GA-koder. Feil motstandsdyktig
23	ER AAC LD (lav forsinkelse)	2000	Feil motstandsdyktig, brukt med CELP, ER CELP, HVXC, ER HVXC og TTSI i "Low Delay Profile", (ofte brukt for samtaler i sanntid)
24	ER CELP	2000	Feil motstandsdyktig
25	ER HVXC	2000	Feil motstandsdyktig
26	ER HILN (harmoniske og individuelle linjer pluss støy)	2000	Feil motstandsdyktig
27	ER parametrisk	2000	Feil motstandsdyktig
28	SSC (SinuSoidal Coding)	2004
29	PS ( parametrisk stereo )	2004 og 2006	brukes med AAC LC og SBR i "HE-AAC v2-profilen". PS -kodingsverktøy ble definert i 2004 og objekttype definert i 2006.
30	MPEG Surround	2007	også kjent som MPEG Spatial Audio Coding (SAC), det er en type romlig lydkoding (MPEG Surround ble også definert i ISO/IEC 23003-1 i 2007)
31	(Reservert)
32	MPEG-1/2 Lag-1	2005
33	MPEG-1/2 Layer-2	2005
34	MPEG-1/2 Layer-3	2005	også kjent som "MP3onMP4"
35	DST ( Direct Stream Transfer )	2005	tapsfri lydkoding, brukt på Super Audio CD
36	ALS ( Audio Lossless Coding )	2006	tapsfri lydkoding
37	SLS ( skalerbar tapsløs koding )	2006	to-lags lydkoding med tapsfritt lag og tapsaktig Generell lydkjerne/lag (f.eks. AAC)
38	SLS ikke-kjerne	2006	tapsfri lydkoding uten tap Generell lydkjerne/lag (f.eks. AAC)
39	ER AAC ELD (forbedret lav forsinkelse)	2008	Feil motstandsdyktig
40	SMR (Symbolic Music Representation) Enkel	2008	Merk: Symbolisk musikkrepresentasjon er også MPEG-4 del 23-standarden (ISO/IEC 14496-23: 2008)
41	SMR Main	2008
42	USAC ( Unified Speech and Audio Coding )	2012	Unified Speech and audio Coding er definert i MPEG-D del 3 (ISO/IEC 23003-3: 2012)
43	SAOC (Spatial Audio Object Coding)	2010	Merk: Romlig lydobjektkoding er også MPEG-D del 2-standarden (ISO/IEC 23003-2: 2010)
44	LD MPEG Surround	2010	Denne objekttypen formidler sideinformasjon med lav forsinkelse MPEG Surround Coding (som ble definert i MPEG-D del 2-ISO/IEC 23003-2 ) i MPEG-4 Audio-rammeverket.
45	SAOC-DE	2013	Spatial Audio Object Coding Dialogue Enhancement
46	Lydsynkronisering	2015	Lydsynkroniseringsverktøyet gir mulighet til å synkronisere flere innhold på flere enheter.

Lydprofiler

Hierarkisk struktur for AAC-profil, HE-AAC-profil og HE-AAC v2-profil, og kompatibilitet mellom dem. HE-AAC-profildekoderen er fullt i stand til å dekode enhver AAC-profilstrøm. På samme måte kan HE-AAC v2-dekoderen håndtere alle HE-AAC-profilstrømmer så vel som alle AAC-profilstrømmer. Basert på MPEG-4 del 3 tekniske spesifikasjoner.

MPEG-4 Audio-standarden definerer flere profiler. Disse profilene er basert på objekttypene, og hver profil støtter forskjellige lister med objekttyper. Hver profil kan også ha flere nivåer, som begrenser noen parametere for verktøyene som finnes i en profil. Disse parameterne er vanligvis samplingshastigheten og antall lydkanaler som er avkodet samtidig.

MPEG-4 lydprofiler
Lydprofil	Typer av lydobjekter	Første offentlige utgivelsesdato
AAC -profil	AAC LC	2003
Høy effektivitet AAC -profil	AAC LC, SBR	2003
HE-AAC v2-profil	AAC LC, SBR, PS	2006
Hovedlydprofil	AAC Main, AAC LC, AAC SSR, AAC LTP, AAC Scalable, TwinVQ, CELP, HVXC, TTSI, Hovedsyntese	1999
Skalerbar lydprofil	AAC LC, AAC LTP, AAC skalerbar, TwinVQ, CELP, HVXC, TTSI	1999
Tale lydprofil	CELP , HVXC , TTSI	1999
Syntetisk lydprofil	TTSI, hovedsyntese	1999
Lydprofil av høy kvalitet	AAC LC, AAC LTP, AAC skalerbar, CELP, ER AAC LC, ER AAC LTP, ER AAC skalerbar, ER CELP	2000
Lavprofil lydprofil	CELP, HVXC, TTSI, ER AAC LD, ER CELP, ER HVXC	2000
Naturlig lydprofil	AAC Main, AAC LC, AAC SSR, AAC LTP, AAC Scalable, TwinVQ, CELP, HVXC, TTSI, ER AAC LC, ER AAC LTP, ER AAC Scalable, ER TwinVQ, ER BSAC, ER AAC LD, ER CELP, ER HVXC , ER HILN, ER Parametrisk	2000
Mobil lyd Internettarbeidsprofil	ER AAC LC, ER AAC skalerbar, ER TwinVQ, ER BSAC, ER AAC LD	2000
HD-AAC-profil	AAC LC, SLS	2009
ALS enkel profil	ALS	2010

Lydlagring og transport

Multiplex-, lagrings- og overføringsformater for MPEG-4 Audio
	Standard	Beskrivelse
Multiplex	ISO/IEC 14496-1	MPEG-4 Multiplex-skjema (M4Mux)
Multiplex	ISO/IEC 14496-3	Low Overhead Audio Transport Multiplex (LATM)
Oppbevaring	ISO/IEC 14496-3 (informativ)	Audio Data Interchange Format (ADIF) - bare for AAC
Oppbevaring	ISO/IEC 14496-12	MPEG-4 filformat ( MP4 ) / ISO base media filformat
Overføring	ISO/IEC 14496-3 (informativ)	Audio Data Transport Stream (ADTS) - bare for AAC
Overføring	ISO/IEC 14496-3	Low Overhead Audio Stream (LOAS), basert på LATM

Det er ingen standard for transport av elementære strømmer over en kanal, fordi det brede spekteret av MPEG-4-applikasjoner har leveringskrav som er for brede til å lett karakteriseres med en enkelt løsning.

Mulighetene til et transportlag og kommunikasjonen mellom transport-, multiplex- og demultiplexfunksjoner er beskrevet i Delivery Multimedia Integration Framework (DMIF) i ISO/IEC 14496-6. Det finnes et bredt spekter av leveringsmekanismer under dette grensesnittet, f.eks. MPEG-transportstrøm , sanntids transportprotokoll (RTP), etc.

Transport i sanntids transportprotokoll er definert i RFC 3016 (RTP nyttelastformat for MPEG-4 lyd/visuelle strømmer), RFC 3640 (RTP nyttelastformat for transport av MPEG-4 elementære strømmer), RFC 4281 (Codecs parameter for " Bucket "Media Types) og RFC 4337 (MIME Type Registration for MPEG-4).

LATM og LOAS ble definert for naturlige lydapplikasjoner, som ikke krever sofistikert objektbasert koding eller andre funksjoner levert av MPEG-4 Systems.

Bifurcation i AAC teknisk standard

Den Advanced Audio Coding i MPEG-4 Part 3 (MPEG-4 Audio) underdel 4 ble forbedret i forhold til den tidligere standard MPEG-2 Del 7 (Advanced Audio Coding), for å gi bedre lydkvalitet for en gitt koding bitrate.

Det antas at eventuelle forskjeller i del 3 og del 7 vil bli utryddet av ISO -standardorganet i nær fremtid for å unngå muligheten for fremtidige bitstrømskompatibiliteter. For øyeblikket er det ingen kjent spiller- eller kodek -inkompatibilitet på grunn av standarden er ny.

MPEG-2 Part 7-standarden (Advanced Audio Coding) ble første gang publisert i 1997 og tilbyr tre standardprofiler: Low Complexity profile (LC), Main profile og Scalable Sampling Rate profile (SSR).

MPEG-4 Part 3 Subpart 4 (General Audio Coding) kombinerte profilene fra MPEG-2 Part 7 med Perceptual Noise Substitution (PNS) og definerte dem som lydobjekttyper (AAC LC, AAC Main, AAC SSR).

HE-AAC

High-Efficiency Advanced Audio Coding er en forlengelse av AAC LC ved bruk av spektralbåndreplikasjon (SBR) og Parametric Stereo (PS). Den er designet for å øke kodingseffektiviteten ved lave bithastigheter ved å bruke delvis parametrisk representasjon av lyd.

AAC-SSR

AAC skalerbar prøvehastighet ble introdusert av Sony for MPEG-2 Part 7 og MPEG-4 Part 3 standarder. Det ble første gang publisert i ISO/IEC 13818-7, del 7: Advanced Audio Coding (AAC) i 1997. Lydsignalet deles først inn i 4 bånd ved hjelp av en 4-bånds polyfasekvadraturfilterbank . Deretter blir disse 4 båndene ytterligere delt ved bruk av MDCT -er med en størrelse k på 32 eller 256 prøver. Dette ligner på vanlig AAC LC som bruker MDCT -er med en størrelse k på 128 eller 1024 direkte på lydsignalet.

Fordelen med denne teknikken er at kortblokkbytte kan utføres separat for hvert PQF -bånd. Så høye frekvenser kan kodes ved hjelp av en kort blokk for å forbedre tidsoppløsningen, lave frekvenser kan fremdeles kodes med høy spektraloppløsning. På grunn av aliasing mellom de 4 PQF-båndene er imidlertid kodingseffektiviteten rundt (1,2,3) * fs/8 verre enn vanlig MPEG-4 AAC LC.

MPEG-4 AAC-SSR er veldig lik ATRAC og ATRAC-3 .

Hvorfor AAC-SSR ble introdusert

Ideen bak AAC-SSR var ikke bare fordelen som er oppført ovenfor, men også muligheten for å redusere datahastigheten ved å fjerne 1, 2 eller 3 av de øvre PQF-båndene. En veldig enkel bitstrømssplitter kan fjerne disse båndene og dermed redusere bithastigheten og samplingshastigheten.

Eksempel:

4 delbånd: bitrate = 128 kbit/s, samplingsfrekvens = 48 kHz, f_lowpass = 20 kHz
3 delbånd: bitrate ~ 120 kbit/s, samplingsfrekvens = 48 kHz, f_lowpass = 18 kHz
2 delbånd: bitrate ~ 100 kbit/s, samplingsfrekvens = 24 kHz, f_lowpass = 12 kHz
1 delbånd: bitrate ~ 65 kbit/s, samplingsfrekvens = 12 kHz, f_lowpass = 6 kHz

Merk: Selv om det er mulig, er den resulterende kvaliteten mye dårligere enn vanlig for denne bithastigheten. Så for normale 64 kbit/s AAC LC oppnås en båndbredde på 14–16 kHz ved å bruke intensitetsstereo og reduserte NMR -er. Dette forringer hørbar kvalitet mindre enn å overføre 6 kHz båndbredde med perfekt kvalitet.

BSAC

Bit Sliced Arithmetic Coding er en MPEG-4-standard (ISO/IEC 14496-3 underavsnitt 4) for skalerbar lydkoding. BSAC bruker en alternativ lydløs koding til AAC, mens resten av behandlingen er identisk med AAC. Denne støtten for skalerbarhet gir mulighet for nesten gjennomsiktig lydkvalitet ved 64 kbit/s og grasiøs degradering ved lavere bithastigheter. BSAC -koding utføres best i området 40 kbit/s til 64 kbit/s, selv om den opererer i området 16 kbit/s til 64 kbit/s. AAC-BSAC-kodeken brukes i applikasjoner for digital multimedia kringkasting (DMB) .

Lisensiering

I 2002, MPEG-4 Audio Lisens komiteen valgt Via Licensing Corporation som Licensing Administrator for MPEG-4 Audio patent pool .

Se også

TwinVQ -en av objekttypene definert i MPEG-4 Audio versjon 1
MPEG-4 del 2
MPEG-4 beholderformat i del 14 (MP4)
Digital rettighetsforvaltning
Avansert lydkoding (AAC)
ISO/IEC JTC 1/SC 29

Referanser

Eksterne linker

Apple: MPEG-4: AAC
"AAC" (VideoLAN WIKI)
EBU subjektive lyttetester på lyd-kodeker med lav bithastighet
AAC -radiostasjoner - Online radiostasjoner i AAC -format
Tuner2 - Katalog over radiostasjoner i AAC+ -format ved forskjellige bithastigheter
RadioFeeds Storbritannia og Irland - Side som inneholder mange terrestriske stasjoner, webcasting i AAC+ -format.
[1] En side som sammenligner kodeker inkludert HE-AAC @64 kbit/s ved å lytte tester. (Siden er frakoblet)
Offisielt MPEG -nettsted
RFC 3016 -RTP nyttelastformat for MPEG-4 Audio/Visual Streams
RFC 3640 -RTP nyttelastformat for transport av MPEG-4 elementære strømmer
RFC 4281 - Codecs -parameteren for "Bucket" medietyper
RFC 4337 -MIME-type registrering for MPEG-4

Languages

In other projects