MPEG -4 del 3 - MPEG-4 Part 3

MPEG-4 Part 3 eller MPEG-4 Audio (formelt ISO / IEC 14496-3) er den tredje delen av ISO / IEC MPEG-4 internasjonale standarden utviklet av Moving Picture Experts Group . Den spesifiserer lydkodingsmetoder . Den første versjonen av ISO/IEC 14496-3 ble utgitt i 1999.

MPEG-4 del 3 består av en rekke audio-kodende teknologier - fra lossy talekodings ( HVXC , CELP ), generell lydkodingsdelen ( AAC , TwinVQ , BSAC), tapsfri lyd kompresjons ( MPEG-4-SLS , Audio Tapsfri koding , MPEG -4 DST ), et tekst-til-tale- grensesnitt (TTSI), strukturert lyd (ved bruk av SAOL , SASL, MIDI ) og mange flere lydsyntese- og kodeteknikker.

MPEG-4 Audio er ikke målrettet mot et enkelt program, for eksempel sanntidstelefoni eller lydkomprimering av høy kvalitet. Den gjelder for alle applikasjoner som krever bruk av avansert lydkomprimering, syntese, manipulering eller avspilling. MPEG-4 Audio er en ny type lydstandard som integrerer mange forskjellige typer lydkoding: naturlig lyd og syntetisk lyd, lav bithastighet og høy kvalitet, tale og musikk, komplekse lydspor og enkle, tradisjonelt innhold og interaktivt innhold .

Versjoner

MPEG-4 lydversjoner og utgaver
Utgave Utgivelsesdato Siste endring Standard Beskrivelse
Første utgave 1999 2001 ISO/IEC 14496-3: 1999 også kjent som "MPEG-4 Audio Version 1"
2000 ISO/IEC 14496-3: 1999/Amd 1: 2000 også kjent som "MPEG-4 Audio Version 2", en endring av første utgave
Andre utgave 2001 2005 ISO/IEC 14496-3: 2001
Tredje utgave 2005 2008 ISO/IEC 14496-3: 2005
Fjerde utgave 2009 2015 og under utvikling ISO/IEC 14496-3: 2009
Femte utgave 2019 ISO/IEC 14496-3: 2019 Gjeldende versjon

Deler

MPEG-4 del 3 inneholder følgende underdeler:

  • Del 1: Hoved (liste over lydobjekttyper, profiler, nivåer, grensesnitt til ISO/IEC 14496-1, MPEG-4 lydtransportstrøm, etc.)
  • Del 2: Talekoding - HVXC (Harmonic Vector eXcitation Coding)
  • Del 3: Talekoding - CELP (Code Excited Linear Prediction)
  • Del 4: General Audio Coding (GA) (Time/Frequency Coding) - AAC , TwinVQ , BSAC
  • Del 5: Structured Audio (SA)
  • Del 6: Tekst til tale -grensesnitt (TTSI)
  • Del 7: Parametrisk lydkoding - HILN (harmonisk og individuell linje pluss støy)
  • Del 8: Teknisk beskrivelse av parametrisk koding for lyd av høy kvalitet (SSC, Parametric Stereo )
  • Del 9: MPEG-1 / MPEG-2 lyd i MPEG-4
  • Del 10: Teknisk beskrivelse av tapsfri koding av oversamplet lyd (MPEG-4 DST- Direct Stream Transfer )
  • Del 11: Audio Lossless Coding (ALS)
  • Del 12: Skalerbar tapsløs koding (SLS)

MPEG-4 typer lydobjekter

MPEG-4 Audio inkluderer et system for å håndtere en mangfoldig gruppe lydformater på en enhetlig måte. Hvert format er tildelt en unik lydobjekttype for å representere det. Objekttype brukes til å skille mellom forskjellige kodingsmetoder. Den bestemmer direkte MPEG-4-verktøydelsettet som er nødvendig for å dekode et bestemt objekt. MPEG-4-profilene er basert på objekttypene, og hver profil støtter en annen liste med objekttyper.

MPEG-4 typer lydobjekter
Objekttype -ID Lydobjekttype Første offentlige utgivelsesdato Beskrivelse
1 AAC Main 1999 inneholder AAC LC
2 AAC LC (lav kompleksitet) 1999 Brukes i "AAC -profilen". MPEG-4 AAC LC Audio Object Type er basert på MPEG-2 Part 7 Low Complexity-profilen (LC) kombinert med Perceptual Noise Substitution (PNS) (definert i MPEG-4 Part 3 Subpart 4).
3 AAC SSR (skalerbar prøvehastighet) 1999 MPEG-4 AAC SSR lydobjekttype er basert på MPEG-2 del 7 skalerbar samplingsfrekvensprofil (SSR) kombinert med perceptuell støysubstitusjon (PNS) (definert i MPEG-4 del 3 underdel 4).
4 AAC LTP ( Long Term Prediction ) 1999 inneholder AAC LC
5 SBR ( Spectral Band Replication ) 2003 brukt med AAC LC i "High Efficiency AAC Profile" ( HE-AAC v1)
6 AAC skalerbar 1999
7 TwinVQ 1999 lydkoding med svært lave bithastigheter
8 CELP ( Code Excited Linear Prediction ) 1999 talekoding
9 HVXC (Harmonic Vector eXcitation Coding) 1999 talekoding
10 (Reservert)
11 (Reservert)
12 TTSI ( tekst-til-tale- grensesnitt) 1999
1. 3 Hovedsyntese 1999 inneholder " wavetable " prøvebasert syntese og algoritmisk syntese og lydeffekter
14 ' wavetable ' prøvebasert syntese 1999 basert på SoundFont og DownLoadable Sounds , inneholder General MIDI
15 Generelt MIDI 1999
16 Algoritmisk syntese og lydeffekter 1999
17 ER AAC LC 2000 Feil motstandsdyktig
18 (Reservert )
19 ER AAC LTP 2000 Feil motstandsdyktig
20 ER AAC skalerbar 2000 Feil motstandsdyktig
21 ER TwinVQ 2000 Feil motstandsdyktig
22 ER BSAC (Bit-Sliced ​​Arithmetic Coding) 2000 Det er også kjent som "Fine Granule Audio" eller finkorns skalerbarhetsverktøy. Den brukes i kombinasjon med AAC-kodingsverktøyene og erstatter den lydløse kodingen og bitstrømformateringen av MPEG-4 versjon 1 GA-koder. Feil motstandsdyktig
23 ER AAC LD (lav forsinkelse) 2000 Feil motstandsdyktig, brukt med CELP, ER CELP, HVXC, ER HVXC og TTSI i "Low Delay Profile", (ofte brukt for samtaler i sanntid)
24 ER CELP 2000 Feil motstandsdyktig
25 ER HVXC 2000 Feil motstandsdyktig
26 ER HILN (harmoniske og individuelle linjer pluss støy) 2000 Feil motstandsdyktig
27 ER parametrisk 2000 Feil motstandsdyktig
28 SSC (SinuSoidal Coding) 2004
29 PS ( parametrisk stereo ) 2004 og 2006 brukes med AAC LC og SBR i "HE-AAC v2-profilen". PS -kodingsverktøy ble definert i 2004 og objekttype definert i 2006.
30 MPEG Surround 2007 også kjent som MPEG Spatial Audio Coding (SAC), det er en type romlig lydkoding (MPEG Surround ble også definert i ISO/IEC 23003-1 i 2007)
31 (Reservert)
32 MPEG-1/2 Lag-1 2005
33 MPEG-1/2 Layer-2 2005
34 MPEG-1/2 Layer-3 2005 også kjent som "MP3onMP4"
35 DST ( Direct Stream Transfer ) 2005 tapsfri lydkoding, brukt på Super Audio CD
36 ALS ( Audio Lossless Coding ) 2006 tapsfri lydkoding
37 SLS ( skalerbar tapsløs koding ) 2006 to-lags lydkoding med tapsfritt lag og tapsaktig Generell lydkjerne/lag (f.eks. AAC)
38 SLS ikke-kjerne 2006 tapsfri lydkoding uten tap Generell lydkjerne/lag (f.eks. AAC)
39 ER AAC ELD (forbedret lav forsinkelse) 2008 Feil motstandsdyktig
40 SMR (Symbolic Music Representation) Enkel 2008 Merk: Symbolisk musikkrepresentasjon er også MPEG-4 del 23-standarden (ISO/IEC 14496-23: 2008)
41 SMR Main 2008
42 USAC ( Unified Speech and Audio Coding ) 2012 Unified Speech and audio Coding er definert i MPEG-D del 3 (ISO/IEC 23003-3: 2012)
43 SAOC (Spatial Audio Object Coding) 2010 Merk: Romlig lydobjektkoding er også MPEG-D del 2-standarden (ISO/IEC 23003-2: 2010)
44 LD MPEG Surround 2010 Denne objekttypen formidler sideinformasjon med lav forsinkelse MPEG Surround Coding (som ble definert i MPEG-D del 2-ISO/IEC 23003-2

) i MPEG-4 Audio-rammeverket.

45 SAOC-DE 2013 Spatial Audio Object Coding Dialogue Enhancement
46 Lydsynkronisering 2015 Lydsynkroniseringsverktøyet gir mulighet til å synkronisere flere innhold på flere enheter.

Lydprofiler

Hierarkisk struktur for AAC-profil, HE-AAC-profil og HE-AAC v2-profil, og kompatibilitet mellom dem. HE-AAC-profildekoderen er fullt i stand til å dekode enhver AAC-profilstrøm. På samme måte kan HE-AAC v2-dekoderen håndtere alle HE-AAC-profilstrømmer så vel som alle AAC-profilstrømmer. Basert på MPEG-4 del 3 tekniske spesifikasjoner.

MPEG-4 Audio-standarden definerer flere profiler. Disse profilene er basert på objekttypene, og hver profil støtter forskjellige lister med objekttyper. Hver profil kan også ha flere nivåer, som begrenser noen parametere for verktøyene som finnes i en profil. Disse parameterne er vanligvis samplingshastigheten og antall lydkanaler som er avkodet samtidig.

MPEG-4 lydprofiler
Lydprofil Typer av lydobjekter Første offentlige utgivelsesdato
AAC -profil AAC LC 2003
Høy effektivitet AAC -profil AAC LC, SBR 2003
HE-AAC v2-profil AAC LC, SBR, PS 2006
Hovedlydprofil AAC Main, AAC LC, AAC SSR, AAC LTP, AAC Scalable, TwinVQ, CELP, HVXC, TTSI, Hovedsyntese 1999
Skalerbar lydprofil AAC LC, AAC LTP, AAC skalerbar, TwinVQ, CELP, HVXC, TTSI 1999
Tale lydprofil CELP , HVXC , TTSI 1999
Syntetisk lydprofil TTSI, hovedsyntese 1999
Lydprofil av høy kvalitet AAC LC, AAC LTP, AAC skalerbar, CELP, ER AAC LC, ER AAC LTP, ER AAC skalerbar, ER CELP 2000
Lavprofil lydprofil CELP, HVXC, TTSI, ER AAC LD, ER CELP, ER HVXC 2000
Naturlig lydprofil AAC Main, AAC LC, AAC SSR, AAC LTP, AAC Scalable, TwinVQ, CELP, HVXC, TTSI, ER AAC LC, ER AAC LTP, ER AAC Scalable, ER TwinVQ, ER BSAC, ER AAC LD, ER CELP, ER HVXC , ER HILN, ER Parametrisk 2000
Mobil lyd Internettarbeidsprofil ER AAC LC, ER AAC skalerbar, ER TwinVQ, ER BSAC, ER AAC LD 2000
HD-AAC-profil AAC LC, SLS 2009
ALS enkel profil ALS 2010

Lydlagring og transport

Multiplex-, lagrings- og overføringsformater for MPEG-4 Audio
Standard Beskrivelse
Multiplex ISO/IEC 14496-1 MPEG-4 Multiplex-skjema (M4Mux)
Multiplex ISO/IEC 14496-3 Low Overhead Audio Transport Multiplex (LATM)
Oppbevaring ISO/IEC 14496-3 (informativ) Audio Data Interchange Format (ADIF) - bare for AAC
Oppbevaring ISO/IEC 14496-12 MPEG-4 filformat ( MP4 ) / ISO base media filformat
Overføring ISO/IEC 14496-3 (informativ) Audio Data Transport Stream (ADTS) - bare for AAC
Overføring ISO/IEC 14496-3 Low Overhead Audio Stream (LOAS), basert på LATM

Det er ingen standard for transport av elementære strømmer over en kanal, fordi det brede spekteret av MPEG-4-applikasjoner har leveringskrav som er for brede til å lett karakteriseres med en enkelt løsning.

Mulighetene til et transportlag og kommunikasjonen mellom transport-, multiplex- og demultiplexfunksjoner er beskrevet i Delivery Multimedia Integration Framework (DMIF) i ISO/IEC 14496-6. Det finnes et bredt spekter av leveringsmekanismer under dette grensesnittet, f.eks. MPEG-transportstrøm , sanntids transportprotokoll (RTP), etc.

Transport i sanntids transportprotokoll er definert i RFC 3016 (RTP nyttelastformat for MPEG-4 lyd/visuelle strømmer), RFC 3640 (RTP nyttelastformat for transport av MPEG-4 elementære strømmer), RFC 4281 (Codecs parameter for " Bucket "Media Types) og RFC 4337 (MIME Type Registration for MPEG-4).

LATM og LOAS ble definert for naturlige lydapplikasjoner, som ikke krever sofistikert objektbasert koding eller andre funksjoner levert av MPEG-4 Systems.

Bifurcation i AAC teknisk standard

Den Advanced Audio Coding i MPEG-4 Part 3 (MPEG-4 Audio) underdel 4 ble forbedret i forhold til den tidligere standard MPEG-2 Del 7 (Advanced Audio Coding), for å gi bedre lydkvalitet for en gitt koding bitrate.

Det antas at eventuelle forskjeller i del 3 og del 7 vil bli utryddet av ISO -standardorganet i nær fremtid for å unngå muligheten for fremtidige bitstrømskompatibiliteter. For øyeblikket er det ingen kjent spiller- eller kodek -inkompatibilitet på grunn av standarden er ny.

MPEG-2 Part 7-standarden (Advanced Audio Coding) ble første gang publisert i 1997 og tilbyr tre standardprofiler: Low Complexity profile (LC), Main profile og Scalable Sampling Rate profile (SSR).

MPEG-4 Part 3 Subpart 4 (General Audio Coding) kombinerte profilene fra MPEG-2 Part 7 med Perceptual Noise Substitution (PNS) og definerte dem som lydobjekttyper (AAC LC, AAC Main, AAC SSR).

HE-AAC

High-Efficiency Advanced Audio Coding er en forlengelse av AAC LC ved bruk av spektralbåndreplikasjon (SBR) og Parametric Stereo (PS). Den er designet for å øke kodingseffektiviteten ved lave bithastigheter ved å bruke delvis parametrisk representasjon av lyd.

AAC-SSR

AAC skalerbar prøvehastighet ble introdusert av Sony for MPEG-2 Part 7 og MPEG-4 Part 3 standarder. Det ble første gang publisert i ISO/IEC 13818-7, del 7: Advanced Audio Coding (AAC) i 1997. Lydsignalet deles først inn i 4 bånd ved hjelp av en 4-bånds polyfasekvadraturfilterbank . Deretter blir disse 4 båndene ytterligere delt ved bruk av MDCT -er med en størrelse k på 32 eller 256 prøver. Dette ligner på vanlig AAC LC som bruker MDCT -er med en størrelse k på 128 eller 1024 direkte på lydsignalet.

Fordelen med denne teknikken er at kortblokkbytte kan utføres separat for hvert PQF -bånd. Så høye frekvenser kan kodes ved hjelp av en kort blokk for å forbedre tidsoppløsningen, lave frekvenser kan fremdeles kodes med høy spektraloppløsning. På grunn av aliasing mellom de 4 PQF-båndene er imidlertid kodingseffektiviteten rundt (1,2,3) * fs/8 verre enn vanlig MPEG-4 AAC LC.

MPEG-4 AAC-SSR er veldig lik ATRAC og ATRAC-3 .

Hvorfor AAC-SSR ble introdusert

Ideen bak AAC-SSR var ikke bare fordelen som er oppført ovenfor, men også muligheten for å redusere datahastigheten ved å fjerne 1, 2 eller 3 av de øvre PQF-båndene. En veldig enkel bitstrømssplitter kan fjerne disse båndene og dermed redusere bithastigheten og samplingshastigheten.

Eksempel:

  • 4 delbånd: bitrate = 128 kbit/s, samplingsfrekvens = 48 kHz, f_lowpass = 20 kHz
  • 3 delbånd: bitrate ~ 120 kbit/s, samplingsfrekvens = 48 kHz, f_lowpass = 18 kHz
  • 2 delbånd: bitrate ~ 100 kbit/s, samplingsfrekvens = 24 kHz, f_lowpass = 12 kHz
  • 1 delbånd: bitrate ~ 65 kbit/s, samplingsfrekvens = 12 kHz, f_lowpass = 6 kHz

Merk: Selv om det er mulig, er den resulterende kvaliteten mye dårligere enn vanlig for denne bithastigheten. Så for normale 64 kbit/s AAC LC oppnås en båndbredde på 14–16 kHz ved å bruke intensitetsstereo og reduserte NMR -er. Dette forringer hørbar kvalitet mindre enn å overføre 6 kHz båndbredde med perfekt kvalitet.

BSAC

Bit Sliced ​​Arithmetic Coding er en MPEG-4-standard (ISO/IEC 14496-3 underavsnitt 4) for skalerbar lydkoding. BSAC bruker en alternativ lydløs koding til AAC, mens resten av behandlingen er identisk med AAC. Denne støtten for skalerbarhet gir mulighet for nesten gjennomsiktig lydkvalitet ved 64 kbit/s og grasiøs degradering ved lavere bithastigheter. BSAC -koding utføres best i området 40 kbit/s til 64 kbit/s, selv om den opererer i området 16 kbit/s til 64 kbit/s. AAC-BSAC-kodeken brukes i applikasjoner for digital multimedia kringkasting (DMB) .

Lisensiering

I 2002, MPEG-4 Audio Lisens komiteen valgt Via Licensing Corporation som Licensing Administrator for MPEG-4 Audio patent pool .

Se også

Referanser

Eksterne linker