MPEG -4 del 3 - MPEG-4 Part 3
MPEG-4 Part 3 eller MPEG-4 Audio (formelt ISO / IEC 14496-3) er den tredje delen av ISO / IEC MPEG-4 internasjonale standarden utviklet av Moving Picture Experts Group . Den spesifiserer lydkodingsmetoder . Den første versjonen av ISO/IEC 14496-3 ble utgitt i 1999.
MPEG-4 del 3 består av en rekke audio-kodende teknologier - fra lossy talekodings ( HVXC , CELP ), generell lydkodingsdelen ( AAC , TwinVQ , BSAC), tapsfri lyd kompresjons ( MPEG-4-SLS , Audio Tapsfri koding , MPEG -4 DST ), et tekst-til-tale- grensesnitt (TTSI), strukturert lyd (ved bruk av SAOL , SASL, MIDI ) og mange flere lydsyntese- og kodeteknikker.
MPEG-4 Audio er ikke målrettet mot et enkelt program, for eksempel sanntidstelefoni eller lydkomprimering av høy kvalitet. Den gjelder for alle applikasjoner som krever bruk av avansert lydkomprimering, syntese, manipulering eller avspilling. MPEG-4 Audio er en ny type lydstandard som integrerer mange forskjellige typer lydkoding: naturlig lyd og syntetisk lyd, lav bithastighet og høy kvalitet, tale og musikk, komplekse lydspor og enkle, tradisjonelt innhold og interaktivt innhold .
Versjoner
Utgave | Utgivelsesdato | Siste endring | Standard | Beskrivelse |
---|---|---|---|---|
Første utgave | 1999 | 2001 | ISO/IEC 14496-3: 1999 | også kjent som "MPEG-4 Audio Version 1" |
2000 | ISO/IEC 14496-3: 1999/Amd 1: 2000 | også kjent som "MPEG-4 Audio Version 2", en endring av første utgave | ||
Andre utgave | 2001 | 2005 | ISO/IEC 14496-3: 2001 | |
Tredje utgave | 2005 | 2008 | ISO/IEC 14496-3: 2005 | |
Fjerde utgave | 2009 | 2015 og under utvikling | ISO/IEC 14496-3: 2009 | |
Femte utgave | 2019 | ISO/IEC 14496-3: 2019 | Gjeldende versjon |
Deler
MPEG-4 del 3 inneholder følgende underdeler:
- Del 1: Hoved (liste over lydobjekttyper, profiler, nivåer, grensesnitt til ISO/IEC 14496-1, MPEG-4 lydtransportstrøm, etc.)
- Del 2: Talekoding - HVXC (Harmonic Vector eXcitation Coding)
- Del 3: Talekoding - CELP (Code Excited Linear Prediction)
- Del 4: General Audio Coding (GA) (Time/Frequency Coding) - AAC , TwinVQ , BSAC
- Del 5: Structured Audio (SA)
- Del 6: Tekst til tale -grensesnitt (TTSI)
- Del 7: Parametrisk lydkoding - HILN (harmonisk og individuell linje pluss støy)
- Del 8: Teknisk beskrivelse av parametrisk koding for lyd av høy kvalitet (SSC, Parametric Stereo )
- Del 9: MPEG-1 / MPEG-2 lyd i MPEG-4
- Del 10: Teknisk beskrivelse av tapsfri koding av oversamplet lyd (MPEG-4 DST- Direct Stream Transfer )
- Del 11: Audio Lossless Coding (ALS)
- Del 12: Skalerbar tapsløs koding (SLS)
MPEG-4 typer lydobjekter
MPEG-4 Audio inkluderer et system for å håndtere en mangfoldig gruppe lydformater på en enhetlig måte. Hvert format er tildelt en unik lydobjekttype for å representere det. Objekttype brukes til å skille mellom forskjellige kodingsmetoder. Den bestemmer direkte MPEG-4-verktøydelsettet som er nødvendig for å dekode et bestemt objekt. MPEG-4-profilene er basert på objekttypene, og hver profil støtter en annen liste med objekttyper.
Objekttype -ID | Lydobjekttype | Første offentlige utgivelsesdato | Beskrivelse |
---|---|---|---|
1 | AAC Main | 1999 | inneholder AAC LC |
2 | AAC LC (lav kompleksitet) | 1999 | Brukes i "AAC -profilen". MPEG-4 AAC LC Audio Object Type er basert på MPEG-2 Part 7 Low Complexity-profilen (LC) kombinert med Perceptual Noise Substitution (PNS) (definert i MPEG-4 Part 3 Subpart 4). |
3 | AAC SSR (skalerbar prøvehastighet) | 1999 | MPEG-4 AAC SSR lydobjekttype er basert på MPEG-2 del 7 skalerbar samplingsfrekvensprofil (SSR) kombinert med perceptuell støysubstitusjon (PNS) (definert i MPEG-4 del 3 underdel 4). |
4 | AAC LTP ( Long Term Prediction ) | 1999 | inneholder AAC LC |
5 | SBR ( Spectral Band Replication ) | 2003 | brukt med AAC LC i "High Efficiency AAC Profile" ( HE-AAC v1) |
6 | AAC skalerbar | 1999 | |
7 | TwinVQ | 1999 | lydkoding med svært lave bithastigheter |
8 | CELP ( Code Excited Linear Prediction ) | 1999 | talekoding |
9 | HVXC (Harmonic Vector eXcitation Coding) | 1999 | talekoding |
10 | (Reservert) | ||
11 | (Reservert) | ||
12 | TTSI ( tekst-til-tale- grensesnitt) | 1999 | |
1. 3 | Hovedsyntese | 1999 | inneholder " wavetable " prøvebasert syntese og algoritmisk syntese og lydeffekter |
14 | ' wavetable ' prøvebasert syntese | 1999 | basert på SoundFont og DownLoadable Sounds , inneholder General MIDI |
15 | Generelt MIDI | 1999 | |
16 | Algoritmisk syntese og lydeffekter | 1999 | |
17 | ER AAC LC | 2000 | Feil motstandsdyktig |
18 | (Reservert ) | ||
19 | ER AAC LTP | 2000 | Feil motstandsdyktig |
20 | ER AAC skalerbar | 2000 | Feil motstandsdyktig |
21 | ER TwinVQ | 2000 | Feil motstandsdyktig |
22 | ER BSAC (Bit-Sliced Arithmetic Coding) | 2000 | Det er også kjent som "Fine Granule Audio" eller finkorns skalerbarhetsverktøy. Den brukes i kombinasjon med AAC-kodingsverktøyene og erstatter den lydløse kodingen og bitstrømformateringen av MPEG-4 versjon 1 GA-koder. Feil motstandsdyktig |
23 | ER AAC LD (lav forsinkelse) | 2000 | Feil motstandsdyktig, brukt med CELP, ER CELP, HVXC, ER HVXC og TTSI i "Low Delay Profile", (ofte brukt for samtaler i sanntid) |
24 | ER CELP | 2000 | Feil motstandsdyktig |
25 | ER HVXC | 2000 | Feil motstandsdyktig |
26 | ER HILN (harmoniske og individuelle linjer pluss støy) | 2000 | Feil motstandsdyktig |
27 | ER parametrisk | 2000 | Feil motstandsdyktig |
28 | SSC (SinuSoidal Coding) | 2004 | |
29 | PS ( parametrisk stereo ) | 2004 og 2006 | brukes med AAC LC og SBR i "HE-AAC v2-profilen". PS -kodingsverktøy ble definert i 2004 og objekttype definert i 2006. |
30 | MPEG Surround | 2007 | også kjent som MPEG Spatial Audio Coding (SAC), det er en type romlig lydkoding (MPEG Surround ble også definert i ISO/IEC 23003-1 i 2007) |
31 | (Reservert) | ||
32 | MPEG-1/2 Lag-1 | 2005 | |
33 | MPEG-1/2 Layer-2 | 2005 | |
34 | MPEG-1/2 Layer-3 | 2005 | også kjent som "MP3onMP4" |
35 | DST ( Direct Stream Transfer ) | 2005 | tapsfri lydkoding, brukt på Super Audio CD |
36 | ALS ( Audio Lossless Coding ) | 2006 | tapsfri lydkoding |
37 | SLS ( skalerbar tapsløs koding ) | 2006 | to-lags lydkoding med tapsfritt lag og tapsaktig Generell lydkjerne/lag (f.eks. AAC) |
38 | SLS ikke-kjerne | 2006 | tapsfri lydkoding uten tap Generell lydkjerne/lag (f.eks. AAC) |
39 | ER AAC ELD (forbedret lav forsinkelse) | 2008 | Feil motstandsdyktig |
40 | SMR (Symbolic Music Representation) Enkel | 2008 | Merk: Symbolisk musikkrepresentasjon er også MPEG-4 del 23-standarden (ISO/IEC 14496-23: 2008) |
41 | SMR Main | 2008 | |
42 | USAC ( Unified Speech and Audio Coding ) | 2012 | Unified Speech and audio Coding er definert i MPEG-D del 3 (ISO/IEC 23003-3: 2012) |
43 | SAOC (Spatial Audio Object Coding) | 2010 | Merk: Romlig lydobjektkoding er også MPEG-D del 2-standarden (ISO/IEC 23003-2: 2010) |
44 | LD MPEG Surround | 2010 | Denne objekttypen formidler sideinformasjon med lav forsinkelse MPEG Surround Coding (som ble definert i MPEG-D del 2-ISO/IEC 23003-2
) i MPEG-4 Audio-rammeverket. |
45 | SAOC-DE | 2013 | Spatial Audio Object Coding Dialogue Enhancement |
46 | Lydsynkronisering | 2015 | Lydsynkroniseringsverktøyet gir mulighet til å synkronisere flere innhold på flere enheter. |
Lydprofiler
MPEG-4 Audio-standarden definerer flere profiler. Disse profilene er basert på objekttypene, og hver profil støtter forskjellige lister med objekttyper. Hver profil kan også ha flere nivåer, som begrenser noen parametere for verktøyene som finnes i en profil. Disse parameterne er vanligvis samplingshastigheten og antall lydkanaler som er avkodet samtidig.
Lydprofil | Typer av lydobjekter | Første offentlige utgivelsesdato |
---|---|---|
AAC -profil | AAC LC | 2003 |
Høy effektivitet AAC -profil | AAC LC, SBR | 2003 |
HE-AAC v2-profil | AAC LC, SBR, PS | 2006 |
Hovedlydprofil | AAC Main, AAC LC, AAC SSR, AAC LTP, AAC Scalable, TwinVQ, CELP, HVXC, TTSI, Hovedsyntese | 1999 |
Skalerbar lydprofil | AAC LC, AAC LTP, AAC skalerbar, TwinVQ, CELP, HVXC, TTSI | 1999 |
Tale lydprofil | CELP , HVXC , TTSI | 1999 |
Syntetisk lydprofil | TTSI, hovedsyntese | 1999 |
Lydprofil av høy kvalitet | AAC LC, AAC LTP, AAC skalerbar, CELP, ER AAC LC, ER AAC LTP, ER AAC skalerbar, ER CELP | 2000 |
Lavprofil lydprofil | CELP, HVXC, TTSI, ER AAC LD, ER CELP, ER HVXC | 2000 |
Naturlig lydprofil | AAC Main, AAC LC, AAC SSR, AAC LTP, AAC Scalable, TwinVQ, CELP, HVXC, TTSI, ER AAC LC, ER AAC LTP, ER AAC Scalable, ER TwinVQ, ER BSAC, ER AAC LD, ER CELP, ER HVXC , ER HILN, ER Parametrisk | 2000 |
Mobil lyd Internettarbeidsprofil | ER AAC LC, ER AAC skalerbar, ER TwinVQ, ER BSAC, ER AAC LD | 2000 |
HD-AAC-profil | AAC LC, SLS | 2009 |
ALS enkel profil | ALS | 2010 |
Lydlagring og transport
Standard | Beskrivelse | |
---|---|---|
Multiplex | ISO/IEC 14496-1 | MPEG-4 Multiplex-skjema (M4Mux) |
Multiplex | ISO/IEC 14496-3 | Low Overhead Audio Transport Multiplex (LATM) |
Oppbevaring | ISO/IEC 14496-3 (informativ) | Audio Data Interchange Format (ADIF) - bare for AAC |
Oppbevaring | ISO/IEC 14496-12 | MPEG-4 filformat ( MP4 ) / ISO base media filformat |
Overføring | ISO/IEC 14496-3 (informativ) | Audio Data Transport Stream (ADTS) - bare for AAC |
Overføring | ISO/IEC 14496-3 | Low Overhead Audio Stream (LOAS), basert på LATM |
Det er ingen standard for transport av elementære strømmer over en kanal, fordi det brede spekteret av MPEG-4-applikasjoner har leveringskrav som er for brede til å lett karakteriseres med en enkelt løsning.
Mulighetene til et transportlag og kommunikasjonen mellom transport-, multiplex- og demultiplexfunksjoner er beskrevet i Delivery Multimedia Integration Framework (DMIF) i ISO/IEC 14496-6. Det finnes et bredt spekter av leveringsmekanismer under dette grensesnittet, f.eks. MPEG-transportstrøm , sanntids transportprotokoll (RTP), etc.
Transport i sanntids transportprotokoll er definert i RFC 3016 (RTP nyttelastformat for MPEG-4 lyd/visuelle strømmer), RFC 3640 (RTP nyttelastformat for transport av MPEG-4 elementære strømmer), RFC 4281 (Codecs parameter for " Bucket "Media Types) og RFC 4337 (MIME Type Registration for MPEG-4).
LATM og LOAS ble definert for naturlige lydapplikasjoner, som ikke krever sofistikert objektbasert koding eller andre funksjoner levert av MPEG-4 Systems.
Bifurcation i AAC teknisk standard
Den Advanced Audio Coding i MPEG-4 Part 3 (MPEG-4 Audio) underdel 4 ble forbedret i forhold til den tidligere standard MPEG-2 Del 7 (Advanced Audio Coding), for å gi bedre lydkvalitet for en gitt koding bitrate.
Det antas at eventuelle forskjeller i del 3 og del 7 vil bli utryddet av ISO -standardorganet i nær fremtid for å unngå muligheten for fremtidige bitstrømskompatibiliteter. For øyeblikket er det ingen kjent spiller- eller kodek -inkompatibilitet på grunn av standarden er ny.
MPEG-2 Part 7-standarden (Advanced Audio Coding) ble første gang publisert i 1997 og tilbyr tre standardprofiler: Low Complexity profile (LC), Main profile og Scalable Sampling Rate profile (SSR).
MPEG-4 Part 3 Subpart 4 (General Audio Coding) kombinerte profilene fra MPEG-2 Part 7 med Perceptual Noise Substitution (PNS) og definerte dem som lydobjekttyper (AAC LC, AAC Main, AAC SSR).
HE-AAC
High-Efficiency Advanced Audio Coding er en forlengelse av AAC LC ved bruk av spektralbåndreplikasjon (SBR) og Parametric Stereo (PS). Den er designet for å øke kodingseffektiviteten ved lave bithastigheter ved å bruke delvis parametrisk representasjon av lyd.
AAC-SSR
AAC skalerbar prøvehastighet ble introdusert av Sony for MPEG-2 Part 7 og MPEG-4 Part 3 standarder. Det ble første gang publisert i ISO/IEC 13818-7, del 7: Advanced Audio Coding (AAC) i 1997. Lydsignalet deles først inn i 4 bånd ved hjelp av en 4-bånds polyfasekvadraturfilterbank . Deretter blir disse 4 båndene ytterligere delt ved bruk av MDCT -er med en størrelse k på 32 eller 256 prøver. Dette ligner på vanlig AAC LC som bruker MDCT -er med en størrelse k på 128 eller 1024 direkte på lydsignalet.
Fordelen med denne teknikken er at kortblokkbytte kan utføres separat for hvert PQF -bånd. Så høye frekvenser kan kodes ved hjelp av en kort blokk for å forbedre tidsoppløsningen, lave frekvenser kan fremdeles kodes med høy spektraloppløsning. På grunn av aliasing mellom de 4 PQF-båndene er imidlertid kodingseffektiviteten rundt (1,2,3) * fs/8 verre enn vanlig MPEG-4 AAC LC.
MPEG-4 AAC-SSR er veldig lik ATRAC og ATRAC-3 .
Hvorfor AAC-SSR ble introdusert
Ideen bak AAC-SSR var ikke bare fordelen som er oppført ovenfor, men også muligheten for å redusere datahastigheten ved å fjerne 1, 2 eller 3 av de øvre PQF-båndene. En veldig enkel bitstrømssplitter kan fjerne disse båndene og dermed redusere bithastigheten og samplingshastigheten.
Eksempel:
- 4 delbånd: bitrate = 128 kbit/s, samplingsfrekvens = 48 kHz, f_lowpass = 20 kHz
- 3 delbånd: bitrate ~ 120 kbit/s, samplingsfrekvens = 48 kHz, f_lowpass = 18 kHz
- 2 delbånd: bitrate ~ 100 kbit/s, samplingsfrekvens = 24 kHz, f_lowpass = 12 kHz
- 1 delbånd: bitrate ~ 65 kbit/s, samplingsfrekvens = 12 kHz, f_lowpass = 6 kHz
Merk: Selv om det er mulig, er den resulterende kvaliteten mye dårligere enn vanlig for denne bithastigheten. Så for normale 64 kbit/s AAC LC oppnås en båndbredde på 14–16 kHz ved å bruke intensitetsstereo og reduserte NMR -er. Dette forringer hørbar kvalitet mindre enn å overføre 6 kHz båndbredde med perfekt kvalitet.
BSAC
Bit Sliced Arithmetic Coding er en MPEG-4-standard (ISO/IEC 14496-3 underavsnitt 4) for skalerbar lydkoding. BSAC bruker en alternativ lydløs koding til AAC, mens resten av behandlingen er identisk med AAC. Denne støtten for skalerbarhet gir mulighet for nesten gjennomsiktig lydkvalitet ved 64 kbit/s og grasiøs degradering ved lavere bithastigheter. BSAC -koding utføres best i området 40 kbit/s til 64 kbit/s, selv om den opererer i området 16 kbit/s til 64 kbit/s. AAC-BSAC-kodeken brukes i applikasjoner for digital multimedia kringkasting (DMB) .
Lisensiering
I 2002, MPEG-4 Audio Lisens komiteen valgt Via Licensing Corporation som Licensing Administrator for MPEG-4 Audio patent pool .
Se også
- TwinVQ -en av objekttypene definert i MPEG-4 Audio versjon 1
- MPEG-4 del 2
- MPEG-4 beholderformat i del 14 (MP4)
- Digital rettighetsforvaltning
- Avansert lydkoding (AAC)
- ISO/IEC JTC 1/SC 29
Referanser
Eksterne linker
- Apple: MPEG-4: AAC
- "AAC" (VideoLAN WIKI)
- EBU subjektive lyttetester på lyd-kodeker med lav bithastighet
- AAC -radiostasjoner - Online radiostasjoner i AAC -format
- Tuner2 - Katalog over radiostasjoner i AAC+ -format ved forskjellige bithastigheter
- RadioFeeds Storbritannia og Irland - Side som inneholder mange terrestriske stasjoner, webcasting i AAC+ -format.
- [1] En side som sammenligner kodeker inkludert HE-AAC @64 kbit/s ved å lytte tester. (Siden er frakoblet)
- Offisielt MPEG -nettsted
- RFC 3016 -RTP nyttelastformat for MPEG-4 Audio/Visual Streams
- RFC 3640 -RTP nyttelastformat for transport av MPEG-4 elementære strømmer
- RFC 4281 - Codecs -parameteren for "Bucket" medietyper
- RFC 4337 -MIME-type registrering for MPEG-4