Lydkodeformat - Audio coding format

Sammenligning av kodingseffektivitet mellom populære lydformater

Et lydkodingsformat (eller noen ganger lydkomprimeringsformat ) er et innholdsrepresentasjonsformat for lagring eller overføring av digital lyd (for eksempel i digital TV , digital radio og i lyd- og videofiler). Eksempler på lydkodingsformater inkluderer MP3 , AAC , Vorbis , FLAC og Opus . En spesiell programvare eller maskinvare implementering i stand til audiokomprimering og dekomprimering til / fra et bestemt audiokodeformat kalles en audiokodek ; et eksempel på en lydkodek er LAME , som er en av flere forskjellige kodeker som implementerer koding og dekoding av lyd i MP3 -lydkodeformat i programvare.

Noen lydkodingsformater er dokumentert av et detaljert teknisk spesifikasjonsdokument kjent som en lydkodingspesifikasjon . Noen slike spesifikasjoner er skrevet og godkjent av standardiseringsorganisasjoner som tekniske standarder , og er dermed kjent som en lydkodingsstandard . Begrepet "standard" brukes også noen ganger om de facto standarder så vel som formelle standarder.

Lydinnhold kodet i et bestemt lydkodeformat er normalt innkapslet i et containerformat . Som sådan har brukeren normalt ikke en rå AAC- fil, men har i stedet en .m4a -lydfil , som er en MPEG-4 del 14- beholder som inneholder AAC-kodet lyd. Beholderen inneholder også metadata som tittel og andre koder, og kanskje en indeks for rask søking. Et bemerkelsesverdig unntak er MP3- filer, som er rå lydkoding uten containerformat. De facto-standarder for å legge til metadatakoder som tittel og artist til MP3, for eksempel ID3 , er hacks som fungerer ved å legge kodene til MP3, og deretter stole på at MP3-spilleren gjenkjenner klumpen som misdannet lydkoding og derfor hopper over den . I videofiler med lyd er det kodede lydinnholdet samlet med video (i et videokodingsformat ) i et multimedia-containerformat .

Et lydkodingsformat dikterer ikke alle algoritmer som brukes av en kodek som implementerer formatet. En viktig del av hvordan tapsfri lydkomprimering fungerer, er å fjerne data på måter mennesker ikke kan høre, ifølge en psykoakustisk modell ; implementeren av en koderen har noe valgfrihet i hvilke data som skal fjernes (i henhold til deres psykoakustiske modell).

Tapsfrie, tapte og ukomprimerte lydkodeformater

Et tapfritt lydkodeformat reduserer den totale dataen som trengs for å representere en lyd, men kan avkodes til sin opprinnelige, ukomprimerte form. En lossy audiokodeformat reduserer i tillegg den bits oppløsning av lyden på toppen av komprimering, noe som resulterer i mye mindre data på bekostning av ugjenkallelig tapt informasjon.

Forbrukerlyd komprimeres oftest ved hjelp av tapte lydkodeker, da den mindre størrelsen er langt mer praktisk for distribusjon. De mest brukte lydkodingsformatene er MP3 og Advanced Audio Coding (AAC), som begge er tapsformater basert på modifiserte diskrete cosinustransformasjoner (MDCT) og perseptuelle kodingsalgoritmer .

Lossless lydkodingsformater som FLAC og Apple Lossless er noen ganger tilgjengelige, men på bekostning av større filer.

Ukomprimerte lydformater, som pulskodemodulering (PCM eller .wav), brukes også noen ganger. PCM var standardformatet for CDDA ( Compact Disc Digital Audio ), før tapskomprimering til slutt ble standarden etter introduksjonen av MP3.

Historie

Solidyne 922: Verdens første kommersielle lydbit komprimering lydkort for PC, 1990

I 1950 arkiverte Bell Labs patent på differensiell puls-kodemodulasjon (DPCM). Adaptive DPCM (ADPCM) ble introdusert av P. Cummiskey, Nikil S. Jayant og James L. Flanagan ved Bell Labs i 1973.

Perceptuell koding ble først brukt for kompresjon av talekoder , med lineær prediktiv koding (LPC). Innledende konsepter for LPC dateres tilbake til arbeidet til Fumitada Itakura ( Nagoya University ) og Shuzo Saito ( Nippon Telegraph and Telephone ) i 1966. I løpet av 1970-tallet utviklet Bishnu S. Atal og Manfred R. Schroeder ved Bell Labs en form for LPC kalt adaptiv på forhånd beregnet koding (APC), et perseptuell kodingsalgoritme som utnyttes for maskeringsegenskapene til det menneskelige øret, fulgt i 1980 med kodeeksitert lineær prediksjon (CELP) algoritme som oppnådd en betydelig kompresjonsforholdet for sin tid. Perceptuell koding brukes av moderne lydkompresjonsformater som MP3 og AAC .

Diskret cosinustransformasjon (DCT), utviklet av Nasir Ahmed , T. Natarajan og KR Rao i 1974, ga grunnlaget for den modifiserte diskrete cosinustransformasjonen (MDCT) brukt av moderne lydkompresjonsformater som MP3 og AAC. MDCT ble foreslått av JP Princen, AW Johnson og AB Bradley i 1987, etter tidligere arbeid av Princen og Bradley i 1986. MDCT brukes av moderne lydkompresjonsformater som Dolby Digital , MP3 og Advanced Audio Coding (AAC).

Liste over tapeformater

Generell

Grunnleggende komprimeringsalgoritme	Lydkodingsstandard	Forkortelse	Introduksjon	Markedsandel (2019)
Modifisert diskret cosinustransformasjon (MDCT)	Dolby Digital (AC-3)	AC3	1991	58%
	Adaptive Transform Acoustic Coding	ATRAC	1992	Ukjent
	MPEG Layer III	MP3	1993	49%
	Avansert lydkoding ( MPEG-2 / MPEG-4 )	AAC	1997	88%
	Windows Media Audio	WMA	1999	Ukjent
	Ogg Vorbis	Ogg	2000	7%
	Constrained Energy Lapped Transform	CELT	2011	Ikke relevant
	Opus	Opus	2012	8%
	LDAC	LDAC	2015	Ukjent
Adaptiv differensial puls-kodemodulasjon (ADPCM)	aptX / aptX-HD	aptX	1989	Ukjent
	Digitale teatersystemer	DTS	1990	14%
	Master Quality Authenticated	MQA	2014	Ukjent
Underbåndskoding (SBC)	MPEG-1 Audio Layer II	MP2	1993	Ukjent
Underbåndskoding (SBC)	Musepack	MPC	1997	Ukjent

Tale

Lineær prediktiv koding (LPC)
- Adaptiv prediktiv koding (APC)
- Kode-begeistret lineær prediksjon (CELP)
- Algebraisk kode-begeistret lineær prediksjon (ACELP)
- Avslappet lineær prediksjon (RCELP)
- Lav forsinkelse CELP (LD-CELP)
- Adaptiv multi-rate (brukes i GSM og 3GPP )
- Codec2 (kjent for sin mangel på patentbegrensninger)
- Speex (kjent for sin mangel på patentbegrensninger)
Modifisert diskret cosinustransformasjon (MDCT)
- AAC-LD
- Constrained Energy Lapped Transform (CELT)
- Opus (mest for sanntidsapplikasjoner)

Liste over tapsfrie formater

Apple Lossless (ALAC - Apple Lossless Audio Codec)
Adaptive Transform Acoustic Coding (ATRAC)
Audio Lossless Coding (også kjent som MPEG-4 ALS)
Direkte strømoverføring (DST)
Dolby TrueHD
DTS-HD Master Audio
Gratis Lossless Audio Codec (FLAC)
Tapsfri diskret cosinustransformasjon (LDCT)
Meridian Lossless Packing (MLP)
Monkey's Audio (Monkey's Audio APE)
MPEG-4 SLS (også kjent som HD-AAC)
OptimFROG
Original lydkvalitet (OSQ)
RealPlayer (RealAudio Lossless)
Forkort (SHN)
TTA (True Audio Lossless)
WavPack (WavPack lossless)
WMA Lossless (Windows Media Lossless)

Se også

Referanser

^ Begrepet "lydkoding" kan sees i for eksempel navnet Advanced Audio Coding , og er analogt med begrepet videokoding
^ "Video - Hvor lagres synkroniseringsinformasjon i containerformater?" .
^ US patent 2605361 , C. Chapin Cutler, "Differensiell kvantisering av kommunikasjonssignaler", utstedt 1952-07-29
^ P. Cummiskey, Nikil S. Jayant og JL Flanagan, "Adaptive quantization in different PCM coding of speech", Bell Syst. Teknisk. J. , vol. 52, s. 1105—1118, september 1973
^ Cummiskey, P .; Jayant, Nikil S .; Flanagan, JL (1973). "Adaptiv kvantisering i differensiell PCM-koding av tale". The Bell System Technical Journal . 52 (7): 1105–1118. doi : 10.1002 / j.1538-7305.1973.tb02007.x . ISSN 0005-8580 .
^ ^a ^b ^c Schroeder, Manfred R. (2014). "Bell Laboratories" . Akustikk, informasjon og kommunikasjon: Memorial Volume til ære for Manfred R. Schroeder . Springer. s. 388. ISBN 9783319056609.
^ Gray, Robert M. (2010). "A History of Realtime Digital Speech on Packet Networks: Part II of Linear Predictive Coding and the Internet Protocol" (PDF) . Funnet. Trender Signalprosess . 3 (4): 203–303. doi : 10.1561 / 2000000036 . ISSN 1932-8346 .
^ Nasir Ahmed ; T. Natarajan; Kamisetty Ramamohan Rao (januar 1974). "Diskret kosinetransformasjon" (PDF) . IEEE-transaksjoner på datamaskiner . C-23 (1): 90–93. doi : 10.1109 / TC.1974.223784 .
^ ^a ^b ^c Guckert, John (Våren 2012). "Bruk av FFT og MDCT i MP3-lydkomprimering" (PDF) . University of Utah . Hentet 14. juli 2019 .
^ JP Princen, AW Johnson und AB Bradley: Delbånd / transformeringskoding ved hjelp av filterbankdesign basert på tidsdomene aliasing kansellering , IEEE Proc. Internasjonalt Konferanse om akustikk, tale og signalbehandling (ICASSP), 2161–2164, 1987.
^ John P. Princen, Alan B. Bradley: Analyse / syntese filterbank design basert på tidsdomene aliasing kansellering , IEEE Trans. Akustisk. Talesignalbehandling, ASSP-34 (5), 1153–1161, 1986.
^ ^a ^b ^c ^d ^e ^f Luo, Fa-Long (2008). Mobile multimedia kringkastingsstandarder: teknologi og praksis . Springer Science & Business Media . s. 590. ISBN 9780387782638.
^ Britanak, V. (2011). "Om egenskaper, relasjoner og forenklet implementering av filterbanker i Dolby Digital (Plus) AC-3 Audio Coding Standards". IEEE-transaksjoner på lyd-, tale- og språkbehandling . 19 (5): 1231–1241. doi : 10.1109 / TASL.2010.2087755 .
^ ^a ^b Brandenburg, Karlheinz (1999). "MP3 og AAC forklart" (PDF) . Arkivert (PDF) fra originalen 2017-02-13.
^ "Video Developer Report 2019" (PDF) . Bitmovin . 2019 . Hentet 5. november 2019 .
^ Britanak, V. (2011). "Om egenskaper, relasjoner og forenklet implementering av filterbanker i Dolby Digital (Plus) AC-3 Audio Coding Standards". IEEE-transaksjoner på lyd-, tale- og språkbehandling . 19 (5): 1231–1241. doi : 10.1109 / TASL.2010.2087755 .
^ Stanković, Radomir S .; Astola, Jaakko T. (2012). "Reminiscences of the Early Work in DCT: Interview with KR Rao" (PDF) . Gjentrykk fra informasjonsvitenskapens tidlige dager . 60 . Hentet 13. oktober 2019 .
^ Xiph.Org Foundation (2009-06-02). "Vorbis I spesifikasjon - 1.1.2 Klassifisering" . Xiph.Org Foundation . Hentet 2009-09-22 .
^ Presentasjon av CELT-kodeken av Timothy B. Terriberry (65 minutter med video, se også presentasjonsbilder i PDF)
^ Valin, Jean-Marc; Maxwell, Gregory; Terriberry, Timothy B .; Vos, Koen (oktober 2013). Kvalitet med lav kvalitet og forsinkelse av musikk i Opus Codec . 135. AES-konvensjon. Audio Engineering Society . arXiv : 1602.04845 .
^ Darko, John H. (2017-03-29). "Den upraktiske sannheten om Bluetooth-lyd" . DAR__KO . Arkivert fra originalen 14/01/2018 . Hentet 13/01/2018 .
^ Ford, Jez (2015-08-24). "Hva er Sony LDAC, og hvordan gjør det det?" . AVHub . Hentet 13/01/2018 .
^ Ford, Jez (2016-11-22). "aptX HD - lossless eller lossy?" . AVHub . Hentet 13/01/2018 .
^ "Lydformater for digitale teatersystemer" . Library of Congress . 27. desember 2011 . Hentet 10. november 2019 .
^ Spanias, Andreas; Maler, Ted; Atti, Venkatraman (2006). Behandling og koding av lydsignaler . John Wiley & Sons . s. 338. ISBN 9780470041963.

[1] Begrepet "lydkoding" kan sees i for eksempel navnet Advanced Audio Coding , og er analogt med begrepet videokoding

[2] "Video - Hvor lagres synkroniseringsinformasjon i containerformater?" .

[DPCM-3] US patent 2605361 , C. Chapin Cutler, "Differensiell kvantisering av kommunikasjonssignaler", utstedt 1952-07-29

[4] P. Cummiskey, Nikil S. Jayant og JL Flanagan, "Adaptive quantization in different PCM coding of speech", Bell Syst. Teknisk. J. , vol. 52, s. 1105—1118, september 1973

[5] Cummiskey, P .; Jayant, Nikil S .; Flanagan, JL (1973). "Adaptiv kvantisering i differensiell PCM-koding av tale". The Bell System Technical Journal . 52 (7): 1105–1118. doi : 10.1002 / j.1538-7305.1973.tb02007.x . ISSN 0005-8580 .

[Schroeder2014-6] Schroeder, Manfred R. (2014). "Bell Laboratories" . Akustikk, informasjon og kommunikasjon: Memorial Volume til ære for Manfred R. Schroeder . Springer. s. 388. ISBN 9783319056609.

[7] Gray, Robert M. (2010). "A History of Realtime Digital Speech on Packet Networks: Part II of Linear Predictive Coding and the Internet Protocol" (PDF) . Funnet. Trender Signalprosess . 3 (4): 203–303. doi : 10.1561 / 2000000036 . ISSN 1932-8346 .

[DCT-8] Nasir Ahmed ; T. Natarajan; Kamisetty Ramamohan Rao (januar 1974). "Diskret kosinetransformasjon" (PDF) . IEEE-transaksjoner på datamaskiner . C-23 (1): 90–93. doi : 10.1109 / TC.1974.223784 .

[Guckert-9] Guckert, John (Våren 2012). "Bruk av FFT og MDCT i MP3-lydkomprimering" (PDF) . University of Utah . Hentet 14. juli 2019 .

[10] JP Princen, AW Johnson und AB Bradley: Delbånd / transformeringskoding ved hjelp av filterbankdesign basert på tidsdomene aliasing kansellering , IEEE Proc. Internasjonalt Konferanse om akustikk, tale og signalbehandling (ICASSP), 2161–2164, 1987.

[11] John P. Princen, Alan B. Bradley: Analyse / syntese filterbank design basert på tidsdomene aliasing kansellering , IEEE Trans. Akustisk. Talesignalbehandling, ASSP-34 (5), 1153–1161, 1986.

[Luo-12] ^ ^a ^b ^c ^d ^e ^f Luo, Fa-Long (2008). Mobile multimedia kringkastingsstandarder: teknologi og praksis . Springer Science & Business Media . s. 590. ISBN 9780387782638.

[13] Britanak, V. (2011). "Om egenskaper, relasjoner og forenklet implementering av filterbanker i Dolby Digital (Plus) AC-3 Audio Coding Standards". IEEE-transaksjoner på lyd-, tale- og språkbehandling . 19 (5): 1231–1241. doi : 10.1109 / TASL.2010.2087755 .

[brandenburg-14] Brandenburg, Karlheinz (1999). "MP3 og AAC forklart" (PDF) . Arkivert (PDF) fra originalen 2017-02-13.

[Bitmovin-15] "Video Developer Report 2019" (PDF) . Bitmovin . 2019 . Hentet 5. november 2019 .

[Britanak2011-16] Britanak, V. (2011). "Om egenskaper, relasjoner og forenklet implementering av filterbanker i Dolby Digital (Plus) AC-3 Audio Coding Standards". IEEE-transaksjoner på lyd-, tale- og språkbehandling . 19 (5): 1231–1241. doi : 10.1109 / TASL.2010.2087755 .

[Stankovic-17] Stanković, Radomir S .; Astola, Jaakko T. (2012). "Reminiscences of the Early Work in DCT: Interview with KR Rao" (PDF) . Gjentrykk fra informasjonsvitenskapens tidlige dager . 60 . Hentet 13. oktober 2019 .

[vorbis-mdct-18] Xiph.Org Foundation (2009-06-02). "Vorbis I spesifikasjon - 1.1.2 Klassifisering" . Xiph.Org Foundation . Hentet 2009-09-22 .

[presentation-19] Presentasjon av CELT-kodeken av Timothy B. Terriberry (65 minutter med video, se også presentasjonsbilder i PDF)

[20] Valin, Jean-Marc; Maxwell, Gregory; Terriberry, Timothy B .; Vos, Koen (oktober 2013). Kvalitet med lav kvalitet og forsinkelse av musikk i Opus Codec . 135. AES-konvensjon. Audio Engineering Society . arXiv : 1602.04845 .

[Darko_2017-21] Darko, John H. (2017-03-29). "Den upraktiske sannheten om Bluetooth-lyd" . DAR__KO . Arkivert fra originalen 14/01/2018 . Hentet 13/01/2018 .

[AVHub_2015-22] Ford, Jez (2015-08-24). "Hva er Sony LDAC, og hvordan gjør det det?" . AVHub . Hentet 13/01/2018 .

[AVHub_2016-23] Ford, Jez (2016-11-22). "aptX HD - lossless eller lossy?" . AVHub . Hentet 13/01/2018 .

[24] "Lydformater for digitale teatersystemer" . Library of Congress . 27. desember 2011 . Hentet 10. november 2019 .

[25] Spanias, Andreas; Maler, Ted; Atti, Venkatraman (2006). Behandling og koding av lydsignaler . John Wiley & Sons . s. 338. ISBN 9780470041963.

Languages

In other projects