Lydkodeformat - Audio coding format

Sammenligning av kodingseffektivitet mellom populære lydformater

Et lydkodingsformat (eller noen ganger lydkomprimeringsformat ) er et innholdsrepresentasjonsformat for lagring eller overføring av digital lyd (for eksempel i digital TV , digital radio og i lyd- og videofiler). Eksempler på lydkodingsformater inkluderer MP3 , AAC , Vorbis , FLAC og Opus . En spesiell programvare eller maskinvare implementering i stand til audiokomprimering og dekomprimering til / fra et bestemt audiokodeformat kalles en audiokodek ; et eksempel på en lydkodek er LAME , som er en av flere forskjellige kodeker som implementerer koding og dekoding av lyd i MP3 -lydkodeformat i programvare.

Noen lydkodingsformater er dokumentert av et detaljert teknisk spesifikasjonsdokument kjent som en lydkodingspesifikasjon . Noen slike spesifikasjoner er skrevet og godkjent av standardiseringsorganisasjoner som tekniske standarder , og er dermed kjent som en lydkodingsstandard . Begrepet "standard" brukes også noen ganger om de facto standarder så vel som formelle standarder.

Lydinnhold kodet i et bestemt lydkodeformat er normalt innkapslet i et containerformat . Som sådan har brukeren normalt ikke en rå AAC- fil, men har i stedet en .m4a -lydfil , som er en MPEG-4 del 14- beholder som inneholder AAC-kodet lyd. Beholderen inneholder også metadata som tittel og andre koder, og kanskje en indeks for rask søking. Et bemerkelsesverdig unntak er MP3- filer, som er rå lydkoding uten containerformat. De facto-standarder for å legge til metadatakoder som tittel og artist til MP3, for eksempel ID3 , er hacks som fungerer ved å legge kodene til MP3, og deretter stole på at MP3-spilleren gjenkjenner klumpen som misdannet lydkoding og derfor hopper over den . I videofiler med lyd er det kodede lydinnholdet samlet med video (i et videokodingsformat ) i et multimedia-containerformat .

Et lydkodingsformat dikterer ikke alle algoritmer som brukes av en kodek som implementerer formatet. En viktig del av hvordan tapsfri lydkomprimering fungerer, er å fjerne data på måter mennesker ikke kan høre, ifølge en psykoakustisk modell ; implementeren av en koderen har noe valgfrihet i hvilke data som skal fjernes (i henhold til deres psykoakustiske modell).

Tapsfrie, tapte og ukomprimerte lydkodeformater

Et tapfritt lydkodeformat reduserer den totale dataen som trengs for å representere en lyd, men kan avkodes til sin opprinnelige, ukomprimerte form. En lossy audiokodeformat reduserer i tillegg den bits oppløsning av lyden på toppen av komprimering, noe som resulterer i mye mindre data på bekostning av ugjenkallelig tapt informasjon.

Forbrukerlyd komprimeres oftest ved hjelp av tapte lydkodeker, da den mindre størrelsen er langt mer praktisk for distribusjon. De mest brukte lydkodingsformatene er MP3 og Advanced Audio Coding (AAC), som begge er tapsformater basert på modifiserte diskrete cosinustransformasjoner (MDCT) og perseptuelle kodingsalgoritmer .

Lossless lydkodingsformater som FLAC og Apple Lossless er noen ganger tilgjengelige, men på bekostning av større filer.

Ukomprimerte lydformater, som pulskodemodulering (PCM eller .wav), brukes også noen ganger. PCM var standardformatet for CDDA ( Compact Disc Digital Audio ), før tapskomprimering til slutt ble standarden etter introduksjonen av MP3.

Historie

Solidyne 922: Verdens første kommersielle lydbit komprimering lydkort for PC, 1990

I 1950 arkiverte Bell Labs patent på differensiell puls-kodemodulasjon (DPCM). Adaptive DPCM (ADPCM) ble introdusert av P. Cummiskey, Nikil S. Jayant og James L. Flanagan ved Bell Labs i 1973.

Perceptuell koding ble først brukt for kompresjon av talekoder , med lineær prediktiv koding (LPC). Innledende konsepter for LPC dateres tilbake til arbeidet til Fumitada Itakura ( Nagoya University ) og Shuzo Saito ( Nippon Telegraph and Telephone ) i 1966. I løpet av 1970-tallet utviklet Bishnu S. Atal og Manfred R. Schroeder ved Bell Labs en form for LPC kalt adaptiv på forhånd beregnet koding (APC), et perseptuell kodingsalgoritme som utnyttes for maskeringsegenskapene til det menneskelige øret, fulgt i 1980 med kodeeksitert lineær prediksjon (CELP) algoritme som oppnådd en betydelig kompresjonsforholdet for sin tid. Perceptuell koding brukes av moderne lydkompresjonsformater som MP3 og AAC .

Diskret cosinustransformasjon (DCT), utviklet av Nasir Ahmed , T. Natarajan og KR Rao i 1974, ga grunnlaget for den modifiserte diskrete cosinustransformasjonen (MDCT) brukt av moderne lydkompresjonsformater som MP3 og AAC. MDCT ble foreslått av JP Princen, AW Johnson og AB Bradley i 1987, etter tidligere arbeid av Princen og Bradley i 1986. MDCT brukes av moderne lydkompresjonsformater som Dolby Digital , MP3 og Advanced Audio Coding (AAC).

Liste over tapeformater

Generell

Grunnleggende komprimeringsalgoritme Lydkodingsstandard Forkortelse Introduksjon Markedsandel (2019) Ref
Modifisert diskret cosinustransformasjon (MDCT) Dolby Digital (AC-3) AC3 1991 58%
Adaptive Transform Acoustic Coding ATRAC 1992 Ukjent
MPEG Layer III MP3 1993 49%
Avansert lydkoding ( MPEG-2 / MPEG-4 ) AAC 1997 88%
Windows Media Audio WMA 1999 Ukjent
Ogg Vorbis Ogg 2000 7%
Constrained Energy Lapped Transform CELT 2011 Ikke relevant
Opus Opus 2012 8%
LDAC LDAC 2015 Ukjent
Adaptiv differensial puls-kodemodulasjon (ADPCM) aptX / aptX-HD aptX 1989 Ukjent
Digitale teatersystemer DTS 1990 14%
Master Quality Authenticated MQA 2014 Ukjent
Underbåndskoding (SBC) MPEG-1 Audio Layer II MP2 1993 Ukjent
Musepack MPC 1997

Tale

Liste over tapsfrie formater

Se også

Referanser

  1. ^ Begrepet "lydkoding" kan sees i for eksempel navnet Advanced Audio Coding , og er analogt med begrepet videokoding
  2. ^ "Video - Hvor lagres synkroniseringsinformasjon i containerformater?" .
  3. ^ US patent 2605361 , C. Chapin Cutler, "Differensiell kvantisering av kommunikasjonssignaler", utstedt 1952-07-29 
  4. ^ P. Cummiskey, Nikil S. Jayant og JL Flanagan, "Adaptive quantization in different PCM coding of speech", Bell Syst. Teknisk. J. , vol. 52, s. 1105—1118, september 1973
  5. ^ Cummiskey, P .; Jayant, Nikil S .; Flanagan, JL (1973). "Adaptiv kvantisering i differensiell PCM-koding av tale". The Bell System Technical Journal . 52 (7): 1105–1118. doi : 10.1002 / j.1538-7305.1973.tb02007.x . ISSN  0005-8580 .
  6. ^ a b c Schroeder, Manfred R. (2014). "Bell Laboratories" . Akustikk, informasjon og kommunikasjon: Memorial Volume til ære for Manfred R. Schroeder . Springer. s. 388. ISBN 9783319056609.
  7. ^ Gray, Robert M. (2010). "A History of Realtime Digital Speech on Packet Networks: Part II of Linear Predictive Coding and the Internet Protocol" (PDF) . Funnet. Trender Signalprosess . 3 (4): 203–303. doi : 10.1561 / 2000000036 . ISSN  1932-8346 .
  8. ^ Nasir Ahmed ; T. Natarajan; Kamisetty Ramamohan Rao (januar 1974). "Diskret kosinetransformasjon" (PDF) . IEEE-transaksjoner på datamaskiner . C-23 (1): 90–93. doi : 10.1109 / TC.1974.223784 .
  9. ^ a b c Guckert, John (Våren 2012). "Bruk av FFT og MDCT i MP3-lydkomprimering" (PDF) . University of Utah . Hentet 14. juli 2019 .
  10. ^ JP Princen, AW Johnson und AB Bradley: Delbånd / transformeringskoding ved hjelp av filterbankdesign basert på tidsdomene aliasing kansellering , IEEE Proc. Internasjonalt Konferanse om akustikk, tale og signalbehandling (ICASSP), 2161–2164, 1987.
  11. ^ John P. Princen, Alan B. Bradley: Analyse / syntese filterbank design basert på tidsdomene aliasing kansellering , IEEE Trans. Akustisk. Talesignalbehandling, ASSP-34 (5), 1153–1161, 1986.
  12. ^ a b c d e f Luo, Fa-Long (2008). Mobile multimedia kringkastingsstandarder: teknologi og praksis . Springer Science & Business Media . s. 590. ISBN 9780387782638.
  13. ^ Britanak, V. (2011). "Om egenskaper, relasjoner og forenklet implementering av filterbanker i Dolby Digital (Plus) AC-3 Audio Coding Standards". IEEE-transaksjoner på lyd-, tale- og språkbehandling . 19 (5): 1231–1241. doi : 10.1109 / TASL.2010.2087755 .
  14. ^ a b Brandenburg, Karlheinz (1999). "MP3 og AAC forklart" (PDF) . Arkivert (PDF) fra originalen 2017-02-13.
  15. ^ "Video Developer Report 2019" (PDF) . Bitmovin . 2019 . Hentet 5. november 2019 .
  16. ^ Britanak, V. (2011). "Om egenskaper, relasjoner og forenklet implementering av filterbanker i Dolby Digital (Plus) AC-3 Audio Coding Standards". IEEE-transaksjoner på lyd-, tale- og språkbehandling . 19 (5): 1231–1241. doi : 10.1109 / TASL.2010.2087755 .
  17. ^ Stanković, Radomir S .; Astola, Jaakko T. (2012). "Reminiscences of the Early Work in DCT: Interview with KR Rao" (PDF) . Gjentrykk fra informasjonsvitenskapens tidlige dager . 60 . Hentet 13. oktober 2019 .
  18. ^ Xiph.Org Foundation (2009-06-02). "Vorbis I spesifikasjon - 1.1.2 Klassifisering" . Xiph.Org Foundation . Hentet 2009-09-22 .
  19. ^ Presentasjon av CELT-kodeken av Timothy B. Terriberry (65 minutter med video, se også presentasjonsbilder i PDF)
  20. ^ Valin, Jean-Marc; Maxwell, Gregory; Terriberry, Timothy B .; Vos, Koen (oktober 2013). Kvalitet med lav kvalitet og forsinkelse av musikk i Opus Codec . 135. AES-konvensjon. Audio Engineering Society . arXiv : 1602.04845 .
  21. ^ Darko, John H. (2017-03-29). "Den upraktiske sannheten om Bluetooth-lyd" . DAR__KO . Arkivert fra originalen 14/01/2018 . Hentet 13/01/2018 .
  22. ^ Ford, Jez (2015-08-24). "Hva er Sony LDAC, og hvordan gjør det det?" . AVHub . Hentet 13/01/2018 .
  23. ^ Ford, Jez (2016-11-22). "aptX HD - lossless eller lossy?" . AVHub . Hentet 13/01/2018 .
  24. ^ "Lydformater for digitale teatersystemer" . Library of Congress . 27. desember 2011 . Hentet 10. november 2019 .
  25. ^ Spanias, Andreas; Maler, Ted; Atti, Venkatraman (2006). Behandling og koding av lydsignaler . John Wiley & Sons . s. 338. ISBN 9780470041963.