MP3 - MP3

MP3
Mp3.svg
Filnavn forlengelse .mp3
.bit (før 1995)
Internett -medietype
Utviklet av Karlheinz Brandenburg , Ernst Eberlein, Heinz Gerhäuser, Bernhard Grill , Jürgen Herre og Harald Popp (alle fra Fraunhofer Society ), og andre
Første utgivelse 1991 ; 30 år siden ( 1991 )
Type format Digital lyd
Inneholdt av MPEG-ES
Standarder
Åpent format ? Ja

MP3 (formelt MPEG-1 Audio Layer III eller MPEG-2 Audio Layer III ) er et kodingsformat for digital lyd utviklet i stor grad av Fraunhofer Society i Tyskland, med støtte fra andre digitale forskere i USA og andre steder. Opprinnelig definert som det tredje lydformatet til MPEG-1- standarden, ble det beholdt og utvidet ytterligere-definert ytterligere bithastigheter og støtte for flere lydkanaler -som det tredje lydformatet til den påfølgende MPEG-2- standarden. En tredje versjon, kjent som MPEG 2.5 - utvidet til bedre støtte for lavere bithastigheter - er ofte implementert, men er ikke en anerkjent standard.

MP3 (eller mp3 ) som filformat betegner vanligvis filer som inneholder en elementær strøm av MPEG-1 Audio eller MPEG-2 Audio-kodede data, uten andre kompleksiteter i MP3-standarden.

Når det gjelder lydkomprimering (aspektet av standarden som er mest tydelig for sluttbrukere, og som det er best kjent for), bruker MP3 tapende datakomprimering for å kode data ved å bruke unøyaktige tilnærminger og delvis kassering av data. Dette tillater en stor reduksjon i filstørrelser sammenlignet med ukomprimert lyd. Kombinasjonen av liten størrelse og akseptabel troskap førte til en boom i distribusjonen av musikk over Internett på midten til slutten av 1990-tallet, med MP3 som en mulig teknologi i en tid da båndbredde og lagring fortsatt var på topp. MP3-formatet snart ble assosiert med kontroverser rundt brudd på opphavsretten , musikk piratkopiering , og filen ripping / deling av tjenester MP3.com og Napster , blant andre. Med fremkomsten av bærbare mediespillere , en produktkategori som også inkluderer smarttelefoner , forblir MP3-støtte nesten universell.

MP3 -komprimering fungerer ved å redusere (eller tilnærme) nøyaktigheten til visse lydkomponenter som anses (ved psykoakustisk analyse) å være utenfor de fleste menneskers hørselsevne . Denne metoden blir ofte referert til som perseptuell koding eller som psykoakustisk modellering. Den gjenværende lydinformasjonen blir deretter spilt inn på en plasseffektiv måte ved bruk av MDCT- og FFT- algoritmer. Sammenlignet med digital lyd i CD-kvalitet , kan MP3-komprimering vanligvis oppnå en reduksjon i størrelse på 75 til 95%. For eksempel vil en MP3 kodet med en konstant bithastighet på 128 kbit/s resultere i en fil på omtrent 9% av størrelsen på den originale CD -lyden. På begynnelsen av 2000 -tallet brukte CD -spillere i økende grad støtte for avspilling av MP3 -filer på data -CDer.

The Moving Picture Experts Group (MPEG) designet MP3 som en del av MPEG-1 , og senere MPEG-2 , standarder. MPEG-1 Audio (MPEG-1 Part 3), som inkluderte MPEG-1 Audio Layer I, II og III, ble godkjent som et komitéutkast for en ISO / IEC- standard i 1991, ferdigstilt i 1992 og utgitt i 1993 som ISO /IEC 11172-3: 1993. En MPEG-2 Audio (MPEG-2 Part 3) forlengelse med lavere prøve- og bithastigheter ble publisert i 1995 som ISO/IEC 13818-3: 1995. Det krever bare minimale modifikasjoner av eksisterende MPEG-1-dekodere (gjenkjenning av MPEG-2-biten i toppteksten og tillegg av de nye lavere prøve- og bithastighetene).

Historie

Bakgrunn

MP3 lossy audiodatakomprimeringsalgoritme utnyttet et perseptuell begrensning av menneskelig hørsel kalles auditiv maskering . I 1894 rapporterte den amerikanske fysikeren Alfred M. Mayer at en tone kunne bli hørbar av en annen tone med lavere frekvens. I 1959 beskrev Richard Ehmer et komplett sett med hørselskurver angående dette fenomenet. Mellom 1967 og 1974 arbeidet Eberhard Zwicker med tuning og maskering av kritiske frekvensbånd, som igjen bygde på grunnforskningen i området fra Harvey Fletcher og hans samarbeidspartnere ved Bell Labs .

Perseptuelle koding ble først brukt for tale koding komprimering med lineær prediktiv koding (LPC), som har opprinnelse i arbeidet med Fumitada Itakura ( Nagoya universitet ) og Shuzo Saito ( Nippon Telegraph and Telephone ) i 1966. I 1978, Bishnu S. Atal og Manfred R. Schroeder ved Bell Labs foreslo en LPC- talekodek , kalt adaptiv prediktiv koding , som brukte en psykoakustisk kodingsalgoritme som utnyttet maskeegenskapene til det menneskelige øret. Ytterligere optimalisering av Schroeder og Atal med JL Hall ble senere rapportert i et papir fra 1979. Samme år ble en psykoakustisk maskeringskodek også foreslått av MA Krasner, som publiserte og produserte maskinvare for tale (ikke brukbar som musikkbitkomprimering), men publiseringen av resultatene hans i en relativt uklar Lincoln Laboratory Technical Report påvirket ikke umiddelbart hovedstrømmen for psykoakustisk codec-utvikling.

Den diskrete cosinustransformen (DCT), en type transformasjon som koder for tapskomprimering , foreslått av Nasir Ahmed i 1972, ble utviklet av Ahmed med T. Natarajan og KR Rao i 1973; de publiserte resultatene sine i 1974. Dette førte til utviklingen av den modifiserte diskrete cosinustransformen (MDCT), foreslått av JP Princen, AW Johnson og AB Bradley i 1987, etter tidligere arbeider av Princen og Bradley i 1986. MDCT ble senere en kjernedelen av MP3 -algoritmen.

Ernst Terhardt et al. konstruerte en algoritme som beskriver auditiv maskering med høy nøyaktighet i 1982. Dette arbeidet bidro til en rekke rapporter fra forfattere som dateres tilbake til Fletcher, og til arbeidet som opprinnelig bestemte kritiske forhold og kritiske båndbredder.

I 1985 presenterte Atal og Schroeder kode-begeistret lineær prediksjon (CELP), en LPC-basert perseptuell talekodingsalgoritme med auditiv maskering som oppnådde et betydelig datakomprimeringsforhold for sin tid. IEEEs refererte Journal on Selected Areas in Communications rapporterte om en lang rekke (for det meste perseptuelle) lydkomprimeringsalgoritmer i 1988. "Voice Coding for Communications" -utgaven utgitt i februar 1988 rapporterte om et bredt spekter av etablerte, fungerende lydbitkomprimeringer. teknologier, noen av dem bruker hørselsmaskering som en del av deres grunnleggende design, og flere viser maskinvareimplementasjoner i sanntid.

Utvikling

Opprinnelsen til MP3 -teknologien er fullstendig beskrevet i et papir fra professor Hans Musmann, som ledet ISO MPEG Audio -gruppen i flere år. I desember 1988 etterlyste MPEG en lydkodingsstandard. I juni 1989 ble 14 lydkodingsalgoritmer sendt inn. På grunn av visse likheter mellom disse kodingsforslagene, ble de gruppert i fire utviklingsgrupper. Den første gruppen var ASPEC, fra Fraunhofer Gesellschaft , AT&T , France Telecom , Deutsche og Thomson-Brandt . Den andre gruppen var MUSICAM , av Matsushita , CCETT , ITT og Philips . Den tredje gruppen var ATAC, av Fujitsu , JVC , NEC og Sony . Og den fjerde gruppen var SB-ADPCM , av NTT og BTRL.

De umiddelbare forgjengerne til MP3 var "Optimal Coding in the Frequency Domain" (OCF) og Perceptual Transform Coding (PXFM). Disse to kodekene, sammen med blokkskiftende bidrag fra Thomson-Brandt, ble slått sammen til en kodek kalt ASPEC, som ble sendt til MPEG, og som vant kvalitetskonkurransen, men det ble feilaktig avvist som for komplisert å implementere. Den første praktiske implementeringen av en lydperseptuell koder (OCF) i maskinvare (Krasners maskinvare var for tungvint og treg for praktisk bruk), var en implementering av en psykoakustisk transformasjonskoder basert på Motorola 56000 DSP -brikker.

En annen forgjenger for MP3-formatet og teknologien er å finne i den perseptuelle kodeken MUSICAM basert på et heltall aritmetikk 32 underbånds filterbank, drevet av en psykoakustisk modell. Den var først og fremst designet for digital lydkringkasting (digital radio) og digital TV, og dens grunnleggende prinsipper ble avslørt for det vitenskapelige samfunnet av CCETT (Frankrike) og IRT (Tyskland) i Atlanta under en IEEE-ICASSP-konferanse i 1991, etter å ha jobbet på MUSICAM med Matsushita og Philips siden 1989.

Denne kodeken som ble innlemmet i et kringkastingssystem ved bruk av COFDM -modulasjon ble demonstrert på lufta og i felten med Radio Canada og CRC Canada under NAB -showet (Las Vegas) i 1991. Implementeringen av lyddelen av dette kringkastingssystemet var basert på en to -chips encoder (en for delbåndstransformasjonen, en for den psykoakustiske modellen designet av teamet til G. Stoll (IRT Tyskland), senere kjent som psykoakustisk modell I) og en sanntidsdekoder som bruker en Motorola 56001 DSP -brikke som kjører et heltall aritmetikk programvare designet av YF Deherys team ( CCETT , Frankrike). Enkelheten til den tilsvarende dekoderen sammen med den høye lydkvaliteten til denne kodeken ved å bruke for første gang en 48 kHz samplingsfrekvens, et 20 bits/sample input -format (den høyeste tilgjengelige samplingsstandarden i 1991, kompatibel med AES/EBU profesjonell digital input studio standard) var hovedgrunnene til senere å ta i bruk egenskapene til MUSICAM som grunnfunksjonene for en avansert digital musikkkomprimeringskodek.

Under utviklingen av MUSICAM-kodingsprogramvaren brukte Stoll og Deherys team grundig bruk av et sett lydvurderingsmateriale av høy kvalitet valgt av en gruppe lydprofesjonelle fra European Broadcasting Union og senere brukt som referanse for vurdering av musikkomprimering kodeker. Subbåndskodingsteknikken ble funnet å være effektiv, ikke bare for den perseptuelle kodingen av lydmaterialer av høy kvalitet, men spesielt for koding av kritiske slagmaterialer (trommer, trekant, ...) på grunn av den spesifikke tidsmessige maskeffekten av MUSICAM sub-band filterbank (denne fordelen er et spesifikt trekk ved kort transformasjonsteknikk).

Som doktorgradsstudent ved Tysklands universitet i Erlangen-Nürnberg begynte Karlheinz Brandenburg å jobbe med digital musikkomprimering tidlig på 1980-tallet, med fokus på hvordan folk oppfatter musikk. Han fullførte doktorgradsarbeidet i 1989. MP3 stammer direkte fra OCF og PXFM, som representerer resultatet av samarbeidet med Brandenburg-jobber som postdoktor ved AT & T-Bell Labs med James D. Johnston ("JJ") fra AT & T-Bell Labs-med Fraunhofer Institute for Integrated Circuits , Erlangen (hvor han jobbet med Bernhard Grill og fire andre forskere-"The Original Six"), med relativt små bidrag fra MP2-grenen av psykoakustiske underbandskodere. I 1990 ble Brandenburg adjunkt ved Erlangen-Nürnberg. Mens han var der, fortsatte han å jobbe med musikkomprimering med forskere ved Fraunhofer Society 's Heinrich Herz Institute (i 1993 begynte han i staben til Fraunhofer HHI). Sangen " Tom's Diner " av Suzanne Vega var den første sangen som ble brukt av Karlheinz Brandenburg for å utvikle MP3. Brandenburg adopterte sangen for testformål, og lyttet til den igjen og igjen hver gang han forbedret opplegget, og sørget for at den ikke påvirket subtiliteten til Vegas stemme negativt.

Standardisering

I 1991 var det to tilgjengelige forslag som ble vurdert for en MPEG standard: MUSICAM ( M ber mønster innrettet U niversal S ubband I ntegrated C oding A nd M ultiplexing) og ASPEC ( A daptive S pectral P erceptual E ntropy C oding). MUSICAM -teknikken, foreslått av Philips (Nederland), CCETT (Frankrike), Institute for Broadcast Technology (Tyskland) og Matsushita (Japan), ble valgt på grunn av sin enkelhet og feil robusthet, så vel som for det høye beregningsnivået effektivitet. MUSICAM-formatet, basert på underbåndskoding , ble grunnlaget for MPEG Audio-komprimeringsformatet, for eksempel med rammestruktur, topptekstformat, samplingsfrekvenser, etc.

Mens mye av MUSICAM -teknologi og ideer ble inkorporert i definisjonen av MPEG Audio Layer I og Layer II, forble filterbanken alene og datastrukturen basert på 1152 prøverammer (filformat og byteorientert strøm) av MUSICAM i Layer III ( MP3) format, som en del av den beregningsmessig ineffektivt hybridfilterbank. Under ledelse av professor Musmann ved Leibniz University Hannover ble redigeringen av standarden delegert til Leon van de Kerkhof (Nederland), Gerhard Stoll (Tyskland) og Yves-François Dehery (Frankrike), som jobbet med lag I og lag II. ASPEC var det felles forslaget fra AT&T Bell Laboratories, Thomson Consumer Electronics, Fraunhofer Society og CNET . Det ga den høyeste kodingseffektiviteten.

En arbeidsgruppe bestående av van de Kerkhof, Stoll, Leonardo Chiariglione ( CSELT VP for Media), Yves-François Dehery, Karlheinz Brandenburg (Tyskland) og James D. Johnston (USA) tok ideer fra ASPEC, integrerte filterbanken fra Layer II, la til noen av sine egne ideer, for eksempel felles stereokoding av MUSICAM og opprettet MP3 -formatet, som var designet for å oppnå samme kvalitet ved 128  kbit/s som MP2 ved 192 kbit/s.

Algoritmene for MPEG-1 Audio Layer I, II og III ble godkjent i 1991 og avsluttet i 1992 som en del av MPEG-1 , den første standardsuiten av MPEG , noe som resulterte i den internasjonale standarden ISO / IEC 11172-3 (aka MPEG -1 Audio or MPEG-1 Part 3 ), utgitt i 1993. Filer eller datastrømmer som samsvarer med denne standarden, må håndtere samplingshastigheter på 48k, 44100 og 32k og fortsatt bli støttet av nåværende MP3-spillere og dekodere. Dermed definerte den første generasjonen MP3 14 × 3 = 42 tolkninger av MP3 -rammedatastrukturer og størrelsesoppsett.

Ytterligere arbeid med MPEG-lyd ble avsluttet i 1994 som en del av den andre pakken med MPEG-standarder, MPEG-2 , mer formelt kjent som internasjonal standard ISO/IEC 13818-3 (aka MPEG-2 Part 3 eller bakoverkompatibel MPEG-2 Audio eller MPEG-2 Audio BC ), opprinnelig utgitt i 1995. MPEG-2 del 3 (ISO/IEC 13818-3) definerte 42 ekstra bithastigheter og samplingshastigheter for MPEG-1 lydlag I, II og III. De nye samplingshastighetene er nøyaktig halvparten av de som opprinnelig ble definert i MPEG-1 Audio. Denne reduksjonen i samplingshastigheten tjener til å kutte den tilgjengelige frekvensfideliteten i to, samtidig som bithastigheten reduseres med 50%. MPEG-2 del 3 forbedret også MPEG-1's lyd ved å tillate koding av lydprogrammer med mer enn to kanaler, opptil 5,1 flerkanals. En MP3 kodet med MPEG-2 resulterer i at halvparten av båndbreddegjengivelsen av MPEG-1 er egnet for piano og sang.

En tredje generasjon datastrømmer (filer) i "MP3" -stil utvidet ideene og implementeringen av MPEG-2, men fikk navnet MPEG-2.5- lyd, siden MPEG-3 allerede hadde en annen betydning. Denne utvidelsen ble utviklet hos Fraunhofer IIS, de registrerte patentinnehaverne av MP3, ved å redusere rammesynkroniseringsfeltet i MP3 -overskriften fra 12 til 11 bits. Som i overgangen fra MPEG-1 til MPEG-2, legger MPEG-2.5 til ekstra samplingshastigheter nøyaktig halvparten av de som er tilgjengelige ved bruk av MPEG-2. Det utvider dermed omfanget av MP3 til å inkludere menneskelig tale og andre applikasjoner, men krever bare 25% av båndbredden (frekvensreproduksjon) ved bruk av MPEG-1 samplingshastigheter. Selv om det ikke er en ISO-anerkjent standard, støttes MPEG-2.5 mye av både billige kinesiske og merkenavnet digitale lydspillere samt dataprogramvare baserte MP3-kodere ( LAME ), dekodere (FFmpeg) og spillere (MPC) som legger til 3 × 8 = 24 ekstra MP3 -rammetyper. Hver generasjon MP3 støtter dermed tre samplingshastigheter nøyaktig halvparten av forrige generasjon for totalt 9 varianter av MP3 -formatfiler. Prøvehastighets sammenligningstabellen mellom MPEG-1, 2 og 2.5 er gitt senere i artikkelen. MPEG-2.5 støttes av LAME (siden 2000), Media Player Classic (MPC), iTunes og FFmpeg.

MPEG-2.5 ble ikke utviklet av MPEG (se ovenfor) og ble aldri godkjent som en internasjonal standard. MPEG-2.5 er dermed en uoffisiell eller proprietær utvidelse av MP3-formatet. Det er allikevel allestedsnærværende og spesielt fordelaktig for applikasjoner med lav bithastighet for mennesker.

MPEG Audio Layer III -versjoner
Versjon Internasjonal standard Første utgave offentlig utgivelsesdato Siste utgave offentlig utgivelsesdato
MPEG-1 Audio Layer III ISO/IEC 11172-3 (MPEG-1 del 3) 1993
MPEG-2 Audio Layer III ISO/IEC 13818-3 (MPEG-2 del 3) 1995 1998
MPEG-2.5 Audio Layer III ikke -standard, proprietær 2000 2008

  • ISO-standarden ISO/IEC 11172-3 (aka MPEG-1 Audio) definerte tre formater: MPEG-1 Audio Layer I, Layer II og Layer III. ISO-standarden ISO/IEC 13818-3 (aka MPEG-2 Audio) definerte utvidet versjon av MPEG-1 Audio: MPEG-2 Audio Layer I, Layer II og Layer III. MPEG-2 Audio (MPEG-2 Part 3) skal ikke forveksles med MPEG-2 AAC (MPEG-2 Part 7-ISO/IEC 13818-7).

Komprimeringseffektiviteten til kodere er vanligvis definert av bithastigheten, fordi kompresjonsforholdet avhenger av bitdybden og samplingshastigheten til inngangssignalet. Likevel blir komprimeringsforhold ofte publisert. De kan bruke Compact Disc (CD) -parametrene som referanser (44,1 kHz , 2 kanaler på 16 bits per kanal eller 2 × 16 bit), eller noen ganger Digital Audio Tape (DAT) SP -parametere (48 kHz, 2 × 16 bit) . Komprimeringsforhold med denne sistnevnte referansen er høyere, noe som demonstrerer problemet med bruk av begrepet kompresjonsforhold for tapskoder.

Karlheinz Brandenburg brukte en CD -innspilling av Suzanne Vegas sang " Tom's Diner " for å vurdere og avgrense MP3 -komprimeringsalgoritmen . Denne sangen ble valgt på grunn av sin nesten monofoniske natur og brede spektrale innhold, noe som gjorde det lettere å høre ufullkommenheter i komprimeringsformatet under avspillinger. Noen omtaler Suzanne Vega som "The mother of MP3". Dette bestemte sporet har en interessant egenskap ved at de to kanalene er nesten, men ikke helt, det samme, noe som fører til et tilfelle der depresjon av binaural maskeringsnivå forårsaker romlig avmaskering av støyartefakter med mindre koderen gjenkjenner situasjonen på riktig måte og bruker korreksjoner som ligner dem beskrevet i den psykoakustiske modellen MPEG-2 AAC. Noen mer kritiske lydutdrag ( glockenspiel , trekant , trekkspill , etc.) ble hentet fra EBU V3/SQAM referansekompaktplate og har blitt brukt av profesjonelle lydingeniører for å vurdere den subjektive kvaliteten på MPEG Audio -formatene. LAME er den mest avanserte MP3 -koderen. LAME inkluderer en VBR -variabel bithastighetskoding som bruker en kvalitetsparameter i stedet for et bithastighetsmål. Senere versjoner 2008+) støtter et kvalitetsmål n.nnn som automatisk velger samplingsfrekvenser for MPEG-2 eller MPEG-2.5 etter behov for taleopptak som krever bare 5512 Hz båndbreddeoppløsning.

Blir offentlig

En implementering av en referansesimuleringsprogramvare, skrevet på C-språket og senere kjent som ISO 11172-5 , ble utviklet (i 1991–1996) av medlemmene i ISO MPEG Audio-komiteen for å produsere bit-kompatible MPEG Audio-filer (Layer 1, Lag 2, lag 3). Den ble godkjent som et komitéutkast til ISO/IEC teknisk rapport i mars 1994 og skrevet ut som dokument CD 11172-5 i april 1994. Den ble godkjent som et utkast til teknisk rapport (DTR/DIS) i november 1994, ferdigstilt i 1996 og publisert som internasjonal standard ISO/IEC TR 11172-5: 1998 i 1998. Referanseprogramvaren på C-språk ble senere utgitt som en fritt tilgjengelig ISO-standard. Den jobbet i ikke-sanntid på en rekke operativsystemer og kunne demonstrere den første sanntids maskinvaredekodingen ( DSP- basert) av komprimert lyd. Noen andre sanntidsimplementeringer av MPEG Audio -kodere og dekodere var tilgjengelige for digital kringkasting (radio DAB , TV DVB ) mot forbrukermottakere og digitalbokser .

Juli 1994 ga Fraunhofer Society ut den første MP3 -koderen for programvare, kalt l3enc . Den filtypen .mp3 ble valgt av Fraunhofer-teamet på 14 juli 1995 (tidligere filene hadde blitt kalt .bit ). Med den første sanntids programvaren MP3-spiller WinPlay3 (utgitt 9. september 1995) klarte mange mennesker å kode og spille av MP3-filer på PC- ene . På grunn av tidens relativt små harddisker (≈500–1000 MB ) var tapskomprimering avgjørende for å lagre musikk for flere album på en hjemmemaskin som full innspilling (i motsetning til MIDI -notasjon eller sporingsfiler som kombinerte notasjon med korte innspillinger av instrumenter som spiller enkeltnoter). Som lydforsker Jonathan Sterne bemerker, "En australsk hacker anskaffet l3enc ved hjelp av et stjålet kredittkort. Hackeren ombygde deretter programvaren, skrev et nytt brukergrensesnitt og distribuerte det gratis og kalte det" takk Fraunhofer "".

Fraunhofer eksempel implementering

En hacker ved navn SoloH oppdaget kildekoden til "dist10" MPEG -referanseimplementeringen kort tid etter utgivelsen på serverne ved University of Erlangen . Han utviklet en versjon av høyere kvalitet og spredte den på internett. Denne koden startet den utbredte CD -ripping og digital musikkdistribusjon som MP3 over internett.

Internett -distribusjon

I andre halvdel av 1990 -årene begynte MP3 -filer å spre seg på Internett , ofte via underjordiske piratkopierte sangnettverk. Det første kjente eksperimentet med Internett -distribusjon ble organisert på begynnelsen av 1990 -tallet av Internet Underground Music Archive, bedre kjent under forkortelsen IUMA. Etter noen eksperimenter med ukomprimerte lydfiler, begynte dette arkivet å levere på det opprinnelige verdensomspennende lavhastighets Internett noen komprimerte MPEG-lydfiler ved bruk av MP2 (Layer II) -formatet og senere brukte MP3-filer når standarden var fullført. Populariteten til MP3 -filer begynte å øke raskt med fremkomsten av Nullsofts lydspiller Winamp , utgitt i 1997. I 1998 ble den første bærbare solid state digitale lydspilleren MPMan , utviklet av SaeHan Information Systems med hovedkontor i Seoul , Sør -Korea , ble utgitt og Rio PMP300 ble solgt etterpå i 1998, til tross for lovlig undertrykkelse av RIAA .

I november 1997 tilbød nettstedet mp3.com tusenvis av MP3 -filer opprettet av uavhengige artister gratis. Den lille størrelsen på MP3-filer muliggjorde utbredt peer-to-peer -fildeling av musikk som ble dratt fra CDer, noe som tidligere ville vært nesten umulig. Det første store peer-to-peer-fildelingsnettverket, Napster , ble lansert i 1999. Det enkle å lage og dele MP3-filer resulterte i utbredt brudd på opphavsretten . Store plateselskaper hevdet at denne gratis delingen av musikk reduserte salget, og kalte det " musikkpirateri ". De reagerte ved å forfølge søksmål mot Napster (som til slutt ble lagt ned og senere solgt) og mot enkeltbrukere som engasjerte seg i fildeling.

Uautorisert MP3-fildeling fortsetter på neste generasjons node-til-node-nettverk . Noen autoriserte tjenester, som Beatport , Bleep , Juno Records , eMusic , Zune Marketplace , Walmart.com , Rhapsody , innspillingsindustrien godkjente reinkarnasjon av Napster og Amazon.com selger ubegrenset musikk i MP3-format.

Design

Filstruktur

Diagram over strukturen til en MP3 -fil
Diagram over strukturen til en MP3 -fil (MPEG versjon 2.5 støttes ikke, derfor 12 i stedet for 11 bits for MP3 Sync Word).

En MP3 -fil består av MP3 -rammer, som består av en topptekst og en datablokk. Denne sekvensen av rammer kalles en elementær strøm . På grunn av "bitreservoaret" er rammer ikke uavhengige elementer og kan vanligvis ikke trekkes ut på vilkårlige rammegrenser. MP3 -datablokkene inneholder (komprimert) lydinformasjon når det gjelder frekvenser og amplituder. Diagrammet viser at MP3 -overskriften består av et synkroniseringsord , som brukes til å identifisere begynnelsen på en gyldig ramme. Dette etterfølges av en bit som indikerer at dette er MPEG -standarden og to biter som indikerer at lag 3 brukes; derav MPEG-1 Audio Layer 3 eller MP3. Etter dette vil verdiene variere, avhengig av MP3 -filen. ISO / IEC 11172-3 definerer verdiområdet for hver seksjon av overskriften sammen med spesifikasjonen til overskriften. De fleste MP3 -filer i dag inneholder ID3 -metadata , som går foran eller følger MP3 -bildene, som vist i diagrammet. Datastrømmen kan inneholde en valgfri kontrollsum.

Felles stereo utføres bare på en ramme-til-ramme-basis.

Koding og dekoding

MP3 -kodingsalgoritmen er vanligvis delt inn i fire deler. Del 1 deler lydsignalet i mindre biter, kalt rammer, og et modifisert diskret cosinus transform (MDCT) filter utføres deretter på utgangen. Del 2 sender prøven inn i en 1024-punkts rask Fourier-transform (FFT), deretter brukes den psykoakustiske modellen og et annet MDCT-filter utføres på utgangen. Del 3 kvantifiserer og koder hver prøve, kjent som støyallokering, som justerer seg selv for å oppfylle kravene til bithastighet og lydmaskering . Del 4 formaterer bitstrømmen , kalt en lydramme, som består av 4 deler, topptekst , feilkontroll , lyddata og tilleggsdata .

Den MPEG-1- standarden omfatter ikke en nøyaktig spesifikasjon for en MP3-koder, men gir f.eks psykoakustiske modell, hastighet løkke og lignende i den ikke-norm del av den opprinnelige standard. MPEG-2 dobler antallet samplingshastigheter som støttes, og MPEG-2.5 legger til 3 flere. Da dette ble skrevet, var de foreslåtte implementeringene ganske datert. Implementører av standarden skulle utvikle sine egne algoritmer egnet for å fjerne deler av informasjonen fra lydinngangen. Som et resultat ble mange forskjellige MP3 -kodere tilgjengelige, som hver produserte filer av ulik kvalitet. Sammenligninger var allment tilgjengelige, så det var lett for en potensiell bruker av en enkoder å undersøke det beste valget. Noen kodere som var dyktige til å kode ved høyere bithastigheter (for eksempel LAME ) var ikke nødvendigvis like gode til lavere bithastigheter. Over tid utviklet LAME seg på SourceForge -nettstedet til det ble den faktiske CBR MP3 -koderen. Senere ble en ABR -modus lagt til. Arbeidet utviklet seg med ekte variabel bithastighet ved bruk av et kvalitetsmål mellom 0 og 10. Etter hvert kan tall (for eksempel -V 9.600) generere talekoding med lav bithastighet med utmerket kvalitet på bare 41 kbit/s ved bruk av MPEG -2.5 -utvidelsene.

Under koding blir 576 tid-domene prøver tatt og transformert til 576 frekvens-domene prøver . Hvis det er en forbigående , blir det tatt 192 prøver i stedet for 576. Dette gjøres for å begrense den tidsmessige spredningen av kvantiseringsstøy som følger med det forbigående (se psykoakustikk ). Frekvensoppløsningen er begrenset av den lille vinduet med lange blokker, noe som reduserer kodingseffektiviteten. Tidsoppløsningen kan være for lav for svært forbigående signaler og kan føre til utstrykning av perkussive lyder.

På grunn av trestrukturen til filterbanken blir problemer før ekko verre, ettersom den kombinerte impulsresponsen til de to filterbankene ikke gir og ikke kan gi en optimal løsning i tid/frekvensoppløsning. I tillegg skaper kombinasjonen av de to filterbankenes utganger aliasingproblemer som delvis må håndteres av "aliasing compensation" -fasen; Det skaper imidlertid overflødig energi som skal kodes i frekvensdomenet, og derved redusere kodingseffektiviteten.

Dekoding, derimot, er nøye definert i standarden. De fleste dekodere er " bitstrømskompatible ", noe som betyr at dekomprimerte utdataene de produserer fra en gitt MP3 -fil vil være de samme, innenfor en spesifisert grad av avrundingstoleranse , som utdataene som er spesifisert matematisk i ISO/IEC -standard dokumentet (ISO /IEC 11172-3). Derfor er sammenligning av dekodere vanligvis basert på hvor beregningsmessig effektive de er (dvs. hvor mye minne eller CPU -tid de bruker i dekodingsprosessen). Over tid har denne bekymringen blitt et mindre problem da CPU -hastighetene gikk over fra MHz til GHz. Koder/dekoder total forsinkelse er ikke definert, noe som betyr at det ikke er noen offisiell bestemmelse for avspilling uten hull . Noen kodere som LAME kan imidlertid legge ved flere metadata som lar spillere som kan håndtere det levere sømløs avspilling.

Kvalitet

Når du utfører tapende lydkoding, for eksempel å lage en MP3-datastrøm, er det en avveining mellom mengden data som genereres og lydkvaliteten til resultatene. Personen som genererer en MP3 velger en bithastighet , som angir hvor mange kilobit per sekund lyd som er ønsket. Jo høyere bithastighet, desto større blir MP3 -datastrømmen, og generelt sett vil det høres nærmere den opprinnelige innspillingen. Med for lav bithastighet kan kompresjonsartefakter (dvs. lyder som ikke var tilstede i det opprinnelige opptaket) være hørbare i gjengivelsen. Noe lyd er vanskelig å komprimere på grunn av tilfeldigheten og skarpe angrepene. Når denne typen lyd komprimeres, høres vanligvis artefakter som ringing eller pre-ekko . Et eksempel på applaus eller et trekantinstrument med en relativt lav bithastighet gir gode eksempler på kompresjonsartefakter. De fleste subjektive testene av perseptuelle kodeker har en tendens til å unngå å bruke denne typen lydmaterialer, men artefakter som genereres av perkussive lyder er knapt merkbare på grunn av den spesifikke tidsmessige maskeringsfunksjonen i 32 sub-band filterbank i Layer II som formatet er basert på .

I tillegg til bithastigheten til et kodet stykke lyd, avhenger kvaliteten på MP3 -kodet lyd også av kvaliteten på koderalgoritmen så vel som kompleksiteten til signalet som kodes. Siden MP3 -standarden gir ganske mye frihet med kodingsalgoritmer, har forskjellige kodere ganske forskjellig kvalitet, selv med identiske bithastigheter. Som et eksempel, i en offentlig lyttetest med to tidlige MP3 -kodere satt til omtrent 128 kbit/s, scoret den ene 3,66 på en skala fra 1–5, mens den andre bare fikk 2,22. Kvalitet er avhengig av valg av encoder og kodingsparametere.

Denne observasjonen forårsaket en revolusjon i lydkoding. Tidlig bitrate var den viktigste og eneste hensynet. På den tiden var MP3 -filer av den aller enkleste typen: de brukte samme bithastighet for hele filen: denne prosessen er kjent som Constant Bit Rate (CBR) -koding. Bruk av en konstant bithastighet gjør koding enklere og mindre CPU -intensiv. Det er imidlertid også mulig å opprette filer der bithastigheten endres i hele filen. Disse er kjent som variabel bithastighet . Bitreservoaret og VBR-kodingen var faktisk en del av den originale MPEG-1-standarden. Konseptet bak dem er at noen deler er lettere å komprimere i alle lydstykker, for eksempel stillhet eller musikk som bare inneholder noen få toner, mens andre vil være vanskeligere å komprimere. Så den totale kvaliteten på filen kan økes ved å bruke en lavere bithastighet for de mindre komplekse passasjene og en høyere for de mer komplekse delene. Med noen avanserte MP3 -kodere er det mulig å spesifisere en gitt kvalitet, og koderen vil justere bithastigheten deretter. Brukere som ønsker en bestemt "kvalitetsinnstilling" som er gjennomsiktig for ørene, kan bruke denne verdien når de koder all musikken sin, og generelt sett trenger de ikke å bekymre seg for å utføre personlige lyttetester på hvert musikkstykke for å bestemme riktig bithastighet.

Oppfattet kvalitet kan påvirkes av lyttemiljø (omgivelsesstøy), lytterens oppmerksomhet og lytteropplæring og i de fleste tilfeller av lytterlydutstyr (for eksempel lydkort, høyttalere og hodetelefoner). Videre kan tilstrekkelig kvalitet oppnås ved en lavere kvalitetsinnstilling for forelesninger og applikasjoner for menneskelig tale og reduserer kodingstid og kompleksitet. En test gitt til nye studenter av Stanford University Music Professor Jonathan Berger viste at studentens preferanse for musikk av MP3-kvalitet har økt hvert år. Berger sa at elevene ser ut til å foretrekke "sizzle" -lydene som MP3 -er bringer til musikk.

En grundig studie av MP3-lydkvalitet, lydartist og komponist Ryan Maguires prosjekt "The Ghost in the MP3" isolerer lydene som gikk tapt under MP3-komprimering. I 2015 ga han ut sporet "moDernisT" (et anagram over "Tom's Diner"), utelukkende komponert av lydene som ble slettet under MP3 -komprimering av sangen "Tom's Diner", sporet som opprinnelig ble brukt i formuleringen av MP3 -standarden. En detaljert redegjørelse for teknikkene som ble brukt for å isolere lydene som ble slettet under MP3 -komprimering, sammen med den konseptuelle motivasjonen for prosjektet, ble publisert i 2014 Proceedings of the International Computer Music Conference.

Bithastighet

MPEG Audio Layer III
tilgjengelig bithastighet (kbit/s)
MPEG-1
Audio Layer III
MPEG-2
Audio Layer III
MPEG-2.5
Audio Layer III
- 8 8
- 16 16
- 24 24
32 32 32
40 40 40
48 48 48
56 56 56
64 64 64
80 80 -
96 96 -
112 112 -
128 128 -
n/a 144 -
160 160 -
192 - -
224 - -
256 - -
320 - -
Støttede samplingshastigheter
av MPEG Audio Format
MPEG-1
Audio Layer III
MPEG-2
Audio Layer III
MPEG-2.5
Audio Layer III
- - 8000 Hz
- - 11025 Hz
- - 12000 Hz
- 16000 Hz -
- 22050 Hz -
- 24000 Hz -
32000 Hz - -
44100 Hz - -
48000 Hz - -

Bitrate er produktet av samplingshastigheten og antall biter per prøve som brukes til å kode musikken. CD -lyd er 44100 prøver per sekund. Antall biter per prøve avhenger også av antall lydkanaler. CD er stereo og 16 bits per kanal. Så å multiplisere 44100 med 32 gir 1411200 — bithastigheten til ukomprimert digital CD -lyd. MP3 ble designet for å kode disse 1411 kbit/s dataene på 320 kbit/s eller mindre. Ettersom mindre komplekse passasjer oppdages av MP3 -algoritmer, kan lavere bithastigheter brukes. Når du bruker MPEG-2 i stedet for MPEG-1, støtter MP3 bare lavere samplingshastigheter (16000, 22050 eller 24000 prøver per sekund) og tilbyr valg av bitrate så lav som 8 kbit/s, men ikke høyere enn 160 kbit/s. Ved å senke samplingshastigheten, fjerner MPEG-2 lag III alle frekvenser over halvparten av den nye samplingshastigheten som kan ha vært tilstede i kildelyden.

Som vist i disse to tabellene, er 14 utvalgte bithastigheter tillatt i MPEG-1 Audio Layer III-standarden: 32, 40, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256 og 320 kbit /s, sammen med de 3 høyeste tilgjengelige samplingsfrekvensene på 32, 44,1 og 48  kHz . MPEG-2 Audio Layer III tillater også 14 noe forskjellige (og stort sett lavere) bithastigheter på 8, 16, 24, 32, 40, 48, 56, 64, 80, 96, 112, 128, 144, 160 kbit/s med samplingsfrekvenser på 16, 22,05 og 24  kHz som er nøyaktig halvparten av MPEG-1 MPEG-2,5 Audio Layer III-rammer er begrenset til bare 8 bithastigheter på 8, 16, 24, 32, 40, 48, 56 og 64 kbit/ s med 3 enda lavere samplingsfrekvenser på 8, 11,025 og 12 kHz. På tidligere systemer som bare støtter MPEG-1 Audio Layer III-standarden, kan det hende at MP3-filer med en bithastighet under 32 kbit/s spilles av raskere og høyere.

Tidligere systemer mangler også hurtigspoling frem og tilbake for avspilling på MP3.

MPEG-1-rammer inneholder de fleste detaljene i 320 kbit/s-modus, den høyeste tillatte bithastighetsinnstillingen, med stillhet og enkle toner som fortsatt krever 32 kbit/s. MPEG-2-rammer kan ta opp til 12 kHz lydgjengivelser som trengs opptil 160 kbit/s. MP3-filer laget med MPEG-2 har ikke 20 kHz båndbredde på grunn av Nyquist-Shannon-prøvetakningssetningen . Frekvensreproduksjon er alltid strengt mindre enn halvparten av samplingsfrekvensen, og ufullkomne filtre krever større feilmargin (støynivå versus filterets skarphet), så en samplingsfrekvens på 8 kHz begrenser maksimal frekvens til 4 kHz, mens en sampling på 48 kHz frekvensen begrenser en MP3 til maks 24 kHz lydgjengivelse. MPEG-2 bruker bare halvparten og MPEG-2.5 bare en fjerdedel av MPEG-1-prøvehastighetene.

For det generelle feltet for reproduksjon av menneskelig tale er en båndbredde på 5512 Hz tilstrekkelig til å gi gode resultater (for tale) ved hjelp av samplingshastigheten på 11025 og VBR -koding fra 44100 (standard) WAV -fil. Engelsktalende har gjennomsnittlig 41–42 kbit/s med -V 9,6 -innstilling, men dette kan variere med mengden stillhet som er registrert eller leveringshastigheten (wpm). Resampling til 12000 (6K båndbredde) velges av LAME -parameteren -V 9.4 På samme måte velger -V 9.2 16000 sample rate og en resulterende 8K lavpass -filtrering. For mer informasjon, se Nyquist - Shannon. Eldre versjoner av LAME og FFmpeg støtter bare heltallargumenter for parameteren for valg av variabel bithastighetskvalitet. Kvalitetsparameteren n.nnn (-V) er dokumentert på lame.sourceforge.net, men støttes bare i LAME med den nye stilen VBR variabel bithastighetskvalitetsvelger-ikke gjennomsnittlig bithastighet (ABR).

En samplingsfrekvens på 44,1 kHz brukes ofte til musikkgjengivelse, fordi denne også brukes til CD -lyd , hovedkilden som brukes for å lage MP3 -filer. Et stort utvalg bithastigheter brukes på Internett. En bithastighet på 128 kbit/s brukes ofte, med et kompresjonsforhold på 11: 1, som gir tilstrekkelig lydkvalitet på et relativt lite område. Som Internett båndbredde tilgjengelighet og harddiskstørrelser har økt, høyere bitrater opp til 320 kbit / s er utbredt. Ukomprimert lyd som lagret på en lyd-CD har en bithastighet på 1.411,2 kbit/s, (16 bit/sample × 44100 sampler/sekund × 2 kanaler/1000 bits/kilobit), så bitratene 128, 160 og 192 kbit/s representerer kompresjonsforhold på henholdsvis ca. 11: 1, 9: 1 og 7: 1.

Ikke-standard bithastigheter på opptil 640 kbit/s kan oppnås med LAME- koderen og alternativet freeformat, selv om få MP3-spillere kan spille disse filene. I henhold til ISO -standarden kreves dekodere bare for å kunne dekode strømmer opp til 320 kbit/s. Tidlige MPEG Layer III -kodere brukte det som nå kalles Constant Bit Rate (CBR). Programvaren kunne bare bruke en jevn bithastighet på alle rammer i en MP3 -fil. Senere var mer sofistikerte MP3 -kodere i stand til å bruke bitreservoaret til å målrette en gjennomsnittlig bithastighet ved å velge kodingshastigheten for hver ramme basert på lydens kompleksitet i den delen av innspillingen.

En mer sofistikert MP3 -encoder kan produsere variabel bithastighetslyd . MPEG-lyd kan bruke bitrate-veksling per ramme, men bare lag III-dekodere må støtte det. VBR brukes når målet er å oppnå et fast kvalitetsnivå. Den endelige filstørrelsen til en VBR -koding er mindre forutsigbar enn med konstant bithastighet . Gjennomsnittlig bithastighet er en type VBR implementert som et kompromiss mellom de to: Bithastigheten får variere for mer konsistent kvalitet, men kontrolleres for å forbli nær en gjennomsnittsverdi valgt av brukeren, for forutsigbare filstørrelser. Selv om en MP3 -dekoder må støtte VBR for å være standardkompatibel, har noen dekodere historisk sett feil med VBR -dekoding, spesielt før VBR -kodere ble utbredt. Den mest utviklede LAME MP3 -koderen støtter generasjonen av VBR, ABR og til og med de eldre CBR MP3 -formatene.

Layer III -lyd kan også bruke et "bitreservoar", en delvis full rammes evne til å holde en del av den neste rammens lyddata, noe som tillater midlertidige endringer i effektiv bithastighet, selv i en konstant bithastighetsstrøm. Intern håndtering av bitreservoaret øker kodingsforsinkelsen. Det er ikke noe skalafaktorbånd 21 (sfb21) for frekvenser over ca. 16  kHz , noe som tvinger koderen til å velge mellom mindre nøyaktig representasjon i bånd 21 eller mindre effektiv lagring i alle bånd under bånd 21, sistnevnte resulterer i bortkastet bithastighet i VBR -koding.

Tilhørende data

Det tilhørende datafeltet kan brukes til å lagre brukerdefinerte data. Tilleggsdataene er valgfrie, og antall tilgjengelige biter er ikke eksplisitt gitt. Tilleggsdataene er lokalisert etter Huffman -kodebitene og varierer til der neste rammes main_data_begin peker til. Giver mp3PRO brukt hjelpe data til å kode ekstra informasjon som kan forbedre lydkvaliteten når dekodes med sin egen algoritme.

Metadata

En "tag" i en lydfil er en del av filen som inneholder metadata som tittel, artist, album, spornummer eller annen informasjon om filens innhold. MP3 -standardene definerer ikke tagformater for MP3 -filer, og det er heller ikke et standard containerformat som kan støtte metadata og unngå behovet for tagger. Imidlertid eksisterer det flere de facto -standarder for tagformater. Fra og med 2010 er de mest utbredte ID3v1 og ID3v2 , og den mer nylig introduserte APEv2 . Disse kodene er normalt innebygd i begynnelsen eller slutten av MP3 -filer, atskilt fra de faktiske MP3 -rammedataene. MP3-dekodere trekker enten ut informasjon fra taggene, eller bare behandler dem som uvitende, ikke-MP3-søppeldata.

Spill- og redigeringsprogramvare inneholder ofte funksjoner for redigering av tagger, men det er også tag -editorprogrammer dedikert til formålet. Bortsett fra metadata knyttet til lydinnholdet, kan tagger også brukes for DRM . ReplayGain er en standard for måling og lagring av lydstyrken til en MP3-fil ( lydnormalisering ) i metadatakoden, slik at en ReplayGain-kompatibel spiller automatisk kan justere det generelle avspillingsvolumet for hver fil. MP3Gain kan brukes til å reversibel endre filer basert på ReplayGain -målinger slik at justert avspilling kan oppnås på spillere uten ReplayGain -evne.

Lisensiering, eierskap og lovgivning

Den grunnleggende MP3-dekodings- og kodingsteknologien er patentfri i EU, og alle patenter har utløpt der senest i 2012. I USA ble teknologien vesentlig patentfri 16. april 2017 (se nedenfor). MP3 -patenter utløp i USA mellom 2007 og 2017. Tidligere har mange organisasjoner hevdet eierskap til patenter knyttet til MP3 -dekoding eller koding. Disse påstandene førte til en rekke juridiske trusler og handlinger fra en rekke kilder. Som et resultat var usikkerhet om hvilke patenter som må ha blitt lisensiert for å lage MP3 -produkter uten å begå patentbrudd i land som tillater programvarepatenter, et vanlig trekk ved de tidlige stadiene av adopsjonen av teknologien.

Den første nesten komplette MPEG-1-standarden (del 1, 2 og 3) var offentlig tilgjengelig 6. desember 1991 som ISO CD 11172. I de fleste land kan patenter ikke arkiveres etter at tidligere teknikk har blitt offentliggjort, og patenter utløper 20 år etter den første innleveringsdatoen, som kan være opptil 12 måneder senere for innleveringer i andre land. Som et resultat utløp patenter som kreves for å implementere MP3 i de fleste land innen desember 2012, 21 år etter publiseringen av ISO CD 11172.

Et unntak er USA, der gjeldende patenter, men arkivert før 8. juni 1995, utløper etter den siste på 17 år fra utstedelsesdatoen eller 20 år fra prioritetsdatoen. En lang prosessforfølgningsprosess kan resultere i at et patent utstedes mye senere enn normalt forventet (se ubåtpatenter ). De forskjellige MP3-relaterte patentene utløp på datoer fra 2007 til 2017 i USA. Patenter for alt som er beskrevet i ISO CD 11172 arkivert et år eller mer etter publiseringen er tvilsomme. Hvis bare de kjente MP3-patentene som ble arkivert i desember 1992 vurderes, har MP3-dekoding vært patentfri i USA siden 22. september 2015, da US patent 5 812 672 , som hadde en PCT-registrering i oktober 1992, utløp. Hvis det lengste patentet som er nevnt i de ovennevnte referansene blir tatt som et tiltak, ble MP3-teknologien patentfri i USA 16. april 2017, da det amerikanske patentet 6,009,399 , holdt og administrert av Technicolor , utløp. Som et resultat har mange gratis og åpen kildekode-programvareprosjekter , for eksempel Fedora-operativsystemet , bestemt seg for å begynne å sende MP3-støtte som standard, og brukerne trenger ikke lenger å installere uoffisielle pakker som vedlikeholdes av tredjeparts programvarelager for MP3 avspilling eller koding.

Technicolor (tidligere kalt Thomson Consumer Electronics) hevdet å kontrollere MP3 -lisensiering av Layer 3 -patenter i mange land, inkludert USA, Japan, Canada og EU -land. Technicolor hadde aktivt håndhevet disse patentene. MP3 -lisensinntekter fra Technicolors administrasjon genererte rundt 100 millioner euro for Fraunhofer Society i 2005. I september 1998 sendte Fraunhofer Institute et brev til flere utviklere av MP3 -programvare om at det kreves lisens for å "distribuere og/eller selge dekodere og/ eller kodere ". Brevet hevdet at ulisensierte produkter "krenker patentrettighetene til Fraunhofer og Thomson. For å lage, selge eller distribuere produkter ved bruk av [MPEG Layer-3] -standarden og dermed våre patenter, må du skaffe lisens under disse patentene fra oss." Dette førte til situasjonen der LAME MP3 -encoder -prosjektet ikke kunne tilby brukerne offisielle binære filer som kan kjøres på datamaskinen deres. Prosjektets posisjon var at LAME som kildekode ganske enkelt var en beskrivelse av hvordan en MP3 -koder kan implementeres. Uoffisielt var kompilerte binære filer tilgjengelig fra andre kilder.

Sisvel SpA, et selskap i Luxembourg, administrerer lisenser for patenter som gjelder MPEG Audio. De, sammen med USAs datterselskap Audio MPEG, Inc. saksøkte tidligere Thomson for patentbrudd på MP3 -teknologi, men disse tvistene ble løst i november 2005 med Sisvel som ga Thomson lisens til sine patenter. Motorola fulgte like etter, og signerte med Sisvel for å lisensiere MP3-relaterte patenter i desember 2005. Bortsett fra tre patenter, hadde de amerikanske patentene administrert av Sisvel alle utløpt i 2015. De tre unntakene er: US Patent 5,878,080 , utløpt februar 2017; US patent 5 850 456 , utløpt februar 2017; og US patent 5 960 037 , utløpt 9. april 2017.

I september 2006 beslagla tyske tjenestemenn MP3 -spillere fra SanDisks stand på IFA -showet i Berlin etter at et italiensk patentfirma vant et påbud på vegne av Sisvel mot SanDisk i en tvist om lisensrettigheter. Forbudet ble senere omgjort av en dommer i Berlin, men denne tilbakeføringen ble igjen blokkert samme dag av en annen dommer fra samme domstol, og "brakte Patent Wild West til Tyskland" med en kommentators ord. I februar 2007 saksøkte Texas MP3 Technologies Apple, Samsung Electronics og Sandisk i den østlige Texas føderale domstolen , og hevdet brudd på et bærbart MP3 -spillerpatent som Texas MP3 sa at det hadde blitt tildelt. Apple, Samsung og Sandisk avgjorde alle kravene mot dem i januar 2009.

Alcatel-Lucent har hevdet flere MP3-kodings- og komprimeringspatenter, angivelig arvet fra AT & T-Bell Labs, i egne rettstvister. I november 2006, før selskapenes fusjon, saksøkte Alcatel Microsoft for angivelig å ha krenket syv patenter. Februar 2007 tildelte en jury i San Diego Alcatel-Lucent 1,52 milliarder dollar i erstatning for brudd på to av dem. Retten opphevet senere tildelingen, men fant at det ene patentet ikke var blitt krenket og at det andre ikke var eid av Alcatel-Lucent ; det var sameie av AT&T og Fraunhofer, som hadde lisensiert det til Microsoft , avgjorde dommeren. Denne forsvarsdommen ble stadfestet i anken i 2008. Se Alcatel-Lucent mot Microsoft for mer informasjon.

Alternative teknologier

Andre tapformater finnes. Blant disse er Advanced Audio Coding (AAC) den mest brukte, og ble designet for å være etterfølgeren til MP3. Det finnes også andre tapformater som mp3PRO og MP2 . De er medlemmer av samme teknologiske familie som MP3 og er avhengige av omtrent like psykoakustiske modeller og MDCT -algoritmer. Mens MP3 bruker en hybrid kodingsmetode som er del MDCT og del FFT , er AAC rent MDCT, noe som forbedrer komprimeringseffektiviteten betydelig. Mange av de grunnleggende patentene som ligger til grunn for disse formatene, eies av Fraunhofer Society , Alcatel-Lucent, Thomson Consumer Electronics , Bell , Dolby , LG Electronics , NEC , NTT Docomo , Panasonic , Sony Corporation , ETRI , JVC Kenwood , Philips , Microsoft og NTT .

Da markedet for digitale lydspillere tok fart, ble MP3 bredt vedtatt som standarden, derav det populære navnet "MP3 -spiller". Sony var et unntak og brukte sin egen ATRAC -kodek hentet fra MiniDisc -formatet, noe Sony hevdet var bedre. Etter kritikk og lavere enn forventet Walkman -salg, introduserte Sony for første gang i 2004 innfødt MP3 -støtte til sine Walkman -spillere.

Det er også åpne komprimeringsformater som Opus og Vorbis som er tilgjengelig gratis og uten noen kjente patentbegrensninger. Noen av de nyere lydkomprimeringsformatene, for eksempel AAC, WMA Pro og Vorbis, er fri for noen begrensninger i MP3 -formatet som ikke kan overvinnes av noen MP3 -enkoder.

I tillegg til tapsmessige komprimeringsmetoder, er tapsfrie formater et betydelig alternativ til MP3 fordi de gir uendret lydinnhold, men med en større filstørrelse sammenlignet med tapskomprimering. Lossless -formater inkluderer FLAC (Free Lossless Audio Codec), Apple Lossless og mange andre.

Se også

Referanser

Videre lesning

Eksterne linker