Tapende komprimering - Lossy compression

Lav komprimering (høy kvalitet) JPEG
Høy komprimering (lav kvalitet) JPEG

I informasjonsteknologi er tapskomprimering eller irreversibel komprimering klassen av datakodingsmetoder som bruker unøyaktige tilnærminger og delvis datakasting for å representere innholdet. Disse teknikkene brukes til å redusere datastørrelse for lagring, håndtering og overføring av innhold. De forskjellige versjonene av bildet av katten på denne siden viser hvordan høyere tilnærmelsesgrader skaper grovere bilder etter hvert som flere detaljer fjernes. Dette er i motsetning til tapsfri datakomprimering (reversibel datakomprimering) som ikke forringer dataene. Mengden datareduksjon som er mulig ved bruk av tapskomprimering er mye høyere enn ved bruk av tapsfrie teknikker.

Godt designet lossy komprimeringsteknologi reduserer ofte filstørrelser betydelig før sluttbrukeren merker nedbrytning. Selv når det er merkbart av brukeren, kan ytterligere datareduksjon være ønskelig (f.eks. For sanntidskommunikasjon, for å redusere overføringstider eller for å redusere lagringsbehov). Den mest brukte lossy komprimeringsalgoritmen er den diskrete cosinustransformen (DCT), først utgitt av Nasir Ahmed , T. Natarajan og KR Rao i 1974. I 2019 en ny familie av sinusformede og hyperbolske transformasjonsfunksjoner, som har sammenlignbare egenskaper og ytelse med DCT, ble foreslått for tapskomprimering.

Tapskomprimering brukes mest til å komprimere multimediedata ( lyd , video og bilder ), spesielt i applikasjoner som streamingmedier og internettelefoni . Derimot er tapsfri komprimering vanligvis nødvendig for tekst- og datafiler, for eksempel bankposter og tekstartikler. Det kan være en fordel å lage en master lossless -fil som deretter kan brukes til å produsere flere kopier. Dette gjør at man kan unngå å basere nye komprimerte kopier av en tapskildefil, noe som vil gi ytterligere artefakter og ytterligere unødvendig tap av informasjon .

Typer

Det er mulig å komprimere mange typer digitale data på en måte som reduserer størrelsen på en datafil som trengs for å lagre den, eller båndbredden som er nødvendig for å overføre den, uten å miste hele informasjonen i originalfilen. Et bilde, for eksempel, konverteres til en digital fil ved å betrakte det som en rekke punkter og spesifisere fargen og lysstyrken til hver prikk. Hvis bildet inneholder et område med samme farge, kan det komprimeres uten tap ved å si "200 røde prikker" i stedet for "rød prikk, rød prikk, ... (197 flere ganger) ..., rød prikk."

De originale dataene inneholder en viss mengde informasjon, og det er en nedre grense for størrelsen på filen som kan bære all informasjon. Grunnleggende informasjonsteori sier at det er en absolutt grense for å redusere størrelsen på disse dataene. Når data komprimeres, øker entropien, og den kan ikke øke på ubestemt tid. Som et intuitivt eksempel vet de fleste at en komprimert ZIP -fil er mindre enn den originale filen, men å gjentatte ganger komprimere den samme filen vil ikke redusere størrelsen til noe. De fleste komprimeringsalgoritmer kan kjenne igjen når ytterligere komprimering ville være meningsløs og faktisk ville øke størrelsen på dataene.

I mange tilfeller inneholder filer eller datastrømmer mer informasjon enn nødvendig for et bestemt formål. For eksempel kan et bilde ha flere detaljer enn øyet kan skille når det gjengis med den største størrelsen som er tiltenkt; På samme måte trenger en lydfil ikke mange fine detaljer under en veldig høy passasje. Å utvikle tapte komprimeringsteknikker så tett tilpasset menneskelig oppfatning som mulig er en kompleks oppgave. Noen ganger er idealet en fil som gir nøyaktig samme oppfatning som originalen, med så mye digital informasjon som mulig fjernet; andre ganger regnes merkbart tap av kvalitet som en gyldig avveining for de reduserte dataene.

Begrepene 'irreversibel' og 'reversibel' er foretrukket fremfor henholdsvis 'lossy' og 'lossless' for noen applikasjoner, for eksempel medisinsk bildekomprimering, for å omgå de negative implikasjonene av 'tap'. Type og tapstap kan påvirke nytten av bildene. Artefakter eller uønskede effekter av komprimering kan være tydelig å se, men resultatet er fremdeles nyttig for det tiltenkte formålet. Eller tapte komprimerte bilder kan være ' visuelt tapsløse ', eller for medisinske bilder kan såkalt Diagnostically Acceptable Irreversible Compression (DAIC) ha blitt brukt.

Transformere koding

Noen former for tapskomprimering kan betraktes som en applikasjon for transformkoding , som er en type datakomprimering som brukes for digitale bilder , digitale lydsignaler og digital video . Transformasjonen brukes vanligvis for å muliggjøre bedre (mer målrettet) kvantisering . Kunnskap om programmet brukes til å velge informasjon som skal kastes, og dermed redusere båndbredden . Den gjenværende informasjonen kan deretter komprimeres via en rekke metoder. Når utgangen er avkodet, er det ikke sikkert at resultatet er identisk med den opprinnelige inngangen, men det forventes at den er nær nok for applikasjonens formål.

Den vanligste formen for lossy komprimering er en transformasjonskodingsmetode, den diskrete cosinus transform (DCT), som først ble utgitt av Nasir Ahmed , T. Natarajan og KR Rao i 1974. DCT er den mest brukte formen for lossy komprimering, for populære bildekomprimeringsformater (for eksempel JPEG ), videokodingsstandarder (for eksempel MPEG og H.264/AVC ) og lydkomprimeringsformater (for eksempel MP3 og AAC ).

Når det gjelder lyddata, er en populær form for transformasjonskoding perseptuell koding , som omdanner rådata til et domene som mer nøyaktig gjenspeiler informasjonsinnholdet. For eksempel, i stedet for å uttrykke en lydfil som amplitudenivåene over tid, kan man uttrykke den som frekvensspekteret over tid, noe som mer nøyaktig tilsvarer menneskelig lydoppfatning. Selv om datareduksjon (komprimering, enten det er tap eller tap) er hovedmålet med transformasjonskoding, tillater det også andre mål: man kan representere data mer nøyaktig for den opprinnelige mengden plass - for eksempel i prinsippet hvis man starter med en analog eller høyoppløselig digital master og MP3- fil av en gitt størrelse bør gi en bedre representasjon enn rå ukomprimert lyd i WAV- eller AIFF- fil av samme størrelse. Dette er fordi ukomprimert lyd bare kan redusere filstørrelsen ved å senke bithastigheten eller dybden, mens komprimering av lyd kan redusere størrelsen samtidig som bithastigheten og dybden opprettholdes. Denne komprimeringen blir et selektivt tap av de minst signifikante dataene, i stedet for å miste data på tvers. Videre kan en transformasjonskoding gi et bedre domene for å manipulere eller på annen måte redigere dataene - for eksempel uttrykkes utjevning av lyd mest naturlig i frekvensdomenet (for eksempel boost av bassen) i stedet for i raw -tid -domenet.

Fra dette synspunktet handler perseptuell koding ikke i hovedsak om å kaste data, men snarere om en bedre representasjon av data. En annen bruk er for bakoverkompatibilitet og grasiøs nedbrytning : i fargefjernsyn betyr koding av farge via en luminans - krominans transformasjon domene (for eksempel YUV ) at svart-hvitt-sett viser luminansen, samtidig som fargen informasjon ignoreres. Et annet eksempel er chroma subsampling : bruk av fargerom som YIQ , brukt i NTSC , gjør at man kan redusere oppløsningen på komponentene i samsvar med menneskelig oppfatning-mennesker har den høyeste oppløsningen for svart-hvitt (luma), lavere oppløsning for mellomspekterfarger som gul og grønn, og lavest for rød og blues-dermed viser NTSC omtrent 350 piksler luma per skannelinje , 150 piksler gul mot grønn og 50 piksler blå mot rød, som er proporsjonale med menneskelig følsomhet for hver komponent.

Informasjonstap

Tapende komprimeringsformater lider av generasjonstap : komprimering og dekomprimering av filen gjentatte ganger vil føre til at den gradvis mister kvalitet. Dette står i kontrast til tapsfri datakomprimering , der data ikke vil gå tapt ved bruk av en slik prosedyre. Informasjonsteoretisk grunnlag for tap av datakomprimering er gitt av rate-distortion-teori . I likhet med bruk av sannsynlighet i optimal kodingsteori, trekker rate-forvrengningsteori sterkt på Bayesiansk estimering og beslutningsteori for å modellere perseptuell forvrengning og til og med estetisk vurdering.

Det er to grunnleggende lossy komprimeringsordninger:

  • I lossy transform codecs , blir det tatt prøver av bilde eller lyd, hakket i små segmenter, transformert til et nytt basisrom og kvantisert . De resulterende kvantiserte verdiene blir deretter entropikodet .
  • I tapende prediktive kodeker brukes tidligere og/eller påfølgende dekodede data for å forutsi gjeldende lydprøve eller bilderamme. Feilen mellom de forutsagte dataene og de virkelige dataene, sammen med eventuell ekstra informasjon som trengs for å gjengi prediksjonen, blir deretter kvantisert og kodet.

I noen systemer kombineres de to teknikkene, med transformasjonskodeker som brukes til å komprimere feilsignalene som genereres av det prediktive trinnet.

Sammenligning

Fordelen med lossy -metoder fremfor lossless -metoder er at en lossy -metode i noen tilfeller kan produsere en mye mindre komprimert fil enn noen lossless -metode, samtidig som den oppfyller kravene til applikasjonen. Tapte metoder brukes oftest for å komprimere lyd, bilder eller videoer. Dette er fordi disse typer data er beregnet på menneskelig tolkning der sinnet lett kan "fylle ut tomrom" eller se forbi svært små feil eller inkonsekvenser - ideelt sett er tapskomprimering gjennomsiktig (umerkelig), som kan verifiseres via en ABX -test . Datafiler som bruker komprimering uten tap er mindre i størrelse og koster dermed mindre å lagre og overføre over Internett, en avgjørende faktor for streaming av videotjenester som Netflix og streaming av lydtjenester som Spotify .

Følelsesmessige effekter

En studie utført av Audio Engineering Library konkluderte med at lavere bithastighet (112 kbps) av tapende komprimeringsformater som MP3 -er har tydelige effekter på timbrale og følelsesmessige egenskaper, og har en tendens til å styrke negative følelsesmessige kvaliteter og svekke positive. Studien bemerket videre at trompeten er instrumentet som er mest påvirket av komprimeringen, mens hornet er minst.

Åpenhet

Når en bruker kjøper en lossily komprimert bilde, (for eksempel, for å redusere nedlastingstiden) i den innhentede filer kan være ganske forskjellig fra den opprinnelige på bit -nivå som samtidig er utvisket for det menneskelige øret eller øyet for de fleste praktiske formål. Mange komprimeringsmetoder fokuserer på særegenhetene ved menneskelig fysiologi , for eksempel med tanke på at det menneskelige øyet bare kan se visse bølgelengder av lys. Den psykoakustiske modellen beskriver hvordan lyd kan komprimeres sterkt uten å forringe oppfattet kvalitet. Feil forårsaket av tapende kompresjon som er merkbar for det menneskelige øye eller øre er kjent som kompresjonsartefakter .

Komprimeringsforhold

Den kompresjonsforhold (det vil si størrelsen på den komprimerte filen sammenlignet med den ukomprimerte fil) av lossy video kodeker er nesten alltid langt bedre enn i lyd- og stillbilde ekvivalenter.

  • Video kan komprimeres enormt (f.eks. 100: 1) med lite synlig kvalitetstap
  • Lyd kan ofte komprimeres i 10: 1 med et nesten umerkelig tap av kvalitet
  • Stillbilder blir ofte komprimert tapløst ved 10: 1, som med lyd, men tapet av kvalitet er mer merkbart, spesielt ved nærmere inspeksjon.

Omkoding og redigering

En viktig advarsel om tapskomprimering (formelt transkoding) er at redigering av tapskomprimerte filer forårsaker tap av digital generasjon fra omkodingen. Dette kan unngås ved å bare produsere tapfiler fra (tapsfrie) originaler og bare redigere (kopier av) originalfiler, for eksempel bilder i råbildeformat i stedet for JPEG . Hvis data som er komprimert tapsløst dekodes og komprimeres tapsfritt, kan størrelsen på resultatet være sammenlignbar med størrelsen på dataene før tapskomprimering, men dataene som allerede er tapt, kan ikke gjenopprettes. Når du bestemmer deg for å bruke tapskonvertering uten å beholde originalen, kan formatkonvertering være nødvendig i fremtiden for å oppnå kompatibilitet med programvare eller enheter ( formatskift ), eller for å unngå å betale patentavgifter for dekoding eller distribusjon av komprimerte filer.

Redigering av tapte filer

Ved å endre de komprimerte dataene direkte uten å dekode og omkoding, er det mulig å redigere tapskomprimerte filer uten forringelse av kvaliteten. Redigering som reduserer filstørrelsen som om den hadde blitt komprimert i større grad, men uten mer tap enn dette, er noen ganger også mulig.

JPEG

De primære programmene for tapsfri redigering av JPEG -er er jpegtran, og den avledede exiftran(som også bevarer Exif -informasjon ), og Jpegcrop (som gir et Windows -grensesnitt).

Disse lar bildet være

Selv om uønsket informasjon blir ødelagt, er kvaliteten på den gjenværende delen uendret.

Noen andre transformasjoner er mulig til en viss grad, for eksempel å kombinere bilder med samme koding (komponere side om side, som på et rutenett) eller lime inn bilder (for eksempel logoer) på eksisterende bilder (begge via Jpegjoin ), eller skalering.

Noen endringer kan gjøres i komprimeringen uten omkoding:

  • optimalisering av komprimeringen (for å redusere størrelsen uten å endre det dekodede bildet)
  • konvertering mellom progressiv og ikke-progressiv koding.

Den freeware Windows-only IrfanView har noen lossless JPEG operasjoner i sin JPG_TRANSFORM plugin .

Metadata

Metadata, for eksempel ID3 -tagger , Vorbis -kommentarer eller Exif -informasjon, kan vanligvis endres eller fjernes uten å endre de underliggende dataene.

Nedskalering/komprimert representasjon skalerbarhet

Man kan ønske å nedprøve eller på annen måte redusere oppløsningen til det representerte kildesignalet og mengden data som brukes for den komprimerte representasjonen uten omkoding, som ved bitrate-peeling , men denne funksjonaliteten støttes ikke i alle design, siden ikke alle kodeker koder data i et skjema som gjør at mindre viktige detaljer bare kan slippes. Noen kjente design som har denne funksjonen inkluderer JPEG 2000 for stillbilder og H.264/MPEG-4 AVC- basert skalerbar videokoding for video. Slike ordninger har også blitt standardisert for eldre design, for eksempel JPEG- bilder med progressiv koding, og MPEG-2 og MPEG-4 del 2- video, selv om de tidligere ordningene hadde begrenset suksess når det gjaldt bruk til virkelige vanlige bruksområder. Uten denne kapasiteten, som ofte er tilfelle i praksis, for å produsere en representasjon med lavere oppløsning eller lavere troskap enn en gitt, må man starte med det originale kildesignalet og kode, eller starte med en komprimert representasjon og deretter dekomprimere og re -kode den ( transkoding ), selv om sistnevnte har en tendens til å forårsake tap av digital generasjon .

En annen tilnærming er å kode det originale signalet ved flere forskjellige bithastigheter, og deretter enten velge hvilken du vil bruke (som når du streamer over internett - som i RealNetworks " SureStream " - eller tilbyr varierende nedlastinger, som i Apples iTunes Store ), eller sender flere, der det beste som blir mottatt blir brukt, som i forskjellige implementeringer av hierarkisk modulering . Lignende teknikker brukes i mipmaps , pyramide -representasjoner og mer sofistikerte skala -rommetoder. Noen lydformater har en kombinasjon av et tapsformat og en tapsfri korreksjon som når det kombineres gjengir det originale signalet; korreksjonen kan fjernes og etterlate en mindre, tapskomprimert fil. Slike formater inkluderer MPEG-4 SLS (skalerbar til tapsløs), WavPack , OptimFROG DualStream og DTS-HD Master Audio i tapsfri (XLL) -modus ).

Metoder

Grafikk

Bilde

3D datagrafikk

Video

Lyd

Generell

Tale

Andre data

Forskere har (semi-seriøst) utført tapende komprimering på tekst ved enten å bruke en synonymordbok for å erstatte korte ord med lange ord, eller generative tekstteknikker, selv om disse noen ganger faller inn i den tilhørende kategorien tapskonvertering .

Senker oppløsningen

En generell form for tapskomprimering er å senke oppløsningen til et bilde, som i bildeskalering , spesielt desimering . Man kan også fjerne mindre "lavere informasjon" deler av et bilde, for eksempel ved sømutskjæring . Mange mediatransformasjoner, for eksempel Gauss -uskarphet , er i likhet med tapskomprimering irreversible: det originale signalet kan ikke rekonstrueres fra det transformerte signalet. Generelt vil disse imidlertid ha samme størrelse som originalen og er ikke en form for komprimering. Å senke oppløsningen har praktiske bruksområder, ettersom NASA New Horizons- håndverket overførte miniatyrbilder av møtet med Pluto-Charon før den sendte bildene med høyere oppløsning. En annen løsning for langsomme tilkoblinger er bruken av Image interlacing som gradvis definerer bildet. Dermed er en delvis overføring nok til å forhåndsvise det endelige bildet, i en lavere oppløsning, uten å lage en skalert og en fullversjon også.

Se også

Merknader

  1. ^ Abedi, M .; Sun, B .; Zheng, Z. (juli 2019). "En sinusformet-hyperbolsk familie av transformasjoner med potensielle applikasjoner for kompresjonsfølelse". IEEE -transaksjoner på bildebehandling . 28 (7): 3571–3583. doi : 10.1109/TIP.2019.2912355 . PMID  31071031 .
  2. ^ European Society of Radiology (2011). "Brukervennlighet av irreversibel bildekomprimering ved radiologisk avbildning. Et posisjonspapir av European Society of Radiology (ESR)" . Insights Imaging . 2 (2): 103–115. doi : 10.1007/s13244-011-0071-x . PMC  3259360 . PMID  22347940 .
  3. ^ "Datakomprimering" . Encyclopedia Britannica . Hentet 13. august 2019 .
  4. ^ Ahmed, Nasir ; Natarajan, T .; Rao, KR (januar 1974), "Discrete Cosine Transform", IEEE Transactions on Computers , C-23 (1): 90–93, doi : 10.1109/TC.1974.223784
  5. ^ "T.81-DIGITAL KOMPRESJON OG KODING AV KONTINUERLIGE TONNE STILLET BILDER-KRAV OG RETNINGSLINJER" (PDF) . CCITT. September 1992 . Hentet 12. juli 2019 .
  6. ^ “Selv om et hovedmål med digitale lydperseptuelle kodere er datareduksjon, er dette ikke en nødvendig egenskap. Som vi skal se, kan perseptuell koding brukes til å forbedre representasjonen av digital lyd gjennom avansert bitallokering. ” Maskering og perseptuell koding , Victor Lombardi, noisebetweenstations.com
  7. ^ Svetlik, Joe (5. desember 2016). "MP3 -filer gjør deg mindre glad, sier studien" . Hvilken Hi-Fi? . Hvilken Hi-Fi? . Hentet 17. desember 2018 .
  8. ^ "Nye jpegtran -funksjoner" . sylvana.net . Hentet 2019-09-20 .
  9. ^ a b c d e f Stanković, Radomir S .; Astola, Jaakko T. (2012). "Minner om det tidlige arbeidet i DCT: Intervju med KR Rao" (PDF) . Opptrykk fra informasjonsvitenskapens tidlige dager . 60 . Hentet 13. oktober 2019 .
  10. ^ a b K. R. Rao og JJ Hwang, Techniques and Standards for Image, Video, and Audio Coding , Prentice Hall, 1996; JPEG: Kapittel 8; H.261: Kapittel 9; MPEG-1: Kapittel 10; MPEG-2: Kapittel 11.
  11. ^ Guckert, John (våren 2012). "Bruken av FFT og MDCT i MP3 -lydkomprimering" (PDF) . University of Utah . Besøkt 14. juli 2019 .
  12. ^ Brandenburg, Karlheinz (1999). "MP3 og AAC forklart" (PDF) . Arkivert (PDF) fra originalen 2017-02-13.
  13. ^ Darko, John H. (2017-03-29). "Den upraktiske sannheten om Bluetooth -lyd" . DAR__KO . Arkivert fra originalen 2018-01-14 . Hentet 2018-01-13 .
  14. ^ Ford, Jez (2015-08-24). "Hva er Sony LDAC, og hvordan gjør den det?" . AVHub . Hentet 2018-01-13 .
  15. ^ Ford, Jez (2016-11-22). "aptX HD - lossless or lossy?" . AVHub . Hentet 2018-01-13 .
  16. ^ IH WITTEN; et al. "Semantiske og generative modeller for tap av tekstkomprimering" (PDF) . Datamaskinen Journal . Hentet 2007-10-13 .

Eksterne linker

( Wayback Machine -kopi)