Nettarkivering - Web archiving

Nettarkivering er prosessen med å samle deler av World Wide Web for å sikre at informasjonen blir bevart i et arkiv for fremtidige forskere, historikere og publikum. Nettarkivarer bruker vanligvis webcrawlere for automatisk fangst på grunn av den enorme størrelsen og mengden informasjon på nettet. Den største webarkiveringsorganisasjonen basert på en bulk -gjennomsøkingstilnærming er Wayback Machine , som streber etter å opprettholde et arkiv over hele nettet.

Den økende delen av menneskelig kultur som er opprettet og registrert på nettet, gjør det uunngåelig at flere og flere biblioteker og arkiver må møte utfordringene ved nettarkivering. Nasjonale biblioteker , nasjonale arkiver og ulike organisasjonskonsortier er også involvert i arkivering av kulturelt viktig webinnhold.

Kommersiell programvare og tjenester for webarkivering er også tilgjengelig for organisasjoner som trenger å arkivere sitt eget webinnhold for bedriftsarv, regulatoriske eller juridiske formål.

Historie og utvikling

Selv om kurering og organisering av nettet har vært utbredt siden midten til slutten av 1990-tallet, var et av de første store webarkiveringsprosjektene Internet Archive , en ideell organisasjon opprettet av Brewster Kahle i 1996. Internet Archive utgitt sin egen søkemotor for visning av arkivert webinnhold, Wayback Machine , i 2001. Fra og med 2018 hadde Internet Archive 40 petabyte med data. Internettarkivet utviklet også mange av sine egne verktøy for å samle og lagre dataene sine, inkludert Petabox for å lagre de store datamengdene effektivt og trygt, og Hertrix, en webcrawler utviklet i samarbeid med de nordiske nasjonale bibliotekene. Andre prosjekter som ble lansert omtrent samtidig inkluderer Australias Pandora og Tasmanian webarkiver og Sveriges Kulturarw3.

Fra 2001 til 2010 ga International Web Archiving Workshop (IWAW) en plattform for å dele erfaringer og utveksle ideer. Den International Internet Preservation Consortium (IIPC) , etablert i 2003, har mulig internasjonalt samarbeid i utviklingen av standarder og åpen kildekode-verktøy for å lage web-arkiver.

Det nå nedlagte Internet Memory Foundation ble grunnlagt i 2004 og grunnlagt av Europakommisjonen for å arkivere nettet i Europa. Dette prosjektet utviklet og ga ut mange åpen kildekodeverktøy, for eksempel "opptak av rich media, tidsmessig kohærensanalyse, spamvurdering og terminologiutviklingsdeteksjon." Dataene fra stiftelsen ligger nå på internettarkivet, men er foreløpig ikke offentlig tilgjengelig.

Til tross for at det ikke er et sentralisert ansvar for bevaring, blir webinnhold raskt den offisielle rekorden. For eksempel bekreftet USAs justisdepartement i 2017 at regjeringen behandler presidentens tweets som offisielle uttalelser.

Samler på nettet

Nettarkivarer arkiverer vanligvis forskjellige typer webinnhold, inkludert HTML -websider , stilark , JavaScript , bilder og video . De arkiverer også metadata om de innsamlede ressursene, for eksempel tilgangstid, MIME -type og innholdslengde. Disse metadataene er nyttige for å fastslå ektheten og opprinnelsen til den arkiverte samlingen.

Metoder for innsamling

Fjernhøsting

Den vanligste webarkiveringsteknikken bruker webcrawlere til å automatisere prosessen med å samle inn websider . Webcrawlere får vanligvis tilgang til nettsider på samme måte som brukere med en nettleser ser på nettet, og tilbyr derfor en relativt enkel metode for fjerning av webinnhold. Eksempler på webcrawlere som brukes til webarkivering inkluderer:

Det finnes forskjellige gratis tjenester som kan brukes til å arkivere webressurser "on-demand" ved bruk av webgjennomgangsteknikker. Disse tjenestene inkluderer Wayback Machine og WebCite .

Databasearkivering

Databasearkivering refererer til metoder for å arkivere det underliggende innholdet på databasedrevne nettsteder. Det krever vanligvis utvinning av databaseinnhold til et standard skjema , ofte ved hjelp av XML . Når det er lagret i det standardformatet, kan det arkiverte innholdet i flere databaser gjøres tilgjengelig ved hjelp av et enkelt tilgangssystem. Denne tilnærmingen eksemplifiseres av DeepArc- og Xinq -verktøyene utviklet av henholdsvis Bibliothèque Nationale de France og National Library of Australia . DeepArc gjør det mulig å kartlegge strukturen til en relasjonsdatabase til et XML -skjema , og innholdet eksporteres til et XML -dokument. Xinq lar deretter innholdet leveres online. Selv om det opprinnelige oppsettet og oppførselen til nettstedet ikke kan bevares nøyaktig, tillater Xinq at den grunnleggende spørrings- og hentefunksjonaliteten kan replikeres.

Transaksjonell arkivering

Transaksjonsarkivering er en hendelsesdrevet tilnærming, som samler de faktiske transaksjonene som finner sted mellom en webserver og en nettleser . Det brukes først og fremst som et middel til å bevare bevis på innholdet som faktisk ble sett på et bestemt nettsted , på en gitt dato. Dette kan være spesielt viktig for organisasjoner som må overholde lov- eller forskriftskrav for å avsløre og beholde informasjon.

Et transaksjonsarkiveringssystem fungerer vanligvis ved å fange opp hver HTTP -forespørsel til og svar fra webserveren, filtrere hvert svar for å eliminere duplisert innhold og permanent lagre svarene som bitstrømmer.

Vanskeligheter og begrensninger

Crawlers

Nettarkiver som er avhengige av webgjennomgang som deres primære virkemiddel for å samle på nettet, påvirkes av vanskelighetene med webgjennomgang:

  • Den utestenging roboter protokollen kan be robotene ikke tilgang til deler av en nettside. Noen webarkivarer kan ignorere forespørselen og gjennomsøke disse delene uansett.
  • Store deler av et nettsted kan være skjult i Deep Web . For eksempel kan resultatsiden bak et nettskjema ligge i Deep Web hvis søkeroboter ikke kan følge en lenke til resultatsiden.
  • Crawler -feller (f.eks. Kalendere) kan føre til at en crawler laster ned et uendelig antall sider, så crawlers er vanligvis konfigurert til å begrense antallet dynamiske sider de gjennomsøker.
  • De fleste arkiveringsverktøyene fanger ikke siden slik den er. Det observeres at annonsebannere og bilder ofte blir savnet under arkivering.

Imidlertid er det viktig å merke seg at et webarkiv i originalformat, det vil si et fullt surfbart webarkiv, med koblinger, medier osv., Egentlig bare er mulig ved bruk av crawler -teknologi.

Nettet er så stort at det å gjennomgå en betydelig del av det tar et stort antall tekniske ressurser. Nettet endres så raskt at deler av et nettsted kan endres før en robotsøkeprogram engang er ferdig med å gjennomsøke det.

Generelle begrensninger

Noen webservere er konfigurert til å returnere forskjellige sider til webarkiverforespørsler enn de ville som svar på vanlige nettleserforespørsler. Dette gjøres vanligvis for å lure søkemotorer til å lede mer brukertrafikk til et nettsted, og gjøres ofte for å unngå ansvarlighet, eller for å gi forbedret innhold bare til de nettleserne som kan vise det.

Nettarkivarer må ikke bare håndtere de tekniske utfordringene ved nettarkivering, de må også kjempe med lover om åndsverk. Peter Lyman uttaler at "selv om nettet populært blir sett på som en ressurs for allmennheten , er det opphavsrettsbeskyttet ; arkivarer har derfor ingen juridisk rett til å kopiere nettet". Imidlertid har nasjonale biblioteker i noen land en juridisk rett til å kopiere deler av nettet under en forlengelse av et lovlig depositum .

Noen private non-profit webarkiver som er gjort offentlig tilgjengelige, for eksempel WebCite , Internet Archive eller Internet Memory Foundation, lar innholdseiere skjule eller fjerne arkivert innhold som de ikke vil at publikum skal ha tilgang til. Andre webarkiver er bare tilgjengelige fra bestemte steder eller har regulert bruk. WebCite siterer et nylig søksmål mot Googles bufring, som Google vant.

Lover

I 2017 offentliggjorde Financial Industry Regulatory Authority, Inc. (FINRA), en finansinstitusjon i USA, en melding om at alle virksomhetene som driver digital kommunikasjon er påkrevd for å føre journal. Dette inkluderer nettstedsdata, innlegg på sosiale medier og meldinger. Noen opphavsrettslovgivninger kan hemme webarkivering. For eksempel faller akademisk arkivering av Sci-Hub utenfor grensene for samtidens opphavsrettslov. Nettstedet gir varig tilgang til akademiske arbeider, inkludert de som ikke har en åpen tilgangslisens , og bidrar dermed til arkivering av vitenskapelig forskning som ellers kan gå tapt.

Se også

Referanser

Sitater

Generell bibliografi

Eksterne linker