Wayback Machine - Wayback Machine

fra Wikipedia, den frie encyklopedi

Wayback-maskin
Stilisert tekst som sier: "INTERNET ARKIV WAYBACK MACHINE".  Teksten er i svart, bortsett fra "WAYBACK", som er i rødt.
Skjermbilde
Type nettsted
Arkiv
Området servert Over hele verden (unntatt Kina)
Eieren Internett-arkiv
URL web .arkiv .org Rediger dette på Wikidata
Registrering Valgfri
Lanserte 24. oktober 2001 ; For 19 år siden  ( 2001-10-24 )
Nåværende status Aktiv
Skrevet i Java , Python

The Wayback Machine er en digital arkiv av World Wide Web , grunnlagt av Internet Archive , en nonprofit bibliotek basert i San Francisco . Det lar brukeren gå "tilbake i tid" og se hvordan nettsteder så ut tidligere. Grunnleggerne, Brewster Kahle og Bruce Gilliat , utviklet Wayback Machine med den hensikt å gi "universell tilgang til all kunnskap" ved å bevare arkiverte kopier av nedlagte nettsider.

Siden lanseringen i 1996 har over 544 milliarder sider blitt lagt til i arkivet. Tjenesten har også utløst kontrovers om hvorvidt oppretting av arkiverte sider uten eierens tillatelse utgjør brudd opphavsretten i visse jurisdiksjoner.

Historie

Internet Archive grunnleggere Brewster Kahle og Bruce Gilliat lanserte Wayback Machine i oktober 2001 for å ta opp problemet med nettstedets innhold forsvinner når det blir endret, eller når et nettsted er stengt. Tjenesten gjør det mulig for brukere å se arkiverte versjoner av websider over tid, som arkivet kaller en "tredimensjonal indeks". Kahle og Gilliat opprettet maskinen i håp om å arkivere hele Internett og gi "universell tilgang til all kunnskap."

Navnet Wayback Machine ble valgt som en referanse til en fiktiv tidsreisende enhet, " Wayback Machine ", brukt av karakterene Mister Peabody og Sherman i den animerte tegneserien The Adventures of Rocky and Bullwinkle and Friends fra 1960-tallet. I en av de animerte tegneseriens komponentsegmenter, Peabody's Improbable History , brukte karakterene rutinemessig maskinen til å være vitne til, delta i og ofte endre berømte hendelser i historien.

Wayback Machine begynte å arkivere hurtigbufrede nettsider i mai 1996, med målet om å gjøre tjenesten offentlig fem år senere. Fra 1996 til 2001 ble informasjonen holdt på digitalt bånd, med Kahle som av og til tillot forskere og forskere å benytte seg av den klumpete databasen . Da arkivet nådde femårsdagen i 2001, ble det avduket og åpnet for publikum ved en seremoni ved University of California, Berkeley . Da Wayback Machine ble lansert, inneholdt den allerede over 10 milliarder arkiverte sider.

Dataene lagres i Internet Archive sin store klynge av Linux- noder. Den besøker og arkiverer nye versjoner av nettsteder noen ganger (se tekniske detaljer nedenfor). Nettsteder kan også fanges opp manuelt ved å legge inn nettadressen til et nettsted i søkeboksen, forutsatt at nettstedet lar Wayback Machine "gjennomsøke" det og lagre dataene. 30. oktober 2020 begynte Wayback Machine med faktasjekk av innhold.

Tekniske detaljer

Programvare er utviklet for å "gjennomsøke" Internett og laste ned all offentlig tilgjengelig informasjon og datafiler på nettsider, Gopher- hierarkiet, Netnews (Usenet) oppslagstavlesystem og nedlastbar programvare. Informasjonen som samles inn av disse "crawlerne" inkluderer ikke all informasjon som er tilgjengelig på Internett, siden mye av dataene er begrenset av utgiveren eller er lagret i databaser som ikke er tilgjengelige. For å overvinne uoverensstemmelser i delvis bufrede nettsteder, ble Archive-It.org utviklet i 2005 av Internet Archive som et middel for å la institusjoner og innholdsskapere frivillig høste og bevare samlinger av digitalt innhold, og lage digitale arkiver.

Gjennomsøk er bidratt fra forskjellige kilder, noen importert fra tredjeparter og andre generert internt av arkivet. For eksempel er gjennomsøking bidratt av Sloan Foundation og Alexa , gjennomsøk som drives av IA på vegne av NARA og Internet Memory Foundation , speil av Common Crawl . "Worldwide Web Crawls" har kjørt siden 2010 og fanger det globale nettet.

Hyppigheten av øyeblikksbildeopptak varierer fra hvert nettsted. Nettsteder i "verdensomspennende nettgjennomganger" er inkludert i en "gjennomsøkingsliste", med nettstedet arkivert en gang per gjennomsøking. Det kan ta måneder eller år å gjennomføre en gjennomgang, avhengig av størrelse. For eksempel startet "Wide Crawl Number 13" 9. januar 2015 og fullførte 11. juli 2016. Det kan imidlertid være flere gjennomganger på gangen til enhver tid, og et nettsted kan inkluderes i mer enn én gjennomsøkingsliste, så hvor ofte et nettsted blir gjennomsøkt, varierer mye.

Fra og med oktober 2019 er brukere begrenset til 5 arkivforespørsler og gjenfinning per minutt.

Lagringskapasitet og vekst

Etter hvert som teknologien har utviklet seg gjennom årene, har lagringskapasiteten til Wayback Machine vokst. I 2003, etter bare to år med offentlig tilgang, vokste Wayback Machine med en hastighet på 12 terabyte / måned. Dataene lagres på PetaBox rack-systemer som er spesialdesignet av Internet Archive-ansatte. Det første 100 TB-stativet ble fullt operativt i juni 2004, selv om det snart ble klart at de ville trenge mye mer lagringsplass enn det.

Internet Archive migrerte sin tilpassede lagringsarkitektur til Sun Open Storage i 2009, og er vert for et nytt datasenter i et Sun Modular Datacenter Sun Microsystems 'campus i California. Fra og med 2009 inneholdt Wayback Machine omtrent tre petabyte data og vokste med en hastighet på 100 terabyte hver måned.

En ny, forbedret versjon av Wayback Machine, med et oppdatert grensesnitt og en ferskere indeks over arkivert innhold, ble gjort tilgjengelig for offentlig testing i 2011. I mars det året ble det sagt på Wayback Machine-forumet at "Beta of the nye Wayback Machine har en mer komplett og oppdatert indeks over alle gjennomsøkte materialer inn i 2010, og vil fortsette å bli oppdatert jevnlig. Indeksen som kjører den klassiske Wayback Machine har bare litt materiale siste 2008, og ingen ytterligere indeks oppdateringer er planlagt, siden det vil bli faset ut i år. " Også i 2011 installerte internettarkivet sitt sjette par PetaBox-stativer som økte Wayback-maskinens lagringskapasitet med 700 terabyte.

I januar 2013 kunngjorde selskapet en banebrytende milepæl på 240 milliarder nettadresser.

I oktober 2013 introduserte selskapet funksjonen "Lagre en side" som lar enhver Internett-bruker arkivere innholdet i en URL, og genererer raskt en permanent lenke i motsetning til den forrige liveweb- funksjonen.

I desember 2014 inneholdt Wayback Machine 435 milliarder websider - nesten ni petabyte med data, og vokste med rundt 20 terabyte i uken.

I mars 2015 ble sikkerhetsforskere oppmerksomme på trusselen fra tjenestens utilsiktede vert for ondsinnede binærfiler fra arkiverte nettsteder.

I juli 2016 inneholdt angivelig Wayback Machine rundt 15 petabyte data.

I september 2018 inneholdt Wayback Machine over 25 petabyte data.

Fra desember 2020 inneholdt Wayback Machine over 70 petabyte data.

Wayback maskinvekst
Wayback Machine etter år Sider arkivert (milliarder)
2005
40
2008
85
2012
150
2013
373
2014
400
2015
452
2020
514

Mellom oktober 2013 og mars 2015 endret nettstedets globale Alexa-rangering fra 163 til 208. I mars 2019 var rangeringen på 244.

Retningslinjer for ekskludering av nettsteder

Historisk har Wayback Machine respektert robotenes ekskluderingsstandard (robots.txt) for å avgjøre om et nettsted vil bli gjennomsøkt - eller om det allerede er blitt gjennomsøkt, om arkivene vil være offentlig synlige. Nettstedeiere hadde muligheten til å velge bort Wayback Machine gjennom bruk av robots.txt. Den anvendte robots.txt-regler med tilbakevirkende kraft; Hvis et nettsted blokkerte Internett-arkivet, ble tidligere arkiverte sider fra domenet umiddelbart gjort utilgjengelige også. I tillegg uttalte Internett-arkivet at "Noen ganger vil en nettsideeier kontakte oss direkte og be oss om å slutte å gjennomsøke eller arkivere et nettsted. Vi oppfyller disse forespørslene." I tillegg sier nettstedet: "Internettarkivet er ikke interessert i å bevare eller tilby tilgang til nettsteder eller andre internettdokumenter til personer som ikke vil ha materialet sitt i samlingen."

17. april 2017 kom det opp rapporter om nettsteder som hadde blitt avviklet og ble parkerte domener som brukte robots.txt for å ekskludere seg fra søkemotorer, noe som resulterte i at de utilsiktet ble ekskludert fra Wayback Machine. Internett-arkivet endret policyen slik at den nå krever en eksplisitt ekskluderingsforespørsel for å fjerne den fra Wayback Machine.

Oakland Archive Policy

Waybacks politikk for utelukkelse med tilbakevirkende kraft er delvis basert på Anbefalinger for håndtering av forespørsler om fjerning og bevaring av arkivintegritet publisert av School of Information Management and Systems ved University of California, Berkeley i 2002, noe som gir eieren av nettstedet rett til å blokkere tilgang til nettstedets arkiver. . Wayback har overholdt denne policyen for å unngå dyre søksmål.

Wayback-politikken for retroaktiv ekskludering begynte å slappe av i 2017, da den sluttet å hedre robots.txt på amerikanske myndigheter og militære nettsteder for både gjennomsøking og visning av websider. Fra april 2017 ignorerer Wayback robots.txt bredere, ikke bare for amerikanske myndigheters nettsteder.

Bruker

Fra den offentlige lanseringen i 2001 har Wayback Machine blitt studert av forskere både for måter den lagrer og samler inn data, så vel som for de faktiske sidene i arkivet. Fra 2013 hadde forskere skrevet om lag 350 artikler på Wayback Machine, hovedsakelig fra informasjonsteknologi, bibliotekvitenskap og samfunnsvitenskapelige felt. Samfunnsvitenskapelige forskere har brukt Wayback Machine til å analysere hvordan utviklingen av nettsteder fra midten av 1990-tallet til i dag har påvirket selskapets vekst.

Når Wayback Machine arkiverer en side, inneholder den vanligvis de fleste hyperkoblingene, og holder disse lenkene aktive når de like lett kunne ha blitt ødelagt av internettets ustabilitet. Forskere i India studerte effektiviteten av Wayback Machine evne til å lagre hyperkoblinger i vitenskapelige publikasjoner på nettet og fant at den sparte litt mer enn halvparten av dem.

"Journalister bruker Wayback-maskinen til å se døde nettsteder, daterte nyhetsrapporter og endringer i innholdet på nettstedet. Innholdet har blitt brukt til å holde politikere ansvarlige og avsløre løgn på slagmarken." I 2014 viste en arkivert side på sosiale medier av Igor Girkin , en separatistisk opprørsleder i Ukraina, at han kunne skryte av at troppene hans hadde skutt ned et mistenkt ukrainsk militærfly før det ble kjent at flyet faktisk var et sivilt Malaysian Airlines-jetfly ( Malaysia Airlines Flight 17 ), hvoretter han slettet innlegget og beskyldte Ukrainas militær for å ha nedstøt flyet. I 2017 stammer mars for vitenskap fra en diskusjon på Reddit som antydet at noen hadde besøkt Archive.org og oppdaget at alle referanser til klimaendringer var slettet fra nettstedet til Det hvite hus. Som svar kommenterte en bruker: "Det må være en forskermarsj på Washington".

Videre brukes nettstedet tungt for verifisering, og gir tilgang til referanser og innholdsoppretting av Wikipedia-redaktører .

I september 2020 ble et partnerskap kunngjort med Cloudflare for automatisk å arkivere nettsteder som ble servert via tjenesten "Always Online", som også vil tillate det å dirigere brukere til kopien av nettstedet hvis den ikke kan nå den opprinnelige verten.

Begrensninger

I 2014 var det seks måneders forsinkelse mellom et nettsted ble gjennomsøkt og da det ble tilgjengelig for visning i Wayback Machine. For tiden er forsinkelsestiden 3 til 10 timer. Wayback Machine tilbyr bare begrensede søkefasiliteter. Funksjonen "Site Search" lar brukerne finne et nettsted basert på ord som beskriver nettstedet, i stedet for ord som finnes på websidene selv.

Wayback Machine inkluderer ikke alle nettsider som noensinne er laget på grunn av begrensningene til sin web-crawler. Wayback Machine kan ikke arkivere websider som inneholder interaktive funksjoner som Flash-plattformer og skjemaer skrevet i JavaScript og progressive webapplikasjoner , fordi disse funksjonene krever interaksjon med vertsnettstedet. Dette betyr at siden juni 2013 har Wayback Machine ikke vært i stand til å vise YouTube-kommentarer når de lagrer YouTube-sider, ettersom arkivteamet ifølge kommentarene ikke lenger "lastes inn på selve siden." Wayback Maskins web-crawler har problemer med å trekke ut noe som ikke er kodet i HTML eller en av variantene, noe som ofte kan føre til ødelagte hyperkoblinger og manglende bilder. På grunn av dette kan ikke web-crawler arkivere "foreldreløse sider" som ikke er lenket til av andre sider. Wayback Machine's crawler følger bare et forhåndsbestemt antall hyperkoblinger basert på en forhåndsinnstilt dybdegrense, så den kan ikke arkivere alle hyperkoblinger på hver side.

Fra og med april 2018 har administrativt ansatte i Wayback Maskins arkivteam håndhevet kvartalmånedersregelen, ved av og til å slette tidsintervaller på 23 dager eller 39 dager (henholdsvis 3/4 og 5/4 av en måned), for å reduser køstørrelsen.

I juridiske bevis

Søksmål

Netbula LLC mot Chordiant Software Inc.

I en 2009-sak, Netbula, LLC mot Chordiant Software Inc. , innkalte tiltalte Chordiant en bevegelse om å tvinge Netbula til å deaktivere robots.txt- filen på nettstedet sitt som førte til at Wayback Machine med tilbakevirkende kraft fjernet tilgang til tidligere versjoner av sider den hadde. arkivert fra Netbulas nettsted, sider som Chordiant mente ville støtte saken.

Netbula protesterte mot forslaget på bakgrunn av at tiltalte ba om å endre Netbulas nettsted, og at de burde ha stevnet Internet Archive for sidene direkte. En ansatt i Internet Archive arkiverte en sverget uttalelse som støttet Chordiants forslag, men sa at den ikke kunne produsere websidene på noen annen måte "uten betydelig byrde, utgifter og forstyrrelser i driften."

Dommer Howard Lloyd i Northern District of California, San Jose Division, avviste Netbulas argumenter og beordret dem til å deaktivere blokkeringen av robots.txt midlertidig for å la Chordiant hente de arkiverte sidene de søkte.

Telewizja Polska USA, Inc. mot Echostar Satellite

I en sak i oktober 2004, Telewizja Polska USA, Inc. mot Echostar Satellite , nr. 02 C 3293, 65 Fed. R. Evid. Serv. 673 (ND Ill. 15. oktober 2004) forsøkte en rettsmann å bruke Wayback Machine-arkivene som en kilde til tillatt bevis, kanskje for første gang. Telewizja Polska er leverandør av TVP Polonia og EchoStar driver Dish Network . Før rettssaken indikerte EchoStar at den hadde til hensikt å tilby øyeblikksbilder av Wayback Machine som bevis på tidligere innhold på Telewizja Polskas nettsted. Telewizja Polska fremmet en begrensning om å undertrykke øyeblikksbildene på grunnlag av hørselshemmende og uautentisert kilde, men dommer Arlander Keys avviste Telewizja Polskas påstand om hørselssak og nektet TVPs bevegelse for å utelukke bevisene under rettssaken. Under rettssaken tilsidesatte imidlertid tingrettsdommer Ronald Guzman, rettsdommeren, Magistrate Keys 'funn, og mente at verken erklæringen til Internet Archive-medarbeideren eller de underliggende sidene (dvs. Telewizja Polska-nettstedet) var tillatt som bevis. Dommer Guzman resonnerte at den ansattes erklæring inneholdt både hørselshemmende og utydelige støtteuttalelser, og den påståtte websiden, utskrifter var ikke autentiserende.

Patentrett

Forutsatt at noen tilleggskrav er oppfylt (for eksempel å gi en autoritativ uttalelse fra arkivaren), vil USAs patentkontor og European Patent Office akseptere datostempler fra Internet Archive som bevis på når en gitt webside var tilgjengelig for publikum. Disse datoene brukes til å avgjøre om en webside er tilgjengelig som kjent teknikk, for eksempel i behandlingen av en patentsøknad.

Begrensninger av bruken

Det er tekniske begrensninger for arkivering av et nettsted, og som en konsekvens er det mulig for motpartene i søksmål å misbruke resultatene fra nettstedsarkivene. Dette problemet kan forverres ved å sende skjermbilder av websider i klager, svar eller ekspertvitnerapporter når de underliggende koblingene ikke blir avslørt og derfor kan inneholde feil. For eksempel fyller arkiver som Wayback Machine ikke ut skjemaer, og inkluderer derfor ikke innholdet i ikke- RESTful e-handelsdatabaser i arkivene.

Lovlig status

I Europa kan Wayback Machine tolkes som brudd lov om opphavsrett . Bare innholdsskaperen kan bestemme hvor innholdet deres skal publiseres eller dupliseres, så arkivet må slette sider fra systemet på forespørsel fra skaperen. Utelukkelsesretningslinjene for Wayback Machine finner du i FAQ-delen på nettstedet.

Arkiverte innhold juridiske problemer

En rekke saker har blitt anlagt mot Internet Archive spesielt for Wayback Machine-arkiveringsarbeidet.

Scientologi

På slutten av 2002 fjernet Internett-arkivet forskjellige nettsteder som var kritiske mot Scientology fra Wayback Machine. En feilmelding sa at dette var som svar på en "forespørsel fra sideeieren". Senere ble det presisert at advokater fra Scientology kirken hadde krevd fjerning og at nettstedseierne ikke ønsket at materialet deres skulle fjernes.

Healthcare Advocates, Inc.

I 2003 forsvarte Harding Earley Follmer & Frailey en klient fra en varemerkekonflikt ved hjelp av Archive's Wayback Machine. Advokatene kunne demonstrere at påstandene fra saksøkeren var ugyldige, basert på innholdet på nettstedet deres fra flere år tidligere. Saksøkeren, Healthcare Advocates, endret deretter klagen slik at den inkluderte Internet Archive, og beskyldte organisasjonen for brudd på opphavsretten samt brudd på DMCA og lov om datamisbruk og misbruk . Healthcare Advocates hevdet at siden de hadde installert en robots.txt- fil på nettstedet deres, selv om etter at den opprinnelige søksmålet ble anlagt, burde arkivet ha fjernet alle tidligere eksemplarer av saksøkerens nettsted fra Wayback Machine, men noe materiale fortsatte å være offentlig synlig på Wayback. Søksmålet ble avgjort utenfor retten, etter at Wayback løste problemet.

Suzanne Shell

Activist Suzanne Shell anlagt sak i desember 2005, krevende Internet Archive betale henne US $ 100.000 for arkivering hennes nettside profane-justice.org mellom 1999 og 2004. Internet Archive innlevert en fastsettelsesdom handling i USA District Court for Northern District of California på 20. januar 2006, og søkte en rettslig avgjørelse om at Internet Archive ikke brøt Shells copyright . Shell svarte og førte en counter mot Internet Archive for arkivering nettstedet hennes, som hun påstår er i strid med hennes vilkårene for tjenesten . 13. februar 2007 avviste en dommer for USAs tingrett for distriktet Colorado alle motkrav unntatt kontraktsbrudd . Internett-arkivet flyttet ikke for å avvise påstander om brudd på opphavsretten, hevdet Shell som følge av kopieringsaktivitetene, noe som også ville fortsette.

25. april 2007 kunngjorde Internet Archive og Suzanne Shell i fellesskap forliket for søksmålet. Nettarkivet sa at det "... ikke har noen interesse i å inkludere materiale i Wayback-maskinen til personer som ikke ønsker å få arkivert webinnholdet. Vi anerkjenner at MS har gyldig og håndhevbar copyright på hennes nettsted, og vi beklager at inkluderingen av nettstedet hennes i Wayback Machine resulterte i denne rettssaken. " Shell sa: "Jeg respekterer den historiske verdien av Internet Archive's mål. Jeg hadde aldri til hensikt å forstyrre dette målet eller skade det."

Daniel Davydiuk

Mellom 2013 og 2016 prøvde en pornografisk skuespiller ved navn Daniel Davydiuk å fjerne arkiverte bilder av seg selv fra Wayback Machines arkiv, først ved å sende flere DMCA-forespørsler til arkivet, og deretter ved å anke til Federal Court of Canada .

Sensur og andre trusler

Archive.org er for øyeblikket blokkert i Kina . Etter at den islamske statens terrororganisasjon ble forbudt, hadde Internett-arkivet blitt blokkert i sin helhet i Russland som vert for en oppsøkende video fra den organisasjonen, for en kort periode i 2015–16. Siden 2016 har nettstedet vært tilbake, tilgjengelig i sin helhet, selv om lokale kommersielle lobbyister saksøker nettarkivet i en lokal domstol for å forby det på grunnlag av copyright.

Alison Macrina , direktør for Library Freedom Project, bemerker at "mens bibliotekarer setter stor pris på individets privatliv, er vi også sterkt imot sensur".

Det er kjente sjeldne tilfeller der online tilgang til innhold som "for ingenting" har satt mennesker i fare, ble deaktivert av nettstedet.

Andre trusler inkluderer naturkatastrofer, ødeleggelse (ekstern eller fysisk), manipulering av arkivets innhold (se også: cyberangrep , sikkerhetskopi ), problematiske lover om opphavsrett og overvåking av nettstedets brukere.

Alexander Rose, administrerende direktør for Long Now Foundation , mistenker at på lang sikt i flere generasjoner "nesten ingenting" vil overleve på en nyttig måte og sier: "Hvis vi har kontinuitet i vår teknologiske sivilisasjon, mistenker jeg mye bare data vil forbli søkbare og søkbare. Men jeg mistenker at nesten ingenting av formatet de ble levert i vil være gjenkjennelig "fordi nettsteder" med dype bakenden av innholdsstyringssystemer som Drupal og Ruby og Django "er vanskeligere å arkiv.

I en artikkel som reflekterer over bevaring av menneskelig kunnskap, har The Atlantic kommentert at Internet Archive, som beskriver seg å være bygget på lang sikt, "jobber rasende med å fange inn data før det forsvinner uten noen langsiktig infrastruktur for å snakke. av."

Se også

Referanser

Eksterne linker