Wayback Machine - Wayback Machine

Wayback -maskin
Stilisert tekst som sier: "INTERNET ARCHIVE WAYBACK MACHINE".  Teksten er i svart, bortsett fra "WAYBACK", som er i rødt.
Type nettsted
Arkiv
Området servert På verdensbasis ( unntatt Kina og Bahrain )
Eieren Internettarkiv
URL web .arkiv .org Rediger dette på Wikidata
Registrering Valgfri
Lanserte 12. mai 1996 ; 25 år siden (privat) 24. oktober 2001 ; 19 år siden (offentlig) ( 1996-05-12 )
 ( 2001-10-24 )
Nåværende status Aktiv
Skrevet inn Java , Python

The Wayback Machine er en digital arkiv av World Wide Web . Det ble grunnlagt av Internet Archive , et ideelt bibliotek med base i San Francisco , California . Den ble opprettet i 1996 og lansert for publikum i 2001, og lar brukeren gå "tilbake i tid" og se hvordan nettsteder så ut tidligere. Grunnleggerne, Brewster Kahle og Bruce Gilliat , utviklet Wayback Machine for å gi "universell tilgang til all kunnskap" ved å bevare arkiverte kopier av nedlagte websider.

Siden opprettelsen i 1996 har over 613 milliarder sider blitt lagt til i arkivet. Tjenesten har også skapt kontrovers om hvorvidt opprettelse av arkiverte sider uten eierens tillatelse utgjør bruddopphavsretten i visse jurisdiksjoner.

Historie

Wayback Machine begynte å arkivere bufrede websider 12. mai 1996, med målet om å gjøre tjenesten offentlig fem år senere.

Grunnleggerne av Internet Archive Brewster Kahle og Bruce Gilliat lanserte Wayback Machine i San Francisco , California , i oktober 2001, først og fremst for å løse problemet med at nettstedets innhold forsvinner når det endres eller når et nettsted blir stengt. Tjenesten lar brukerne se arkiverte versjoner av websider over tid, som arkivet kaller en "tredimensjonal indeks". Kahle og Gilliat opprettet maskinen i håp om å arkivere hele Internett og gi "universell tilgang til all kunnskap". Navnet "Wayback Machine" er en referanse til en fiktiv enhet for tidsreise og oversettelse, " Wayback Machine ", brukt av karakterene Mister Peabody og Sherman i den animerte tegneserien The Adventures of Rocky and Bullwinkle and Friends . I et av tegneseriesegmentene, "Peabody's Improbable History", brukte karakterene maskinen til å være vitne til, delta i og ofte endre kjente hendelser i historien.

Fra 1996 til 2001 ble informasjonen lagret på digitalt bånd, med Kahle som noen ganger tillot forskere og forskere å benytte seg av den "klumpete" databasen . Da arkivet nådde femårsdagen i 2001, ble det avduket og åpnet for publikum i en seremoni ved University of California, Berkeley . Da Wayback Machine ble lansert, inneholdt den allerede over 10 milliarder arkiverte sider. Dataene lagres på Internet Archives store klynge Linux -noder. Den besøker og arkiverer noen ganger nye versjoner av nettsteder (se tekniske detaljer nedenfor). Nettsteder kan også fanges opp manuelt ved å skrive inn et nettsteds URL i søkeboksen, forutsatt at nettstedet lar Wayback Machine "gjennomsøke" det og lagre dataene.

30. oktober 2020 begynte Wayback Machine faktakontroll av innhold.

Tekniske detaljer

Programvare er utviklet for å "gjennomsøke" Internett og laste ned all offentlig tilgjengelig informasjon og datafiler på nettsider, Gopher -hierarkiet, Netnews (Usenet) oppslagstavelsystem og nedlastbar programvare. Informasjonen som samles inn av disse "søkerobotene" inkluderer ikke all informasjon som er tilgjengelig på Internett, siden mye av dataene er begrenset av utgiveren eller lagret i databaser som ikke er tilgjengelige. For å overvinne inkonsekvenser på delvis bufrede nettsteder ble Archive-It.org utviklet i 2005 av Internettarkivet som et middel for å la institusjoner og innholdsskapere frivillig høste og bevare samlinger av digitalt innhold, og lage digitale arkiver.

Gjennomsøk er bidratt fra forskjellige kilder, noen importert fra tredjeparter og andre generert internt av arkivet. For eksempel er gjennomsøkelser bidratt med Sloan Foundation og Alexa , gjennomsøkelser som drives av IA på vegne av NARA og Internet Memory Foundation , speil av Common Crawl . "Worldwide Web Crawls" har kjørt siden 2010 og fanget det globale nettet.

Hyppigheten av øyeblikksbilder fanges av per nettsted. Nettsteder i "Worldwide Web Crawls" er inkludert i en "gjennomsøkingsliste", med nettstedet arkivert en gang per gjennomsøking. En gjennomgang kan ta måneder eller til og med år å fullføre, avhengig av størrelse. For eksempel startet "Wide Crawl Number 13" 9. januar 2015 og fullført 11. juli 2016. Imidlertid kan det være flere gjennomsøkinger på en gang, og et nettsted kan være inkludert i mer enn én gjennomsøkingsliste, så hvor ofte et nettsted blir gjennomsøkt varierer mye.

Fra oktober 2019 er brukerne begrenset til 5 arkivforespørsler og hentinger per minutt.

Lagringskapasitet og vekst

Etter hvert som teknologien har utviklet seg gjennom årene, har lagringskapasiteten til Wayback -maskinen vokst. I 2003, etter bare to års offentlig tilgang, vokste Wayback -maskinen med en hastighet på 12 terabyte/måned. Dataene lagres på PetaBox rack -systemer tilpasset designet av Internet Archive -ansatte . Det første 100TB -stativet ble fullt operativt i juni 2004, selv om det snart ble klart at de ville trenge mye mer lagringsplass enn det.

Internettarkivet migrerte sin tilpassede lagringsarkitektur til Sun Open Storage i 2009, og er vert for et nytt datasenter i et Sun Modular DatacenterSun Microsystems 'California -campus. Fra 2009 inneholdt Wayback Machine omtrent tre petabyte med data og vokste med en hastighet på 100 terabyte hver måned.

En ny, forbedret versjon av Wayback -maskinen, med et oppdatert grensesnitt og en ferskere indeks over arkivert innhold, ble gjort tilgjengelig for offentlig testing i 2011, hvor fangster vises i et kalenderoppsett med sirkler hvis bredde visualiserer antall gjennomsøkelser hver dag, men ingen merking av dubletter med stjerner eller en avansert søkeside. Funksjoner som "Endringer", "Sammendrag" og et grafisk nettstedskart ble lagt til senere.

I mars samme år ble det sagt på Wayback Machine-forumet at "Beta for den nye Wayback-maskinen har en mer fullstendig og oppdatert indeks for alle gjennomgåtte materialer inn i 2010, og vil fortsette å bli oppdatert jevnlig. Indeksen kjøring av den klassiske Wayback Machine har bare en liten bit materiale etter 2008, og det er ikke planlagt ytterligere indeksoppdateringer, ettersom den blir avviklet i år. " Også i 2011 installerte Internet Archive sitt sjette par PetaBox -stativer som økte Wayback -maskinens lagringskapasitet med 700 terabyte.

I januar 2013 kunngjorde selskapet en banebrytende milepæl på 240 milliarder nettadresser.

I oktober 2013 introduserte selskapet funksjonen "Lagre en side" som lar enhver Internett -bruker arkivere innholdet i en URL, og raskt genererer en permanent lenke i motsetning til den foregående liveweb -funksjonen.

I desember 2014 inneholdt Wayback Machine 435 milliarder nettsider - nesten ni petabyte med data, og vokste med omtrent 20 terabyte i uken.

I mars 2015 ble sikkerhetsforskere klar over trusselen fra tjenestens utilsiktede hosting av ondsinnede binære filer fra arkiverte nettsteder.

I juli 2016 inneholdt angivelig Wayback Machine rundt 15 petabyte med data.

I september 2018 inneholdt Wayback Machine over 25 petabyte med data.

Fra desember 2020 inneholdt Wayback -maskinen over 70 petabyte med data.

Wayback maskinvekst
Wayback -maskin etter år Arkiverte sider (milliarder)
2005
40
2008
85
2012
150
2013
373
2014
400
2015
452
2020
514

Mellom oktober 2013 og mars 2015 endret nettstedets globale Alexa -rangering seg fra 163 til 208. I mars 2019 var rangeringen på 244.

Retningslinjer for ekskludering av nettsteder

Historisk sett har Wayback Machine respektert robotenes ekskluderingsstandard (robots.txt) for å avgjøre om et nettsted ville bli gjennomsøkt - eller om det allerede ble gjennomsøkt, om arkivene ville være offentlig synlige. Nettstedseiere hadde muligheten til å velge bort Wayback Machine gjennom bruk av robots.txt. Den brukte robots.txt -regler med tilbakevirkende kraft; hvis et nettsted blokkerte Internett -arkivet, ble eventuelle tidligere arkiverte sider fra domenet umiddelbart gjort utilgjengelige også. I tillegg uttalte internettarkivet at "Noen ganger vil en nettstedseier kontakte oss direkte og be oss slutte å gjennomsøke eller arkivere et nettsted. Vi etterkommer disse forespørslene." I tillegg sier nettstedet: "Internettarkivet er ikke interessert i å bevare eller tilby tilgang til nettsteder eller andre internettdokumenter til personer som ikke vil ha materialet sitt i samlingen."

April 2017 dukket det opp rapporter om nettsteder som hadde gått i stå og ble parkerte domener som brukte robots.txt for å ekskludere seg fra søkemotorer, noe som resulterte i at de utilsiktet ble ekskludert fra Wayback -maskinen. Internettarkivet endret retningslinjene til nå å kreve en eksplisitt ekskluderingsforespørsel for å fjerne den fra Wayback -maskinen.

Oakland Archive Policy

Waybacks politikk for retroaktiv eksklusjon er delvis basert på anbefalinger for behandling av forespørsler om fjerning og bevaring av arkivintegritet utgitt av School of Information Management and Systems ved University of California, Berkeley i 2002, som gir en nettstedseier rett til å blokkere tilgang til nettstedets arkiver . Wayback har overholdt disse retningslinjene for å unngå dyre rettstvister.

Wayback -politikken for retroaktiv eksklusjon begynte å slappe av i 2017, da den sluttet å hedre robots.txt på amerikanske myndigheter og militære nettsteder for både gjennomgang og visning av nettsider. Fra april 2017 ignorerer Wayback robots.txt bredere, ikke bare for amerikanske myndigheters nettsteder.

Bruker

Fra den offentlige lanseringen i 2001 har Wayback Machine blitt studert av forskere både for måter den lagrer og samler data på, så vel som de faktiske sidene i arkivet. Fra 2013 hadde forskere skrevet rundt 350 artikler om Wayback -maskinen, hovedsakelig fra informasjonsteknologi, biblioteksvitenskap og samfunnsvitenskapelige felt. Samfunnsvitenskapelige forskere har brukt Wayback Machine til å analysere hvordan utviklingen av nettsteder fra midten av 1990-tallet til i dag har påvirket selskapets vekst.

Når Wayback -maskinen arkiverer en side, inneholder den vanligvis de fleste hyperkoblingene, og holder disse koblingene aktive når de like gjerne kunne ha blitt brutt av internettets ustabilitet. Forskere i India studerte effektiviteten til Wayback -maskinens evne til å lagre hyperkoblinger i online vitenskapelige publikasjoner og fant ut at den reddet litt mer enn halvparten av dem.

"Journalister bruker Wayback Machine til å se døde nettsteder, daterte nyhetsrapporter og endringer i nettstedets innhold. Innholdet har blitt brukt til å stille politikere til ansvar og avsløre slagmarkens løgner." I 2014 viste en arkivert sosial medieside til Igor Girkin , en separatistisk opprørsleder i Ukraina, ham skryte av at troppene hans hadde skutt ned et mistenkt ukrainsk militærfly før det ble kjent at flyet faktisk var et sivilt jetfly fra Malaysia Airlines ( Malaysia Airlines Flight 17 ), hvoretter han slettet innlegget og beskyldte Ukrainas militær for å ha kastet flyet. I 2017 stammer March for Science fra en diskusjon om Reddit som indikerte at noen hadde besøkt Archive.org og oppdaget at alle referanser til klimaendringer var slettet fra Det hvite hus nettsted. Som svar kommenterte en bruker, "Det må være en forskermarsj om Washington".

Videre brukes nettstedet tungt for verifisering, og gir tilgang til referanser og innholdsopprettelse av Wikipedia -redaktører .

I september 2020 ble det kunngjort et partnerskap med Cloudflare for automatisk å arkivere nettsteder som serveres via "Always Online" -tjenesten, som også vil tillate det å lede brukerne til sin kopi av nettstedet hvis det ikke kan nå den opprinnelige verten.

Begrensninger

I 2014 var det seks måneders forsinkelse mellom da et nettsted ble gjennomsøkt og da det ble tilgjengelig for visning i Wayback Machine. For tiden er forsinkelsen 3 til 10 timer. Wayback Machine tilbyr bare begrensede søkefunksjoner. Funksjonen "Site Search" lar brukerne finne et nettsted basert på ord som beskriver nettstedet, i stedet for ord som finnes på nettsidene selv.

Wayback -maskinen inkluderer ikke alle nettsider som noen gang er laget på grunn av begrensningene til web -søkeroboten. Wayback -maskinen kan ikke helt arkivere websider som inneholder interaktive funksjoner som Flash -plattformer og skjemaer skrevet i JavaScript og progressive webprogrammer , fordi disse funksjonene krever interaksjon med vertsnettstedet. Dette betyr at Wayback -maskinen siden juni 2013 ikke har vært i stand til å vise YouTube -kommentarer ved lagring av YouTube -sider, ettersom kommentarer ifølge arkivteamet ikke lenger er "lastet inn på selve siden." Wayback -maskinens webcrawler har problemer med å trekke ut noe som ikke er kodet i HTML eller en av dets varianter, noe som ofte kan resultere i ødelagte hyperkoblinger og manglende bilder. På grunn av dette kan webroboten ikke arkivere "foreldreløse sider" som andre sider ikke har lenker til. Wayback -maskinens søkerobot følger bare et forhåndsbestemt antall hyperkoblinger basert på en forhåndsinnstilt dybdegrense, så den kan ikke arkivere hver hyperkobling på hver side.

Fra og med april 2018 har administrative medarbeidere i Wayback Machines arkivteam håndhevet kvartalsregelen, ved tidvis å slette tidsintervaller på 23 dager eller 39 dager (henholdsvis 3/4 og 5/4 i en måned), for å redusere køstørrelse.

I juridisk bevis

Sivile rettstvister

Netbula LLC v. Chordiant Software Inc.

I en sak fra 2009 sendte Netbula, LLC v. Chordiant Software Inc. , innklagede Chordiant et forslag om å tvinge Netbula til å deaktivere robots.txt -filen på nettstedet som forårsaket at Wayback Machine med tilbakevirkende kraft fjernet tilgangen til tidligere versjoner av sider den hadde arkivert fra Netbulas nettsted, sider som Chordiant trodde ville støtte saken.

Netbula protesterte mot forslaget på grunn av at tiltalte ba om å endre Netbulas nettsted og at de burde ha stevnet Internett -arkiv for sidene direkte. En ansatt i Internet Archive leverte imidlertid en sverget uttalelse som støtter Chordiant sitt forslag, men uttalte at den ikke kunne produsere nettsidene på andre måter "uten betydelig byrde, utgifter og avbrudd i driften."

Dommerdommer Howard Lloyd i Northern District of California, San Jose Division, avviste Netbulas argumenter og beordret dem til å deaktivere robots.txt -blokkeringen midlertidig for å la Chordiant kunne hente de arkiverte sidene de søkte.

Telewizja Polska USA, Inc. v. Echostar Satellite

I en sak fra oktober 2004, Telewizja Polska USA, Inc. v. Echostar Satellite , nr. 02 C 3293, 65 Fed. R. Evid. Serv. 673 (ND Ill. 15. oktober 2004), forsøkte en saksøker å bruke Wayback Machine -arkivene som en kilde til akseptable bevis, kanskje for første gang. Telewizja Polska er leverandøren av TVP Polonia og EchoStar driver oppvasknettverket . I forkant av rettssaken indikerte EchoStar at den hadde til hensikt å tilby Wayback Machine -øyeblikksbilder som bevis på det tidligere innholdet på Telewizja Polskas nettsted. Telewizja Polska fremmet et begrep i grense for å undertrykke øyeblikksbildene på grunnlag av hørselsutsagn og uautentisert kilde, men sorenskriverdommer Arlander Keys avviste Telewizja Polskas påstand om hørselssak og nektet TVPs bevegelse i grense for å ekskludere bevisene under rettssaken. Under rettssaken overstyrte imidlertid tingrettsdommer Ronald Guzman, rettsdommeren, Magistrate Keys 'funn, og mente at verken erklæringen til den ansatte i Internet Archive eller de underliggende sidene (dvs. Telewizja Polska -nettstedet) kan godtas som bevis. Dommer Guzman begrunnet at den ansattes erklæring inneholdt både hørselsutsagn og uklare støttende uttalelser, og den påståtte nettsiden, utskrifter var ikke selvgodkjenne.

Patentlov

Forutsatt at noen ytterligere krav er oppfylt (f.eks. Ved å gi en autoritær uttalelse fra arkivaren), vil USAs patentkontor og European Patent Office godta datostempler fra Internett -arkivet som bevis på når en gitt webside var tilgjengelig for allmennheten. Disse datoene brukes til å avgjøre om en webside er tilgjengelig som kjent teknikk, for eksempel ved behandling av en patentsøknad.

Begrensninger i bruk

Det er tekniske begrensninger for å arkivere et nettsted, og som en konsekvens kan motstandere i rettstvister misbruke resultatene fra nettstedets arkiver. Dette problemet kan forverres av praksisen med å sende inn skjermdumper av nettsider i klager, svar eller ekspertrapporter når de underliggende koblingene ikke blir avslørt og derfor kan inneholde feil. For eksempel fyller ikke arkiver som Wayback-maskinen ut skjemaer og inneholder derfor ikke innholdet i ikke- RESTful e-handelsdatabaser i arkivene.

Lovlig status

I Europa kan Wayback Machine tolkes som brudd på opphavsrettslovgivningen . Bare innholdsskaperen kan bestemme hvor innholdet skal publiseres eller dupliseres, så arkivet må slette sider fra systemet etter forespørsel fra skaperen. Ekskluderingspolicyene for Wayback -maskinen finnes i FAQ -delen på nettstedet.

Arkiverte innhold juridiske spørsmål

Noen saker har blitt reist mot Internettarkivet spesielt for Wayback Machine -arkivering.

Scientologi

På slutten av 2002 fjernet Internett -arkivet forskjellige nettsteder som var kritiske til Scientology fra Wayback -maskinen. En feilmelding uttalte at dette var et svar på en "forespørsel fra nettstedseieren". Senere ble det avklart at advokater fra Scientology kirken hadde krevd fjerning og at nettstedseierne ikke ønsket at materialet ble fjernet.

Healthcare Advocates, Inc.

I 2003 forsvarte Harding Earley Follmer & Frailey en klient mot en varemerketvist ved å bruke Arkivets Wayback Machine. Advokatene kunne demonstrere at påstandene fra saksøkeren var ugyldige, basert på innholdet på nettstedet deres fra flere år tidligere. Saksøkeren, Healthcare Advocates, endret deretter klagen til å inkludere Internett -arkivet, og anklaget organisasjonen for brudd på opphavsretten, samt brudd på DMCA og lov om databeskyttelse og misbruk . Healthcare Advocates hevdet at siden de hadde installert en robots.txt -fil på nettstedet deres, selv om arkivet burde ha fjernet alle tidligere kopier av saksøkerens nettsted fra Wayback Machine etter at det første søksmålet ble anlagt, men det fortsatte å være offentlig synlig på Wayback. Søksmålet ble avgjort utenfor retten etter at Wayback løste problemet.

Suzanne Shell

Aktivisten Suzanne Shell anla sak i desember 2005 og krevde at Internet Archive skulle betale henne 100 000 dollar for å ha arkivert nettstedet hennes profane-justice.org mellom 1999 og 2004. Internet Archive anla en erklærende dom i USAs tingrett for Northern District of California den 20. januar 2006, og ønsket en rettslig avgjørelse om at Internet Archive ikke krenket Shells opphavsrett . Shell svarte og tok med seg en motsak mot Internet Archive for arkivering av nettstedet hennes, som hun påstår er i strid med vilkårene for bruk . 13. februar 2007 avviste en dommer for USAs tingrett for District of Colorado alle motkrav unntatt kontraktsbrudd . Internettarkivet flyttet ikke for å avvise krav om brudd på opphavsretten Shell hevdet som følge av kopieringsvirksomheten, noe som også vil fortsette.

25. april 2007 kunngjorde Internet Archive og Suzanne Shell i fellesskap forliket med søksmålet. Internettarkivet sa det "... har ingen interesse av å inkludere materialer i Wayback -maskinen til personer som ikke ønsker å ha webinnholdet arkivert. Vi erkjenner at Shell har en gyldig og håndhevbar opphavsrett på hennes nettsted og vi beklager at inkluderingen av nettstedet hennes i Wayback -maskinen resulterte i denne rettssaken. " Shell sa: "Jeg respekterer den historiske verdien av Internet Archives mål. Jeg hadde aldri til hensikt å forstyrre det målet eller skade det."

Daniel Davydiuk

Mellom 2013 og 2016 prøvde en pornografisk skuespiller ved navn Daniel Davydiuk å fjerne arkiverte bilder av seg selv fra Wayback Machines arkiv, først ved å sende flere DMCA -forespørsler til arkivet, og deretter ved å appellere til Federal Court of Canada .

Sensur og andre trusler

archive.org er for øyeblikket blokkert i Kina . Etter at terrororganisasjonen Islamsk stat ble forbudt, hadde Internett -arkivet blitt blokkert i sin helhet i Russland som en vert for en oppsøkende video fra den organisasjonen, for en kort periode i 2015–16. Siden 2016 har nettstedet vært tilbake, tilgjengelig i sin helhet, selv om lokale kommersielle lobbyister saksøker Internett -arkivet i en lokal domstol for å forby det på grunn av opphavsrett.

Alison Macrina , direktør for Library Freedom Project, bemerker at "mens bibliotekarer setter stor pris på individuelt personvern, er vi også sterkt imot sensur".

Det er minst ett tilfelle der en artikkel ble fjernet fra arkivet kort tid etter at den ble fjernet fra det opprinnelige nettstedet. En Daily Beast -reporter hadde skrevet en artikkel som gikk ut av flere homofile olympiske idrettsutøvere i 2016 etter at han hadde laget en falsk profil som poserte som en homofil mann på en datingapp. Daily Beast fjernet artikkelen etter at den ble møtt med utbredt raseri; ikke lenge etter gjorde Internet Archive det også snart, men uttalte ettertrykkelig at de gjorde det av ingen annen grunn enn å beskytte sikkerheten til de utøvde idrettsutøverne.

Andre trusler inkluderer naturkatastrofer, ødeleggelse (ekstern eller fysisk), manipulering av arkivets innhold (se også: cyberangrep , sikkerhetskopiering ), problematiske lover om opphavsrett og overvåking av nettstedets brukere.

Alexander Rose, administrerende direktør i Long Now Foundation , mistenker at på sikt av flere generasjoner "nesten ingenting" vil overleve på en nyttig måte, og uttaler: "Hvis vi har kontinuitet i vår teknologiske sivilisasjon, mistenker jeg mye av Bare data vil forbli tilgjengelige og søkbare. Men jeg mistenker at nesten ingenting av formatet de ble levert i vil være gjenkjennelig "fordi nettsteder" med dype baksider av innholdshåndteringssystemer som Drupal og Ruby og Django "er vanskeligere å arkivere.

I en artikkel som reflekterer over bevaring av menneskelig kunnskap, har The Atlantic kommentert at Internettarkivet, som beskriver seg å være bygget for langsiktig, "jobber rasende med å fange data før det forsvinner uten noen langsiktig infrastruktur for å snakke av."

Se også

Referanser

Eksterne linker