Heritrix - Heritrix

Heritrix
Heritrix logo.png
Skjermbilde av Heritrix Admin Console.
Skjermbilde av Heritrix Admin Console.
Stabil utgivelse
3.4.0 / 3. august 2020  ( 2020-08-03 )
Oppbevaringssted Rediger dette på Wikidata
Skrevet i Java
Operativsystem Linux / Unix-lignende / Windows (støttes ikke)
Type Web-crawler
Tillatelse Apache-lisens
Nettsted github .com / internetarchive / heritrix3 / wiki

Heritrix er en web crawler designet for web arkivering . Det ble skrevet av Internet Archive . Den er tilgjengelig under en gratis programvarelisens og skrevet i Java . Hovedgrensesnittet er tilgjengelig ved hjelp av en nettleser , og det er et kommandolinjeverktøy som eventuelt kan brukes til å starte gjennomgang.

Heritrix ble utviklet i fellesskap av Internet Archive og de nordiske nasjonale bibliotekene på spesifikasjoner skrevet tidlig i 2003. Den første offisielle utgivelsen var i januar 2004, og den er kontinuerlig forbedret av ansatte i Internet Archive og andre interesserte parter.

Heritrix var ikke den viktigste gjennomsøkeren som ble brukt til å gjennomsøke innhold for Internet Archive's nettsamling på mange år. Den største bidragsyteren til samlingen, fra og med 2011, er Alexa Internet . Alexa gjennomsøker nettet for sine egne formål, ved hjelp av en crawler som heter ia_archiver . Alexa donerer deretter materialet til Internett-arkivet. Internettarkivet selv gjorde noe av sin egen gjennomgang ved hjelp av Heritrix, men bare i mindre skala.

Fra og med 2008 begynte internettarkivet ytelsesforbedringer for å gjøre sin egen gjennomsøking i stor skala, og samler nå mesteparten av innholdet.

Prosjekter som bruker Heritrix

En rekke organisasjoner og nasjonale biblioteker bruker Heritrix, blant dem:

Buefiler

Eldre versjoner av Heritrix lagret som standard nettressursene den gjennomsøker i en Arc-fil. Dette filformatet er ikke relatert til ARC (filformat) . Dette formatet har blitt brukt av Internet Archive siden 1996 for å lagre webarkivene. Mer nylig lagres den som standard i WARC-filformatet , som ligner på ARC, men mer presist spesifisert og mer fleksibel. Heritrix kan også konfigureres til å lagre filer i et katalogformat som ligner på Wget- søkeroboten som bruker URL-en til å gi navn til katalogen og filnavnet til hver ressurs.

En Arc-fil lagrer flere arkiverte ressurser i en enkelt fil for å unngå å administrere et stort antall små filer. Filen består av en sekvens av URL-poster, hver med en overskrift som inneholder metadata om hvordan ressursen ble forespurt, etterfulgt av HTTP-overskriften og svaret. Buefiler varierer mellom 100 og 600 MB.

Eksempel:

filedesc://IA-2006062.arc 0.0.0.0 20060622190110 text/plain 76
1 1 InternetArchive
URL IP-address Archive-date Content-type Archive-length

http://foo.edu:80/hello.html 127.10.100.2 19961104142103 text/html 187
HTTP/1.1 200 OK
Date: Thu, 22 Jun 2006 19:01:15 GMT
Server: Apache
Last-Modified: Sat, 10 Jun 2006 22:33:11 GMT
Content-Length: 30
Content-Type: text/html

<html>
Hello World!!!
</html>

Verktøy for behandling av Arc-filer

Heritrix inkluderer et kommandolinjeverktøy kalt arcreader som kan brukes til å trekke ut innholdet i en Arc-fil. Følgende kommando viser alle URL-er og metadata som er lagret i den gitte Arc-filen (i CDX- format):

arcreader IA-2006062.arc

Følgende kommando trekker ut hello.html fra eksemplet ovenfor forutsatt at posten starter ved forskyvning 140:

arcreader -o 140 -f dump IA-2006062.arc

Andre verktøy:

Kommandolinjeverktøy

Heritrix kommer med flere kommandolinjeverktøy:

  • htmlextractor - viser koblingene som Heritrix ville trekke ut for en gitt URL
  • hoppath.pl - gjenskaper humlebanen (banen til lenker) til den angitte URL-en fra en fullført gjennomsøking
  • manifest_bundle.pl - samler alle ressurser som en gjennomsøking manifestfil refererer til, i en ukomprimert eller komprimert tjærekule
  • cmdline-jmxclient - muliggjør kommandolinjekontroll av Heritrix
  • arcreader - trekker ut innholdet i ARC-filer (se ovenfor)

Ytterligere verktøy er tilgjengelig som en del av Internet Archive's warctools-prosjekt.

Se også

Referanser

Fra denne redigeringen bruker denne artikkelen innhold fra "Re: Kontroll over internettarkivet i tillegg til bare" Ikke tillat / "?" , som er lisensiert på en måte som tillater gjenbruk under Creative Commons Attribution-ShareAlike 3.0 Unported License , men ikke under GFDL . Alle relevante vilkår må følges.

  1. ^ a b c d e Kris (6. september 2011). "Re: Kontroll over internettarkivet i tillegg til bare" Ikke tillat / "?" . Pro Webmasters Stack Exchange . Stack Exchange Inc . Hentet 7. januar 2013 .
  2. ^ "Wayback Machine: Nå med 240.000.000.000 nettadresser - Internet Archive Blogs" . blog.archive.org . Hentet 11. september 2017 .
  3. ^ "Om - Nettarkivering (Library of Congress)" . www.loc.gov . Hentet 29.10.2017 .
  4. ^ "Technische aspecten bij webarchivering - Koninklijke Bibliotheek" . www.kb.nl . Hentet 11. september 2017 .
  5. ^ "warctools" . 25. august 2017 . Hentet 11. september 2017 - via GitHub.
  1. Burner, M. (1997). "Kryper mot evigheten - bygger et arkiv av World Wide Web" . Nettteknikker . 2 (5). Arkivert fra originalen 1. januar 2008.
  2. Mohr, G., Kimpton, M., Stack, M., Ranitovic, I. (2004). "Introduksjon til Heritrix, en webcrawler av arkivkvalitet" (PDF) . Forløp fra 4. internasjonale nettarkivverksted (IWAW'04) . Arkivert fra originalen (PDF) 2011-06-12 . Hentet 2007-03-09 . CS1 maint: flere navn: forfatterliste ( lenke )
  3. Sigurðsson, K. (2005). "Incremental crawling with Heritrix" (PDF) . Forløp fra 5. internasjonale nettarkivverksted (IWAW'05) . Arkivert fra originalen (PDF) 2011-06-12 . Hentet 2006-06-23 .

Eksterne linker

Verktøy etter internettarkiv:

Lenker til relaterte verktøy: