Heritrix - Heritrix

Heritrix
	Skjermbilde av Heritrix Admin Console.
Stabil utgivelse	3.4.0 / 3. august 2020
Oppbevaringssted
Skrevet i	Java
Operativsystem	Linux / Unix-lignende / Windows (støttes ikke)
Type	Web-crawler
Tillatelse	Apache-lisens
Nettsted	github .com / internetarchive / heritrix3 / wiki

Heritrix er en web crawler designet for web arkivering . Det ble skrevet av Internet Archive . Den er tilgjengelig under en gratis programvarelisens og skrevet i Java . Hovedgrensesnittet er tilgjengelig ved hjelp av en nettleser , og det er et kommandolinjeverktøy som eventuelt kan brukes til å starte gjennomgang.

Heritrix ble utviklet i fellesskap av Internet Archive og de nordiske nasjonale bibliotekene på spesifikasjoner skrevet tidlig i 2003. Den første offisielle utgivelsen var i januar 2004, og den er kontinuerlig forbedret av ansatte i Internet Archive og andre interesserte parter.

Heritrix var ikke den viktigste gjennomsøkeren som ble brukt til å gjennomsøke innhold for Internet Archive's nettsamling på mange år. Den største bidragsyteren til samlingen, fra og med 2011, er Alexa Internet . Alexa gjennomsøker nettet for sine egne formål, ved hjelp av en crawler som heter ia_archiver . Alexa donerer deretter materialet til Internett-arkivet. Internettarkivet selv gjorde noe av sin egen gjennomgang ved hjelp av Heritrix, men bare i mindre skala.

Fra og med 2008 begynte internettarkivet ytelsesforbedringer for å gjøre sin egen gjennomsøking i stor skala, og samler nå mesteparten av innholdet.

Prosjekter som bruker Heritrix

En rekke organisasjoner og nasjonale biblioteker bruker Heritrix, blant dem:

Østerriksk nasjonalbibliotek , nettarkivering
Bibliotheca Alexandrinas nettarkiv
Bibliothèque nationale de France
British Library
California Digital Librarys webarkiveringstjeneste
CiteSeerX
Dokumentere Internett2
Internet Memory Foundation
Bibliotek og arkiv Canada
Library of Congress
Islands nasjonale bibliotek og universitetsbibliotek
Nasjonalbiblioteket i Finland
National Library of New Zealand
Det nederlandske kongebiblioteket (Koninklijke Bibliotheek)
Netarkivet.dk
Smithsonian Institution Archives
Nasjonalbiblioteket i Israel

Buefiler

Eldre versjoner av Heritrix lagret som standard nettressursene den gjennomsøker i en Arc-fil. Dette filformatet er ikke relatert til ARC (filformat) . Dette formatet har blitt brukt av Internet Archive siden 1996 for å lagre webarkivene. Mer nylig lagres den som standard i WARC-filformatet , som ligner på ARC, men mer presist spesifisert og mer fleksibel. Heritrix kan også konfigureres til å lagre filer i et katalogformat som ligner på Wget- søkeroboten som bruker URL-en til å gi navn til katalogen og filnavnet til hver ressurs.

En Arc-fil lagrer flere arkiverte ressurser i en enkelt fil for å unngå å administrere et stort antall små filer. Filen består av en sekvens av URL-poster, hver med en overskrift som inneholder metadata om hvordan ressursen ble forespurt, etterfulgt av HTTP-overskriften og svaret. Buefiler varierer mellom 100 og 600 MB.

Eksempel:

filedesc://IA-2006062.arc 0.0.0.0 20060622190110 text/plain 76
1 1 InternetArchive
URL IP-address Archive-date Content-type Archive-length

http://foo.edu:80/hello.html 127.10.100.2 19961104142103 text/html 187
HTTP/1.1 200 OK
Date: Thu, 22 Jun 2006 19:01:15 GMT
Server: Apache
Last-Modified: Sat, 10 Jun 2006 22:33:11 GMT
Content-Length: 30
Content-Type: text/html

<html>
Hello World!!!
</html>

Verktøy for behandling av Arc-filer

Heritrix inkluderer et kommandolinjeverktøy kalt arcreader som kan brukes til å trekke ut innholdet i en Arc-fil. Følgende kommando viser alle URL-er og metadata som er lagret i den gitte Arc-filen (i CDX- format):

arcreader IA-2006062.arc

Følgende kommando trekker ut hello.html fra eksemplet ovenfor forutsatt at posten starter ved forskyvning 140:

arcreader -o 140 -f dump IA-2006062.arc

Andre verktøy:

Kommandolinjeverktøy

Heritrix kommer med flere kommandolinjeverktøy:

htmlextractor - viser koblingene som Heritrix ville trekke ut for en gitt URL
hoppath.pl - gjenskaper humlebanen (banen til lenker) til den angitte URL-en fra en fullført gjennomsøking
manifest_bundle.pl - samler alle ressurser som en gjennomsøking manifestfil refererer til, i en ukomprimert eller komprimert tjærekule
cmdline-jmxclient - muliggjør kommandolinjekontroll av Heritrix
arcreader - trekker ut innholdet i ARC-filer (se ovenfor)

Ytterligere verktøy er tilgjengelig som en del av Internet Archive's warctools-prosjekt.

Se også

Referanser

Fra denne redigeringen bruker denne artikkelen innhold fra "Re: Kontroll over internettarkivet i tillegg til bare" Ikke tillat / "?" , som er lisensiert på en måte som tillater gjenbruk under Creative Commons Attribution-ShareAlike 3.0 Unported License , men ikke under GFDL . Alle relevante vilkår må følges.

^ ^a ^b ^c ^d ^e Kris (6. september 2011). "Re: Kontroll over internettarkivet i tillegg til bare" Ikke tillat / "?" . Pro Webmasters Stack Exchange . Stack Exchange Inc . Hentet 7. januar 2013 .
^ "Wayback Machine: Nå med 240.000.000.000 nettadresser - Internet Archive Blogs" . blog.archive.org . Hentet 11. september 2017 .
^ "Om - Nettarkivering (Library of Congress)" . www.loc.gov . Hentet 29.10.2017 .
^ "Technische aspecten bij webarchivering - Koninklijke Bibliotheek" . www.kb.nl . Hentet 11. september 2017 .
^ "warctools" . 25. august 2017 . Hentet 11. september 2017 - via GitHub.

Burner, M. (1997). "Kryper mot evigheten - bygger et arkiv av World Wide Web" . Nettteknikker . 2 (5). Arkivert fra originalen 1. januar 2008.
Mohr, G., Kimpton, M., Stack, M., Ranitovic, I. (2004). "Introduksjon til Heritrix, en webcrawler av arkivkvalitet" (PDF) . Forløp fra 4. internasjonale nettarkivverksted (IWAW'04) . Arkivert fra originalen (PDF) 2011-06-12 . Hentet 2007-03-09 . CS1 maint: flere navn: forfatterliste ( lenke )
Sigurðsson, K. (2005). "Incremental crawling with Heritrix" (PDF) . Forløp fra 5. internasjonale nettarkivverksted (IWAW'05) . Arkivert fra originalen (PDF) 2011-06-12 . Hentet 2006-06-23 .

Eksterne linker

Verktøy etter internettarkiv:

Heritrix - offisiell wiki
NutchWAX - søk på nettarkivsamlinger
Wayback (åpen kildekode Wayback Machine) - søk og naviger i webarkivsamlinger ved hjelp av NutchWax

Lenker til relaterte verktøy:

Arc-filformat
Hvordan kjøre Heritrix i Windows
WERA (Web ARchive Access) - søk og naviger i webarkivsamlinger ved hjelp av NutchWAX

[Kris-1] Kris (6. september 2011). "Re: Kontroll over internettarkivet i tillegg til bare" Ikke tillat / "?" . Pro Webmasters Stack Exchange . Stack Exchange Inc . Hentet 7. januar 2013 .

[2] "Wayback Machine: Nå med 240.000.000.000 nettadresser - Internet Archive Blogs" . blog.archive.org . Hentet 11. september 2017 .

[3] "Om - Nettarkivering (Library of Congress)" . www.loc.gov . Hentet 29.10.2017 .

[4] "Technische aspecten bij webarchivering - Koninklijke Bibliotheek" . www.kb.nl . Hentet 11. september 2017 .

[5] "warctools" . 25. august 2017 . Hentet 11. september 2017 - via GitHub.

Languages

In other projects