Liste over webarkiveringsinitiativer - List of Web archiving initiatives

Denne artikkelen inneholder en liste over webarkiveringsinitiativer over hele verden. For lettere lesing er informasjonen delt inn i tre tabeller: webarkiveringsinitiativer, arkiverte data og tilgangsmetoder.

Kart over webarkiveringsinitiativer over hele verden i april 2021. Data

Denne Wikipedia-siden ble opprinnelig generert fra resultatene som ble oppnådd for forskningsoppgaven En undersøkelse om webarkiveringsinitiativer publisert av Arquivo.pt (det portugisiske webarkivet).

Webarkiveringsinitiativer

Navn Land Skapelsesår Teknologier Antall ansatte Kommentarer
Fulltid Deltid
Sluttperiode Webarkiv forente stater 2008 Heritrix , Wayback 6-10 The End of Term Web Archive fanger og lagrer føderale regjeringsnettsteder for den amerikanske regjeringen ( .gov , .mil, etc) i lovgivende, utøvende eller rettslige grener av regjeringen ved slutten av presidentadministrasjonene. Fra og med 2008 har EOT så langt bevart nettsteder fra administrasjonsendringer i 2008, 2012 og 2016, og forbereder seg for tiden på 2020 -overgangen. Prosjektpartnere inkluderer CA Digital Library , Internet Archive, Library of Congress, George Washington University, Stanford University, University of North Texas og US Government Publishing Office.
Arkiv.st forente stater 2017 Arkiv.st tilpasset programmering levert av US Support LLC > 1 0 Archive.st tilbyr gratis online arkivering i form av et .JPG- og HTML -arkiv.
EUs webarkiv Den Europeiske Union 2013 Heritrix , Wayback 1 Den EU web arkiv inneholder de viktigste nettstedene til EU-institusjoner , som ligger på den europeiske .eu domene og underdomener. Målet er å bevare EUs webinnhold på lang sikt og å holde det tilgjengelig for allmennheten.
Alabama State Government and Politics nettsted og arkiver for sosiale medier forente stater 2005 Arkiv-it-tjeneste
Australias webarkiv Australia 1996 PANDORA Digital Archiving System (PANDAS) , Heritrix, Bamboo, NLA Trove , HTTrack , Webrecorder, outbackCDX. 4 > 10 Den National Library of Australia fører den 'PANDORA' del av australske Web Arkiv som tar en selektiv tilnærming og er et samarbeidsprogram på 10 yter kuratoriske innspill. PANDORA bruker PANDAS arbeidsflytsystem (utviklet av NLA på slutten av 1990 -tallet) med HTTrack som standardhøster. Den National Library of Australia gjennomfører også bulk høsting av australske regjeringen (den australske regjeringen Web Arkiv) nettsteder som bruker Heritrix treske og Webrecorder med en backend infrastruktur (referert til som 'Bamboo') til å organisere innholdet og NLA utviklet outbackCDX verktøy for å administrere indeksering tilgangsbegrensninger for innhold. I tillegg til disse tilnærmingene gjennomfører Nasjonalbiblioteket også årlige innhøstinger av hele .au -domenet som gjøres i samarbeid med Internettarkivet ved hjelp av Heritrix og Wayback . I 2019 ble PANDORA, den australske regjeringens webarkiv og hele domeneavlingene integrert i en ny enkelt funn- og leveringsportal gjennom NLAs Trove -oppdagelsestjeneste.
LØFT prosjekt Belgia 2017 Heritrix , PyWB 7 PROMISE-prosjektet var et toårig prosjekt (2017-2019) som utforsket de politikkrelaterte, juridiske, tekniske og vitenskapelige spørsmålene knyttet til arkivering av det belgiske nettet. Målet med prosjektet var å) identifisere beste praksis innen nettarkivering b) utvikle en strategi for å bevare det belgiske nettet c) sette opp en pilot for å bevare og gi tilgang til det arkiverte belgiske nettet og d) komme med anbefalinger for implementering av en bærekraftig webarkiveringstjeneste. Prosjektet ble lansert av Royal Library of Belgium og statsarkivet i Belgia i samarbeid med Ghent University (Research Group for Media, Innovation and Communication and Ghent Center for Digital Humanities), Université de Namur (Research Center in Information, Law and Society) ) og Haute-École Bruxelles-Brabant (Unité de Recherche et de Formation en Sciences de l'Information et de la Documentation). I oktober 2019 fant det avsluttende kollokviet 'Saving the web: the lover of a Belgian web archive') sted på KBR. De viktigste forskningsresultatene ble presentert under dette kollokviet.
KBR webarkiv Belgia 2020 1 KBR eller det belgiske kongelige bibliotek utvikler et operativt nettarkiv basert på funnene fra forskningsprosjektet PROMISE PROMISE (2017-2019). Driftspolitikk og teknisk infrastruktur vil bli utviklet basert på strategien som er skissert i PROMISE -prosjektet.
MT.GOV Connect forente stater 2007 Arkiv-It-tjeneste 1 Montana State Library -samling av statlige byråer fra 1996 for delvis oppfyllelse av lovfestet mandat for å identifisere, skaffe, beskrive og gi permanent offentlig tilgang til statlige publikasjoner. Digitaliserte historiske statspublikasjoner tilgjengelig på https://archive.org/details/MontanaStateLibrary
Stillio Verdensomspennende 2011 Dukketeater, V8 -motor , Gecko , WebKit , Amazon Web Services 3 4 SaaS -løsning for periodisk arkivering av nettsteder og sosiale medier . Tilbyr skjermdumparkivering av både statiske og dynamiske websider i en fast varighet som kan tilpasses etter behov. Hjelper med å etterleve forskrifter, trendsporing, annonsebannerbekreftelse, versjonsendringer.
PageFreezer .com Verdensomspennende 2009 PageFreezer's Deep Web Crawler, Hadoop , Cassandra, Elastic Search 60 SaaS -løsning for arkivering av nettsteder og sosiale medier. Tilbyr automatisk innsamling, avspilling, søk i fulltekst og dataeksport av nettsteder, blogger, sosiale medier og virksomhetssamarbeidsplattformer for eDiscovery og forskriftsmessig overholdelse av FDA, FINRA , FSA, SEC, Federal Rules of Evidence, FOIA og lover om administrasjon av poster.
WebPreserver.com Verdensomspennende 2015 WebPreserver Chrome-nettleser-plugin og nettbasert tjeneste for å samle godkjente, lovlig tillatte nettsider og sosiale medier for eDiscovery. Nettbilder kan eksporteres i EDRM-XML, WARC, PDF og native HTML. WebPreserver.com -tjenestene lar juridiske team organisere, merke og samarbeide de digitale bevisene som er fanget opp med WebPreserver -verktøyet.
OoCities - GeoCities Archive / GeoCities Mirror Tyskland 2009
Webarkiv Østerrike Østerrike 2008 NetarchiveSuite, Heritrix , OpenWayback 1
Deutsche Nationalbibliothek Tyskland 2012 Verktøy fra oia GmbH 3 Gjennomsøkelsen for det selektive webarkivet er gjort av det tyske selskapet oia GmbH. Tilgangen er begrenset til lesesalene i det tyske nasjonalbiblioteket.
DILIMAG (Digital Literature Magazines) Østerrike 2007 WebCurator 2 En tekniker, en for innsamling og metadata.
Bibliothèque et Archives nationales du Québec (BAnQ) Canada 2012 Heritrix , Wayback . 2
Webarkiveringsprogram på Library and Archives Canada Canada 2005 Arkiv-It-tjeneste 4 3 Nettarkivering i Canada er en lovfestet aktivitet som utføres for digitale bevaringsformål i henhold til seksjon 8 (2) i Library and Archives of Canada Act . Fire årsverk og tre deltidsansatte jobber med programmet. Nettarkivering på Library and Archives Canada brukes også for å utføre juridisk innskudd .
Innsamling og bevaring av nettinformasjon - WICP (kinesisk nettarkiv) Kina 2003 Heritrix , Wayback og NutchWAX .
Kroatisk webarkiv (Hrvatski arhiv weba - HAW) Kroatia 2004 Gjennomsøk: DAMP -programvare, Heritrix

Tilgang: Wayback , Lucene

2 2 Det kroatiske webarkivet (HAW) er en samling innhold hentet fra Internett. I 2004 startet arkivet som et konsept om selektiv registrering av webressurser. Hele .hr -domene har høstes årlig siden 2011. I tillegg til temahøsting/hendelseshøsting for arrangementer av nasjonal interesse. Innholdet i arkivet er offentlig tilgjengelig via HAWs nettsted. (2 bibliotekarer på heltid, 1 bibliotekar på deltid, NUL ), 2 IT -fagfolk på deltid (SRCE - University of Zagreb, University Computing Center )
Webarchiv ( nasjonalbiblioteket i Tsjekkia ) Tsjekkisk Republikk 2000 Heritrix , Wayback og Seeder . 5 2 Tsjekkisk webarkiv ( Webarchiv ) vedlikeholdt av National Library of the Czech Republic fokuserer på arkivering av det tsjekkiske nasjonale nettet. Anskaffelsespolitikken består av tre linjer: selektive innhøstinger (samling av ressurser basert på utvalgskriterier), emnesamlinger (fokusert på viktige temaer innen det tsjekkiske webområdet) og omfattende innhøstinger (automatiske innhøstinger av innhold på nasjonalt domene). Personalet inneholder 1 leder, 3,5 kuratorer + 1,5 teknisk personale.
Netarkivet / Det danske webarkivet (Det Kongelige Danske Bibliotek) Danmark 2005 NetarchiveSuite , Heritrix , Fritekstsøk ved bruk av Apache Solr , Blacklight og Wayback for avspilling. Utvikler søk frontend og avspillingsmotor SolrWayback . 1 5,5 årsverk Siden 2005 er innsamling og bevaring av den danske delen av internett inkludert i den danske lov om depositum. Oppgaven utføres av Det Kongelige Danske Bibliotek .

Det er ingen offentlig tilgang til det danske webarkivet. Arkivet er bare tilgjengelig for forskere som har bedt om og fått spesiell tillatelse til å bruke samlingen til spesifikke forskningsformål.

Dette nettstedet, Netarkivet.dk, er designet for å informere forskere, nettstedseiere og andre interesserte om det danske webarkivet. Foreløpig er det meste av nettstedet på dansk.

Estisk webarkiv Estland 2010 Heritrix , Squidwarc , PhantomJS og Puppeteer for skjermbilder av nettsider, Pywb , Custom Curator Tool. 3 1 Siden 2006 tillater den lovlige innskuddsloven National Library of Estonia å samle estiske nettsteder som lovlige innskuddskopier. Netthøsting er utført og arkivet vedlikeholdes av National Library of Estonia.
Finsk nettarkiv Finland 2008 Heritrix , Solr , Wayback . 2 > 2 Vedlikeholdt av Nasjonalbiblioteket i Finland . Årlig høstes alle *.fi -domener, i tillegg til webservere i Finland. Utenfor disse høstingene velger biblioteket relevante nettsteder manuelt.
BnF - BnF Web Legal Deposit Frankrike 2006 Heritrix , Wayback , NutchWAX , NetarchiveSuite , BCWeb. 10
Ina (Institut National de l'Audiovisuel) Frankrike 2009 Gjennomsøk: PhagoSite , Crocket basert på Firefox , Fantomas basert på PhantomJS / Access: Vortex / Search: Dowser based on Elasticsearch 7
Bibliotheksservice-Zentrum Baden-Württemberg Tyskland 2003 Arkiv-It-tjeneste 0,5 Nettsteder for rundt 20 byer, kommuner, distrikter og tilknyttede selskaper og statsbiblioteker samles inn av BSZ i kommisjon i forskjellige Arkiv-Det-samlinger. Offentlig tilgang. Datalagring: San Francisco (Archive-It) samt sikkerhetskopiering med Baden-Wuerttemberg lagringsinfrastruktur.
Nettarkiv for den tyske forbundsdagen Tyskland 2005
Ungarsk webarkiveringsinitiativ Ungarn 2017 Heritrix , Wayback, PyWb, Brozzler, Webrecorder , WCT 3 2 Fra april 2017 til desember 2019 drev National Széchényi Library et pilotprosjekt for webarkivering som en del av sitt omfattende IT -infrastrukturutviklingsprogram. I 2020 har webarkivering blitt en permanent tjeneste for National Széchényi Library. Fra 2021 har det juridiske rammeverket etablert seg og nettarkivet fungerer i henhold til de endrede avsnittene i kulturloven og det tilsvarende regjeringsdekretet. Vi kjører tematiske, hendelsesbaserte og domenehøst. Vi har en liten demosamling med metadata og fulltekstsøkemuligheter. Resten av arkivet er ikke offentlig tilgjengelig.
Island Island 2004 Heritrix , OpenWayback
National Library of Ireland Web Archive Irland 2011 Arkiv-it-tjeneste 1 0,5 årsverk National Library of Ireland arkiverer selektivt irske nettsteder av vitenskapelig, kulturell og politisk betydning gjennom sitt NLI Selective Web Archive .
Israel webarkiv Israel 2011 Heritrix , Web kurator verktøy , Wayback , Rosetta 1 > 3 Israels nasjonalbibliotek samler '.IL' -domener, 1 prosjektleder deltid, 1 teknisk leder på heltid, 1 bibliotekar på deltid, 1 IT -infrastruktur på deltid
Det nasjonale sentrale biblioteket i Firenze Italia 2018 Arkiv-it-tjeneste Målet med prosjektet er å samle og arkivere digitale dokumenter og nettsteder som har "kulturell interesse" for italiensk historie og kultur, i henhold til prinsippene i den nasjonale lovgivningen om lovlig innskudd. Den Arkiv-it Collection er offentlig tilgjengelig.
Webarkiveringsprosjekt (WARP), The National Diet Library , Japan Japan 2002 Heritrix , OpenWayback, Solr 7 2 Webarkiveringsprosjekt (WARP) har arkivert nettsteder siden 2002. The National Diet Library Law revidert i 2009 og trådte i kraft i april 2010, lar NDL arkivere japanske offisielle institusjoners nettsteder: regjeringen, dietten, domstolene, lokale regjeringer, uavhengige administrative organisasjoner og universiteter. Nettsteder for kulturelle og internasjonale arrangementer som arrangeres i Japan, og de som er knyttet til elektroniske tidsskrifter, arkiveres også basert på tillatelse fra deres nettredaktører.
Nasjonalbiblioteket i Korea - OASIS (elektronisk arkivering og søk på internettkilder) Korea 2001 Eget system basert på Oracle DBMS og spesialisert søkemotor (IRS) som utfører datahåndtering og søkefunksjon. 3 11
Bibliothèque nationale du Luxembourg Luxembourg 2015 Heritrix , Wayback 2 Nasjonalbiblioteket i Luxembourg gjennomfører halvårlige brede gjennomsøk for .lu-domenet, så vel som selektive og hendelsesbaserte gjennomsøkelser.

Nettstedene som er høstet i Luxembourg Web Archive beriker nasjonalbibliotekets arvesamlinger, som gjør det mulig å bevare digitale publikasjoner for fremtidige generasjoner.

Webarchive.lu er Luxembourg Web Archives informasjons- og deltakelsesplattform.

Koninklijke Bibliotheek Nederland 2007 Heritrix 3.2, Web Curator Tool 3.0, Wayback , KB e-Depot system ~ 10 1 gjennomsøkingsingeniør, 1 programvareutvikler og 9 innsamlingsspesialister, alle deltid (tilsvarer rundt 4 heltid). KB samler selektivt inn nederlandske forsknings- og kulturverdier.
Latvia nasjonalbibliotek Latvia 2005 Web Curator Tool og Wayback 1 Foreløpig bare lagring for bevaring, tilgang til publikum under utvikling (ETA juni 2012). Det latviske uttrykket for webhøsting er "rasmošana".
New Zealand webarkiv New Zealand 1999 Web Curator Tool , Heritrix3 , Webrecorder , OpenWayback , OutbackCDX , Rosetta 4 > 10 Nasjonale domenehøst har blitt kjørt siden 2008, og årlig siden 2015 i samarbeid med Internettarkivet. Selektiv høsting utføres av National Library of New Zealand ved hjelp av Web Curator Tool. Tre fulltidsansatte for høsting av ansatte og en rekke ansatte som høster opp høster HTML -serier eller HTML -monografier. Støttet av en dedikert webarkiveringsingeniør og et bredere avdelings -ITMS. Spørsmål om digital bevaring håndteres av ansatte som jobber med Rosetta.
Nasjonalbiblioteket Norge 2001
Arquivo.pt Portugal 2007 Egen utvikling , Heritrix , Wayback , NutchWAX , Pywb , Apache Solr , Brozzler 7 1 Arquivo.pt er en forskningsinfrastruktur som oppbevarer informasjon samlet fra nettet siden 1996 og tilbyr en offentlig søketjeneste over denne samlingen. Arquivo.pt bevarer nettsteder på flere språk og tilbyr brukergrensesnitt på engelsk. De arkiverte dataene kan behandles automatisk for å utføre Big Data-undersøkelser gjennom en distribuert behandlingsplattform eller gjennom applikasjonsprogrammeringsgrensesnitt som letter utviklingen av merverdige applikasjoner. Arquivo.pt-teamet har også bidratt med over 40 vitenskapelige og tekniske artikler relatert til nettarkivering publisert i åpen tilgang.
Nettarkiv for Cacak Serbia 2009 HTTrack 1
Nettarkiv Singapore Singapore 2006 Wayback , Heritrix , Solr 3 Nettarkivet Singapore administreres av National Library Board , Singapore (NLB). NLB driver domene og selektiv arkivering av nettsteder med fokus på innhold i Singapore. Samlingen kan sees på Nasjonalbiblioteket, Singapore med valgt innhold som er klarert av opphavsrettseiere tilgjengelig online.
Digitale ressurser ( universitetsbibliotek i Bratislava ) Slovenske republikk 2015 Heritrix 3.2.0, Wayback 2.2.0, Solr 5.2.1, Invenio , Custom Curator Tool 4 1 Universitetsbiblioteket i Bratislava (ULIB) utførte de første eksperimentene med webhøsting i 2008-2009. I 2015 tok ULIB i drift en plattform for web- og e-Born-arkivering (under gjennomføringen av det nasjonale prosjektet "Digitale ressurser", som ble støttet av det europeiske regionale utviklingsfondet)- www.webdepozit.sk/ ).
Slovensk webarkiv Slovenia 2007 Heritrix , Wayback 1
Archivo de la Web Española Spania 2009 NetarchiveSuite , OpenWayback , Solr 3+veileder 2 Vedlikeholdt av National Library of Spain i samarbeid med regionale biblioteker. Tar en blandet tilnærming av selektive og brede høstinger. Hele .es domenehøst har blitt utført årlig siden 2009 til 2013 i samarbeid med Internettarkivet ved hjelp av Heritrix og Wayback. Siden 2014 har selektive høst blitt gjort av National Library of Spain, ved hjelp av NetarchiveSuite. Nasjonalbiblioteket = 3 bibliotekarer på heltid, 2 krypingeniører på deltid. Regionbiblioteker = flere bibliotekarer deltid. Siden 26. oktober 2015 tillater den lovlige innskuddsloven National Library of Spain og de regionale bibliotekene å samle spanske nettsteder som en del av det juridiske depositumet og gjøre dem tilgjengelige for allmennheten ved å følge reglene i opphavsrettslovgivningen.
PADICAT: Nettarkivet i Catalonia Spania 2005 Heritrix , Wayback , WERA, NutchWAX , Web Curator og CAT . 2 PADICAT er web -arkivet for åpen tilgang i Catalonia, opprettet av Biblioteca de Catalunya : den offentlige institusjonen som er ansvarlig for å samle, bevare og distribuere den bibliografiske arven i Catalonia, i Spania.
ONDARENET - Basque Digital Heritage Archive Spania 2008 Heritrix , Wayback , NutchWAX og Web Curator . 1
Sverige (Kulturarw3) Sverige 1996 NetarchiveSuite , Heritrix . Inhouse system for lagring, vedlikehold og tilgang, men flytting til OpenWayback eller pywb . 1,25 Det svenske webhøstingsprosjektet startet i 1996, og den første innhøstingen ble utført i 1997. I 2002 ble det lagt til daglige innhøstinger av visse avisnettsteder. Det var en pause i drift november 2009 - mai 2011, men en høsting for 2010 ble gjort ved hjelp av Internett -arkivet. Ingen domenehøst ble gjort i 2016, 2018 og 2019 på grunn av problemer med høstingsplattformen. Den daglige innhøstingen av avisnettsteder ble stoppet mellom mai 2017 og desember 2018, men ble utvidet til å dekke alle svenske avisnettsteder daglig. Siden april 2013 mottar National Library of Sweden også elektronisk materiale gjennom lov om innskudd for elektronisk materiale.
Aleph Arkiver Sveits, USA 2010 Webarkiveringsplattform, fange domenenavn, søkemotor med høy ytelse, Nesten sanntidsindeksering, verktøy for webovervåking > 10 Enterprise-grade automatisk webarkiveringsplattform for online opptak og bevaring. Støtt eDiscovery med kraftig og kvalitativ teknologi.

Rettet mot selskaper, institusjoner og byråer som søker å fange, bevare og utnytte nettinnholdet sitt; dynamiske nettsteder, wikier, sosiale medier, forum, kommentarer, ansvarsfraskrivelser og annonser, for samsvar (FDA, FINRA , FSA, SEC, FOIA), markedsføring eller rent konserveringsformål.

Expatriate Archive Center Blog Archive Haag, Nederland 2019 Arkiv-It-tjeneste Fokuset for dette prosjektet er blogger skrevet av alle som har bodd i utlandet. Vi bevarer disse bloggene og deres innhold fordi vi kjenner igjen deres kulturelle og historiske verdi. Å legge til et bloggarkiv i samlingen vår vil berike forskningsmulighetene for studenter og andre akademikere som velger oss som studiested. De arkiverte bloggene vil bli valgt ut fra veldig spesifikke kriterier, og kvaliteten vil bli sjekket med jevne mellomrom.
Webarkiveringsbøtte Sveits, USA, Canada 2012 WARC Software Development Kit, Cobalt, Holon webserver "Webarkiveringsbøtte" er et initiativ som ble lansert av Aleph Archives, for å bevare data og gi biblioteker og organisasjoner gratis verktøy for webarkivering og komponenter.

Webarkiveringsbøtten inneholder et sett med verktøy for å hjelpe arkivarer og fagfolk i det daglige arbeidet.

Nettarkiv Sveits Sveits 2008 Heritrix , Wayback , Webrecorder 6 2 krypteringsingeniører, 3 personer for kvalitetssikring (deler mindre enn 1 heltid), 1 koordinator. Kuratorene, som gjør utvalget, er partnerbiblioteker over hele Sveits.
NTU Web Archiving System, NTUWAS Taiwan 2007 Lucene 3
Nettarkiv Taiwan Taiwan 2007
Det britiske webarkivet Storbritannia 2004 Heritrix , Web Curator Tool , Wayback , Solr for søk.
UK Government Web Archive (UKGWA) Storbritannia 2003 MirrorWeb 7 1 Den britiske National Archives 'britiske regjeringen Web Archive (UKGWA) er en helt åpen web arkiv. Den inkluderer over 5000 statlige nettsteder og sosiale medier tatt med jevne mellomrom (1996 til nå). Omfanget av UKGWA er skissert i OSP27 -dokumentet. Teknisk side av webarkivering er levert av MirrorWeb .
Det britiske parlamentets webarkiv Storbritannia 2009 MirrorWeb 1 2 Det britiske parlamentets webarkiv fanger, bevarer og gjør tilgjengelig informasjon fra det britiske parlamentet publisert på nettet. Nettarkivet inkluderer nettsteder og sosiale medier fra 2009 til i dag. Den tekniske siden av webarkivering er levert av MirrorWeb .
EU Exit Web Archive Storbritannia 2020 MirrorWeb Den britiske National Archives 'EU Exit Web Archive er en helt åpen web arkiv. Den inneholder et bredt utvalg av dokumenter hentet fra EUR-Lex (nettstedet for europeisk lovgivning), inkludert traktater, lovdokumenter, EUs offisielle journal, rettspraksis og annet støttemateriale, og dommer fra EU-domstolen på engelsk, Fransk og tysk. Samlingen inneholder alt innhold som er publisert frem til gjennomføringsperioden er fullført, kl. 23.00 GMT 31. desember 2020.

Det gir et omfattende og offisielt britisk referansepunkt for EU -lovgivning slik det sto på slutten av implementeringsperioden.

Den tekniske siden av webarkivering er levert av MirrorWeb .

MirrorWeb Verdensomspennende 2012 Heritrix , PYWB for offentlige arkiver, tilpasset replay for arkiver inne i MirrorWeb -plattformen. Tilpassede arkiveringsverktøy for sosiale medier. 40 MirrorWeb tilbyr et nettsted og en arkivplattform for sosiale medier for finansielle tjenester og offentlige virksomheter. De driver en rekke offentlige arkiver, hvorav to inkluderer; den britiske regjeringens webarkiv og det britiske parlamentets webarkiv .
Internettarkiv (tilbyr Arkiv-det-tjeneste) forente stater 1996 Heritrix , Wayback , NutchWAX og andre verktøy utviklet av Internet Archive 150 Internet Archives Wayback Machine er det største og eldste webarkivet i verden, og dateres tilbake til 1996. Internet Archive tilbyr også forskjellige webarkiveringstjenester, inkludert Arkiv-IT , Lagre side nå og kontraktsøk på domenenivå. Wayback Machine er den offentlig tilgjengelige tilgangstjenesten til Internet Archive og partnernes samlinger.
Reed Tech Archives forente stater 2010 TrueArchive -teknologi Reed Tech Archives gir støtte for informasjonsstyring, rettssikkerhetsbeskyttelse, samsvar, e-Discovery og håndtering av sosiale medier. Solution tilbyr både en automatisk tilnærming eller manuell fangst. For automatisk fangst av nettsteder og sosiale medier fanger applikasjonen nettsteder med en gjentagende frekvens og intervall. Hele nettstedet er fullstendig ombygd inne i arkivet for å gi den nøyaktige brukeropplevelsen som tilbys på live -nettet. En bruker vil ha muligheten til å navigere på nettstedet fra et sett med nettadresser eller fra det synlige arkiverte nettstedet. Vanligvis støtter denne tilnærmingen samsvar og risiko

demping så vel som den juridiske funksjonen. On-demand manuell fangst gir klienter muligheten til å fange en fullt fungerende side eller en serie sider fra et nettsted eller sosiale medier ved behov via Reed Tech Web Preserver-plug-in. Denne tilnærmingen pleier å bli brukt for å støtte de juridiske, markedsførings- og konkurransedyktige etterretningsfunksjonene.

Stanford University Libraries forente stater 2007 Heritrix , HTTrack , Wayback , CDL Web Archiving Service, Internet Archive Archive-It 2 5 Stanford University Libraries har vært engasjert i webarkiveringsprosjekter siden 2007 og begynte å etablere et webarkiveringsprogram i 2013. Samlinger som SUL er engasjert i inkluderer Stanford University Archives , Bay Area Governments , Congressional Research Service (CRS) Reports , Freedom of Information Act ( FOIA) , Fugitive US Executive Agencies og mange flere. SUL er også involvert i samarbeidende webarkiveringsprosjekter som Archive of the California Government Domain, CA.gov med biblioteker ved University of California og CA State Library, End of Term Web Archive og Ivy Plus Libraries Confederation .
Columbia University Libraries forente stater 2009 Arkiv-it-tjeneste 2 > 1 Programmet for innsamling av webressurser i Columbia University Libraries (CUL) arkiverer utvalgte nettsteder i tematiske områder som tilsvarer eksisterende CUL -samlingsstyrker, nettsteder produsert av tilknyttede selskaper ved Columbia University, og nettsteder fra organisasjoner eller enkeltpersoner hvis papirer eller poster er lagret i CULs fysiske arkiver. Begynte webarkivering i 2008.
Cornell universitetsbibliotek forente stater 2011 Arkiv-it-tjeneste 1 > 1
North Carolina State Government nettstedarkiver forente stater 2005 Arkiv-it-tjeneste 3
Latinamerikansk webarkiveringsprosjekt forente stater 2005 Arkiv-it-tjeneste
Webarkiveringsprosjekt for Stillehavsøyene forente stater 2009 Arkiv-it-tjeneste 4
Library of Congress webarkiv forente stater 2000 Heritrix , Wayback og DigiBoard, et internt kurator-/tillatelsesverktøy 6 80 Deltidsarbeiderne bruker noen timer i måneden (i gjennomsnitt) på å velge innhold til samlingene.
Harvard bibliotek forente stater 2006 Arkiv-Det > 10 Harvard Library websamlinger består av 10 kuratoriske enheters samlinger , med variabelt personale som bidrar til både tekniske og kuratoriske aktiviteter. Harvard er også involvert i samarbeidende nettsamling gjennom Ivy Plus Libraries Confederation .


Harvard Library startet webarkiveringsaktiviteter i 2006 ved bruk av en egenutviklet Web Archive Collection Service (WAX) og gikk over til Archive-It i 2017.  

Webarkiveringstjeneste fra California Digital Library (WAS -tjeneste) forente stater 2005 Heritrix , Wayback , NutchWAX 4 > 1 Antall timer som kuratorer bruker på tjenesten er svært variabel.
Bentley Historical Library (University of Michigan) webarkiv forente stater 2000 HTTrack , Teleport Pro, WAS-tjeneste (2010-) 2
University of Texas at San Antonio Web Archives forente stater 2009 Arkiv-Det 3 Antall timer varierer avhengig av hvordan gjennomsøkelsene er planlagt.
qumram Sveits 2010 qumram Webarkivering / Web Information Governance Software Suite Kommersiell programvare for webarkivering / webinformasjon. Tilbyr både fjernhøsting og transaksjonell nettarkivering. Tillater integrering med alle mulige webapplikasjoner (WCMS, Portal, Sharepoint, eShop, tilpassede applikasjoner) samt depot (database, filsystem, elektronisk arkiv eller registerhåndteringssystem, skybasert løsning). Gjør det mulig å fange og reprodusere offentlig informasjon samt spesifikke brukerinteraksjoner.
SAPERION Tyskland 2011 SAPERION ECM webinnholdsarkiv Kommersiell innholdshåndteringspakke for bedrifter spesialiserer seg på overholdelse av forskrifter. Produktet tilbyr både høsting og transaksjonswebarkivering basert på integrasjonen av qumrams Chronos Web Archiving Software Suite. Nettinnhold er bare en annen kanal som innholdet når SAPERION fra. Andre kan være skanner, faks, e-post, mobile enheter, kontorsuiter eller annet system som skaper innhold som ERP- systemer.
Bibliotheca Alexandrinas internettarkiv Egypt 2002 Heritrix , OpenWayback , WARCrefs 3 Nåværende gjennomgangsinteresser: Egypt utover 25. januar, Arab League ccTLDs

Deduplisering: bruk av WARCrefs -verktøy for å deduplisere webarkivinnhold i BA
-klynge OpenWayback: håndtering av store dataindeksering ved å bruke ZipNumCluster til å finne en bestemt URI i komprimerte CDX -filer

AUEB webarkiv Hellas 2010 Heritrix , Wayback og NutchWAX . 1 1 Dette prosjektet er en del av Universitetsbibliotekets funksjon.
Verdensbankens webarkiv forente stater 2007 HTTrack crawler, Oracle RDBMS, Google Search Appliance 0 3
Russisk nasjonalt digitalt arkiv Russland 2010 wpull , grab-site , HTTrack crawler, ad-hoc-skript utviklet for arkivering av sosiale medier. Eksperimenterer: Heritrix , Wayback Omtrent 5000 statlige nettsteder samlet inn (mai 2018) ved hjelp av wpull og ble levert som arkiver for nedlasting.
Arkiv Team Verdensomspennende 2009 wpull , ad hoc -skript 1 ~ 100 Frivillig gruppe. De arkiverte delvis GeoCities , Yahoo! Videoer , Google Video og andre.
WikiTeam Verdensomspennende 2011 ad hoc -skript 0 0 Frivillige gruppe. Over 20 000 wiki bevart.
University of North Texas CyberCemetery forente stater 1997 Heritrix , Wayback ; tidligere HTTrack 2 CyberCemetery er et arkiv med statlige nettsteder som har opphørt drift (vanligvis nettsteder for nedlagte statlige etater og kommisjoner som har utstedt en sluttrapport). Denne samlingen inneholder en rekke temaer som indikerer den brede naturen til offentlig informasjon. Spesielt inneholder denne samlingen nettsteder som dekker emner som støtter universitetets læreplan og spesielle programstyrker.
Arkiv.is Verdensomspennende 2012 Apache Accumulo , HDFS , Chromium , ad hoc -skript 1 1 Lagrer eksterne lenker fra fellesskapets nettsteder (wikier, fora, blogger, ...). Kan lagre øyeblikksbilder av Web 2.0 -sider.
Tamiment Library og Robert F. Wagner Labor Archives ved New York University forente stater 2007 VAR service 1 1 Arkiverer nettsteder relatert til New York City og National Labour and Left Movements. Prosjektene inkluderer: Alternative Mass Media / News; Anarkisme; Dyrerettigheter; Kunst og kulturelt venstre; Sivile rettigheter og borgerlige friheter; Kommunisme, sosialisme, trotskisme; Økonomisk og sosial rettferdighet (inkludert okkupere Wall Street); Utdanning og studentbevegelser; Valgpolitikk og partier / politisk aksjon (USAs venstre); Miljøvern / grønn bevegelse; Feminisme og kvinnebevegelser; Guantanamo Bay interneringsleir og krigsforbrytelser (USA); Boliger; Internett/cyberspace demokrati; Jewish American Progressive & Left Activity; Fagforeninger og organisasjoner (USA); Venstre Academia and Theory, Intellectuals and Other Notables; LHBT -rettigheter; Annen venstreaktivisme; Fredsbevegelser; Fangers rettigheter og politiske fanger; Progressiv politikk/ utdanningsorganisasjoner.
Preservica Verdensomspennende 2012 Heritrix , Preservica kjerneprodukt, Wayback Skybasert heterogen arkiveringstjeneste som tillater inntak fra flere kilder (inkludert webarkivering via Heritrix). Evne til å migrere innhold i WARC -filer og gjengi i Wayback. Inngår kjøringer som arbeidsflyt, så veldig liten innsats er nødvendig for å kjøre den. Utviklet, støttet og drevet av Preservica.
Sentralstatens elektroniske arkiv i Ukraina Ukraina 2007 HTTrack , Wget 2 Arkiver som er interessert i å beholde nettsteder og lage tematiske samlinger av slike nettsteder, er for tiden i lagring av arkivsamlingene av nettsteder som inkluderer temaet presidentvalg i Ukraina fra 2010 til i dag, om Tsjernobyl -katastrofen, lokalvalget, for Euro 2012 i Ukraina, UNESCOs verdensarvliste i Ukraina, 200 -årsjubileet for fødselen av Taras Shevchenko.
York University Libraries , York University Digital. Bibliotek Canada 2012 Heritrix , Wget , Islandora , OpenWayback 1 0
New York Art Resources Consortium (NYARC) forente stater 2012 Arkiv-It-tjeneste 1 ~ 3 Samarbeid mellom Frick Art Reference Library , Brooklyn Museum Library & Archives og Museum of Modern Art (MoMA) Library for å arkivere spesialiserte kunsthistoriske nettressurser.
Nederlandsk institutt for lyd og bilde (lyd og bilde) webarkiv Nederland 2011 Heritrix , Elasticsearch for full-text index, Drupal for front-end ~ 7 Sound and Vision har vært involvert i webarkiveringsprosjekter siden 2008, og startet med EUs forskningsprosjekt LiWA. Etter et par piloter ble nettarkiveringsprosjekter skalert opp i 2014.
Rhizome (organisasjon) forente stater 1999 ArtBase , Webrecorder , Oldweb.Today 3 1 Rhizome driver et digitalt konserveringsprogram, ledet av Dragan Espenschied , som er fokusert på å lage gratis programvare for åpen kildekode for å desentralisere webarkivering og bevaring av programvare og sikre tilgang til samlingene av digital digital kunst. Oldweb.Today og Webrecorder er verktøyene fokusert på nettarkivering spesielt.
University of Texas at Austin Libraries, Human Rights Documentation Initiative forente stater 2009 Arkiv-It-tjeneste 1 1 University of Texas Libraries 'Human Rights Documentation Initiative (HRDI) fanger opp nettstedene til menneskerettighetsorganisasjoner for å gi sikker tilgang til menneskerettighetsdokumentasjon i tilfelle disse ofte skjøre nettstedene blir tatt ned.
Kentucky avdeling for biblioteker og arkiver forente stater 2009 Arkiv-det , Wayback > 1 0 Denne samlingen inkluderer registreringer av nettsteder for statlige byråer i Kentucky i filialene Executive, Legislative og Judicial. Frittstående nettsteder for styrer, råd, komiteer, kvasi-statlige etater og byråprogrammer arkiveres også. Captures for nettsteder som dateres 2000-2008 er inkludert i denne samlingen via en overføring til vår konto fra Wayback Machine.
University of California, San Francisco Library forente stater 2007 Archive-it , Wayback , CDL WAS Service > 1 0 Denne samlingen dokumenterer Internett -tilstedeværelsen til UCSF, så vel som de større helsevitenskapelige fokusene på AIDS -historien; anestesiologi; bioteknologi og biomedisinsk forskning; kontroll og regulering av tobakk; nevrovitenskap; og beregningsmedisin. Personalet er en digital arkivar på heltid med forskjellige ansvarsområder i tillegg til nettarkiver.
Ivy Plus Libraries Confederation forente stater 2013 Arkiv-Det , bartrær 1 1 Ivy Plus Libraries Confederation's Web Resources Collection Program er et samarbeidsutviklingssamarbeid for å bygge kuraterte, tematiske samlinger av fritt tilgjengelig, men utsatt, webinnhold for å støtte forskning på deltakende biblioteker og videre. Deltakende biblioteker er: Brown , Chicago , Columbia , Cornell , Dartmouth , Duke , Harvard , Johns Hopkins , MIT , Penn , Princeton , Stanford og Yale . Samlinger er tilgjengelige via Archive-It .
Malaysisk regjerings nettarkiv (MyGWA) Malaysia 2017 Wayback, WGET , WPULL > 1 0 National Archive of Malaysia begynte å arkivere nettsteder for offentlig sektor i Malaysia siden 2017.
HTTP -arkiv Gjennomsøker populære nettsteder for dataanalyse
National Library of Medicine (USA) forente stater 2009 Arkiv-Det, bartrær ~ 8 NLM -websamling styres av retningslinjene for utvikling av samlinger fra National Library of Medicine og annen strategisk innsamlingsinnsats. Samlingene inkluderer Global Health Events, Opioid Epidemic, HIV/AIDS, Health and Medicine Blogs og NLMs egen web -tilstedeværelse.
Smithsonian Libraries and Archives (USA) forente stater 2000 Heritrix , Archive-It , Webrecorder , Conifer , Browsertrix , annet 5 Smithsonian Libraries and Archives samler nettsteder og kontoer på sosiale medier som dokumenterer institusjonens historie.

Arkiverte data

Navn Arkivert innhold (millioner) Diskplass okkupert (TB) Arkivformat TLD/Broad Crawls Selektive gjennomsøk (Ja/Nei) Kommentarer
EUs webarkiv 35 (ca.) WARC .EU Y .EU 80 nettsteder på europa.eu -domenet og underdomenene, gjennomgått en gang i kvartalet + ad hoc -gjennomsøk på forespørsel fra nettstedseiere (selektive gjennomsøkelser). Status februar 2019.
Australias webarkiv 11000 600 WARC .AU Y .AU gjennomsøker (1996-2018): 10,15 milliarder filer (530 TB). Selektive gjennomsøkelser (1996-2019): 755 millioner filer (44 TB). AGWA (2011-2018): 525 millioner filer (58 TB).
Vår digitale øy, et tasmansk nettarkiv 0,336 HTTrack Y Bevarer onlineinnhold relatert til Tasmania. ODI har operert siden oppstarten under antagelsen om at nettsteder faller innenfor definisjonen av 'bok' i Tasmanian Library Act 1984. Det kreves derfor ingen tillatelse til å fange fra utgivere.
Webarkiv Østerrike 4095 164 BUE .AT , .wien , .tirol Y En kopi av dataene lagres i en lagringsenhet med høy sikkerhet.
Deutsche Nationalbibliothek WARC .DE Y Bare én eksperimentell TLD -gjennomgang.
DILIMAG (Digital Literature Magazines) 0,03 0,996 BUE Prosjekt fra 2007-03-01 til 2010-12-23. Prosjektet DILIMAG for innsamling, beskrivelse og arkivering av digitale tyske litterære magasiner.
Bibliothèque et Archives nationales du Québec (BAnQ) 167 31 ARC / WARC Y Høstingen begynte i 2009. Selektive gjennomsøkelser av Quebec -nettsteder.
Canadas regjerings nettarkiv (GCWA) 1750 70 ARC / WARC .GC.CA Y Nettarkivering på Library and Archives Canada (LAC) begynte i 2005 og konsentrerte seg om å samle den føderale regjeringens webtilstedeværelse og fange føderale valg, OL og kanadiske minneshendelser. Tematiske websamlinger av Canadiana forskningsinteresse har blitt kurert som en pågående programaktivitet siden 2009.
Innsamling og bevaring av nettinformasjon - WICP (kinesisk nettarkiv) .GOV.CN Y Høst av nettsidene om hendelsene som har stor innflytelse på samfunnet, økonomien og så videre, og nettstedene på 'gov.cn' -domenet.
Kroatisk webarkiv (Hrvatski arhiv weba - HAW) 231 1. 3 Speil, WARC .HR Y Siden 2004 selektiv høsting av over 5000 nettressurser. Siden 2011 årlig høsting av nasjonalt .hr -domene samt tematisk høsting. Alt arkivert innhold er offentlig tilgjengelig via HAWs nettsted.
Webarchiv ( nasjonalbiblioteket i Tsjekkia ) 9412 350 ARC / WARC .CZ Y Høstingen begynte i 2001.
Netarkivet/ Det danske webarkivet (Det Kongelige Danske Bibliotek) 36000 634 ARC / WARC .DK Y +36 milliarder objekter:
  • html: 19077101525
  • bilde: 5859756918
  • annet: 4080719309
  • tekst: 757030275
  • pdf: 97318057
  • lyd: 8166680
  • video: 7085143
  • ord: 47510
  • powerpoint: 5660
  • utmerke seg: 4721


  • Høst av øyeblikksbilder
  • Selektiv høsting
  • Høsting av hendelser
  • Spesiell høsting


Estisk webarkiv 874 56 ARC / WARC .EE Y Arkivet består av selektive, hendelses- og aktuelle gjennomganger siden 2010. Hele nasjonale domenesøk gjennomføres årlig siden 2015. I tillegg til TLD .ee, hentes Estland-relatert webinnhold fra andre TLD-er som .eu, .org, .com etc.
Finsk nettarkiv 494 23 .FI , .AX Y Gjennomsøker også innhold som er vert på maskiner som er fysisk lokalisert i Finland, uavhengig av domenet.
BnF - BnF Web Legal Deposit 18800 370 ARC / WARC .FR + alle nettsteder som er vert i Frankrike Y BnF lager fulle kopier av alle nettstedene i .FR TLD , så vel som alle nettstedene som er vert i Frankrike, og ignorerer både Robots ekskluderingsstandard og lisensene til dokumentene.
BnL Web-arkiv 543 41 WARC .LU Y BnL gjennomfører 2 domenesøk per år, samt hendelsesbaserte og selektive gjennomsøkelser.
Ina (Institut National de l'Audiovisuel) 105800 2359 DAFF Y Fra og med 2021-03-08

DAFF håndterer full innholdsduplisering, så størrelsen på disken tar hensyn til komprimering og deduplisering; tilsvarende disklagring i komprimert ARC -format ville være omtrent 10 PB

E-diaspora (Télécom ParisTech, FMSH) 1030 1. 3 DAFF Y DAFF håndterer full innholdsduplisering, så størrelsen på disken tar hensyn til komprimering og deduplisering; tilsvarende disklagring i komprimert ARC -format ville være omtrent 51 TB
Internettminne Foundation 180 WARC Kan gjøres av partnere Y Tidligere europeisk arkiv. Samarbeid med Internet Memory Research, som tilbyr ArchiveTheNet -tjenesten (ATN -tjenesten). Selektive gjennomsøkelser (140 TB), Domenesøk (40 TB), forventer å vokse til 1PB i 2012. Nytt datasenter og en ny søkerobot i 2012.
Bibliotheksservice-Zentrum Baden-Württemberg 9 WARC Y Nettsteder i rundt 20 byer, kommuner, distrikter + deres tilknyttede selskaper og statsbiblioteker blir samlet av BSZ i kommisjon innenfor ulike Arkiv-Det-samlinger. Offentlig tilgang. Datalagring: San Francisco (Archive-It) samt sikkerhetskopiering med Baden-Wuerttemberg lagringsinfrastruktur.
Nettarkiv for den tyske forbundsdagen Y Det tyske føderale parlamentet. Selektiv. Med jevne mellomrom eller ved visse hendelser blir det tatt øyeblikksbilder (øyeblikksbilder) av www.bundestag.de og andre webpresenter fra den tyske forbundsdagen. Disse er tilgjengelige i webarkivet til dags dato.
Island
Israel webarkiv ARC / WARC .IL Y .IL crawls (2006-2011): Pilots Crawls (500 GB). Selektive kravlesøk (1996, 2011)
Webarkiveringsprosjekt (WARP), The National Diet Library, Japan 7358 1403 WARC - Y fra mars 2019
15 TB selektive gjennomsøkelser basert på tillatelse (2002–2010). Startet webarkiveringen av offisielle institusjonssteder basert på lovverket fra april 2010.
Nasjonalbiblioteket i Korea - OASIS (elektronisk arkivering og søk på internettressurser) 24 Y Krever samtykke før arkivering. Mål 56 401 nettsteder. Nettarkivering administreres under digitale ressursstyringssystemer. I 2011 vil webarkiveringssystemet bli gjenoppbygd.
Koninklijke Bibliotheek 407 36 BUE Y Selektive kravlesøk (årlig) på ca. 20.400 nettsteder (desember 2020)
New Zealand webarkiv 2946 137 ARC / WARC .NZ Y .NZ gjennomsøkelser (2008-2020): 3 milliarder nettadresser (137 TB). Selektiv søker gjennom 33 500 nettsteder (ca. 9 TB). Juridisk innskudd dekker født digitalt materiale (inkludert nettsteder).
Nasjonalbiblioteket
Arquivo.pt- det portugisiske webarkivet 10 780 721 ARC / WARC Fokusert på .PT, men også andre domener Y .PT -domenesøk og integrering av eksterne samlinger siden 2007 og daglige gjennomsøkelser av et utvalg nettpublikasjoner siden 2010. Selektive gjennomganger knyttet til nasjonale arrangementer som valg eller internasjonalt innhold knyttet til vitenskap, for eksempel nettsteder om forskning og utvikling -prosjekter finansiert av Den Europeiske Union.
Nettarkiv for Cacak 0,255 0,013 HTTrack Y Selektive gjennomsøkelser av 130 steder relatert til byen Cacak. Samarbeid med Webarchiv -teamet fra Nasjonalbiblioteket i Tsjekkia.
Nettarkiv Singapore WARC .SG Y Selektive gjennomsøkelser av Singapore-relaterte nettsteder og .SG-domenearkivering .
Digitale ressurser ( universitetsbibliotek i Bratislava ) 1514 68 WARC .SK Y Høstingen av det slovakiske nettet startet i 2015. Siden den gang har ULB utført fem (2016 - 2020) fulldomenehøsting (høsting av det nasjonale .SK -domenet), flere selektive gjennomsøkelser og tematiske gjennomsøkelser (temasentrerte og kampanjer dedikert til hendelser).
Slovensk webarkiv 30 WARC Selektive gjennomsøkelser siden 2007, nasjonale domene gjennomgår siden 2014.
Archivo de la Web Española 2539 117 WARC .ES Y Domain .ES crawl (2009-2013): 2.421 millioner filer (111 TB) i samarbeid med Internet Archive. Selektive gjennomsøkelser (2014-2015): 119 mil filer (6 TB). Omtrent 30 nyhetsmediesider gjennomsøkte hver dag. Ikke lansert offentlig ennå.
PADICAT: Nettarkivet i Catalonia 620 32,5 ARC / WARC .KATT Y I samsvar med den generelle trenden er arkivmodellen et hybridsystem som består av: Massesamling av digitale digitale ressurser som er tilgjengelige på Internett (.cat); Systematisk arkivering av nettstedets utdata fra katalanske organisasjoner; Fremme av forskningslinjer gjennom temaintegrering av de digitale ressursene knyttet til spesifikke hendelser i katalansk offentlig liv (valg, museer, etc.)
Baskisk digital arvarkiv 21 0,8 BUE Y
Sverige (Kulturarw3) 5700 360 Flerdelt MIME .se, svensk .nu og geolocation for andre tld'er Y Bulk kryper omtrent to ganger i året.
Selektive kravlesøk på rundt 140 aviser hver dag.
Aleph Arkiver > 10000000 > 25 Native HTML , WARC , WARC2, ARC og HTTrack å WARC migreringsverktøy Y Enterprise-grade automatisk webarkiveringsplattform for online opptak og bevaring. Støtt eDiscovery med kraftig og kvalitativ teknologi.

Rettet mot selskaper, institusjoner og byråer som søker å fange, bevare og utnytte nettinnholdet sitt; dynamiske nettsteder, wikier, sosiale medier, forum, kommentarer, ansvarsfraskrivelser og annonser, for samsvar (FDA, FINRA , FSA, SEC, FOIA), markedsføring eller rent konserveringsformål.

Nettarkiv Sveits 53 ARC , WARC Y Hovedsakelig utvalgte .ch -kravlesøk
NTU Web Archiving System, NTUWAS 200 14 Y
Nettarkiv Taiwan
Det britiske webarkivet 20.6 WARC Y Selektiv kryper med tidligere tillatelse. Gjennomfører nå også engros-britiske domeneskalaer i henhold til lovgivning om ikke-trykt lovlig innskudd, vedtatt april 2013. Dette innholdet vil bare være tilgjengelig på lokaler som er kontrollert av et av de seks lovlige innskuddsbibliotekene. UKWA er en spin-off fra UK Web Archiving Consortium som ble avsluttet i 2007.
Hanzo arkiver 7 WARC Y Kommersielle webarkiveringstjenester og -apparater for myndigheter og selskaper hvis samsvar eller juridiske forpliktelser / behov strekker seg til deres nettsteder, intranett og sosiale medier. Mange "mørke" arkiver over hele Europa og USA.
Storbritannias regjerings nettarkiv 1000 + 150 BUE

WARC -innlegg juli 2017

Mellom 2003 - 2005 påtok seg Internet Archive den tekniske siden av webarkivering på vegne av UK Government Web Archive. Mellom 2005 - juli 2017 ble den tekniske siden av nettarkiveringstjenesten utlevert til Internet Memory Foundation. Fra juli 2017 overtok MirrorWeb kontrakten og flyttet hele arkivet til skyen. UK Government Web Archive var en del av UK Web Archiving Consortium fra 2004 - 2009.
Internettarkiv (tilbyr Arkiv-det-tjeneste) 690000 21000 Verdensomspennende Y Tilbyr Archive-it-tjenesten og leder Arkiv-tilgangsprosjektet (Internet Archive ARC-tilgangsverktøy). Samlingen speiles på Bibliotheca i Alexandrina i Egypt.
Reed Arkiver
Columbia University Libraries Web Resources Collection Program 487 30.4 ARC / WARC Y Selektiv gjennomsøker med tillatelse eller varsel. Tematiske samlinger i: Menneskerettigheter; Historisk bevaring og byplanlegging; New York bys religioner. Ta også opp webområdet Columbia University.
North Carolina State Government nettstedarkiver 51.5 3.8 WARC Y
Latinamerikansk webarkiveringsprosjekt Y
Webarkiveringsprosjekt for Stillehavsøyene 5.5 ARC / WARC Y Inkluderer nettsteder i 18 land.
Library of Congress webarkiv 7741 420 ARC / WARC Y Tidligere MINERVA. Selektive kravlesøk med varsel og tillatelse; først og fremst hendelses- og temasamlinger.
Harvard University Library: Web Archive Collection Service (WAX) 19 0,661 BUE Y Selektive kravlesøk uten tidligere autorisasjon.
Webarkiveringstjeneste fra California Digital Library (WAS -tjeneste) 216 25.2 ARC / WARC Kan gjøres av partnere Y Tilbyr webarkiveringstjeneste (WAS) til partnere over hele verden. Ble utviklet ved California Digital Library.
Bentley Historical Library (University of Michigan) webarkiv 34.5 2.6 ARC / WARC Y VAR tjeneste siden 2010.
University of Texas at San Antonio Web Archives 26 1.135 ARC / WARC Y Universitetsadministrasjon, fakultet og studentområder; samt selektive fangster på fagområder i San Antonio og Sør -Texas, inkludert organisasjoner i San Antonio; San Antonio online tidsskrifter og blogger; Tejano og Conjunto musikk; Homofile, lesbiske, bifile, transgender og quer -relaterte nettsteder i Texas, San Antonio og Rio Grande Valley; Innvandring/grenseland; Meksikansk matlagingsblogg; San Antonio restauranter; Fornybar energi i Texas; Rio Grande Valley organisasjoner; og Rio Grande Watershed og Texas Water Issues.
AUEB webarkiv 3 WARC aueb.gr N Mengden data som gjennomsøkes fra domenet aueb.gr varierer mellom 10 GB og 14,9 GB. Dataene lagres på disk komprimert og krever mellom 8,8 GB og 9,7 GB, noe som resulterer i plassbesparelser mellom 12% og 35%. Ved ny gjennomsøking kan vi bare lagre websider som endres siden forrige gjennomsøking på disken. Følgelig gjennomsøkte vi 13,1 GB fra domenet aueb.gr, men vi lagret bare 1,6 GB på disken, noe som resulterte i plassbesparelser på 88%.
Verdensbankens webarkiv 0,143 HTTrack nei, så langt Y 450 steder med historisk eller forskningsverdi er høstet siden 2007, hvert arkivert før de ble frakoblet eller før en større oppgradering.
University of North Texas CyberCemetery 0,887 WARC .gov Y
Bibliotheca Alexandrinas internettarkiv 80000 1000 ARC / WARC Egyptiske nyheter og politikk Y
York University Digital Library 0,435 WARC yorku.ca + fakultetsforespørsler Y
Nederlandsk institutt for lyd og bilde (lyd og bilde) webarkiv ARC / WARC Y Blant annet av-arv har Sound and Vision i oppgave å arkivere programmer som sendes av nederlandske offentlige kringkastere. Derfor består en viktig del av webarkivet av nettsteder for allmennkringkaster knyttet til disse programmene. Videre arkiveres nettsteder som ikke har en direkte lenke til samlingen, men som er av interesse på en bredere, mediehistorisk måte. Eksempler er nettsteder for kommersielle kringkastere.
Kentucky avdeling for biblioteker og arkiver 3 0,3007 WARC Y
University of California, San Francisco Library 12.5 0,587 ARC/WARC Y Nettsider etterspurt av ansatte og fakulteter, og en voksende liste som prøver å fange alle UCSF -nettsteder så omfattende som mulig.
Ivy Plus Libraries Confederation 8.2 ARC / WARC Y Selektive kravlesøk med varsel. Tematiske samlinger innen politikk og politiske protester, arkitektur, komponister, design, spill, geologi, webkomics, dokumentarfilmer, kunst, religion, seksualitet, klimaendringer og mer.
Malaysisk regjerings nettarkiv (MyGWA) 10 WARC .GOV.MY Y Gjennomsøker bare malaysiske offentlige sektors nettsteder. Visningen er etter emne, dvs. administrasjon, økonomi, sikkerhet og sosialt.
National Library of Medicine (USA) 122 9.1 WARC Y
Smithsonian Libraries and Archives (USA) 10 WARC Y

Tilgangsmetoder

Navn URL -historikk (Ja/Nei) Metadata (katalog/avansert) søk (Ja/Nei) Søk i fulltekst (Ja/Nei) Memento Compliance (Nei/Native/Proxy) Kommentarer
EUs webarkiv Y Y Y Fritt tilgjengelig for alle via data.europa.eu/webarchive
Australias webarkiv Y Y Y Nei Utvalgte nettsteder er offentlig tilgjengelige gjennom en katalogstruktur. Domenehøst er ikke det. Den PANDORA Arkiv er indeksert og søkbart gjennom NLA singel søketjeneste kammer.
Australian Domain Harvest er fulltekstindeksert, men er foreløpig ikke offentlig tilgjengelig. Den australske regjeringens webarkiv er søkbart etter URL og fulltekstindekser gjennom portalen.
Vår digitale øy, et tasmansk nettarkiv Y Y N Nei Presenterer miniatyrbilder generert gjennom Html To Image supplert i HTTrack . Informasjonen er organisert i katalogen: AZ Emneoppføring, AZ Titteloppføring.
Webarkiv Østerrike Y N Y Nei Mulig å søke på nettet etter versjoner enten etter URL eller i (delvis) fulltekst. Nettstedene er bare tilgjengelige på spesielle terminaler på det østerrikske nasjonalbiblioteket . Har bokmerkefunksjon som gjør det mulig å lagre versjoner online og hente dem på bibliotekets webarkivsterminaler.
Deutsche Nationalbibliothek Y Y Y Nei Bare tilgjengelig på lesesalene i det tyske nasjonalbiblioteket. Metadataene er inkludert i den offentlig tilgjengelige bibliotekskatalogen.
DILIMAG (Digital Literature Magazines) Y Y N Nei Metadata er offentlig tilgjengelig, for de arkiverte versjonene gir gratis eller begrenset tilgang avhengig av rettighetshaveravtalen. Fulltekstsøk er implementert i den nye versjonen (online siden februar 2015).
Bibliothèque et Archives nationales du Québec (BAnQ) Y N N Nei Gir tilgang i henhold til partnerpolicy.
Canadas regjerings nettarkiv (GCWA) Y Y Y Fullmakt Library and Archives Canada gjør sine føderale regjerings webarkiver (materialer under Crown Copyright) offentlig tilgjengelige. Indekser er tilgjengelige for å oppdage kanadiske føderale webressurser alfabetisk etter forfatterorganisasjon og URL. Fulltekstindeksering er basert på Lucene.
Innsamling og bevaring av nettinformasjon - WICP (kinesisk nettarkiv) Y Nei Arkivinnhold er bare tilgjengelig på intranett i National Library of China. Noen samlinger er offentlig tilgjengelige, med metadata-søk og kan leses etter samling.
Kroatisk webarkiv (Hrvatski arhiv weba - HAW) Y Y Y Fullmakt Full åpen tilgang.
Webarchiv ( nasjonalbiblioteket i Tsjekkia ) Y N N N På grunn av begrensninger i opphavsretten er bare et begrenset antall arkiverte nettsteder som det ble inngått avtaler med forlagene tilgjengelig på nettet. For andre ressurser kan du finne ut om et gitt nettsted er arkivert og antall innhøstede versjoner. Ubegrenset tilgang til alle ressurser i Webarchiv er tilgjengelig fra offentlige terminaler i Nasjonalbiblioteket.
Netarkivet.dk Y N Y Nei Online tilgang bare gitt forskere gjennom en Citrix -pålogging til fritekstsøk basert på Solr og en proxy -løsning som åpner et arkiv gjennom Wayback . Den har etablert et rammeverk for å kjøre batchjobber med mulighet for data mining.
Estisk webarkiv Y Y N Nei Offentlig tilgang til arkivert innhold er bare tillatt med tillatelse fra opphavsrettseieren. Fullstendig arkiv er tilgjengelig bare for webarkivets personell.
Finsk nettarkiv Y N 30% av materialet. Nei URL-søk, men tilgang til innhold på stedet. Fulltekstsøk er tilgjengelig for 30% av materialet.
BnF - BnF Web Legal Deposit Y N 15% av samlingen Nei Tilgjengelig for autoriserte brukere av BnF, gjennom lesesalene i forskningsbiblioteket i Paris og Avignon. Wayback -grensesnittet ble oversatt til fransk. Søk i fulltekst bare for en relativt liten del av samlingen (15% av 200 TB) indeksert av Internet Archive. Ingen nåværende fulltekstsøk implementert i arbeidsflyten. Bygger spesielle samlingsgallerier basert på et utvalg fra arkivet om et gitt emne.
Ina (Institut National de l'Audiovisuel) Y Y Y Nei Fulltekstindeksering er basert på Lucene. For å imøtekomme resultater fra hyppige gjennomsøk (flere gjennomsøkelser per time for noen sider) opereres klynger for å håndtere lignende versjoner av sider
E-diaspora (Télécom ParisTech, FMSH) Y N N Nei 1381 nettsteder er nå gjennomgått for å bygge et arkiv om migranters bruk av nettet, samfunnsfagforskere har lansert et langsiktig prosjekt basert på dette arkivet Ina håndterer gjennomsøk og lagring
Internettminne Foundation Y Y Y Nei Tilbyr tilgangs- og søketjenester i henhold til partnernes retningslinjer.
Bibliotheksservice-Zentrum Baden-Württemberg Y Y Y Innfødt Arkiverte nettsteder tilgjengelig via Archive-It; integrert i SWB fagforeningskatalog. Full åpen tilgang for hoveddelen av øyeblikksbilder, noen begrenset av IP.
Nettarkiv for den tyske forbundsdagen Y N N Nei Nettarkivet i seg selv er øyeblikksbilder av www.bundestag.de og andre nettsteder. Navigering er mulig ved å klikke på årene.
Island Innfødt
Israel webarkiv N Y N Nei Fortsatt i utvikling og piloter
Webarkiveringsprosjekt (WARP), The National Diet Library , Japan Y Y Y Nei Alle de arkiverte nettstedene er tilgjengelige på stedet. 80% av dem er også tilgjengelig på Internett med tillatelse fra nettredaktører.
Nasjonalbiblioteket i Korea - OASIS (elektronisk arkivering og søk på internettressurser) Y Y Y Nei 100% av arkivet er indeksert. Gjør det mulig å søke etter emneklassifisering (f.eks. Religion, vitenskap, kunst). Søk tilgjengelig.
Koninklijke Bibliotheek Y N N Nei Nettarkivet er tilgjengelig på terminaler i KB -lesesalene for fullverdige medlemmer ('på stedet').
New Zealand webarkiv Y Y N Nei Domenehøst: tilgjengelig for utvalgte ansatte ved bruk av OpenWayback og begrenset til URL -søk. Selektive innhøstinger: hvert nettsted er beskrevet i katalogen (gir tema, forfatter, tittel og URL -søk) og kan sees av publikum via Internett ved å klikke på lenken til den arkiverte kopien. Selve nettstedene er imidlertid ikke indeksert.
Nasjonalbiblioteket N Y Nei Nettsteder er integrert i katalogen. Venstre stolpe muliggjør fasettnavigering med utfylling.
Arquivo.pt- det portugisiske webarkivet Y Y Y Innfødt En fulltekst- og URL-søketjeneste er fritt tilgjengelig . Bildesøk støttes også. Arkiverte data kan utvinnes via en Hadoop -plattform eller offentlig tilgjengelige programprogrammeringsgrensesnitt for å utvikle webapplikasjoner .
Nettarkiv for Cacak N N N Nei Planlegger å utvikle en søkemotor i fremtiden. En dårlig egenskap ved HTTrack er at den omdøper filer under arkiveringen, så den opprinnelige strukturen på nettstedet går tapt, i tillegg til filnavn.
Nettarkiv Singapore Y Y Y Nei Samlingen kan sees på Nasjonalbiblioteket, Singapore med valgt innhold som er klarert av opphavsrettseiere tilgjengelig online.
Digitale ressurser (universitetsbibliotek i Bratislava) Y Y N Nei Det er mulig å finne ut om et nettsted ble arkivert og hvor mange høstede versjoner som finnes. På grunn av opphavsrettsbegrensningene er bare et begrenset antall arkiverte nettsteder offentlig tilgjengelig (basert på avtaler med utgivere). Tilgangen til andre arkiverte ressurser er tilgjengelig lokalt på universitetsbiblioteket i Bratislava.
Slovensk webarkiv Y N Y Nei Arkivet med selektive gjennomsøkelser er offentlig tilgjengelig. Bruk er mulig ved å bla gjennom og søke i fulltekst. Nasjonale domenesøk er ikke tilgjengelig ennå, men vil være det i fremtiden.
Archivo de la Web Española Y (Fremtid) Y (Fremtid) Y (Fremtid) Nei Planlegg å gi tilgang på stedet på kort og mellomlang sikt.
PADICAT: Nettarkivet i Catalonia Y Y Y Nei Full åpen tilgang.
Baskisk digital arvarkiv Y Y Y Nei
Sverige (Kulturarw3) Y N N Nei Allmenn tilgang via dedikerte maskiner i bibliotekbygningen.
Aleph Arkiver Y Y Y Nei Enterprise-grade automatisk webarkiveringsplattform for online opptak og bevaring. Støtt eDiscovery med kraftig og kvalitativ teknologi.

Rettet mot selskaper, institusjoner og byråer som søker å fange, bevare og utnytte nettinnholdet sitt; dynamiske nettsteder, wikier, sosiale medier, forum, kommentarer, ansvarsfraskrivelser og annonser, for samsvar (FDA, FINRA , FSA, SEC, FOIA), markedsføring eller rent konserveringsformål.

Nettarkiv Sveits Y Y Y Nei Webarkiv Sveits er samlingen av det sveitsiske nasjonalbiblioteket som inneholder nettsteder med betydning for Sveits. Webarkiv Sveits har blitt integrert i e-Helvetica, tilgangssystemet til det sveitsiske nasjonalbiblioteket, som gir tilgang til hele den digitale samlingen. Så du kan søke i fulltekst av en del av webarkivet. Men de arkiverte versjonene av nettsteder kan bare sees på lesesalene i det sveitsiske nasjonalbiblioteket og i våre partnerbiblioteker som hjelper oss med å bygge samlingen av sveitsiske nettsteder. Men du kan se metadataene til de arkiverte versjonene hvor som helst.
NTU Web Archiving System, NTUWAS Y Y Y Nei Presenterer sideminiatyrer, arkiverte sider kartlagt til geografiske steder.
Nettarkiv Taiwan Y Y Y Nei
PageFreezer Y Y Y Nei Enterprise Class On Demand -tjeneste for å arkivere og spille av nettsteder, blogger, Ajax, Flash, video, lyd og sosiale medier for søksmålsbeskyttelse, eDiscovery og forskriftsmessig overholdelse av FDA, FINRA, FSA, SEC, SOX, føderale bevisregler og lover om administrasjon av poster . Brukes av offentlige etater og børsnoterte selskaper innen farmasøytisk, mat, finans, helse og detaljhandel.
Det britiske webarkivet Y Y N Innfødt
Hanzo arkiver Y Y Y Nei Kommersielle webarkiveringstjenester og -apparater. Tilgang inkluderer søk i fulltekst, merknader, redigering, URL/historikk, arkivpolicy og tidsmessig surfing og konfigurerbare metadataskjema for avanserte e-discovery-applikasjoner. Brukes i myndigheter og selskaper hvis samsvar eller juridiske forpliktelser / behov strekker seg til deres nettsteder, intranett og sosiale medier. Mange "mørke" arkiver over hele Europa og USA.
UK Government Web Archive (UKGWA) Y Y Y Innfødt Fulltekstsøk er operativt på UK Government Web Archive (UKGWA). Brukere kan bla gjennom samlingen ved å bruke en full AZ -liste over alle nettstedene
EU Exit Web Archive Y Y Y Innfødt Fulltekstsøk er operativt i EU Exit Web Archive
Internettarkiv (tilbyr Arkiv-det-tjeneste) Y Y Y Innfødt URL -historikk er tilgjengelig for alle arkiverte data. Metadata og fulltekstsøk bare for utvalgte gjennomsøkelser. Fram til 2002 hadde en gruveplattform for forskning komponert av Alexa Shell Perl Tools

av_tools og p2 -plattform for parallellbehandling. Den ble erstattet av en enklere tilgang og direkte metode som gir automatisk tilgang til filer, men ingen plattform for behandling.

Reed Arkiver Nei
Columbia University Libraries Web Resources Collection Program Y Y Y Nei Tilgjengelig via Archive-it-tjenesten.

Forbedret tilgang til menneskerettighetssamlingen tilgjengelig på: Human Rights Web Archive .

North Carolina State Government nettstedarkiver Y Y Y Nei Tilgjengelig via Archive-it-tjenesten.
Latinamerikansk webarkiveringsprosjekt Y Y Y Nei Innholdet kan nås via søk i fulltekst, eller ved å bla etter land eller spesialisert prøvesamling.
Webarkiveringsprosjekt for Stillehavsøyene Y Y Y Nei Støttet av Archive-it-tjenesten.
Library of Congress webarkiv Y Y N Fullmakt Tilgang gitt via LCWA . Registrerer i MODS -format (Metadata Object Descriptive Schema).
Harvard University Library: Web Archive Collection Service (WAX) Y Y Y Nei
Webarkiveringstjeneste fra California Digital Library (WAS -tjeneste) Y Y Y Nei Tilgang for privatstudier, stipend og forskning. De fleste arkiver bygget med WAS har ennå ikke blitt publisert fordi det er opp til partnerne å avgjøre om de vil gi tilgang. Det er 16 partnere som bruker tjenesten, og de har opprettet over 80 webarkiver, bare 30 er offentlig tilgjengelige. NutchWAX -ytelse tillot ikke fullt arkivsøk. Kommende overgang til SOLR vil tillate både fullarkiv og samlingsspesifikk fulltekstsøk.
Bentley Historical Library (University of Michigan) webarkiv Y Y Y Nei Drevet av WAS fra California Digital Library. Tilgang er offentlig, men bruk er begrenset for private studier, stipend og forskning.
University of Texas at San Antonio Web Archives Y Y Y Innfødt Tilgjengelig gjennom Archive-it-tjenesten og Texas Archival Repositories Online-databasen
AUEB Web Arkiv Y Y Y Nei
Verdensbankens webarkiv Y Y Y Nei URL -historikk gitt via åpen tilgang til samling via standard nettleser. Fulltekstsøk er bare tilgjengelig på hvert enkelt nettsted. Søk på metadata er tilgjengelig via avansert søk i nettarkivsamlingen.
University of North Texas CyberCemetery N Y Y Nei
Tamiment Library og Robert F. Wagner Labor Archives ved New York University Y Y Y Nei Tilgang gis gjennom både WAS -tjenesten og gjennom å finne hjelpemidler som er søkbare gjennom NYUs portal for å finne hjelpemidler.
York University Digital Library Y Y Y
Nederlandsk institutt for lyd og bilde (lyd og bilde) webarkiv Y Y N Utvalgte nettsteder som det er inngått avtaler for er offentlig tilgjengelig. Fulltekstindeksering utføres med Elasticsearch , front-end er bygget i Drupal .
Kentucky avdeling for biblioteker og arkiver Y Y Y Nei Full åpen tilgang
University of California, San Francisco Library Y Y Y Innfødt (gjennom IA ) Både fangst og tilgang for arkivert innhold tilbys av Archive it-tjenesten, så alle funksjoner er de samme som for Archive-It
Ivy Plus Libraries Y Y Y Nei Tilgjengelig gjennom Archive-It-tjenesten.
Malaysisk regjerings nettarkiv (MyGWA) Y Y Y Nei Åpen tilgang
National Library of Medicine (USA) Y Y Y Tilgang gis gjennom Archive-It
Smithsonian Libraries and Archives (USA) Y Y Y Tilgang gis gjennom Archive-It

Se også

Referanser

Eksterne linker