Felles gjennomgang - Common Crawl

Vanlig gjennomgang
Type virksomhet	501 (c) (3) ideell
Tilgjengelig i	Engelsk
Hovedkvarter	San Francisco, California ; Los Angeles, California , USA
Grunnlegger	Gil Elbaz
Nøkkel folk	Peter Norvig , Nova Spivack , Carl Malamud , Kurt Bollacker Joi Ito
URL	commoncrawl .org

Common Crawl er en ideell 501 (c) (3) organisasjon som gjennomsøker nettet og fritt gir sine arkiver og datasett til publikum. Common Crawles webarkiv består av petabyte med data samlet inn siden 2011. Den gjennomfører vanligvis gjennomganger hver måned.

Common Crawl ble grunnlagt av Gil Elbaz . Rådgivere til den ideelle organisasjonen inkluderer Peter Norvig og Joi Ito . Organisasjonens søkeroboter respekterer retningslinjene for nofollow og robots.txt . Åpen kildekode for behandling av Common Crawls datasett er offentlig tilgjengelig.

Historie

Amazon Web Services begynte å være vert for Common Crawl's arkiv gjennom programmet Public Data Sets i 2012.

Organisasjonen begynte å gi ut metadatafiler og tekstutdataene fra søkeroboten sammen med .arc -filer i juli samme år. Common Crawls arkiver hadde bare inkludert .arc -filer tidligere.

I desember 2012 donerte blekko til metadata blekko fra Common Crawl -søkemotoren samlet fra gjennomsøkelser den gjennomførte fra februar til oktober 2012. De donerte dataene hjalp Common Crawl med å "forbedre gjennomsøkingen samtidig som det unngikk spam, porno og påvirkning av overdreven SEO ."

I 2013 begynte Common Crawl å bruke Apache Software Foundation's Nutch webcrawler i stedet for en tilpasset crawler. Common Crawl byttet fra å bruke .arc -filer til .warc -filer med gjennomgangen fra november 2013.

En filtrert versjon av Common Crawl ble brukt til å trene OpenAIs GPT-3- språkmodell, kunngjort i 2020. En utfordring ved bruk av Common Crawl-data er at til tross for den store mengden dokumenterte webdata, kan enkelte biter av gjennomsøkte nettsteder bli bedre dokumentert. Dette kan skape utfordringer når du prøver å diagnostisere problemer i prosjekter som bruker Common Crawl -data. En løsning foreslått av Timnit Gebru, et al., I 2020 for en dokumentasjonsmangel i bransjen, er at hvert datasett skal ledsages av et datablad som dokumenterer motivasjon, sammensetning, innsamlingsprosess og anbefalte bruksområder.

Historikk for vanlige gjennomsøkingsdata

Følgende data er samlet inn fra den offisielle Common Crawl Blog.

Gjennomsøkingsdato	Størrelse i TiB	Milliarder sider	Kommentarer
April 2021	320	3.1
November 2018	220	2.6
Oktober 2018	240	3.0
September 2018	220	2.8
August 2018	-	-
Juli 2018	255	3,25
Juni 2018	235	3.05
Mai 2018	215	2,75
April 2018	230	3.1
Mars 2018	250	3.2
Februar 2018	270	3.4
Januar 2018	270	3.4
Desember 2017	240	2.9
November 2017	260	3.2
Oktober 2017	300	3,65
September 2017	250	3.01
August 2017	280	3,28
Juli 2017	240	2,89
Juni 2017	260	3.16
Mai 2017	250	2,96
April 2017	250	2,94
Mars 2017	250	3.07
Februar 2017	250	3.08
Januar 2017	250	3.14
Desember 2016	-	2,85
Oktober 2016	-	3,25
September 2016	-	1,72
August 2016	-	1,61
Juli 2016	-	1,73
Juni 2016	-	1.23
Mai 2016	-	1,46
April 2016	-	1,33
Februar 2016	-	1,73
November 2015	151	1,82
September 2015	106	1,32
August 2015	149	1.84
Juli 2015	145	1.81
Juni 2015	131	1,67
Mai 2015	159	2.05
April 2015	168	2.11
Mars 2015	124	1,64
Februar 2015	145	1.9
Januar 2015	139	1,82
Desember 2014	160	2.08
November 2014	135	1,95
Oktober 2014	254	3.7
September 2014	220	2.8
August 2014	200	2.8
Juli 2014	266	3.6
April 2014	183	2.6
Mars 2014	223	2.8	Første Nutch -kryp
Januar 2014	148	2.3	Gjennomganger utført månedlig
November 2013	102	2	Data i Warc -filformat
Juli 2012	-	-	Data i Arc -filformat
Januar 2012	-	-	Offentlig datasett med Amazon Web Services
November 2011	40	5	Første tilgjengelighet på Amazon

Norvig Web Data Science Award

Som bekreftelse med SURFsara sponser Common Crawl Norvig Web Data Science Award, en konkurranse som er åpen for studenter og forskere i Benelux . Prisen er oppkalt etter Peter Norvig som også leder dommerkomiteen for prisen.

Referanser

Eksterne linker

Vanlig gjennomgang i California, USA
Vanlig Crawl GitHub -depot med søkeroboten, bibliotekene og eksempelkoden
Common Crawl Discussion Group
Felles gjennomsøkingsblogg

Languages

In other projects