Felles gjennomgang - Common Crawl

Vanlig gjennomgang
Type virksomhet 501 (c) (3) ideell
Tilgjengelig i Engelsk
Hovedkvarter San Francisco, California ; Los Angeles, California , USA
Grunnlegger Gil Elbaz
Nøkkel folk Peter Norvig , Nova Spivack , Carl Malamud , Kurt Bollacker Joi Ito
URL commoncrawl .org

Common Crawl er en ideell 501 (c) (3) organisasjon som gjennomsøker nettet og fritt gir sine arkiver og datasett til publikum. Common Crawles webarkiv består av petabyte med data samlet inn siden 2011. Den gjennomfører vanligvis gjennomganger hver måned.

Common Crawl ble grunnlagt av Gil Elbaz . Rådgivere til den ideelle organisasjonen inkluderer Peter Norvig og Joi Ito . Organisasjonens søkeroboter respekterer retningslinjene for nofollow og robots.txt . Åpen kildekode for behandling av Common Crawls datasett er offentlig tilgjengelig.

Historie

Amazon Web Services begynte å være vert for Common Crawl's arkiv gjennom programmet Public Data Sets i 2012.

Organisasjonen begynte å gi ut metadatafiler og tekstutdataene fra søkeroboten sammen med .arc -filer i juli samme år. Common Crawls arkiver hadde bare inkludert .arc -filer tidligere.

I desember 2012 donerte blekko til metadata blekko fra Common Crawl -søkemotoren samlet fra gjennomsøkelser den gjennomførte fra februar til oktober 2012. De donerte dataene hjalp Common Crawl med å "forbedre gjennomsøkingen samtidig som det unngikk spam, porno og påvirkning av overdreven SEO ."

I 2013 begynte Common Crawl å bruke Apache Software Foundation's Nutch webcrawler i stedet for en tilpasset crawler. Common Crawl byttet fra å bruke .arc -filer til .warc -filer med gjennomgangen fra november 2013.

En filtrert versjon av Common Crawl ble brukt til å trene OpenAIs GPT-3- språkmodell, kunngjort i 2020. En utfordring ved bruk av Common Crawl-data er at til tross for den store mengden dokumenterte webdata, kan enkelte biter av gjennomsøkte nettsteder bli bedre dokumentert. Dette kan skape utfordringer når du prøver å diagnostisere problemer i prosjekter som bruker Common Crawl -data. En løsning foreslått av Timnit Gebru, et al., I 2020 for en dokumentasjonsmangel i bransjen, er at hvert datasett skal ledsages av et datablad som dokumenterer motivasjon, sammensetning, innsamlingsprosess og anbefalte bruksområder.

Historikk for vanlige gjennomsøkingsdata

Følgende data er samlet inn fra den offisielle Common Crawl Blog.

Gjennomsøkingsdato Størrelse i TiB Milliarder sider Kommentarer
April 2021 320 3.1
November 2018 220 2.6
Oktober 2018 240 3.0
September 2018 220 2.8
August 2018 - -
Juli 2018 255 3,25
Juni 2018 235 3.05
Mai 2018 215 2,75
April 2018 230 3.1
Mars 2018 250 3.2
Februar 2018 270 3.4
Januar 2018 270 3.4
Desember 2017 240 2.9
November 2017 260 3.2
Oktober 2017 300 3,65
September 2017 250 3.01
August 2017 280 3,28
Juli 2017 240 2,89
Juni 2017 260 3.16
Mai 2017 250 2,96
April 2017 250 2,94
Mars 2017 250 3.07
Februar 2017 250 3.08
Januar 2017 250 3.14
Desember 2016 - 2,85
Oktober 2016 - 3,25
September 2016 - 1,72
August 2016 - 1,61
Juli 2016 - 1,73
Juni 2016 - 1.23
Mai 2016 - 1,46
April 2016 - 1,33
Februar 2016 - 1,73
November 2015 151 1,82
September 2015 106 1,32
August 2015 149 1.84
Juli 2015 145 1.81
Juni 2015 131 1,67
Mai 2015 159 2.05
April 2015 168 2.11
Mars 2015 124 1,64
Februar 2015 145 1.9
Januar 2015 139 1,82
Desember 2014 160 2.08
November 2014 135 1,95
Oktober 2014 254 3.7
September 2014 220 2.8
August 2014 200 2.8
Juli 2014 266 3.6
April 2014 183 2.6
Mars 2014 223 2.8 Første Nutch -kryp
Januar 2014 148 2.3 Gjennomganger utført månedlig
November 2013 102 2 Data i Warc -filformat
Juli 2012 - - Data i Arc -filformat
Januar 2012 - - Offentlig datasett med Amazon Web Services
November 2011 40 5 Første tilgjengelighet på Amazon

Norvig Web Data Science Award

Som bekreftelse med SURFsara sponser Common Crawl Norvig Web Data Science Award, en konkurranse som er åpen for studenter og forskere i Benelux . Prisen er oppkalt etter Peter Norvig som også leder dommerkomiteen for prisen.

Referanser

Eksterne linker