Felles gjennomgang - Common Crawl
Type virksomhet | 501 (c) (3) ideell |
---|---|
Tilgjengelig i | Engelsk |
Hovedkvarter | San Francisco, California ; Los Angeles, California , USA |
Grunnlegger | Gil Elbaz |
Nøkkel folk | Peter Norvig , Nova Spivack , Carl Malamud , Kurt Bollacker Joi Ito |
URL | commoncrawl |
Common Crawl er en ideell 501 (c) (3) organisasjon som gjennomsøker nettet og fritt gir sine arkiver og datasett til publikum. Common Crawles webarkiv består av petabyte med data samlet inn siden 2011. Den gjennomfører vanligvis gjennomganger hver måned.
Common Crawl ble grunnlagt av Gil Elbaz . Rådgivere til den ideelle organisasjonen inkluderer Peter Norvig og Joi Ito . Organisasjonens søkeroboter respekterer retningslinjene for nofollow og robots.txt . Åpen kildekode for behandling av Common Crawls datasett er offentlig tilgjengelig.
Historie
Amazon Web Services begynte å være vert for Common Crawl's arkiv gjennom programmet Public Data Sets i 2012.
Organisasjonen begynte å gi ut metadatafiler og tekstutdataene fra søkeroboten sammen med .arc -filer i juli samme år. Common Crawls arkiver hadde bare inkludert .arc -filer tidligere.
I desember 2012 donerte blekko til metadata blekko fra Common Crawl -søkemotoren samlet fra gjennomsøkelser den gjennomførte fra februar til oktober 2012. De donerte dataene hjalp Common Crawl med å "forbedre gjennomsøkingen samtidig som det unngikk spam, porno og påvirkning av overdreven SEO ."
I 2013 begynte Common Crawl å bruke Apache Software Foundation's Nutch webcrawler i stedet for en tilpasset crawler. Common Crawl byttet fra å bruke .arc -filer til .warc -filer med gjennomgangen fra november 2013.
En filtrert versjon av Common Crawl ble brukt til å trene OpenAIs GPT-3- språkmodell, kunngjort i 2020. En utfordring ved bruk av Common Crawl-data er at til tross for den store mengden dokumenterte webdata, kan enkelte biter av gjennomsøkte nettsteder bli bedre dokumentert. Dette kan skape utfordringer når du prøver å diagnostisere problemer i prosjekter som bruker Common Crawl -data. En løsning foreslått av Timnit Gebru, et al., I 2020 for en dokumentasjonsmangel i bransjen, er at hvert datasett skal ledsages av et datablad som dokumenterer motivasjon, sammensetning, innsamlingsprosess og anbefalte bruksområder.
Historikk for vanlige gjennomsøkingsdata
Følgende data er samlet inn fra den offisielle Common Crawl Blog.
Gjennomsøkingsdato | Størrelse i TiB | Milliarder sider | Kommentarer |
---|---|---|---|
April 2021 | 320 | 3.1 | |
November 2018 | 220 | 2.6 | |
Oktober 2018 | 240 | 3.0 | |
September 2018 | 220 | 2.8 | |
August 2018 | - | - | |
Juli 2018 | 255 | 3,25 | |
Juni 2018 | 235 | 3.05 | |
Mai 2018 | 215 | 2,75 | |
April 2018 | 230 | 3.1 | |
Mars 2018 | 250 | 3.2 | |
Februar 2018 | 270 | 3.4 | |
Januar 2018 | 270 | 3.4 | |
Desember 2017 | 240 | 2.9 | |
November 2017 | 260 | 3.2 | |
Oktober 2017 | 300 | 3,65 | |
September 2017 | 250 | 3.01 | |
August 2017 | 280 | 3,28 | |
Juli 2017 | 240 | 2,89 | |
Juni 2017 | 260 | 3.16 | |
Mai 2017 | 250 | 2,96 | |
April 2017 | 250 | 2,94 | |
Mars 2017 | 250 | 3.07 | |
Februar 2017 | 250 | 3.08 | |
Januar 2017 | 250 | 3.14 | |
Desember 2016 | - | 2,85 | |
Oktober 2016 | - | 3,25 | |
September 2016 | - | 1,72 | |
August 2016 | - | 1,61 | |
Juli 2016 | - | 1,73 | |
Juni 2016 | - | 1.23 | |
Mai 2016 | - | 1,46 | |
April 2016 | - | 1,33 | |
Februar 2016 | - | 1,73 | |
November 2015 | 151 | 1,82 | |
September 2015 | 106 | 1,32 | |
August 2015 | 149 | 1.84 | |
Juli 2015 | 145 | 1.81 | |
Juni 2015 | 131 | 1,67 | |
Mai 2015 | 159 | 2.05 | |
April 2015 | 168 | 2.11 | |
Mars 2015 | 124 | 1,64 | |
Februar 2015 | 145 | 1.9 | |
Januar 2015 | 139 | 1,82 | |
Desember 2014 | 160 | 2.08 | |
November 2014 | 135 | 1,95 | |
Oktober 2014 | 254 | 3.7 | |
September 2014 | 220 | 2.8 | |
August 2014 | 200 | 2.8 | |
Juli 2014 | 266 | 3.6 | |
April 2014 | 183 | 2.6 | |
Mars 2014 | 223 | 2.8 | Første Nutch -kryp |
Januar 2014 | 148 | 2.3 | Gjennomganger utført månedlig |
November 2013 | 102 | 2 | Data i Warc -filformat |
Juli 2012 | - | - | Data i Arc -filformat |
Januar 2012 | - | - | Offentlig datasett med Amazon Web Services |
November 2011 | 40 | 5 | Første tilgjengelighet på Amazon |
Norvig Web Data Science Award
Som bekreftelse med SURFsara sponser Common Crawl Norvig Web Data Science Award, en konkurranse som er åpen for studenter og forskere i Benelux . Prisen er oppkalt etter Peter Norvig som også leder dommerkomiteen for prisen.
Referanser
Eksterne linker
- Vanlig gjennomgang i California, USA
- Vanlig Crawl GitHub -depot med søkeroboten, bibliotekene og eksempelkoden
- Common Crawl Discussion Group
- Felles gjennomsøkingsblogg