CiteSeer X -CiteSeerX


CiteSeer x
Type nettsted
Bibliografisk database
Eieren Pennsylvania State University College of Information Sciences and Technology
URL citeseerx .ist .psu .edu Rediger dette på Wikidata
Registrering Valgfri
Lanserte 2008 ; 13 år siden / 1997 ; 24 år siden ( 2008 ) ( 1997 )
Nåværende status Aktiv
Innholdslisens
Creative Commons BY-NC-SA lisens

CiteSeer x (opprinnelig kalt CiteSeer ) er en offentlig søkemotor og digitalt bibliotek for vitenskapelige og akademiske artikler, først og fremst innen data- og informasjonsvitenskap . CiteSeer regnes som en forgjenger for akademiske søkeverktøy som Google Scholar og Microsoft Academic Search . CiteSeer-lignende motorer og arkiver høster vanligvis bare dokumenter fra offentlig tilgjengelige nettsteder og gjennomsøker ikke utgiverwebsteder. Av denne grunn er det mer sannsynlig at forfattere hvis dokumenter er fritt tilgjengelige, er representert i indeksen.

CiteSeer mål er å forbedre formidling og tilgang til akademisk og vitenskapelig litteratur. Som en ideell tjeneste som fritt kan brukes av alle, har den blitt ansett som en del av åpen tilgangsbevegelse som prøver å endre akademisk og vitenskapelig publisering for å gi større tilgang til vitenskapelig litteratur. CiteSeer fritt levert Open Archives Initiative metadata for alle indekserte dokumenter og lenker indeksert dokumenter når det er mulig til andre kilder til metadata som DBLP og ACM Portal . For å fremme åpne data , CiteSeer x aksjer sine data for ikke-kommersielle formål under en Creative Commons-lisens.

CiteSeer endret navn til ResearchIndex på et tidspunkt og endret det deretter tilbake.

Historie

CiteSeer og CiteSeer.IST

CiteSeer ble opprettet av forskerne Lee Giles , Kurt Bollacker og Steve Lawrence i 1997 mens de var ved NEC Research Institute (nå NEC Labs ), Princeton, New Jersey , USA. CiteSeer mål var å aktivt gjennomsøke og høste akademiske og vitenskapelige dokumenter på nettet og bruke autonom referanseindeksering for å tillate søk etter sitat eller dokument, rangere dem etter sitatvirkning . På et tidspunkt ble det kalt ResearchIndex.

CiteSeer ble offentlig i 1998 og hadde mange nye funksjoner utilgjengelige i akademiske søkemotorer på den tiden. Disse inkluderte:

  • Autonomous Citation Indexing opprettet automatisk en sitatindeks som kan brukes til litteratursøk og evaluering.
  • Sitasjonsstatistikk og relaterte dokumenter ble beregnet for alle artiklene som ble sitert i databasen, ikke bare de indekserte artiklene.
  • Referanselinking slik at du kan surfe i databasen ved hjelp av henvisningskoblinger.
  • Sitatkontekst viste konteksten mellom sitater til et gitt papir, slik at en forsker raskt og enkelt kunne se hva andre forskere har å si om en artikkel av interesse.
  • Relaterte dokumenter ble vist ved hjelp av sitater og ordbaserte mål, og en aktiv og kontinuerlig oppdatert bibliografi vises for hvert dokument.

CiteSeer ble tildelt et amerikansk patent nr. 6289342, med tittelen " Autonomous citation indexing and literature browsing using citation context ", 11. september 2001. Patentet ble arkivert 20. mai 1998 og har prioritet til 5. januar 1998. En fortsettelse patent (US Patent # 6738780) ble arkivert 16. mai 2001 og gitt 18. mai 2004.

Etter NEC, i 2004, ble det arrangert som CiteSeer.IST på World Wide Web ved College of Information Sciences and Technology, Pennsylvania State University , og hadde over 700 000 dokumenter. For forbedret tilgang, ytelse og forskning ble lignende versjoner av CiteSeer støttet ved universiteter som Massachusetts Institute of Technology , University of Zürich og National University of Singapore . Imidlertid viste disse versjonene av CiteSeer seg vanskelig å vedlikeholde og er ikke lenger tilgjengelige. Fordi CiteSeer bare indekserer fritt tilgjengelige artikler på nettet og ikke har tilgang til utgivermetadata, returnerer det færre siter enn nettsteder, for eksempel Google Scholar , som har utgivermetadata.

CiteSeer hadde ikke blitt grundig oppdatert siden 2005 på grunn av begrensninger i arkitekturdesignet. Den hadde et representativt utvalg av forskningsdokumenter innen data- og informasjonsvitenskap, men var begrenset i dekning fordi den var begrenset til artikler som er offentlig tilgjengelige, vanligvis på en forfatteres hjemmeside, eller de som er sendt av en forfatter. For å overvinne noen av disse begrensningene ble en modulær og åpen kildekode -arkitektur for CiteSeer designet - CiteSeer x .

CiteSeer x

CiteSeer x erstattet CiteSeer og alle spørsmål til CiteSeer ble omdirigert. CiteSeer x er en offentlig søkemotor og digitalt bibliotek og depot for vitenskapelige og akademiske artikler primært med fokus på data- og informasjonsvitenskap . Imidlertid har CiteSeer x nylig utvidet seg til andre vitenskapelige domener som økonomi, fysikk og andre. Den ble utgitt i 2008 og var løst basert på den forrige CiteSeer -søkemotoren og det digitale biblioteket, og er bygget med en ny åpen kildekode -infrastruktur, SeerSuite og nye algoritmer og implementeringene av dem. Det ble utviklet av forskerne Dr. Isaac Councill og Dr. C. Lee Giles ved College of Information Sciences and Technology , Pennsylvania State University . Den fortsetter å støtte målene som er skissert av CiteSeer om aktivt å gjennomgå og høste akademiske og vitenskapelige dokumenter på det offentlige nettet og å bruke en henvisningsforespørsel etter sitater og rangering av dokumenter etter virkningen av sitater. For tiden er eller har G Lee, Prasenjit Mitra, Susan Gauch, Min-Yen Kan, Pradeep Teregowda, Juan Pablo Fernández Ramírez, Pucktada Treeratpituk, Jian Wu, Douglas Jordan, Steve Carman, Jack Carroll, Jim Jansen og Shuyi Zheng vært aktivt involvert i utviklingen. Nylig ble en tabellsøkfunksjon introdusert. Det har blitt finansiert av National Science Foundation , NASA og Microsoft Research .

CiteSeer x fortsetter å bli vurdert som et av verdens beste arkiver og ble rangert som nummer 1 i juli 2010. Det har for tiden over 6 millioner dokumenter med nesten 6 millioner unike forfattere og 120 millioner sitater.

CiteSeer x deler også programvare, data, databaser og metadata med andre forskere, for tiden av Amazon S3 og av rsync . Den nye modulære åpen kildekode -arkitekturen og programvaren (tilgjengelig tidligere på SourceForge, men nå på GitHub ) er bygget på Apache Solr og andre Apache- og åpen kildekodeverktøy som gjør at den kan testes for nye algoritmer for dokumenthøsting, rangering, indeksering og informasjon utdrag.

CiteSeer x lagrer noen PDF -filer som den har skannet. Som sådan inneholder hver side en DMCA -lenke som kan brukes til å rapportere brudd på opphavsretten.

Nåværende funksjoner

Automatisk ekstraksjon av informasjon

CiteSeer x bruker automatiserte verktøy for utvinning av informasjon , vanligvis bygget på maskinlæringsmetoder som ParsCit, for å trekke ut metadata for vitenskapelige dokumenter som tittel, forfattere, abstrakt, sitater, etc. Som sådan er det noen ganger feil i forfattere og titler. Andre akademiske søkemotorer har lignende feil.

Fokusert gjennomgang

CiteSeer x gjennomsøker offentlig tilgjengelige vitenskapelige dokumenter hovedsakelig fra forfatterens nettsider og andre åpne ressurser, og har ikke tilgang til utgivermetadata. Siden slike henvisninger i CiteSeer x vanligvis er færre enn de i Google Scholar og Microsoft Academic Search som har tilgang til utgivermetadata.

Bruk

CiteSeer x har nesten 1 million brukere over hele verden basert på unike IP -adresser og har millioner av treff daglig. Årlige nedlastinger av PDF -dokumenter var nesten 200 millioner for 2015.

Data

CiteSeer x- data deles jevnlig under en Creative Commons BY-NC-SA-lisens med forskere over hele verden og har vært og brukes i mange eksperimenter og konkurranser.

Takket være sin OAI-PMH endepunkt, er CiteSeerX et åpent arkiv og dens innhold er indeksert som et institusjonelt arkiv i akademiske søkemotorer , for eksempel BASE og Unpaywall forbrukere.

Andre SeerSuite-baserte søkemotorer

CiteSeer-modellen hadde blitt utvidet til å dekke akademiske dokumenter i forretninger med SmealSearch og i e-business med eBizSearch . Disse ble imidlertid ikke vedlikeholdt av sponsorene deres. En eldre versjon av begge disse kan en gang bli funnet på BizSeer.IST, men er ikke lenger i bruk.

Andre seer-lignende søke- og depotsystemer er bygget for kjemi, Chem X Seer og for arkeologi, ArchSeer. En annen hadde blitt bygget for robots.txt -filsøk , BotSeer . Alle disse er bygget på åpen kildekode -verktøyet SeerSuite , som bruker åpen kildekode -indekseren Lucene .

Se også

Referanser

Videre lesning

Eksterne linker