Informasjonsinnhenting - Information retrieval

Informasjonsinnhenting ( IR ) er prosessen med å skaffe informasjonssystemressurser som er relevante for et informasjonsbehov fra en samling av disse ressursene. Søk kan være basert på fulltekst eller annen innholdsbasert indeksering. Informasjonsinnhenting er vitenskapen om å søke etter informasjon i et dokument, søke etter dokumenter selv, og også å lete etter metadataene som beskriver data, og etter databaser med tekster, bilder eller lyder.

Automatiserte informasjonsinnhentingssystemer brukes til å redusere det som har blitt kalt informasjonsoverbelastning . Et IR -system er et programvaresystem som gir tilgang til bøker, tidsskrifter og andre dokumenter; lagrer og administrerer disse dokumentene. Websøkemotorer er de mest synlige IR -applikasjonene.

Oversikt

En informasjonshentingsprosess begynner når en bruker legger inn en forespørsel i systemet. Spørringer er formelle uttalelser om informasjonsbehov, for eksempel søkestrenger i søkemotorer på nettet. Ved henting av informasjon identifiserer ikke en forespørsel unikt et enkelt objekt i samlingen. I stedet kan flere objekter matche søket, kanskje med ulik grad av relevans .

Et objekt er en enhet som er representert ved informasjon i en innholdssamling eller database . Brukerforespørsler matches mot databaseinformasjonen. I motsetning til klassiske SQL -spørringer i en database, kan det imidlertid hende at resultatene som returneres, matcher spørringen, og resultatene blir vanligvis rangert. Denne rangeringen av resultater er en sentral forskjell i søk etter informasjon i forhold til databasesøk.

Avhengig av applikasjonen kan dataobjektene for eksempel være tekstdokumenter, bilder, lyd, tankekart eller videoer. Ofte oppbevares eller lagres ikke selve dokumentene direkte i IR -systemet, men er i stedet representert i systemet ved dokumentsurrogater eller metadata .

De fleste IR -systemer beregner en numerisk poengsum for hvor godt hvert objekt i databasen matcher spørringen, og rangerer objektene i henhold til denne verdien. De øverste rangeringsobjektene vises deretter for brukeren. Prosessen kan deretter gjentas hvis brukeren ønsker å avgrense spørringen.

Historie

det er ... en maskin som heter Univac ... hvor bokstaver og tall er kodet som et mønster av magnetiske flekker på et langt stålbånd. På denne måten kan teksten i et dokument, foran dets emnekodesymbol, registreres ... maskinen ... velger og skriver automatisk ut referanser som er blitt kodet på en hvilken som helst ønsket måte med en hastighet på 120 ord i minuttet

- JE Holmstrom, 1948

Ideen om å bruke datamaskiner til å søke etter relevante opplysninger ble populært i artikkelen As We May Think av Vannevar Bush i 1945. Det ser ut til at Bush ble inspirert av patenter for en 'statistisk maskin' - arkivert av Emanuel Goldberg på 1920 -tallet og 30 -årene - som søkte etter dokumenter lagret på film. Den første beskrivelsen av en datamaskin som søker etter informasjon ble beskrevet av Holmstrom i 1948, med en tidlig omtale av Univac -datamaskinen. Automatiserte informasjonsinnhentingssystemer ble introdusert på 1950 -tallet: et til og med omtalt i den romantiske komedien 1957, Desk Set . På 1960 -tallet ble den første store forskningsgruppen for informasjonsinnhenting dannet av Gerard Salton på Cornell. På 1970 -tallet hadde flere forskjellige henteteknikker vist seg å fungere godt på små tekstkorpora som Cranfield -samlingen (flere tusen dokumenter). Store gjenvinningssystemer, for eksempel Lockheed Dialog-systemet, ble tatt i bruk tidlig på 1970-tallet.

I 1992 sponset det amerikanske forsvarsdepartementet sammen med National Institute of Standards and Technology (NIST) Text Retrieval Conference (TREC) som en del av TIPSTER -tekstprogrammet. Målet med dette var å se på informasjonsinnhentingssamfunnet ved å levere infrastrukturen som var nødvendig for evaluering av metodene for teksthenting på en veldig stor tekstsamling. Dette katalyserte forskning på metoder som skalerer til store korpora. Innføringen av søkemotorer på nettet har økt behovet for svært store hentesystemer ytterligere.

applikasjoner

Områder der teknikk for informasjonsinnhenting brukes (oppføringene er i alfabetisk rekkefølge innenfor hver kategori):

Generelle applikasjoner

Digitale biblioteker
Informasjonsfiltrering
- Anbefalersystemer
Mediesøk
- Bloggsøk
- Bildehenting
- 3D -henting
- Musikkhenting
- Nyhetssøk
- Taleinnhenting
- Henting av video
Søkemotorer

Domenespesifikke applikasjoner

Ekspertsøkfunn
Genomisk informasjonsinnhenting
Henting av geografisk informasjon
Informasjonsinnhenting for kjemiske strukturer
Informasjonsinnhenting i programvareutvikling
Henting av juridisk informasjon
Vertikalt søk

Andre metoder for gjenfinning

Metoder/teknikker der teknikker for informasjonsinnhenting brukes:

Modeltyper

Kategorisering av IR-modeller (oversatt fra tysk oppføring , original kilde Dominik Kuropka ).

For effektivt å hente relevante dokumenter ved hjelp av IR -strategier, blir dokumentene vanligvis transformert til en passende representasjon. Hver hentestrategi inneholder en spesifikk modell for dokumentrepresentasjonsformål. Bildet til høyre illustrerer forholdet mellom noen vanlige modeller. På bildet er modellene kategorisert etter to dimensjoner: det matematiske grunnlaget og modellens egenskaper.

Første dimensjon: matematisk grunnlag

Sett-teoretiske modeller representerer dokumenter som sett med ord eller setninger. Likheter stammer vanligvis fra settteoretiske operasjoner på disse settene. Vanlige modeller er:
Algebraiske modeller representerer dokumenter og forespørsler vanligvis som vektorer, matriser eller tupler. Likheten til spørringsvektoren og dokumentvektoren er representert som en skalærverdi.
Probabilistiske modeller behandler prosessen med dokumentinnhenting som en sannsynlig slutning. Likheter beregnes som sannsynligheter for at et dokument er relevant for en gitt spørring. Sannsynlighetssetninger som Bayes 'teorem brukes ofte i disse modellene.
- Binær uavhengighetsmodell
- Probabilistisk relevansmodell som er basert på okapi (BM25) relevansfunksjonen
- Usikker slutning
- Språkmodeller
- Divergens-fra-tilfeldighetsmodell
- Latent Dirichlet -tildeling
Funksjonsbaserte hentemodeller ser på dokumenter som vektorer av verdier for funksjonsfunksjoner (eller bare funksjoner ) og søker den beste måten å kombinere disse funksjonene til en enkelt relevanspoeng, vanligvis ved å lære å rangere metoder. Funksjonsfunksjoner er vilkårlige funksjoner for dokument og forespørsel, og kan som sådan enkelt inkorporere nesten hvilken som helst annen hentemodell som bare en annen funksjon.

Andre dimensjon: modellens egenskaper

Modeller uten term-gjensidig avhengighet behandler forskjellige termer/ord som uavhengige. Dette faktum er vanligvis representert i vektorromsmodeller ved ortogonalitetsantagelsen om termvektorer eller i sannsynlighetsmodeller ved en uavhengighetsforutsetning for termvariabler.
Modeller med immanente begreper gjensidig avhengighet tillater en representasjon av gjensidig avhengighet mellom vilkår. Imidlertid er graden av gjensidig avhengighet mellom to termer definert av modellen selv. Det er vanligvis direkte eller indirekte avledet (f.eks. Ved dimensjonsreduksjon ) fra forekomsten av disse begrepene i hele settet med dokumenter.
Modeller med transcendente begreper gjensidig avhengighet tillater en representasjon av gjensidig avhengighet mellom vilkår, men de påstår ikke hvordan gjensidig avhengighet mellom to termer er definert. De stoler på en ekstern kilde for graden av gjensidig avhengighet mellom to termer. (For eksempel en menneskelig eller sofistikerte algoritmer.)

Ytelse og riktighetstiltak

Evalueringen av et informasjonsinnhentingssystem 'er prosessen med å vurdere hvor godt et system dekker informasjonsbehovet til brukerne. Generelt vurderer måling en samling dokumenter som skal søkes og et søk. Tradisjonelle evalueringsberegninger, designet for boolsk henting eller topp-k henting, inkluderer presisjon og tilbakekalling . Alle tiltak antar en grunnleggende sannhetsoppfatning av relevans: hvert dokument er kjent for å være enten relevant eller ikke-relevant for en bestemt forespørsel. I praksis kan spørsmål være dårlige, og det kan være forskjellige nyanser av relevans.

Tidslinje

Før 1900 -tallet

1801 : Joseph Marie Jacquard oppfinner Jacquard -veven , den første maskinen som brukte hullkort for å kontrollere en rekke operasjoner.

1880-årene : Herman Hollerith oppfinner en elektro-mekanisk datatabulator som bruker stempelkort som et maskinlesbart medium.

1890 Hollerith -kort , tastetrykk og tabulatorer som ble brukt til å behandle data fra USAs folketelling fra 1890 .
1920-1930-årene
Emanuel Goldberg sender inn patenter for sin "Statistical Machine", en dokumentsøkemotor som brukte fotoelektriske celler og mønstergjenkjenning for å søke i metadata på ruller av mikrofilmede dokumenter.
1940-50 -årene

slutten av 1940 -tallet : Det amerikanske militæret konfronterte problemer med indeksering og gjenfinning av vitenskapelige forskningsdokumenter fra krigen fanget fra tyskere.

1945 : Vannevar Bush 's As We May Think dukket opp i Atlantic Monthly .

1947 : Hans Peter Luhn (forskningsingeniør ved IBM siden 1941) begynte arbeidet med et mekanisert slagkortbasert system for å søke etter kjemiske forbindelser.

1950 -årene : Økende bekymring i USA for et "vitenskapelig gap" med USSR motivert, oppmuntret til finansiering og utgjorde et bakteppe for mekaniserte litteratursøkingssystemer ( Allen Kent et al. ) Og oppfinnelsen av sitasjonsindeksen av Eugene Garfield .

1950 : Begrepet "informasjonsinnhenting" ble laget av Calvin Mooers .

1951 : Philip Bagley utførte det tidligste eksperimentet innen datastyrt dokumenthenting i en masteroppgave ved MIT .

1955 : Allen Kent begynte i Case Western Reserve University , og ble til slutt assisterende direktør for Center for Documentation and Communications Research. Samme år publiserte Kent og kolleger en artikkel i amerikansk dokumentasjon som beskriver presisjons- og tilbakekallingstiltakene, i tillegg til detaljerte forslag til "rammeverk" for evaluering av et IR -system som inkluderte statistiske prøvetakingsmetoder for å bestemme antall relevante dokumenter som ikke ble hentet.

1958 : Internasjonal konferanse om vitenskapelig informasjon Washington DC inkluderte vurdering av IR -systemer som en løsning på identifiserte problemer. Se: Proceedings of the International Conference on Scientific Information, 1958 (National Academy of Sciences, Washington, DC, 1959)

1959 : Hans Peter Luhn publiserte "Automatisk koding av dokumenter for informasjonsinnhenting."
1960 -tallet :
tidlig på 1960 -tallet : Gerard Salton begynte å jobbe med IR ved Harvard, flyttet senere til Cornell.

1960 : Melvin Earl Maron og John Lary Kuhns publiserte "Om relevans, sannsynlighetsindeksering og informasjonsinnhenting" i Journal of ACM 7 (3): 216–244, juli 1960.
1962 :
- Cyril W. Cleverdon publiserte tidlige funn av Cranfield -studiene, og utviklet en modell for IR -systemevaluering. Se: Cyril W. Cleverdon, "Report on the Testing and Analysis of a Investigation into the Comparative Efficiency of Indexing Systems". Cranfield Collection of Aeronautics, Cranfield, England, 1962.
- Kent publiserte informasjonsanalyse og henting .
1963 :
- Weinberg -rapporten "Science, Government and Information" ga en fullstendig formulering av ideen om en "krise med vitenskapelig informasjon." Rapporten ble oppkalt etter Dr. Alvin Weinberg .
- Joseph Becker og Robert M. Hayes publiserte tekst om informasjonsinnhenting. Becker, Joseph; Hayes, Robert Mayo. Informasjonslagring og gjenfinning: verktøy, elementer, teorier . New York, Wiley (1963).
1964 :
- Karen Spärck Jones avsluttet sin avhandling ved Cambridge, Synonymy and Semantic Classification , og fortsatte arbeidet med beregningslingvistikk slik den gjelder IR.
- Den National Bureau of Standards sponset et symposium med tittelen "Statistical Association Metoder for Mekanisert dokumentasjon." Flere svært viktige artikler, inkludert G. Saltons første publiserte referanse (tror vi) til SMART -systemet.
midten av 1960-tallet :
National Library of Medicine utviklet MEDLARS Medical Literature Analysis and Retrieval System, den første store maskinlesbare databasen og batch-hentningssystemet.

Project Intrex ved MIT.
1965 : JCR Licklider ga ut fremtidens biblioteker .

1966 : Don Swanson var involvert i studier ved University of Chicago om krav til fremtidige kataloger.
slutten av 1960 -årene : F. Wilfrid Lancaster fullførte evalueringsstudier av MEDLARS -systemet og publiserte den første utgaven av teksten hans om informasjonsinnhenting.
1968 :
- Gerard Salton publiserte Automatic Information Organization and Retrieval .
- John W. Sammon, Jr.s RADC Tech -rapport "Some Mathematics of Information Storage and Retrieval ..." skisserte vektormodellen.
1969 : Sammons " A nonlinear mapping for data structure analysis " (IEEE Transactions on Computers) var det første forslaget for visualiseringsgrensesnitt til et IR -system.
1970 -tallet
tidlig på 1970 -tallet :
Første elektroniske systemer-NLMs AIM-TWX, MEDLINE; Lockheeds dialog; SDCs ORBIT.

Theodor Nelson som promoterer konseptet med hypertekst , publiserte Computer Lib/Dream Machines .
1971 : Nicholas Jardine og Cornelis J. van Rijsbergen publiserte "The use of hierarchic clustering in information retrieval", som artikulerte "cluster hypothesis."
1975 : Tre svært innflytelsesrike publikasjoner av Salton artikulerte fullt ut sitt rammeverk for vektorbehandling og term diskriminering :
A Theory of Indexing (Society for Industrial and Applied Mathematics)

A Theory of Term Importance in Automatic Text Analysis ( JASIS v. 26)

En vektorromsmodell for automatisk indeksering ( CACM 18:11)
1978 : Den første ACM SIGIR -konferansen.

1979 : CJ van Rijsbergen publiserte Information Retrieval (Butterworths). Tung vekt på sannsynlighetsmodeller.

1979 : Tamas Doszkocs implementerte brukergrensesnittet CITE for naturlig språk for MEDLINE ved National Library of Medicine. CITE -systemet støttet inndata fra gratis skjema, rangert utdata og tilbakemelding om relevans.
1980 -tallet

1980 : Første internasjonale ACM SIGIR -konferanse, sammen med British Computer Society IR -gruppen i Cambridge.

1982 : Nicholas J. Belkin , Robert N. Oddy og Helen M. Brooks foreslo ASK (Anomalous State of Knowledge) synspunkt for informasjonsinnhenting. Dette var et viktig konsept, selv om deres automatiserte analyseverktøy til slutt viste seg å være skuffende.

1983 : Salton (og Michael J. McGill) publiserte Introduction to Modern Information Retrieval (McGraw-Hill), med stor vekt på vektormodeller.

1985 : David Blair og Bill Maron publiserer: An Evaluation of Retrieval Effectiveness for a Full-Text Document-Retrieval System

midten av 1980-tallet : Arbeid med å utvikle sluttbrukerversjoner av kommersielle IR-systemer.

1985–1993 : Nøkkelpapirer om og eksperimentelle systemer for visualiseringsgrensesnitt.

Arbeid av Donald B. Crouch , Robert R. Korfhage , Matthew Chalmers, Anselm Spoerri og andre.

1989 : First World Wide Web forslag av Tim Berners-Lee på CERN .
1990 -tallet

1992 : Første TREC -konferanse.

1997 : Offentliggjøring av Korfhage 's Information lagring og gjenfinning med vekt på visualisering og multi-referanse punkt systemer.

1999 : Publisering av Ricardo Baeza-Yates og Berthier Ribeiro-Netos Modern Information Retrieval av Addison Wesley, den første boken som prøver å dekke all IR.

slutten av 1990 -tallet : Web -søkemotorer implementering av mange funksjoner som tidligere bare fantes i eksperimentelle IR -systemer. Søkemotorer blir den vanligste og kanskje beste instantiasjonen av IR -modeller.

Store konferanser

Utmerkelser i feltet

Se også

Adversarial informasjonshenting - Strategier for informasjonshenting i datasett
Dataminne - Enhet som brukes på en datamaskin for lagring av data
Kontrollert ordforråd
Informasjonshenting på tvers av språk
Data mining - Prosess for å trekke ut og oppdage mønstre i store datasett
European Summer School in Information Retrieval
Henting av informasjon mellom mennesker og datamaskiner (HCIR)
Informasjonsuttrekking -Automatisk ekstrahering av strukturert informasjon fra ikke- eller halvstrukturerte maskinlesbare dokumenter, for eksempel tekster på menneskelig språk
Informasjonssøk - Prosess eller aktivitet for forsøk på å skaffe informasjon i både menneskelige og teknologiske sammenhenger
- Informasjonssøk § Sammenlignet med informasjonsinnhenting
- Samarbeidsinformasjonssøk
- Sosial informasjon søker
Informasjonshenting
Kunnskapsvisualisering
Henting av multimedia informasjon
Personlig informasjonsbehandling
Forespørgselsforståelse
Relevans (informasjonsinnhenting)
Relevans tilbakemelding
Rocchio klassifisering
Søkemotorindeksering
Spesialinteressegruppe for informasjonsinnhenting
Emneindeksering
Midlertidig henting av informasjon
tf – idf - tall som gjenspeiler betydningen av et ord for et dokument i et korpus
Henting av XML
Web gruvedrift

Referanser

Videre lesning

Ricardo Baeza-Yates, Berthier Ribeiro-Neto. Modern Information Retrieval: The Concepts and Technology behind Search (andre utgave) . Addison-Wesley, Storbritannia, 2011.
Stefan Büttcher, Charles LA Clarke og Gordon V. Cormack. Informasjonsinnhenting: Implementering og evaluering av søkemotorer . MIT Press, Cambridge, Massachusetts, 2010.
"System for henting av informasjon" . Bibliotek og informasjonsvitenskapelig nettverk . 24. april 2015.
Christopher D. Manning, Prabhakar Raghavan og Hinrich Schütze. Introduksjon til informasjonsinnhenting . Cambridge University Press, 2008.

Languages

In other projects