Anbefalersystem - Recommender system

Et anbefalingssystem , eller et anbefalingssystem (noen ganger erstatte 'system' med et synonym som plattform eller motor), er en underklasse av informasjonsfiltreringssystem som søker å forutsi "vurdering" eller "preferanse" en bruker vil gi et element .

Anbefalersystemer brukes på en rekke områder, med ofte anerkjente eksempler i form av spillelistegeneratorer for video- og musikktjenester, produktanbefalere for nettbutikker eller innholdsanbefalere for sosiale medieplattformer og anbefalte anbefalinger for åpent webinnhold. Disse systemene kan operere ved hjelp av en enkelt inngang, som musikk, eller flere innganger innenfor og på tvers av plattformer som nyheter, bøker og søk. Det er også populære anbefalingssystemer for bestemte emner som restauranter og online dating . Anbefalersystemer er også utviklet for å utforske forskningsartikler og eksperter, samarbeidspartnere og finansielle tjenester.

Oversikt

Anbefalersystemer bruker vanligvis en eller begge samarbeidsfiltrering og innholdsbasert filtrering (også kjent som den personlighetsbaserte tilnærmingen), så vel som andre systemer som kunnskapsbaserte systemer . Samarbeidsfiltreringstilnærminger bygger en modell fra en brukers tidligere oppførsel (varer som tidligere er kjøpt eller valgt og/eller numerisk rangering gitt til disse elementene), i tillegg til lignende beslutninger som er tatt av andre brukere. Denne modellen brukes deretter til å forutsi varer (eller rangeringer for varer) som brukeren kan ha interesse av. Innholdsbaserte filtreringsmetoder bruker en serie diskrete, forhåndsmerkede egenskaper for et element for å anbefale flere elementer med lignende egenskaper . Gjeldende anbefalingssystemer kombinerer vanligvis en eller flere tilnærminger til et hybridsystem.

Forskjellene mellom samarbeid og innholdsbasert filtrering kan påvises ved å sammenligne to tidligmusikk recommender systemer - Last.fm og Pandora Radio .

  • Last.fm oppretter en "stasjon" av anbefalte sanger ved å observere hvilke band og individuelle spor brukeren har lyttet til regelmessig og sammenligne dem mot andre brukeres lytteoppførsel. Last.fm vil spille av spor som ikke vises i brukerens bibliotek, men som ofte spilles av andre brukere med lignende interesser. Siden denne tilnærmingen utnytter brukernes oppførsel, er det et eksempel på en samarbeidende filtreringsteknikk.
  • Pandora bruker egenskapene til en sang eller artist (en delmengde av de 400 attributtene som tilbys av Music Genome Project ) for å frø en "stasjon" som spiller musikk med lignende egenskaper. Tilbakemelding fra bruker brukes til å finjustere stasjonens resultater, understreke bestemte attributter når en bruker "misliker" en bestemt sang og understreker andre attributter når en bruker "liker" en sang. Dette er et eksempel på en innholdsbasert tilnærming.

Hver type system har sine styrker og svakheter. I eksemplet ovenfor krever Last.fm en stor mengde informasjon om en bruker for å komme med nøyaktige anbefalinger. Dette er et eksempel på kaldstartproblemet , og er vanlig i samarbeidende filtreringssystemer. Mens Pandora trenger svært lite informasjon for å starte, er den langt mer begrenset i omfang (for eksempel kan den bare komme med anbefalinger som ligner på det opprinnelige frøet).

Anbefalersystemer er et nyttig alternativ til søkealgoritmer siden de hjelper brukerne med å oppdage elementer de kanskje ikke hadde funnet ellers. Merk at anbefalingssystemer ofte implementeres ved hjelp av søkemotorer som indekserer ikke-tradisjonelle data.

Anbefalersystemer ble først nevnt i en teknisk rapport som en "digital bokhylle" i 1990 av Jussi Karlgren ved Columbia University, og implementert i stor skala og gjennomarbeidet i tekniske rapporter og publikasjoner fra 1994 og fremover av Jussi Karlgren, deretter ved SICS, og forskningsgrupper ledet av Pattie Maes ved MIT, Will Hill på Bellcore og Paul Resnick , også ved MIT hvis arbeid med GroupLens ble tildelt 2010 ACM Software Systems Award .

Montaner ga den første oversikten over anbefalingssystemer fra et intelligent agentperspektiv. Adomavicius ga en ny, alternativ oversikt over anbefalingssystemer. Herlocker gir en ekstra oversikt over evalueringsteknikker for anbefalingssystemer, og Beel et al. diskuterte problemene med offline -evalueringer. Beel et al. har også gitt litteraturundersøkelser om tilgjengelige forskningspapiranbefalingssystemer og eksisterende utfordringer.

Anbefalersystemer har vært i fokus for flere innvilgede patenter.

Tilnærminger

Samarbeidsfiltrering

Et eksempel på samarbeidende filtrering basert på et vurderingssystem

En tilnærming til utformingen av anbefalingssystemer som har stor bruk, er samarbeidende filtrering . Samarbeidsfiltrering er basert på antagelsen om at folk som var enige tidligere vil være enige i fremtiden, og at de vil like lignende typer ting som de likte tidligere. Systemet genererer anbefalinger som bare bruker informasjon om vurderingsprofiler for forskjellige brukere eller elementer. Ved å finne liknende brukere/elementer med en vurderingshistorikk som ligner den nåværende brukeren eller elementet, genererer de anbefalinger ved bruk av dette nabolaget. Samarbeidsfiltreringsmetoder er klassifisert som minnebasert og modellbasert. Et velkjent eksempel på minnebaserte tilnærminger er den brukerbaserte algoritmen, mens modellen for modellbaserte tilnærminger er Kernel-Mapping Recommender .

En viktig fordel med samarbeidsfiltreringstilnærmingen er at den ikke er avhengig av maskinanalyserbart innhold, og derfor er den i stand til nøyaktig å anbefale komplekse elementer som filmer uten å kreve en "forståelse" av selve elementet. Mange algoritmer har blitt brukt for å måle brukerlikhet eller elementlikhet i anbefalingssystemer. For eksempel tilnærmingen k-nærmeste nabo (k-NN) og Pearson-korrelasjonen som først ble implementert av Allen.

Når man bygger en modell ut fra en brukers oppførsel, skilles det ofte mellom eksplisitte og implisitte former for datainnsamling .

Eksempler på eksplisitt datainnsamling inkluderer følgende:

  • Be en bruker om å rangere et element på en glidende skala.
  • Be en bruker om å søke.
  • Be en bruker rangere en samling varer fra favoritt til minst favoritt.
  • Presentere to elementer for en bruker og be ham/henne velge den bedre av dem.
  • Be en bruker om å lage en liste over elementer han/hun liker (se Rocchio -klassifisering eller andre lignende teknikker).

Eksempler på implisitt datainnsamling inkluderer følgende:

  • Observere elementene som en bruker ser i en nettbutikk.
  • Analyserer visningstider for varer/brukere.
  • Føre en oversikt over varer som en bruker kjøper på nettet.
  • Få en liste over elementer som en bruker har lyttet til eller sett på datamaskinen.
  • Analyserer brukerens sosiale nettverk og oppdager lignende liker og misliker.

Samarbeidende filtreringsmetoder lider ofte av tre problemer: kaldstart , skalerbarhet og sparsomhet.

  • Kald start : For en ny bruker eller et element er det ikke nok data til å komme med nøyaktige anbefalinger. Merk: En vanlig implementert løsning på dette problemet er flerarmet bandittalgoritme .
  • Skalerbarhet : I mange av miljøene der disse systemene kommer med anbefalinger, er det millioner av brukere og produkter. Derfor er ofte en stor mengde beregningskraft nødvendig for å beregne anbefalinger.
  • Sparsity : Antall varer som selges på store e-handelsnettsteder er ekstremt stort. De mest aktive brukerne vil bare ha vurdert en liten delmengde av den samlede databasen. Dermed har selv de mest populære elementene svært få vurderinger.

Et av de mest kjente eksemplene på samarbeidende filtrering er element-til-element-samarbeidsfiltrering (folk som kjøper x kjøper også y), en algoritme som er populært av Amazon.coms anbefalingssystem.

Mange sosiale nettverk brukte opprinnelig samarbeidsfiltrering for å anbefale nye venner, grupper og andre sosiale forbindelser ved å undersøke nettverket av forbindelser mellom en bruker og deres venner. Samarbeidsfiltrering brukes fortsatt som en del av hybridsystemer.

Innholdsbasert filtrering

En annen vanlig tilnærming ved utforming av anbefalingssystemer er innholdsbasert filtrering . Innholdsbaserte filtreringsmetoder er basert på en beskrivelse av elementet og en profil av brukerens preferanser. Disse metodene er best egnet i situasjoner der det er kjente data om et element (navn, beliggenhet, beskrivelse, etc.), men ikke på brukeren. Innholdsbaserte anbefalere behandler anbefalinger som et brukerspesifikt klassifiseringsproblem og lærer en klassifisering for brukerens liker og misliker basert på elementets funksjoner.

I dette systemet brukes søkeord for å beskrive elementene, og en brukerprofil er bygd for å indikere typen element denne brukeren liker. Med andre ord prøver disse algoritmene å anbefale elementer som ligner de som en bruker likte tidligere, eller undersøker i nåtiden. Det er ikke avhengig av en brukerpåloggingsmekanisme for å generere denne ofte midlertidige profilen. Spesielt blir forskjellige kandidatelementer sammenlignet med elementer som tidligere er vurdert av brukeren, og de best matchende elementene anbefales. Denne tilnærmingen har sine røtter i informasjonsinnhenting og informasjonsfiltrering .

For å opprette en brukerprofil fokuserer systemet stort sett på to typer informasjon:

1. En modell av brukerens preferanser.

2. En historikk over brukerens interaksjon med anbefalingssystemet.

I utgangspunktet bruker disse metodene en elementprofil (dvs. et sett med diskrete attributter og funksjoner) som karakteriserer elementet i systemet. For å abstrahere funksjonene til elementene i systemet, brukes en varepresentasjonsalgoritme. En mye brukt algoritme er tf - idf representasjonen (også kalt vektorrom representasjon). Systemet oppretter en innholdsbasert profil for brukere basert på en vektet vektor med elementfunksjoner. Vektene angir viktigheten av hver funksjon for brukeren og kan beregnes ut fra individuelt vurderte innholdsvektorer ved hjelp av en rekke teknikker. Enkle tilnærminger bruker gjennomsnittsverdiene for den klassifiserte elementvektoren mens andre sofistikerte metoder bruker maskinlæringsteknikker som Bayesian Classifiers , klyngeanalyse , beslutningstrær og kunstige nevrale nettverk for å estimere sannsynligheten for at brukeren vil like elementet.

Et sentralt problem med innholdsbasert filtrering er om systemet er i stand til å lære brukerpreferanser fra brukernes handlinger angående én innholdskilde og bruke dem på tvers av andre innholdstyper. Når systemet er begrenset til å anbefale innhold av samme type som brukeren allerede bruker, er verdien fra anbefalingssystemet vesentlig mindre enn når andre innholdstyper fra andre tjenester kan anbefales. For eksempel er anbefaling av nyhetsartikler basert på surfing av nyheter nyttig, men ville være mye mer nyttig når musikk, videoer, produkter, diskusjoner etc. fra forskjellige tjenester kan anbefales basert på nyhetssurfing. For å overvinne dette bruker de fleste innholdsbaserte anbefalingssystemer nå en eller annen form for hybridsystem.

Innholdsbaserte anbefalingssystemer kan også inkludere meningsbaserte anbefalingssystemer. I noen tilfeller kan brukerne legge igjen tekstgjennomgang eller tilbakemelding på elementene. Disse brukergenererte tekstene er implisitte data for anbefalingssystemet fordi de potensielt er en rik ressurs for både funksjoner/aspekter ved elementet og brukernes vurdering/følelse av elementet. Funksjoner hentet fra brukergenererte anmeldelser er forbedrede metadata for varer, fordi de også gjenspeiler aspekter ved elementet som metadata , og ekstraherte funksjoner er sterkt bekymret av brukerne. Følelser hentet fra anmeldelsene kan sees på som brukernes vurderingspoeng på de tilsvarende funksjonene. Populære tilnærminger til meningsbasert anbefalingssystem bruker forskjellige teknikker, inkludert tekstgruvedrift , informasjonsinnhenting , sentimentanalyse (se også Multimodal sentimentanalyse ) og dyp læring.

Øktbaserte anbefalingssystemer

Disse anbefalingssystemene bruker interaksjonen til en bruker i en økt for å generere anbefalinger. Øktbaserte anbefalingssystemer brukes på Youtube og Amazon. Disse er spesielt nyttige når historikk (for eksempel tidligere klikk, kjøp) til en bruker ikke er tilgjengelig eller ikke er relevant i den nåværende brukersesjonen. Domener der sesjonsbaserte anbefalinger er spesielt relevante inkluderer video, netthandel, reiser, musikk og mer. De fleste forekomster av sesjonsbaserte anbefalingssystemer er avhengige av sekvensen av nylige interaksjoner i en økt uten at det kreves ytterligere detaljer (historisk, demografisk) om brukeren. Teknikker for sesjonsbaserte anbefalinger er hovedsakelig basert på generative sekvensielle modeller som gjentatte nevrale nettverk, transformatorer og andre dype læringsbaserte tilnærminger

Forsterkningslæring for anbefalingssystemer

Anbefalingsproblemet kan sees på som en spesiell forekomst av et forsterkningslæringsproblem der brukeren er miljøet som agenten, anbefalingssystemet virker på for å motta en belønning, for eksempel et klikk eller engasjement fra brukeren. Et aspekt av forsterkningslæring som er spesielt nyttig innen anbefalingssystemer, er det faktum at modellene eller retningslinjene kan læres ved å gi en belønning til anbefalingsagenten. Dette står i kontrast til tradisjonelle læringsteknikker som er avhengige av overvåket læringstilnærming som er mindre fleksibel, og forsterkningsteknikker for anbefaling av læring gjør det mulig å trene modeller som kan optimaliseres direkte på beregningsmetoder for engasjement og brukerinteresse.

Anbefalingssystemer med flere kriterier

Anbefalingssystemer med flere kriterier (MCRS) kan defineres som anbefalingssystemer som inneholder preferanseinformasjon på flere kriterier. I stedet for å utvikle anbefalingsteknikker basert på en enkelt kriterieverdi, den generelle preferansen til bruker u for elementet i, prøver disse systemene å forutsi en vurdering for uutforskede elementer av u ved å utnytte preferanseinformasjon om flere kriterier som påvirker denne generelle preferanseverdien. Flere forskere nærmer seg MCRS som et multikritisk beslutningsprosess (MCDM), og bruker MCDM-metoder og teknikker for å implementere MCRS-systemer. Se dette kapitlet for en utvidet introduksjon.

Risikobevisste anbefalingssystemer

Flertallet av eksisterende tilnærminger til anbefalingssystemer fokuserer på å anbefale det mest relevante innholdet til brukere som bruker kontekstuell informasjon, men tar ikke hensyn til risikoen for å forstyrre brukeren med uønskede varsler. Det er viktig å vurdere risikoen for å irritere brukeren ved å skyve anbefalinger under visse omstendigheter, for eksempel under et profesjonelt møte, tidlig morgen eller sent på kvelden. Derfor er ytelsen til anbefalingssystemet delvis avhengig av i hvilken grad det har innarbeidet risikoen i anbefalingsprosessen. Et alternativ for å håndtere dette problemet er DRARS , et system som modellerer den kontekstbevisste anbefalingen som et bandittproblem . Dette systemet kombinerer en innholdsbasert teknikk og en kontekstuell bandittalgoritme.

Mobilanbefalingssystemer

Mobilanbefalingssystemer bruker smarttelefoner med internettilgang for å tilby personlige, kontekstsensitive anbefalinger. Dette er et spesielt vanskelig forskningsområde ettersom mobildata er mer komplekse enn data som anbefalingssystemer ofte må håndtere. Det er heterogent, bråkete, krever romlig og tidsmessig auto-korrelasjon, og har validerings- og generalitetsproblemer.

Det er tre faktorer som kan påvirke de mobile anbefalingssystemene og nøyaktigheten av forutsigelsesresultater: konteksten, anbefalingsmetoden og personvern. I tillegg lider mobile anbefalingssystemer av et transplantasjonsproblem - anbefalinger gjelder kanskje ikke i alle regioner (for eksempel vil det være uklokt å anbefale en oppskrift i et område der alle ingrediensene ikke er tilgjengelige).

Et eksempel på et mobilanbefalingssystem er tilnærminger fra selskaper som Uber og Lyft for å generere kjøreruter for drosjesjåfører i en by. Dette systemet bruker GPS -data for rutene som drosjesjåfører tar mens de jobber, som inkluderer plassering (breddegrad og lengdegrad), tidsstempler og driftsstatus (med eller uten passasjerer). Den bruker disse dataene til å anbefale en liste over hentepunkter langs en rute, med målet om å optimalisere beleggetider og fortjeneste.

Hybride anbefalingssystemer

De fleste anbefalingssystemer bruker nå en hybrid tilnærming, som kombinerer samarbeidende filtrering , innholdsbasert filtrering og andre tilnærminger. Det er ingen grunn til at flere forskjellige teknikker av samme type ikke kunne hybridiseres. Hybride tilnærminger kan implementeres på flere måter: ved å lage innholdsbaserte og samarbeidsbaserte spådommer separat og deretter kombinere dem; ved å legge til innholdsbaserte evner til en samarbeidsbasert tilnærming (og omvendt); eller ved å forene tilnærmingene til en modell (se en fullstendig gjennomgang av anbefalingssystemer). Flere studier som empirisk sammenligner ytelsen til hybrid med de rene samarbeids- og innholdsbaserte metodene og demonstrerte at hybridmetodene kan gi mer nøyaktige anbefalinger enn rene tilnærminger. Disse metodene kan også brukes til å overvinne noen av de vanlige problemene i anbefalingssystemer som kaldstart og sparsomhet, samt kunnskapsteknisk flaskehals i kunnskapsbaserte tilnærminger.

Netflix er et godt eksempel på bruk av hybridanbefalingssystemer. Nettstedet gir anbefalinger ved å sammenligne seende og søkevaner for lignende brukere (dvs. samarbeidende filtrering) samt ved å tilby filmer som deler egenskaper med filmer som en bruker har vurdert høyt (innholdsbasert filtrering).

Noen hybridiseringsteknikker inkluderer:

  • Vektet : Kombinerer poengsummen til forskjellige anbefalingskomponenter numerisk.
  • Bytte : Velge blant anbefalingskomponenter og bruke den valgte.
  • Blandet : Anbefalinger fra forskjellige anbefalere presenteres sammen for å gi anbefalingen.
  • Funksjonskombinasjon : Funksjoner avledet fra forskjellige kunnskapskilder kombineres sammen og gis til en enkelt anbefalingsalgoritme.
  • Feature Augmentation : Beregning av en funksjon eller et sett med funksjoner, som deretter er en del av inngangen til neste teknikk.
  • Kaskade : Anbefalerne prioriteres strengt, de lavere prioriterte bryter båndene i poengsummen til de høyere.
  • Metanivå : En anbefalingsteknikk brukes og produserer en slags modell, som deretter er inngangen som brukes av den neste teknikken.

Netflix -prisen

En av hendelsene som bidro til forskning i anbefalingssystemer var Netflix -prisen . Fra 2006 til 2009 sponset Netflix en konkurranse, og tilbyr en hovedpremie på $ 1.000.000 til teamet som kunne ta et tilbudt datasett med over 100 millioner filmvurderinger og returanbefalinger som var 10% mer nøyaktige enn de som tilbys av selskapets eksisterende anbefalingssystem. Denne konkurransen ga energi til søket etter nye og mer nøyaktige algoritmer. September 2009 ble hovedpremien på USD 1.000.000 gitt til BellKor's Pragmatic Chaos -teamet ved bruk av uavbrutt regler.

Den mest nøyaktige algoritmen i 2007 brukte en ensemblemetode med 107 forskjellige algoritmiske tilnærminger, blandet inn i en enkelt prediksjon. Som nevnt av vinnerne, Bell et al .:

Prediktiv nøyaktighet er vesentlig forbedret når du blander flere prediktorer. Vår erfaring er at de fleste innsatsene bør konsentreres om å utlede vesentlig forskjellige tilnærminger, snarere enn å foredle en enkelt teknikk. Følgelig er løsningen vår en samling av mange metoder.

Mange fordeler påløpt på grunn av Netflix -prosjektet. Noen lag har tatt teknologien sin og brukt den på andre markeder. Noen medlemmer fra teamet som endte på andreplassen grunnla Gravity R&D , en anbefalingsmotor som er aktiv i RecSys -samfunnet. 4-Tell, Inc. opprettet en Netflix-prosjektavledet løsning for netthandelsnettsteder.

Det oppstod en rekke personvernproblemer rundt datasettet som Netflix tilbyr for Netflix Prize -konkurransen. Selv om datasettene ble anonymisert for å bevare kundens personvern, kunne to forskere fra University of Texas i 2007 identifisere individuelle brukere ved å matche datasettene med filmkarakterer på Internet Movie Database. Som et resultat saksøkte en anonym Netflix -bruker i desember 2009 Netflix i Doe v. Netflix, og påsto at Netflix hadde brutt USAs rettferdighetslover og loven om beskyttelse av personvern ved å frigjøre datasettene. Dette, samt bekymringer fra Federal Trade Commission , førte til kanselleringen av en andre Netflix -premiekonkurranse i 2010.

Ytelsesmålinger

Evaluering er viktig for å vurdere effektiviteten av anbefalingsalgoritmer. For å måle effektiviteten til anbefalingssystemer og sammenligne forskjellige tilnærminger, er tre typer evalueringer tilgjengelige: brukerstudier, online evalueringer (A/B -tester) og offline evalueringer.

De vanligste beregningene er gjennomsnittlig kvadratfeil og rot gjennomsnittlig kvadratfeil , sistnevnte har blitt brukt i Netflix -prisen. Informasjonshentingstatistikkene som presisjon og tilbakekalling eller DCG er nyttige for å vurdere kvaliteten på en anbefalingsmetode. Mangfold, nyhet og dekning regnes også som viktige aspekter i evalueringen. Mange av de klassiske evalueringstiltakene er imidlertid sterkt kritisert.

Evaluering av ytelsen til en anbefalingsalgoritme på et fast testdatasett vil alltid være ekstremt utfordrende, siden det er umulig å forutsi reaksjonene til virkelige brukere på anbefalingene. Derfor vil enhver beregning som beregner effektiviteten til en algoritme i frakoblede data være upresis.

Brukerstudier er ganske små. Noen få titalls eller hundrevis av brukere presenteres anbefalinger laget av forskjellige anbefalingsmetoder, og deretter vurderer brukerne hvilke anbefalinger som er best.

I A/B -tester vises anbefalinger til vanligvis tusenvis av brukere av et ekte produkt, og anbefalingssystemet velger tilfeldig minst to forskjellige anbefalingsmetoder for å generere anbefalinger. Effektiviteten måles med implisitte målinger av effektivitet, for eksempel konverteringsfrekvens eller klikkfrekvens .

Offline evalueringer er basert på historiske data, f.eks. Et datasett som inneholder informasjon om hvordan brukerne tidligere ga filmer.

Effektiviteten av anbefalingsmetoder måles deretter basert på hvor godt en anbefalingsmetode kan forutsi brukernes vurderinger i datasettet. Selv om en vurdering er et eksplisitt uttrykk for om en bruker likte en film, er slik informasjon ikke tilgjengelig på alle domener. For eksempel, i domenet til anbefalingssystemer for sitater, vurderer brukere vanligvis ikke en sitat eller anbefalt artikkel. I slike tilfeller kan offline -evalueringer bruke implisitte målinger av effektivitet. For eksempel kan det antas at et anbefalingssystem er effektivt som er i stand til å anbefale så mange artikler som mulig i en forskningsartikkels referanseliste. Imidlertid blir denne typen offline evalueringer sett på som kritisk av mange forskere. For eksempel har det blitt vist at resultater fra offline -evalueringer har lav korrelasjon med resultater fra brukerstudier eller A/B -tester. Et datasett som er populært for offline -evaluering, har vist seg å inneholde dupliserte data og dermed føre til feil konklusjoner i evalueringen av algoritmer. Ofte korrelerer ikke resultatene av såkalte offline-evalueringer med faktisk vurdert brukertilfredshet. Dette er sannsynligvis fordi frakoblet opplæring er veldig partisk mot de elementene som er svært tilgjengelige, og frakoblet testdata er sterkt påvirket av resultatene fra den elektroniske anbefalingsmodulen. Forskere har konkludert med at resultatene av offline -evalueringer bør ses kritisk.

Utover nøyaktighet

Vanligvis er forskning på anbefalingssystemer bekymret for å finne de mest nøyaktige anbefalingsalgoritmene. Det er imidlertid en rekke faktorer som også er viktige.

  • Mangfold -Brukerne har en tendens til å være mer fornøyd med anbefalinger når det er et større mangfold på listen, f.eks. Varer fra forskjellige artister.
  • Anbefalere for anbefalere -I noen situasjoner er det mer effektivt å vise anbefalinger på nytt, eller la brukerne vurdere elementer på nytt, enn å vise nye varer. Det er flere årsaker til dette. Brukere kan ignorere elementer når de vises for første gang, for eksempel fordi de ikke hadde tid til å inspisere anbefalingene nøye.
  • Personvern - Anbefalersystemer må vanligvis håndtere personvernhensyn fordi brukere må avsløre sensitiv informasjon. Å bygge brukerprofiler ved hjelp av kollaborativ filtrering kan være problematisk sett fra et personvernperspektiv. Mange europeiske land har en sterk kultur for personvern , og alle forsøk på å innføre noen grad av bruker profilering kan resultere i en negativ kunderespons. Mye forskning har blitt utført på pågående personvernproblemer på dette området. Den Netflix Prisen er spesielt kjent for den detaljerte personopplysninger utgitt i datasettet. Ramakrishnan et al. har gjort en omfattende oversikt over avveiningene mellom personalisering og personvern og funnet ut at kombinasjonen av svake bånd (en uventet forbindelse som gir serendipitøse anbefalinger) og andre datakilder kan brukes til å avdekke identiteter til brukere i et anonymisert datasett.
  • Brukerdemografi - Beel et al. fant ut at brukerdemografi kan påvirke hvor fornøyde brukerne er med anbefalinger. I avisen viser de at eldre brukere har en tendens til å være mer interessert i anbefalinger enn yngre brukere.
  • Robusthet - Når brukere kan delta i anbefalingssystemet, må spørsmålet om svindel tas opp.
  • Serendipity - Serendipity er et mål på "hvor overraskende anbefalingene er". For eksempel kan et anbefalingssystem som anbefaler melk til en kunde i en matbutikk være helt nøyaktig, men det er ikke en god anbefaling fordi det er en åpenbar vare for kunden å kjøpe. "[Serenditipity] tjener to formål: For det første, sjansen for at brukere mister interessen fordi valgmengden er for ensartet, reduseres. For det andre er disse elementene nødvendige for at algoritmer skal lære og forbedre seg selv".
  • Tillit - Et anbefalingssystem har liten verdi for en bruker hvis brukeren ikke stoler på systemet. Tillit kan bygges opp av et anbefalersystem ved å forklare hvordan det genererer anbefalinger, og hvorfor det anbefaler et element.
  • Merking - Brukernes tilfredshet med anbefalinger kan påvirkes av merkingen av anbefalingene. For eksempel, i det nevnte studien klikkfrekvensen (CTR) for anbefalinger som er merket som "Sponsored" var lavere (CTR = 5,93%) enn CTR for identiske anbefalinger som er merket som "organisk" (CTR = 8,86%). Anbefalinger uten etikett fungerte best (CTR = 9,87%) i den studien.

Reproduserbarhet

Anbefalersystemer er notorisk vanskelige å evaluere offline, og noen forskere hevder at dette har ført til en reproduserbarhetskrise i publikasjoner av anbefalingssystemer. En nylig undersøkelse av et lite antall utvalgte publikasjoner som bruker dyp læring eller nevrale metoder på topp-k anbefalingsproblemet, publisert på toppkonferanser (SIGIR, KDD, WWW, RecSys, IJCAI), har vist at i gjennomsnitt mindre enn 40% av artikler kunne reproduseres av forfatterne av undersøkelsen, med så lite som 14% på noen konferanser. Totalt sett identifiserer studiene 26 artikler, bare 12 av dem kan reproduseres av forfatterne, og 11 av dem kan utkonkurreres av mye eldre og enklere riktig innstilte grunnlinjer for off-line evalueringsberegninger. Artiklene vurderer en rekke potensielle problemer i dagens forskningsstipend og foreslår forbedret vitenskapelig praksis på dette området. Nyere arbeid med benchmarking av et sett med de samme metodene kom til kvalitativt svært forskjellige resultater, der det ble funnet at nevrale metoder var blant de best utførte metodene. Dyp læring og nevrale metoder for anbefalingssystemer har blitt brukt i de vinnende løsningene i flere nylige anbefalingssystemutfordringer, WSDM, RecSys Challenge. Videre er nevrale og dype læringsmetoder mye brukt i industrien der de er grundig testet. Emnet reproduserbarhet er ikke nytt i anbefalingssystemer. I 2011, Ekstrand, Konstan, et al. kritiserte at "det for tiden er vanskelig å reprodusere og utvide forskningsresultater fra anbefalingssystemer", og at evalueringer "ikke håndteres konsekvent". Konstan og Adomavicius konkluderer med at "forskersamfunnet Recommender Systems står overfor en krise der et betydelig antall artikler presenterer resultater som bidrar lite til kollektiv kunnskap […] ofte fordi forskningen mangler […] evaluering for å bli riktig bedømt og derfor å gi meningsfulle bidrag. " Som en konsekvens kan mye forskning om anbefalingssystemer betraktes som ikke reproduserbart. Derfor finner operatører av anbefalingssystemer lite veiledning i den nåværende forskningen for å svare på spørsmålet, hvilken anbefaling tilnærminger å bruke i et anbefalingssystem. Said & Bellogín gjennomførte en studie av artikler publisert i feltet, samt benchmarket noen av de mest populære rammene for anbefaling og fant store inkonsekvenser i resultatene, selv når de samme algoritmene og datasettene ble brukt. Noen forskere demonstrerte at mindre variasjoner i anbefalingsalgoritmene eller scenariene førte til sterke endringer i effektiviteten til et anbefalingssystem. De konkluderer med at syv handlinger er nødvendige for å forbedre den nåværende situasjonen: "(1) undersøk andre forskningsfelt og lær av dem, (2) finn en felles forståelse av reproduserbarhet, (3) identifiser og forstå determinanter som påvirker reproduserbarhet, (4 ) gjennomføre mer omfattende eksperimenter (5) modernisere publikasjonspraksis, (6) fremme utvikling og bruk av anbefalingsrammer, og (7) etablere retningslinjer for beste praksis for forskning på anbefalingssystemer. "

Se også

Referanser

Videre lesning

Bøker

Kim Falk (januar 2019), Practical Recommender Systems, Manning Publications, ISBN  9781617292705

Vitenskapelige artikler

Eksterne linker