Oppdage falske nyheter på nettet - Detecting fake news online

Oppdagelse av falske nyheter på nettet er viktig i dagens samfunn, ettersom det raskt blir produsert ferske nyheter som et resultat av overflod av tilgjengelig teknologi. Claire Wardle har identifisert syv hovedkategorier av falske nyheter, og innenfor hver kategori kan det falske nyhetsinnholdet enten være visuelt og/eller språkbasert. For å oppdage falske nyheter kan både språklige og ikke-språklige signaler analyseres ved hjelp av flere metoder. Selv om mange av disse metodene for å oppdage falske nyheter generelt er vellykkede, har de noen begrensninger.

Bakgrunn og implikasjoner av deteksjon av falske nyheter

Oppdagelse av falske nyheter

Med teknologiens fremskritt blir digitale nyheter mer eksponert for brukere globalt og bidrar til økningen av spredning av hoaxes og desinformasjon på nettet. Falske nyheter kan bli funnet gjennom populære plattformer som sosiale medier og Internett. Det har vært flere løsninger og innsats for å oppdage falske nyheter, der det til og med fungerer med verktøy for kunstig intelligens . Imidlertid har falske nyheter til hensikt å overbevise leseren om å tro på falsk informasjon som synes disse artiklene er vanskelige å oppfatte. Hastigheten på å produsere digitale nyheter er stor og rask, og kjøres daglig hvert sekund, og derfor er det utfordrende for maskinlæring å effektivt oppdage falske nyheter.

Implikasjoner av deteksjon av falske nyheter

I diskursen om ikke å kunne oppdage falske nyheter, ville verden ikke lenger ha verdi i sannhet. Falske nyheter baner vei for å lure andre og fremme ideologier. Disse menneskene som produserer feil informasjon, tjener på å tjene penger med antall interaksjoner på publikasjonene sine. Spredning av desinformasjon har forskjellige intensjoner, spesielt om å få fordel ved politiske valg, for forretninger og produkter, gjort på tross av hevn. Mennesker kan være godtroende og falske nyheter er utfordrende å skille fra de vanlige nyhetene. De fleste blir lett påvirket spesielt av deling av venner og familie på grunn av relasjoner og tillit. Vi har en tendens til å basere følelsene våre fra nyhetene, noe som gjør det ikke vanskelig å akseptere når det er relevant og ut fra vår egen tro. Derfor blir vi fornøyd med det vi vil høre og faller i disse fellene.

Typer falske nyheter

Falske nyheter vises i forskjellige former, og eksemplene på funksjonene deres er clickbait , propaganda , satire eller parodi , sjusket journalistikk, villedende overskrifter og partiske eller skråstilte nyheter. Claire Wardle fra First Draft News har identifisert syv typer falske nyheter.

De syv typene

Typer falske nyheter	Beskrivelse
Satire eller parodi	Satire eller parodi er der informasjonen har potensial til å lure og kan bli misfortolket som faktum. Satire forårsaker ikke nødvendigvis skade da det tar historier fra nyhetskilder og bruker latterliggjøring og sarkasme. Parodier fokuserer på innholdet og er eksplisitt produsert for underholdningsformål.
Feil tilkobling	En falsk forbindelse er åpenbar når overskrifter, bilder eller bildetekster ikke støtter innholdet. Den typen nyheter som er bygget på dårlig journalistikk med ikke -relaterte attributter for å tiltrekke seg oppmerksomhet og brukes for profitt. For eksempel å lese en overskrift som angir en kjendis død, men ved å klikke, nevner ikke innholdet i hele artikkelen kjendisen
Villedende innhold	Villedende innhold er typen falske nyheter som bruker informasjon for å ramme et problem eller et individ. En populær form for nyheter som brukes av politikere for å få ned sine motstandere ved å komme med falske påstander med muligens litt sannhet.
Falsk kontekst	Falsk kontekst inkluderer falsk kontekstuell informasjon som deles rundt ekte innhold.
Svindlerinnhold	Stammer fra en falsk eller sammensatt kilde som utgir seg for en ekte nyhetskilde.
Manipulert innhold	Presenterer ekte informasjon eller bilder, men lurer på å fortelle en annen historie.
Fremstilt innhold	Nytt og fullstendig produsert innhold som er 100% usant med den hensikt å lure og forårsake skade.

Datatyper i falske nyheter

Visuelt basert

Visuelt basert type falske nyheter bruker innhold som integrerer flere former for medier som inkluderer grafisk fremstilling som for eksempel Photoshoppede bilder og videoer. Visuelle nyheter som fanger seernes oppmerksomhet, blir hovedsakelig lagt ut på plattformer som sosiale medier og mediesider. Facebook , Instagram og Twitter er populære eksempler på ofte brukte sosiale medier for å legge ut og dele innhold på nettet og dermed sirkulere til mange andre brukere. Mer enn 70% av brukerne bruker dem som daglige nyhetskilder for å motta de siste og raskeste oppdateringene. Mediesider drives av innholdsmedieselskaper, og innholdet fokuserer på et bredt spekter av bilder og utformer nettstedene basert på stil og brukerens interesse.

Språkvitenskap-basert

Språklig -basert type falske nyheter er i form av tekst eller strenginnhold og analyseres generelt av tekstlingvistikk. Innholdet fokuserer i stor grad på tekst som et kommunikasjonssystem og inkluderer egenskaper som tone, grammatikk og pragmatikk som tillater diskursanalyse . Eksempler på språklig baserte plattformer er bloggsider, e-post og nyhetssider. Bloggsider administreres av brukere og innholdet som produseres er uten tilsyn, noe som anser det som lett å motta feil informasjon. E -post er et annet medium der brukerne kan motta nyheter, og dette utgjør en utfordring for å oppdage og validere deres ekthet. Det er kjent at hoaxes, spam og useriøs e -post spres beryktet via e -post. Populære nyhetsnettsteder kan også generere sitt eget innhold og tiltrekke seg brukere med sin autentiske tilstedeværelse.

Funksjoner i deteksjon av falske nyheter

Kjennetegn ved falske nyheter (signaler) hentes fra forfatterenes kilde, overskrift, brødtekst, visuelt innhold og sosialt engasjement.

Språkvitenskap

Datarepresentasjon

' Bag of Words ' tilnærming evaluerer individuelle ord som en enkelt, viktig enhet. Frekvensen til hvert ord (eller n-gram ) oppnås og frekvensene aggregeres og analyseres for villedende tegn. Utfordringen med denne tilnærmingen er at den er språkavhengig. Det avhenger av individuelle n-gram, som vanligvis analyseres separat fra nyttig kontekstuell informasjon.

Psykolingvistiske funksjoner

Den LIWC (lingvistiske forespørsel og Antall ord) leksikonet kan brukes til å trekke ut passende forhold av ord som i sin tur vil hjelpe til utvinning av Psykolingvistikk egenskaper. Dette gjør systemet i stand til å "fastslå tonen i språket (f.eks. Positive følelser, perseptuell prosess, etc.), statistikk over teksten (f.eks. Ordtelling) og en del av talekategorien (f.eks. Artikler, verb)". LIWC er et nyttig verktøy, ettersom det er i stand til å "gruppere enkelt LIWC -kategorier i flere funksjonssett som oppsummeringskategorier (f.eks. Analytisk tenkning, emosjonell tone), språklige prosesser (f.eks. Funksjonsord, pronomen) og psykologiske prosesser (f.eks. effektive prosesser, sosiale prosesser) ”.

Lesbarhet

Innholdets sannhet kan vurderes ved å analysere lesbarheten . Dette inkluderer å velge innholdsfunksjoner som antall tegn, komplekse ord, antall stavelser og ordtyper, blant mange andre, noe som gjør det mulig for brukere å utføre lesbarhetsberegninger som Flesch-Kincaid, Flesch Reading Ease , Gunning Fog og Automatisert lesbarhetsindeks (ARI).

Diskurs

Ved hjelp av diskursanalyse kan sannheten i en artikkels innhold evalueres. Den retoriske strukturteoriens (RST) analytiske rammeverk kan brukes til å finne retoriske forhold mellom lingvistiske komponenter. Forskjeller mellom ærlig og uærlig innhold når det gjelder sammenheng og struktur kan evalueres sammen ved hjelp av en Vector Space Model (VSM). Et individuelt innholds posisjon i et flerdimensjonalt RST-rom kan vurderes med hensyn til avstanden til sannhet og bedrag. Iøynefallende bruk av spesifikke retoriske forhold kan tyde på bedrag. Selv om det er verktøy for å automatisk klassifisere retoriske forhold, har det imidlertid ennå ikke blitt brukt offisielt som et vurderingsverktøy for sannhet.

Dyp syntaks

Dypere språkstrukturer, også kjent som syntaks , analyseres for å oppdage bedrag. “Funksjoner basert på kontekst fri grammatikk (CFG) plukkes ut, og disse egenskaper i stor grad avhenge lexicalised produksjonsregler som er kombinert med deres moder & forelder noder ”. Utfordringen er at syntaksanalyse i seg selv kanskje ikke er den beste til å oppdage bedrag, derfor brukes den vanligvis i kombinasjon med andre språklige eller nettverksanalysemetoder.

Semantisk analyse

Innholdets sannhet kan vurderes ved å analysere kompatibiliteten mellom innholdet og profilen det stammer fra. Denne tilnærmingen er en forlengelse av n-gram og syntaksanalysetilnærminger. For det første kan bedrag identifiseres ved motsetninger eller unnlatelse av fakta som var tilstede i brukerens tidligere innlegg om lignende emner. For eksempel, for en produktanmeldelse, vil en sannferdig anmeldelse mest sannsynlig bli skrevet av en skribent som gjør lignende bemerkninger om funksjoner i produktet som de fleste anmeldere vil kommentere. For det andre kan bedrag også oppdages gjennom innhold som er hentet fra søkeord, som inneholder attributtet: descriptor pair. Profiler og beskrivelse av forfatterens erfaringer samsvarer, og sannheten i det beskrevne innholdet evalueres ved å vurdere kompatibilitetspoengene - innholdets kompatibilitet med eksistensen av et distinkt aspekt og et generelt aspekt av det det faktisk beskriver. Denne tilnærmingen spår falskhet med omtrent 91% av nøyaktigheten. Denne tilnærmingen er vist å være verdifull i sammenheng med anmeldelser, men for øyeblikket har den bare vært effektiv på dette domenet. Utfordringen ligger i muligheten til å bestemme justeringen av attributter: deskriptor fordi den avhenger av mengden innhold i profilene og nøyaktigheten av de tilknyttede attributtene til deskriptorer.

Ikke-lingvistiske tegn

Visuell

Visuelle baserte tegn er utbredt i alle typer nyhetsinnhold. Sannheten til visuelle elementer som bilder og videoer vurderes ved hjelp av visuelle funksjoner som klarhet, sammenheng, mangfold, klyngescore og likhetsfordelingshistogram, samt statistiske funksjoner som telling, bilde, flerbilde, varmt bilde og langt bildeforhold etc.

Nettverk

Tilknyttet datatilknytning
Den koblede datatilnærmingen bruker en nåværende samling av menneskelig kunnskap for å vurdere sannheten til nye utsagn. Den er avhengig av å søke på tilgjengelige kunnskapsnettverk og offentlig strukturerte data som DBpedia Ontology eller Google relation Extraction Corpus (GREC). Hvordan dette systemet fungerer er at jo nærmere noden som representerer den nye setningen er noden som representerer de faktiske utsagnene, desto mer sannsynlig er den nye utsagnet sant. Utfordringen er at uttalelsene må finnes i en allerede eksisterende kunnskapsbank.

Følelser

Følelser er basert på den utilsiktede, dømmende eller affektive staten. Syntaktiske innholdsmønstre kan evalueres for å identifisere følelser fra faktaargumenter ved å analysere mønstre av argumentasjonstilklasser. De falske negative anmeldere brukte overdrevne negative følelsesbetingelser sammenlignet med de ærlige da de prøvde å overdrive en bestemt følelse de prøvde å uttrykke.

Sosiale kontekstfunksjoner

Sosiale kontekstfunksjoner kan hentes ut fra brukerens sosiale engasjementer på sosiale medier. Den avslører spredningsprosessen som vil gi tilleggsinformasjon som antyder dens sannhet. Sosiale kontekstfunksjoner kan evalueres i tre aspekter - Brukerbasert, postbasert og nettverksbasert.

Brukerbasert
Det ble antydet at det er mer sannsynlig at falske nyheter blir opprettet og spredt av sosiale roboter eller cyborgs . Ved å analysere brukerens interaksjon med nyheter på sosiale medier kan brukerbaserte sosiale kontekstfunksjoner identifiseres og karakteriseres. Individuelle nivåfunksjoner gir troverdighet og pålitelighet for hver bruker. Informasjon som registreringsalder, følge/følgeantall og forfattede tweets trekkes ut. Gruppenivåfunksjoner fanger de generelle egenskapene til grupper av brukere relatert til nyhetene. Spredere av nyheter kan danne fellesskap med visse egenskaper. Informasjon som prosentandel av verifiserte brukere og følgere brukes.

Post-baserte
følelser og meninger av falske nyheter gjennom sosiale medier innlegg kan analyseres. Postbaserte funksjoner kan brukes til å identifisere falske nyheter via reaksjoner uttrykt i innlegget. Postnivåfunksjoner analyserer språkbaserte funksjoner som kan brukes for å identifisere unike funksjoner for hvert innlegg. Spesielle funksjoner inkluderer holdning , tema og troverdighet. Stance avslører brukerens meninger om nyheter. Emnet trekkes ut ved hjelp av emnemodeller som latent Dirichlet allocation (LDA). Troverdighet vurderer graden av pålitelighet. Gruppenivåfunksjoner samler funksjonsverdien for alle relevante innlegg for nyhetsartikler som bruker publikumsvisdom . Temporale nivåfunksjoner overvåker de tidsmessige variasjonene av funksjonsverdier på postnivå. Den bruker innbygningsmetoder uten tilsyn som det tilbakevendende nevrale nettverket (RNN) for å overvåke endringer i innlegget over tid.

Tilnærming til sosiale nettverk
Brukere oppretter nettverk basert på deres interesse, temaer og relasjoner. Falske nyheter sprer seg som en ekkokammersyklus ; den identifiserer verdien av å trekke ut nettverksbaserte funksjoner for å representere nettverksmønstre for deteksjon av falske nyheter. Nettverksbaserte funksjoner trekkes ut ved å opprette spesifikke nettverk blant brukere som har skrevet relaterte innlegg på sosiale medier. Når det gjelder Twitter, er holdningsnettverket bygget med noder som viser tweets som er relatert til nyhetene. Kanter viser likheten mellom holdninger. Den Co-forekomst nettverk avhenger av brukeroppdrag. Brukerens innlegg knyttet til de samme nyhetsartiklene ble talt. Vennskapsnettverket viser strukturen mellom følgere og følgers relaterte tweets. En forlengelse av vennskapsnettverket er diffusjonsnettverket som sporer banen for spredning av nyheter. Noder representerer brukere og kanter representerer diffusjonsveien til informasjon blant dem. Dette nettverket eksisterer bare hvis begge brukerne følger hverandre og den første brukeren legger ut om en nyhet etter at den andre brukeren gjør det.

Metoder for deteksjon

Dyp syntaksanalyse

Dyp syntaks kan analyseres ved hjelp av Probabilistic context-free grammar (PCFG). Syntaksstrukturer beskrives ved å endre setninger til parse -trær. Substantiv, verb etc. skrives om til sine syntaktiske bestanddeler. Sannsynligheter er tilordnet til analysetreet . Denne metoden identifiserer regelkategoriene som leksikalisering og overordnede noder etc. Den oppdager bedrag med 85-91% nøyaktighet, avhengig av kategorien som brukes i analysen.

Formeringsveier

En modell for å oppdage falske nyheter på sosiale medier ved å klassifisere forplantningsveier for nyheter ble foreslått. Utbredelsesbanen til hver nyhetshistorie er modellert som en flervariøs tidsserie - Hver tupel angir egenskapene til brukeren som deltar i utbredelsen av nyhetene. En tidsserieklassifiser er bygget med tilbakevendende og konvolusjonelle nettverk for å forutsi sannheten i nyhetshistorien. Gjentagende og konvolusjonelle nettverk er i stand til å lære globale og lokale variasjoner av underkarakteristikker, som igjen vil bidra til å karakterisere ledetråder for å oppdage falske nyheter. Klyngebaserte metoder kan brukes til å oppdage falske nyheter med en suksessrate på 63% gjennom klassifisering av falske nyheter og ekte nyheter. Hvordan gruppering fungerer er at et stort antall data mates til en maskin som inneholder en algoritme som vil opprette et lite antall klynger via agglomerasjonsklynger med k-nærmeste nabotilnærming. Denne tilnærmingen "klynger lignende nyhetsrapporter basert på normalisert frekvens av relasjoner", og etter at de virkelige og falske nyhetsklyngesentrene ble beregnet, er denne modellen i stand til å fastslå den villedende verdien av en ny artikkel basert på prinsippet om koordinatavstander, der dens Euklidiske avstander til de virkelige og falske nyhetsklyngesentrene er beregnet. Utfordringen med denne tilnærmingen er imidlertid at den kan være mindre nøyaktig hvis den brukes på falske nyhetsartikler som er relativt nye fordi lignende nyhetssaker kanskje ikke er tilgjengelige ennå.

Prediktive modelleringsbaserte metoder

Påvisning av falske nyheter kan også oppnås gjennom prediktive modelleringsbaserte metoder. En type ville være den logistiske regresjonsmodellen . I denne modellen øker positive koeffisienter sannsynligheten for sannhet mens negative øker sannsynligheten for bedrag. "Forfattere hevdet at regresjonsindikatorer som Disjunction, Purpose, Purpose, Restatement og Solutionhood peker på sannhet, og tilstandsregresjonsindikator pekte på bedrag".

Faktakontroll

Faktakontroll er en form for "kunnskapsbasert studie av falske nyheter" som fokuserer på å vurdere sannheten i nyheter. Det er to typer faktakontroll, nemlig manuell og automatisk.

Manuell faktakontroll

Prosessen med manuell faktakontroll er utført av mennesker, og den kan utføres av enten eksperter eller vanlige mennesker.

Ekspertbasert
Denne metoden er avhengig av fagfolk innen faktakontrollfeltet , også kalt faktasjekkere, for å autentisere et bestemt nyhetsinnhold. Det gjøres vanligvis av noen få, men veldig pålitelige faktatjekere. Denne tilnærmingen er relativt enkel å gjennomføre og er også veldig nøyaktig. Imidlertid er ulempene med denne metoden at den er dyr og at systemet sannsynligvis vil bli overveldet ettersom mengden nyhetsinnhold som skal bekreftes øker.

Crowd-sourced
Denne alternative typen faktakontroll krever en enorm gruppe normale individer som fungerer som faktasjekkere. Denne formen for faktakontroll er ikke like lett å gjennomføre, og resultatene er sannsynligvis mindre pålitelige og nøyaktige på grunn av skjevhetene i faktakontrollene, samt mulige sammenstøt mellom dem i merknader til nyhetsinnholdet. Sammenlignet med ekspertbasert faktakontroll, er det imidlertid mindre sannsynlig at dette faktasjekkingssystemet for crowdsourcing blir overveldet når mengden nyhetsinnhold som skal autentiseres øker. I denne typen faktakontroll er det viktig å sile ut upålitelige brukere og stryke ut eventuelle resultater som kan kontrastere hverandre. Disse bekymringene vil bli mer avgjørende ettersom faktumet for å kontrollere befolkningen utvides. Likevel er enkeltpersoner som faktisk sjekker på disse nettstedene for publikumsinnhenting mer i stand til å gi mer omfattende tilbakemelding, for eksempel å inkludere deres holdninger eller meninger.

Automatisk faktakontroll

Et stort problem med manuell faktakontroll er at systemene lett blir overveldet av et økende antall ferske nyhetsinnhold som må sjekkes, noe som er veldig utbredt når det gjelder sosiale medier. Derfor er det opprettet automatiske faktakontrollmetoder for å bekjempe dette problemet. Disse tilnærmingene er for det meste avhengige av “ Informasjonsinnhenting (IR) og teknikker for naturlig språkbehandling (NLP), samt av nettverk / grafteori ”. Automatiske faktakontrollmetoder består vanligvis av to trinn, faktakstraksjon og faktakontroll. Faktisk ekstraksjon, også kjent som kunnskapsbasert konstruksjon, er kunnskap hentet fra nettet som "rå fakta", og den er vanligvis unødvendig, foreldet, motstridende, unøyaktig eller ikke fullstendig. De vil deretter bli raffinert og ryddet opp av "kunnskapsbehandlingsoppgaver for å bygge en kunnskapsbase eller en kunnskapsgraf". For det andre gjøres faktakontroll, også kjent som kunnskapssammenligning, for å vurdere ektheten av nyhetsinnholdet. Dette oppnås ved å matche kunnskapen som er hentet fra nyhetsinnholdet som skal sjekkes, mot faktaene i den nåværende "kunnskapsbasen (e) eller kunnskapsgrafen (e)".

Strategier for å oppdage bedrag

Læringsdeteksjonsstrategier faller inn under en "stilbasert studie av falske nyheter", og den tar hovedsakelig sikte på å identifisere falske nyheter ved å se på stilen. En populær strategi for stilbasert bedrag-deteksjon er å bruke "en funksjonsvektor som representerer innholdsstilen til den oppgitte informasjonen i et maskinlæringsrammeverk" for å avgjøre om informasjonen er bedragerisk, noe som krever klassifisering, eller hvor bedragerisk den er, som kaller for regresjon.

Formasjonsbasert deteksjon av falske nyheter

Formeringsbasert deteksjon er analysen av spredning av falske nyheter. Det er to typer: kaskadebasert og nettverksbasert deteksjon av falske nyheter

Kaskadebasert deteksjon av falske nyheter

Et tre eller en trelignende struktur brukes ofte til å representere en falsk nyhetskaskade. Det viser spredning av falske nyheter på sosiale nettverk av brukere. Rotnoden er representert av brukeren som publiserer falske nyheter. Resten av nodene representerer brukere som senere formidler nyheten ved å videresende eller legge den ut. Kaskaden er representert i form av antall trinn falske nyheter har gått, som er kjent som den humlebaserte falske nyhetskaskaden, eller antall ganger den ble lagt ut, som er kjent som den tidsbaserte falske nyhetskaskaden. Den humlebaserte falske nyhetskaskaden er ofte representert som et standardtre som består av parametere som dybde, som er det maksimale antall trinn (humle) som er tatt, bredde, som er antall brukere som har mottatt falske nyheter etter at de ble lagt ut og størrelse, som er det totale antallet brukere som er representert i kaskaden. Den tidsbaserte falske nyhetskaskaden er ofte representert av en trelignende struktur som består av parametere som levetid, som er det lengste intervallet for spredning av falske nyheter, sanntidsvarme, som er antall brukere som videresender og legger ut den falske på nytt nyheter på tidspunktet t, og total varme, som er det totale antallet brukere som har videresendt eller lagt ut falske nyheter.

Bruke grafkjerner for å analysere kaskade-likhet
Likheten mellom nyhetskaskadene kan beregnes ved hjelp av grafkjerner og brukes i et overvåket læringsramme som en funksjon for å oppdage falske nyheter. En graf-kjernebasert hybrid support-vector machine (SVM) klassifiseringsenhet som vil registrere forplantningsmønstre som er av høy orden (dvs. kaskade-likheter) ble foreslått, i tillegg til funksjoner som emner og følelser. Brukerroller (dvs. opinionsleder eller normal bruker), godkjenning, følelser og tvilsscore evalueres i tillegg. Forutsatt at kaskader med falske nyheter er forskjellige fra kaskadene til ekte nyheter, ble en random walk (RW) grafkern kRW (·, ·) brukt til å oppdage falske nyheter ved å beregne avstandsforskjellene mellom de to kaskadene.

Utnytte kaskaderepresentasjoner
Informative representasjoner av kaskader kan være nyttige som funksjoner i et overvåket læringsrammeverk. Annet enn å bruke funksjonsteknikk, som ikke er automatisk, kan representasjonslæring, som ofte oppnås ved dyp læring, også brukes til å representere en kaskade. Dyp læring ved å lage et trelignende nevrale nettverk, Recursive Neural network (RNNs), ble benyttet, ifølge falske nyhetskaskader. Denne metoden kan automatisk representere nyheter som skal verifiseres. Men fordi dybden på kaskaden tilsvarer dybden på det nevrale nettverket, vil det være utfordrende fordi metoder for dyp læring er følsomme.

Nettverksbasert deteksjon av falske nyheter

Fleksible nettverk kan konstrueres ved nettverksbasert deteksjon av falske nyheter for å fange spredning av falske nyheter indirekte. Nettverkene kan være homogene, heterogene eller hierarkiske.

Homogent nettverk
Homogene nettverk inneholder 1 type node og 1 type kant . Stasjonsnettverket er et klassisk homogent nettverk der noder representerer brukerens nyhetsrelaterte innlegg og kantene representerer det positive eller negative forholdet mellom innlegg. Den vurderer sannheten i nyhetsrelaterte innlegg.

Heterogent nettverk
Heterogene nettverk består av noder og kanter av flere typer. Det er vanligvis et hybridrammeverk som består av tre komponenter-representasjon og innebygging av enhet, modellering av relasjon og semi-overvåket læring . Et eksempel kan være tri-relasjonsnettverket mellom nyhetsutgivere, nyhetsartikler og nyhetsspredere.

Hierarkisk nettverk
Hierarkiske nettverk består av noder og kanter av forskjellige typer som danner et sett-delsettforhold (dvs. et hierarki). Nyhetsbekreftelse blir til et grafoptimaliseringsproblem i dette nettverket.

Troverdighetsbasert studie av falske nyheter

Denne tilnærmingen ser på falske nyheter “basert på nyhetsrelatert og sosialrelatert informasjon. For eksempel, intuitivt, er en nyhetsartikkel publisert på upålitelige nettsteder (e) og videresendt av upålitelige brukere (r) mer falske nyheter enn nyheter postet av autoritative og troverdige brukere ”. Med andre ord fokuserer denne tilnærmingen på kilden til nyhetsinnholdet. Som sådan overlapper troverdighetsperspektivet for å studere falske nyheter generelt med en forplantningsbasert studie av falske nyheter.

Vurdere troverdigheten til nyhetsoverskriften

Denne metoden dreier seg vanligvis om å identifisere clickbait , som er overskrifter som tar sikte på å fange brukernes oppmerksomhet og få dem til å klikke på en lenke til en bestemt webside. Eksisterende clickbait-deteksjonsstudier bruker både "språklige funksjoner som termfrekvenser, lesbarhet og fremoverreferanser og ikke-språklige funksjoner som lenker til nettsider". "Brukerinteresser", "og overskriftsstilling" "innenfor et overvåket læringsramme som gradientforbedrede beslutningstrær" "for å identifisere eller blokkere klikkbaits". Empiriske studier har antydet at clickbaits vanligvis er definert av "et kardinalnummer, lett lesbarhet, sterke substantiv og adjektiv for å formidle autoritet og sensasjonalisme"

Vurdere troverdigheten til nyhetskilden

Denne tilnærmingen ser generelt på "kvalitet, troverdighet og politisk skjevhet på kildesider" for å vurdere kvaliteten og påliteligheten til nyhetsinnhold.

Vurdere troverdighet i nyhetskommentarer

Troverdigheten til nyhetsinnhold kan også evalueres via troverdigheten til kommentarene knyttet til det. "Brukerkommentarer på nyhetsnettsteder og sosiale medier inneholder uvurderlig informasjon om holdninger og meninger", selv om det er veldig vanlig at de blir oversett. Det er noen få modeller som kan brukes til å vurdere troverdigheten til kommentarer, og de kan klassifiseres i tre typer, innholdsbasert, atferdsbasert og grafbasert (nettverk).

Innholdsbaserte modeller
Disse modellene vurderer troverdigheten til kommentarer ved å utnytte språkfunksjoner hentet fra brukerkommentarer, og strategien den bruker er sammenlignbar med den for stilbasert deteksjon av falske nyheter.

Atferdsbaserte modeller
Disse modellene bruker ofte de "veiledende egenskapene til upålitelige kommentarer hentet fra metadataene knyttet til brukeratferd". Når man ser på gjennomgang av spamoppdagelsesstudier, kan disse relaterte atferdsattributtene sorteres i fem kategorier, nemlig sprenghet, aktivitet, aktualitet, likhet og ekstremitet.

Grafbaserte modeller
Til slutt fokuserer disse modellene på forholdet mellom anmeldere, kommentarer, produkter og så videre. For å evaluere påliteligheten til nyhetskommentarer bruker grafbaserte modeller ofte " Probabilistic Graphical Models (PGMs), nettrangeringsalgoritmer og sentralitetstiltak , eller matrise-dekomponeringsteknikker ".

Vurdere troverdigheten til nyhetssprederen

Til slutt kan troverdigheten til nyhetsinnhold også evalueres ved å se på brukerne som sprer det bestemte nyhetsinnholdet og vurdere deres pålitelighet. Brukere er en viktig del av forplantningen av villedende nyheter, ettersom de kan spre falske nyheter på forskjellige måter, for eksempel deling, videresending, liking og anmeldelse. I denne prosessen kan brukere kategoriseres i to typer, ondsinnede brukere som vanligvis har lav pålitelighet og normale brukere som generelt har høyere pålitelighet. Ondsinnede brukere sprer bevisst villedende nyheter på jakt etter økonomiske og/eller ikke-monetære fordeler som makt og popularitet. Denne gruppen brukere kan deles inn i tre kategorier. For det første bots, som er programmer som "kjører automatiserte oppgaver eller skript over Internett". For det andre, troll, som er mennesker som krangler eller uroer andre brukere med det formål å distrahere og ødelegge forhold mellom mennesker. De gjør dette vanligvis ved å legge ut provoserende, digressive eller irrelevante meldinger for å få andre brukere til å svare med sterkt emosjonelt innhold. Den siste kategorien er cyborgs som er kontoer som er registrert av mennesker som et deksel for å kjøre "automatiserte programmer som utfører online aktiviteter". Tvert imot, naive brukere er vanlige brukere som utilsiktet slutter seg til å spre villedende nyheter ettersom de feiltolker bedrageriske nyheter for å være sannheten. Det er to hovedfaktorer som har blitt studert som kan bidra til å forklare hvorfor naive brukere kan delta i spredning av falske nyheter. Den første faktoren er sosial innflytelse, som "refererer til miljømessige og eksogene faktorer som nettverksstruktur eller gruppepress som kan påvirke dynamikken i falske nyheter". Dette er demonstrert av “ populæreffekt , normativ innflytelse teori og sosial identitetsteori ”, som illustrerer at “gruppepress psykologisk påvirkning brukeratferd mot falske-nyhetsrelaterte aktiviteter”. Den andre faktoren er selvinnflytelse. Dette refererer til brukerens iboende egenskaper som kan påvirke hvordan de reagerer på eller håndterer villedende nyheter. For eksempel, ifølge bekreftelsesskjevhet og naiv realisme , er det mer sannsynlig at brukerne tror på villedende nyheter eller deltar i tilhørende aktiviteter hvis det bekrefter deres eksisterende kunnskap.

Kontoanalyse

Troverdigheten i Twitter -hendelser ved å lage et datasett med tweets som er relevant for populære temaer ble oppdaget. Ved å bruke publikumsinnkalling kommenterte de datasettene om sannheten til hver tweet. 4 funksjoner, nemlig melding, bruker, emne og forplantning ble analysert ved hjelp av en beslutningstermodell. Denne metoden oppnådde 86% nøyaktighet. Benevuto et al. kom med en modell som oppdager spammere ved å konstruere et manuelt kommentert datasett med 1000 poster for spam og ikke-spam-kontoer. Attributter for innhold og brukeratferd ble trukket ut og analysert. Denne metoden oppdaget vellykket 70% av spam-kontoer og 96% av ikke-spam-kontoer. Chu et al. utviklet en lignende deteksjonsmodell som skilte botkontoer. 3 grupper ble kategorisert - mennesker, roboter og cyborgs. Et system ble bygget med fire funksjoner i analysen, nemlig entropi -tiltak , spamdeteksjon, kontoeiendommer og beslutningstaking. Denne metoden identifiserte den menneskelige klassen med 96% nøyaktighet.

Tillegg for nettlesere

Nettleser -plugins kan oppdage villedende innhold som klikk agn, skjevhet, konspirasjonsteori og useriøs vitenskap på sosiale medier. Ett eksempel er 'Fake News Detector' som bruker maskinlæringsteknikk for å samle et datasett med grunn sannhet. I tillegg brukes publikums visdom for å forbedre og la programmet lære. Et annet eksempel på et nettlesertillegg som ble utviklet var et som ble opprettet av 4 studenter under et hackathon av Princeton University. Dette systemet gjør en sanntidsanalyse av brukerens feed og varsler brukeren om å legge ut eller dele potensielt falskt innhold ved å analysere søkeord, bilder og kilder.

Begrensninger for å oppdage falske nyheter

Falske nyheter er imidlertid ikke noe nytt. Etter hvert som teknologien utvikler seg og utvikler seg over tid, blir det også mer utfordrende å oppdage falske nyheter ettersom sosiale medier fortsetter å dominere hverdagen vår og dermed akselerere hastigheten på falske nyheter. I en nylig studie publisert av tidsskriftet Science, analyserte den millioner av tweets sendt mellom 2006 og 2017, og det ble funnet at: "Falsehood diffunderte betydelig lenger, raskere, dypere og bredere enn sannheten i alle kategorier av informasjon." Den konkluderte også med at "det tok sannheten omtrent seks ganger så lang tid som usannhet å nå 1500 mennesker." Annet enn bare den raske hastigheten på hvor raskt falske nyheter reiser, er det også mer utfordrende å oppdage det bare på grunn av hvor attraktive de fleste falske nyhetsartiklene har tittelen. Det samme Science -papiret avslørte også at svar på falske nyhets tweets inneholdt flere uttrykk for overraskelse eller avsky enn sanne nyheter.

Begrensninger for cue og funksjonsbaserte metoder

Variert språkvitenskap antyder at et nytt stikksett må være designet for en potensiell situasjon som gjør det vanskelig å generalisere stikkord og funksjonstekniske metoder på tvers av forskjellige emner og domener. Slike tilnærminger vil derfor kreve mer menneskelig involvering i designprosessen, evaluering og bruk av disse tegnene for deteksjon.

Begrensninger for språklige analysebaserte metoder

Selv om denne metoden ofte anses å være bedre enn cue-baserte metoder, trekker den dessverre fremdeles ikke ut og utnytter den rike semantiske og syntaktiske informasjonen i innholdet fullt ut. F.eks .: N-gram-tilnærmingen er enkel, men den kan ikke modellere mer kompliserte kontekstuelle avhengigheter av teksten. Syntaktiske trekk som brukes alene er også mindre kraftige enn ordbaserte n-gram, og en overfladisk kombinasjon av de to ville ikke være effektive for å fange den komplekse gjensidige avhengigheten.

Begrensninger for dyp læringsbasert metode

Falske nyhetsdeteksjon er fortsatt en utfordring, selv for dype læringsmetoder som Convolutional Neural Network (CNN), Recurrent neural network (RNN), etc., fordi innholdet i falske nyheter er planlagt på en måte som ligner sannheten for å lure lesere; og uten kryssreferanser og faktakontroll, er det ofte vanskelig å bestemme sannheten ved hjelp av tekstanalyse alene.

Begrensninger for eksisterende tilbakemeldingsbaserte metoder

Problemet med eksisterende tilbakemeldingsbaserte metoder (f.eks. Responsbrukeranalyse, responstekstanalyse, midlertidig mønsteranalyse, forplantningsmønsteranalyse og håndkonstruert analyse) er typen treningsdata som modellene blir trent på. Det er vanligvis et øyeblikksbilde av brukernes svar som vanligvis samles inn etter eller mot slutten av forplantningsprosessen når tilstrekkelige svar er tilgjengelige. Dette oppmuntrer og gir en årsak til redusert kvalitet i ytelse ved tidlig oppdagelse ved bruk av opplærte modeller når det er færre svar samlet inn. Metodene har heller ikke muligheten til å oppdatere tilstanden basert på trinnvis tilgjengelige brukeres svar.

Begrensninger for eksisterende intervensjonsbaserte metoder

Intervensjonsbaserte metoder (dekontaminering, nettverksovervåking, crowdsourcing og brukeratferdsmodellering ) har en tendens til å være vanskeligere å evaluere og teste, spesielt i komplekse miljøer der det er mange gjensidige avhengige forbindelser og transaksjoner. De kan også gjøre restriktive antagelser om visse tilfeller som begrenser deres anvendelighet.

Languages

In other projects