Tekstgruvedrift - Text mining

Tekst gruvedrift , også referert til som tekst data mining , ligner tekst analyser , er prosessen med å utlede høy kvalitet informasjon fra tekst . Det innebærer "oppdagelse av datamaskin av ny, tidligere ukjent informasjon, ved automatisk å trekke ut informasjon fra forskjellige skriftlige ressurser." Skriftlige ressurser kan omfatte nettsteder , bøker , e -post , anmeldelser og artikler. Informasjon av høy kvalitet oppnås vanligvis ved å utvikle mønstre og trender ved hjelp av statistisk mønsterlæring . I følge Hotho et al. (2005) kan vi skille mellom tre forskjellige perspektiver for tekstgruvedrift: informasjonsutvinning , data mining og en KDD -prosess (Knowledge Discovery in Databases). Tekstgruvedrift innebærer vanligvis prosessen med å strukturere inndatateksten (vanligvis analysering, sammen med tillegg av noen avledede språklige funksjoner og fjerning av andre, og påfølgende innsetting i en database ), utlede mønstre i de strukturerte dataene , og til slutt evaluering og tolkning av utgangen. 'Høy kvalitet' i tekstgruvedrift refererer vanligvis til en kombinasjon av relevans , nyhet og interesse. Typiske tekstgruveoppgaver inkluderer tekstkategorisering , tekstklynger , ekstraksjon av konsept/enheter, produksjon av granulære taksonomier, sentimentanalyse , dokumentoppsummering og enhetsrelasjonsmodellering ( dvs. læringsrelasjoner mellom navngitte enheter ).

Tekstanalyse innebærer henting av informasjon , leksikalsk analyse for å studere ordfrekvensdistribusjoner, mønstergjenkjenning , tagging / annotering , informasjonsekstraksjon , datautvinningsteknikker inkludert koblings- og assosiasjonsanalyse, visualisering og prediktiv analyse . Det overordnede målet er i hovedsak å gjøre tekst til data for analyse, ved bruk av naturlig språkbehandling (NLP), forskjellige typer algoritmer og analysemetoder. En viktig fase i denne prosessen er tolkningen av den innsamlede informasjonen.

En typisk applikasjon er å skanne et sett med dokumenter skrevet på et naturlig språk og enten modellere dokumentsettet for prediktive klassifiseringsformål eller fylle ut en database eller søkeindeks med informasjonen hentet ut. Den dokument er det grunnleggende element mens starter med tekst gruvedrift. Her definerer vi et dokument som en enhet med tekstdata, som normalt finnes i mange typer samlinger.

Tekstanalyse

Begrepet tekstanalyse beskriver et sett med språklige , statistiske og maskinlæringsteknikker som modellerer og strukturerer informasjonsinnholdet i tekstkilder for business intelligence , utforskende dataanalyse , forskning eller undersøkelser. Begrepet er omtrent synonymt med tekstbryting; faktisk, Ronen Feldman endret en beskrivelse fra 2000 av "tekstgruve" i 2004 for å beskrive "tekstanalyse". Sistnevnte begrep brukes nå oftere i forretningsinnstillinger mens "tekstgruve" brukes i noen av de tidligste applikasjonsområdene, som dateres til 1980-tallet, særlig biovitenskapelig forskning og etterretning fra regjeringen.

Begrepet tekstanalyse beskriver også den anvendelsen av tekstanalyse for å svare på forretningsproblemer, uavhengig eller i forbindelse med forespørsel og analyse av feltfelt, numeriske data. Det er en sannhet at 80 prosent av virksomhetsrelevant informasjon stammer fra ustrukturert form, først og fremst tekst. Disse teknikkene og prosessene oppdager og presenterer kunnskap - fakta, forretningsregler og relasjoner - som ellers er låst i tekstform, ugjennomtrengelig for automatisert behandling.

Tekstanalyseprosesser

Deloppgaver-komponenter i en større tekstanalyse-inkluderer vanligvis:

  • Reduksjon av dimensjoner er en viktig teknikk for forhåndsbehandling av data. Teknikk brukes til å identifisere rotordet for faktiske ord og redusere størrelsen på tekstdataene.
  • Innhenting av informasjon eller identifisering av et korpus er et forberedende skritt: samle eller identifisere et sett av tekstlig materiale, på nettet eller holdt i et filsystem, database eller innhold corpus sjef for analyse.
  • Selv om noen tekstanalysesystemer utelukkende bruker avanserte statistiske metoder, bruker mange andre mer omfattende naturlig språkbehandling , for eksempel en del av talemerking , syntaktisk analyse og andre typer språklig analyse.
  • Navngitt entitetsgjenkjenning er bruk av tidsskrifter eller statistiske teknikker for å identifisere navngitte tekstfunksjoner: mennesker, organisasjoner, stedsnavn, aksjesymboler, visse forkortelser og så videre.
  • Disambiguation - bruk av kontekstuelle ledetråder - kan være nødvendig for å bestemme hvor for eksempel "Ford" kan referere til en tidligere amerikansk president, en bilprodusent, en filmstjerne, en elveovergang eller en annen enhet.
  • Gjenkjenning av mønsteridentifiserte enheter: Funksjoner som telefonnumre, e-postadresser, mengder (med enheter) kan skelnes via vanlig uttrykk eller andre mønstertreff.
  • Dokumentklynger: identifisering av sett med lignende tekstdokumenter.
  • Referanse : identifisering av substantivfraser og andre termer som refererer til det samme objektet.
  • Forhold, fakta og hendelsesekstraksjon: identifisering av assosiasjoner mellom enheter og annen informasjon i tekst
  • Sentimentanalyse innebærer å skille subjektivt (i motsetning til faktuelt) materiale og trekke ut forskjellige former for holdningsinformasjon: følelser, meninger, humør og følelser. Tekstanalyseteknikker er nyttige for å analysere følelser på entitets-, konsept- eller emnenivå og for å skille meningsinnehaver og meningsobjekt.
  • Kvantitativ tekstanalyse er et sett med teknikker som stammer fra samfunnsvitenskapene der enten en menneskelig dommer eller en datamaskin trekker ut semantiske eller grammatiske forhold mellom ord for å finne ut betydningen eller stilistiske mønstre av, vanligvis, en tilfeldig personlig tekst med det formål å psykologisk profilering etc.

applikasjoner

Tekstgruvedriftsteknologi brukes nå bredt på et bredt spekter av offentlige, forsknings- og forretningsbehov. Alle disse gruppene kan bruke tekstgruvedrift for registrering av dokumenter og søk i dokumenter som er relevante for deres daglige aktiviteter. Juridiske fagfolk kan for eksempel bruke tekstgruve for e-discovery . Regjeringer og militære grupper bruker tekstgruvedrift for nasjonal sikkerhet og etterretning. Vitenskapelige forskere inkorporerer tekstgruve -tilnærminger i arbeidet med å organisere store sett med tekstdata (dvs. å løse problemet med ustrukturerte data ), for å bestemme ideer som kommuniseres gjennom tekst (f.eks. Sentimentanalyse i sosiale medier ) og for å støtte vitenskapelig oppdagelse på områder som f.eks. de biovitenskap og bioinformatikk . I næringslivet brukes applikasjoner for å støtte konkurransedyktig intelligens og automatisert annonseplassering , blant mange andre aktiviteter.

Sikkerhetsprogrammer

Mange programvarepakker for tekstgruve markedsføres for sikkerhetsapplikasjoner , spesielt overvåking og analyse av elektroniske tekstkilder på nettet som Internett -nyheter , blogger , etc. for nasjonale sikkerhetsformål . Det er også involvert i studiet av tekstkryptering / dekryptering .

Biomedisinske applikasjoner

Et flytdiagram av en tekstgruveprotokoll.
Et eksempel på en tekstgruveprotokoll som brukes i en studie av protein-proteinkomplekser eller proteindocking .

En rekke applikasjoner for tekstgruvedrift i den biomedisinske litteraturen er beskrevet, inkludert beregningsmessige tilnærminger for å bistå med studier i proteindokking , proteininteraksjoner og proteinsykdomsforeninger. I tillegg, med store pasienttekstdatasett i det kliniske feltet, datasett med demografisk informasjon i populasjonsstudier og rapporter om uønskede hendelser, kan tekstgruve lette kliniske studier og presisjonsmedisin. Tekstgruve -algoritmer kan lette lagdeling og indeksering av spesifikke kliniske hendelser i store pasienttekstdatasett med symptomer, bivirkninger og komorbiditeter fra elektroniske helsejournaler, hendelsesrapporter og rapporter fra spesifikke diagnostiske tester. En online tekstgruve -applikasjon i biomedisinsk litteratur er PubGene , en offentlig tilgjengelig søkemotor som kombinerer biomedisinsk tekstgruvedrift med nettverksvisualisering. GoPubMed er en kunnskapsbasert søkemotor for biomedisinske tekster. Tekstgruvedriftsteknikker gjør det også mulig for oss å trekke ut ukjent kunnskap fra ustrukturerte dokumenter på det kliniske området

Programvare

Tekstgruve -metoder og programvare blir også forsket på og utviklet av store firmaer, inkludert IBM og Microsoft , for å automatisere gruve- og analyseprosessene ytterligere, og av forskjellige firmaer som jobber med søk og indeksering generelt for å forbedre resultatene sine . Innenfor offentlig sektor har mye arbeid vært konsentrert om å lage programvare for sporing og overvåking av terroraktiviteter . For studieformål er Weka -programvare et av de mest populære alternativene i den vitenskapelige verden, og fungerer som et utmerket inngangspunkt for nybegynnere. For Python -programmerere er det et utmerket verktøykasse kalt NLTK for mer generelle formål. For mer avanserte programmerere, er det også Gensim- biblioteket, som fokuserer på tekstinnbyggingsbaserte tekstrepresentasjoner .

Online medieprogrammer

Tekstgruvedrift brukes av store medieselskaper, for eksempel Tribune Company , for å avklare informasjon og for å gi leserne større søkeopplevelser, noe som igjen øker nettstedets "klebrighet" og inntekt. I tillegg, på baksiden, drar redaktører fordel av å kunne dele, knytte og pakke nyheter på tvers av eiendommer, noe som øker mulighetene for å tjene penger på innhold betydelig.

Forretnings- og markedsføringsapplikasjoner

Tekstanalyse brukes i virksomheten, spesielt i markedsføring, for eksempel i håndtering av kundeforhold . Coussement og Van den Poel (2008) bruker den for å forbedre prediktive analysemodeller for kundeavvikling ( kundeutslett ). Tekstgruvedrift brukes også i prediksjon av aksjeavkastning.

Sentimentanalyse

Sentimentanalyse kan innebære analyse av filmanmeldelser for å estimere hvor gunstig en anmeldelse er for en film. En slik analyse kan trenge et merket datasett eller merking av ordens affektivitet . Ressurser for affektivitet av ord og begreper er laget for henholdsvis WordNet og ConceptNet .

Tekst har blitt brukt til å oppdage følelser i det relaterte området affektiv databehandling. Tekstbaserte tilnærminger til affektiv databehandling har blitt brukt på flere korpora, for eksempel studentevalueringer, barnehistorier og nyhetshistorier.

Vitenskapelig litteraturgruvedrift og akademiske anvendelser

Spørsmålet om tekstgruvedrift er viktig for utgivere som har store databaser med informasjon som trenger indeksering for henting. Dette gjelder spesielt i vitenskapelige disipliner, der svært spesifikk informasjon ofte finnes i den skrevne teksten. Derfor har det blitt tatt initiativer som Nature's forslag om et Open Text Mining Interface (OTMI) og National Institutes of Healths felles Journal Publishing Document Type Definition (DTD) som vil gi semantiske tegn til maskiner for å svare på spesifikke spørsmål som finnes i tekst uten å fjerne utgiverbarrierer for offentlig tilgang.

Akademiske institusjoner har også engasjert seg i tekstgruveinitiativet:

Metoder for vitenskapelig litteraturgruvedrift

Beregningsmetoder er utviklet for å hjelpe til med å hente informasjon fra vitenskapelig litteratur. Publiserte tilnærminger inkluderer metoder for å søke, bestemme nyhet og klargjøre homonymer blant tekniske rapporter.

Digital humaniora og beregningssosiologi

Den automatiske analysen av store tekstkorpora har skapt muligheten for forskere til å analysere millioner av dokumenter på flere språk med svært begrenset manuell intervensjon. Nøkkel teknologiene har vært parsing, maskinoversettelse , emne kategorisering , og maskinlæring.

Fortellende nettverk for amerikanske valg 2012

Den automatiske analysen av tekstkorpora har gjort det mulig å trekke ut aktører og deres relasjonsnettverk i stor skala, og gjøre tekstdata til nettverksdata. De resulterende nettverkene, som kan inneholde tusenvis av noder, analyseres deretter ved hjelp av verktøy fra nettverksteori for å identifisere nøkkelaktørene, nøkkelsamfunnene eller partene, og generelle egenskaper som robusthet eller strukturell stabilitet i det overordnede nettverket, eller sentralitet av visse noder. Dette automatiserer tilnærmingen som ble introdusert ved kvantitativ narrativ analyse, der tripletter av subjekt-verb-objekt identifiseres med par skuespillere knyttet sammen av en handling, eller par dannet av skuespiller-objekt.

Innholdsanalyse har lenge vært en tradisjonell del av samfunnsvitenskap og medievitenskap. Automatiseringen av innholdsanalyse har tillatt en " big data " -revolusjon å finne sted på dette feltet, med studier i sosiale medier og avisinnhold som inkluderer millioner av nyheter. Kjønnsforstyrrelser , lesbarhet , innholdslikhet, leserpreferanser og til og med humør har blitt analysert basert på tekstgruve -metoder over millioner av dokumenter. Analysen av lesbarhet, kjønnsskjevhet og tema skjevhet ble demonstrert i Flaounas et al. vise hvordan forskjellige emner har forskjellige kjønnsforstyrrelser og lesbarhetsnivå; muligheten til å oppdage stemningsmønstre i en stor befolkning ved å analysere Twitter -innhold ble også demonstrert.

Programvare

Dataprogrammer for tekstgruve er tilgjengelig fra mange kommersielle og åpen kildekode selskaper og kilder. Se Liste over tekstgruveprogramvare .

Intellektuell eiendomsrett

Situasjonen i Europa

Video av Fix Copyright -kampanje som forklarer TDM og dets opphavsrettsspørsmål i EU, 2016 [3:52

I henhold til europeiske lover om opphavsrett og databaser er gruvedrift av opphavsrettslige verk (for eksempel ved webmining ) ulovlig fra tillatelse fra opphavsrettseieren. I Storbritannia i 2014, på anbefaling av Hargreaves -gjennomgangen , endret regjeringen lov om opphavsrett for å tillate tekstgruve som en begrensning og unntak . Det var det andre landet i verden som gjorde det, etter Japan , som innførte et gruvespesifikt unntak i 2009. På grunn av begrensningen av informasjonssamfunnets direktiv (2001) tillater det britiske unntaket bare innholdsbrytning for ikke- kommersielle formål. Britisk lov om opphavsrett tillater ikke at denne bestemmelsen overskrides av kontraktsmessige vilkår og betingelser.

Den europeiske kommisjonen tilrettelagt interessent diskusjon om tekst og data mining i 2013, under tittelen Lisenser for Europa. Det faktum at fokuset på løsningen på dette juridiske spørsmålet var lisenser, og ikke begrensninger og unntak fra lov om opphavsrett, førte til at representanter for universiteter, forskere, biblioteker, sivilsamfunnsgrupper og open access -utgivere forlot interessentdialogen i mai 2013.

Situasjonen i USA

Amerikansk lov om opphavsrett , og særlig bestemmelsene om rimelig bruk , betyr at tekstgruvedrift i Amerika, så vel som andre land for rimelig bruk som Israel, Taiwan og Sør -Korea, blir sett på som lovlig. Siden tekstgruvedrift er transformerende, noe som betyr at det ikke erstatter det originale verket, blir det sett på som lovlig under rimelig bruk. For eksempel, som en del av Google Book-forliket, bestemte dommeren i saken at Googles digitaliseringsprosjekt av bøker uten opphavsrett var lovlig, delvis på grunn av de transformative bruksområdene som digitaliseringsprosjektet viste-en slik bruk er tekst- og datautvinning .

Implikasjoner

Inntil nylig brukte nettsteder oftest tekstbaserte søk, som bare fant dokumenter som inneholder spesifikke brukerdefinerte ord eller uttrykk. Nå, ved bruk av et semantisk web , kan tekstgruve finne innhold basert på mening og kontekst (snarere enn bare et bestemt ord). I tillegg kan tekstgruveprogramvare brukes til å bygge store informasjonsdossierer om bestemte personer og hendelser. For eksempel kan store datasett basert på data hentet fra nyhetsrapporter bygges for å lette analyse av sosiale nettverk eller motintelligens . I virkeligheten kan tekstgruveprogramvaren virke i en kapasitet som ligner en etterretningsanalytiker eller forskningsbibliotekar, om enn med et mer begrenset omfang av analyse. Tekstgruve brukes også i noen spam -filtre for e -post som en måte å bestemme egenskapene til meldinger som sannsynligvis vil være reklame eller annet uønsket materiale. Tekstgruvedrift spiller en viktig rolle for å bestemme følelser i finansmarkedet .

Framtid

Det blir betalt økende interesse for flerspråklig datautvinning: muligheten til å få informasjon på tvers av språk og klynge lignende elementer fra forskjellige språklige kilder i henhold til deres betydning.

Utfordringen med å utnytte den store andelen virksomhetsinformasjon som har sin opprinnelse i "ustrukturert" form, har blitt anerkjent i flere tiår. Det er anerkjent i den tidligste definisjonen av business intelligence (BI), i en IBM Journal -artikkel fra oktober 1958 av HP Luhn, A Business Intelligence System, som beskriver et system som vil:

"... bruk databehandlingsmaskiner for automatisk abstraksjon og automatisk koding av dokumenter og for å lage interesseprofiler for hvert av" handlingspunktene "i en organisasjon. Både innkommende og internt genererte dokumenter blir automatisk abstrakt, preget av et ord mønster, og sendes automatisk til passende handlinger. "

Etter hvert som ledelsesinformasjonssystemer utviklet seg på 1960 -tallet, og etter hvert som BI dukket opp på 80- og 90 -tallet som en programvarekategori og praksisfelt, ble det lagt vekt på numeriske data lagret i relasjonsdatabaser. Dette er ikke overraskende: tekst i "ustrukturerte" dokumenter er vanskelig å behandle. Fremveksten av tekstanalyse i sin nåværende form stammer fra en refokusering av forskning på slutten av 1990 -tallet fra algoritmeutvikling til applikasjon, som beskrevet av prof. Marti A. Hearst i papiret Untangling Text Data Mining:

I nesten et tiår har beregningsspråklig lingvistikk sett på store tekstsamlinger som en ressurs som kan brukes for å produsere bedre tekstanalysealgoritmer. I denne artikkelen har jeg forsøkt å foreslå en ny vektlegging: bruk av store online tekstsamlinger for å oppdage nye fakta og trender om selve verden. Jeg foreslår at vi ikke trenger full kunstig intelligent tekstanalyse for å gjøre fremskritt; snarere kan en blanding av beregningsdrevet og brukerstyrt analyse åpne for spennende nye resultater.

Hearsts behovserklæring fra 1999 beskriver ganske godt tilstanden til tekstanalyse -teknologi og praksis et tiår senere.

Se også

Referanser

Sitater

Kilder

  • Ananiadou, S. og McNaught, J. (redaktører) (2006). Tekstgruvedrift for biologi og biomedisin . Artech House Books. ISBN  978-1-58053-984-5
  • Bilisoly, R. (2008). Praktisk tekstgruvedrift med Perl . New York: John Wiley & Sons. ISBN  978-0-470-17643-6
  • Feldman, R. og Sanger, J. (2006). Tekstgruvehåndboken . New York: Cambridge University Press. ISBN  978-0-521-83657-9
  • Hotho, A., Nürnberger, A. og Paaß, G. (2005). "En kort undersøkelse av tekstgruvedrift". I Ldv Forum, bind. 20 (1), s. 19-62
  • Indurkhya, N. og Damerau, F. (2010). Handbook Of Natural Language Processing , 2. utgave. Boca Raton, FL: CRC Press. ISBN  978-1-4200-8592-1
  • Kao, A. og Poteet, S. (redaktører). Naturlig språkbehandling og tekstgruvedrift . Springer. ISBN  1-84628-175-X
  • Konchady, M. Text Mining Application Programming (Programming Series) . Charles River Media. ISBN  1-58450-460-9
  • Manning, C. og Schutze, H. (1999). Grunnlag for statistisk behandling av naturlig språk . Cambridge, MA: MIT Press. ISBN  978-0-262-13360-9
  • Gruvearbeider, G., Elder, J., Hill. T, Nisbet, R., Delen, D. og Fast, A. (2012). Praktisk tekstgruvedrift og statistisk analyse for ikke-strukturerte tekstdataprogrammer . Elsevier Academic Press. ISBN  978-0-12-386979-1
  • McKnight, W. (2005). "Bygge forretningsintelligens: Tekstedata -gruvedrift i business intelligence". DM Review , 21-22.
  • Srivastava, A. og Sahami. M. (2009). Tekstgruvedrift: Klassifisering, gruppering og applikasjoner . Boca Raton, FL: CRC Press. ISBN  978-1-4200-5940-3
  • Zanasi, A. (redaktør) (2007). Tekstgruvedrift og dens applikasjoner til intelligens, CRM og kunnskapsstyring . WIT Press. ISBN  978-1-84564-131-3

Eksterne linker