Web mining - Web mining

Web mining er bruken av data mining teknikker for å oppdage mønstre fra World Wide Web . Den bruker automatiserte metoder for å trekke ut både strukturerte og ustrukturerte data fra nettsider, serverlogger og koblingsstrukturer. Det er tre hovedkategorier for web mining. Webinnhold gruvedrift utdrag informasjon fra en side. Nettstruktur gruvedrift oppdager strukturen til hyperkoblinger mellom dokumenter, kategoriserer sett med nettsider og måler likheten og forholdet mellom forskjellige nettsteder. Nettbruk gruvedrift finner mønstre for bruk av nettsider.

Typer av gruvedrift på nettet

Web gruvedrift kan deles inn i tre ulike typer - webbruk gruvedrift , webinnhold gruvedrift og Web struktur gruvedrift .

Det generelle forholdet mellom kategoriene Web mining og målene for data mining

Sammenligning av typer gruvedrift
	Nettinnhold gruvedrift		Nettstruktur gruvedrift	Nettbruk gruvedrift
	IR -visning	DB -visning	Nettstruktur gruvedrift	Nettbruk gruvedrift
Visning av data	Ustrukturert Strukturert	Halvstrukturert Nettsted som DB	Lenke struktur	Interaktivitet
Hoveddata	Tekstdokumenter hypertekst dokumenter	Hypertekstdokumenter	Lenke struktur	Serverlogger Nettleserlogger
Representasjon	Pose med ord , n-gram- termer setninger, begreper eller ontologi Relasjonelle	Kantmerket graf Relasjonelle	Kurve	Forholdstabell Kurve
Metode	Maskinlæring Statistikk (inkludert NLP )	Proprietære algoritmer Foreningsregler	Proprietære algoritmer	Maskinlæring Statistisk Foreningsregler
Søknadskategorier	Kategorisering Gruppering Finne ekstraktregler Finne mønstre i tekst	Finne hyppige understrukturer Nettstedskjemaoppdagelse	Kategorisering Gruppering	Bygging av tomter Tilpasning og ledelse

Nettbruk gruvedrift

Nettbruk gruvedrift er bruken av data mining teknikker for å oppdage interessante bruksmønstre fra web data for å forstå og bedre tjene behovene til web-baserte applikasjoner . Bruksdata fanger opp identiteten eller opprinnelsen til nettbrukere sammen med deres surfeadferd på et nettsted.

Selve gruvedriften for nettbruk kan klassifiseres ytterligere avhengig av hvilken type bruksdata som vurderes:

Webserverdata : Brukerloggene samles inn av webserveren . Typiske data inkluderer IP -adresse, sidereferanse og tilgangstid.
Applikasjonsserverdata : Kommersielle applikasjonsservere har betydelige funksjoner som gjør det mulig å bygge e-handelsapplikasjoner på toppen av dem med liten innsats. En sentral funksjon er muligheten til å spore ulike typer forretningshendelser og logge dem i applikasjonsserverlogger.
Data på applikasjonsnivå : Nye typer hendelser kan defineres i et program, og logging kan slås på for dem og dermed generere historier om disse spesielt definerte hendelsene. Mange sluttapplikasjoner krever en kombinasjon av en eller flere av teknikkene som brukes i kategoriene ovenfor.

Studier knyttet til arbeid er opptatt av to områder: begrensningsbaserte algoritmer for datautvinning som brukes i gruvedrift for nettbruk og utviklede programvareverktøy (systemer). Costa og Seco demonstrerte at gruvedrift av weblogger kan brukes til å trekke ut semantisk informasjon (spesielt hyponymierelasjoner ) om brukeren og et gitt fellesskap.

Fordeler

Nettbruk gruvedrift har i hovedsak mange fordeler som gjør denne teknologien attraktiv for selskaper, inkludert offentlige etater. Denne teknologien har gjort det mulig for e-handel å gjøre personlig markedsføring , noe som til slutt resulterer i høyere handelsvolumer. Offentlige etater bruker denne teknologien til å klassifisere trusler og bekjempe terrorisme . Forutsigelsesevnen til gruveprogrammer kan komme samfunnet til gode ved å identifisere kriminelle aktiviteter. Bedrifter kan etablere et bedre kundeforhold ved å forstå kundens behov bedre og reagere på kundens behov raskere. Bedrifter kan finne, tiltrekke og beholde kunder; de kan spare på produksjonskostnadene ved å utnytte innsamlet innsikt i kundens krav. De kan øke lønnsomheten ved å målrette priser basert på profilene som er opprettet. De kan til og med finne kunder som kan misligholde en konkurrent, og selskapet vil prøve å beholde kunden ved å tilby kampanjetilbud til den spesifikke kunden, og dermed redusere risikoen for å miste en eller flere kunder.

Flere fordeler ved bruk av nettbruk, spesielt innen personalisering , er skissert i spesifikke rammer, for eksempel den sannsynlige latente semantiske analysemodellen , som tilbyr tilleggsfunksjoner til brukeratferd og tilgangsmønster. Dette er fordi prosessen gir brukeren mer relevant innhold gjennom samarbeidende anbefalinger. Disse modellene demonstrerer også en evne innen gruvedriftsteknologi for nettbruk for å løse problemer knyttet til tradisjonelle teknikker som forstyrrelser og spørsmål angående validitet siden dataene og mønstrene som er oppnådd ikke er subjektive og ikke nedbrytes over tid. Det er også elementer som er unike for gruvedrift for nettbruk som kan vise teknologiens fordeler, og disse inkluderer måten semantisk kunnskap brukes på når man tolker, analyserer og resonnerer om bruksmønstre i gruvefasen.

Ulemper

Nettbruk gruvedrift i seg selv skaper ikke problemer, men denne teknologien når den brukes på data av personlig art, kan forårsake bekymringer. Det mest kritiserte etiske spørsmålet som involverer gruvedrift i nettbruk, er invasjon av personvern . Personvern anses som tapt når informasjon om et individ er innhentet, brukt eller spredt, spesielt hvis dette skjer uten den enkeltes kunnskap eller samtykke. De innhentede dataene blir analysert, anonymisert og deretter gruppert for å danne anonyme profiler. Disse applikasjonene individualiserer brukerne ved å bedømme dem etter museklikk i stedet for å identifisere informasjon. De-individualisering generelt kan defineres som en tendens til å dømme og behandle mennesker på grunnlag av gruppekarakteristikker i stedet for på sine egne individuelle egenskaper og fortjenester.

En annen viktig bekymring er at selskapene som samler inn dataene for et bestemt formål, kan bruke dataene til helt andre formål, og dette bryter i hovedsak brukerens interesser.

Den økende trenden med å selge personopplysninger som en vare oppfordrer nettstedseiere til å handle personlige data hentet fra nettstedet deres. Denne trenden har økt mengden data som blir fanget opp og handlet, noe som øker sannsynligheten for at ens privatliv blir invadert. Selskapene som kjøper dataene er forpliktet til å gjøre det anonymt, og disse selskapene regnes som forfattere av enhver spesifikk utgivelse av gruvedriftsmønstre. De er juridisk ansvarlige for innholdet i utgivelsen; eventuelle unøyaktigheter i utgivelsen vil føre til alvorlige søksmål, men det er ingen lov som forhindrer dem i å handle dataene.

Noen gruvealgoritmer kan bruke kontroversielle attributter som sex, rase, religion eller seksuell legning for å kategorisere individer. Denne praksisen kan være i strid med lovgivningen mot diskriminering. Applikasjonene gjør det vanskelig å identifisere bruken av slike kontroversielle attributter, og det er ingen sterk regel mot bruk av slike algoritmer med slike attributter. Denne prosessen kan resultere i nektelse av tjeneste eller et privilegium for et individ basert på hans rase, religion eller seksuelle legning. Denne situasjonen kan unngås av de høye etiske standardene som data mining -selskapet opprettholder. De innsamlede dataene blir gjort anonyme slik at de innhentede dataene og de innhentede mønstrene ikke kan spores tilbake til et individ. Det kan se ut som om dette ikke utgjør noen trussel mot personvernet, men ytterligere informasjon kan utledes av programmet ved å kombinere to separate skruppelløse data fra brukeren.

Nettstruktur gruvedrift

Nettstruktur gruvedrift bruker grafteori for å analysere noden og tilkoblingsstrukturen til et nettsted. I henhold til typen webstrukturelle data kan gruvedrift i nettstruktur deles inn i to typer:

Trekke ut mønstre fra hyperkoblinger på nettet: en hyperkobling er en strukturell komponent som kobler nettsiden til et annet sted.
Gruvedrift i dokumentstrukturen : analyse av den trelignende strukturen i sidestrukturer for å beskrive bruk av HTML- eller XML- tagger.

Nettstruktur gruvedriftsterminologi:

Nettgraf: dirigert graf som representerer web.
Node: nettside i grafen.
Kant: hyperkoblinger.
I grad: antall lenker som peker til en bestemt node.
Utgrad: antall koblinger generert fra en bestemt node.

Et eksempel på en teknikk for gruvedrift i nettstruktur er PageRank -algoritmen som brukes av Google for å rangere søkeresultater. Rangering av en side avgjøres av antallet og kvaliteten på koblinger som peker til målnoden.

Nettinnholds gruvedrift

Nettinnholdsgruve er gruvedrift, utvinning og integrering av nyttige data, informasjon og kunnskap fra nettsideinnhold. Den heterogenitet og mangel på struktur som tillater mye av de stadig voksende informasjonskildene på World Wide Web, for eksempel hypertekstdokumenter , gjør automatiserte funn, organisering og søke- og indekseringsverktøy på Internett og World Wide Web som Lycos , Alta Vista , WebCrawler , Aliweb , MetaCrawler og andre gir brukerne litt trøst, men de gir vanligvis ikke strukturell informasjon eller kategoriserer, filtrerer eller tolker dokumenter. Disse faktorene har fått forskere til å utvikle mer intelligente verktøy for informasjonsinnhenting , for eksempel intelligente webagenter , samt å utvide database- og datautvinningsteknikker for å gi et høyere organisasjonsnivå for semi-strukturerte data som er tilgjengelige på nettet. Den agentbaserte tilnærmingen til web mining innebærer utvikling av sofistikerte AI-systemer som kan handle autonomt eller semi-autonomt på vegne av en bestemt bruker, for å oppdage og organisere nettbasert informasjon. Forskere bygger en webcrawler -applikasjon for å samle nødvendige data fra nettet. For eksempel kan informasjon om leiligheter hentes fra nettsteder for eiendomsoppføringer på nettet for å generere et nytt datasett.

Nettinnholds gruvedrift er differensiert fra to forskjellige synspunkter: Informasjonsinnhentingsvisning og Databasevisning. oppsummerte forskningsarbeidene for ustrukturerte data og semistrukturerte data fra informasjonshentingsvisning. Det viser at de fleste undersøkelsene bruker pose med ord, som er basert på statistikken om enkeltord isolert, for å representere ustrukturert tekst og ta enkeltord som finnes i opplæringskorpuset som funksjoner. For de semi-strukturerte dataene bruker alle verkene HTML-strukturene inne i dokumentene, og noen benyttet hyperkoblingsstrukturen mellom dokumentene for dokumentrepresentasjon. Når det gjelder databasevisningen, prøver gruvedriften alltid å utlede strukturen på nettstedet for å transformere et nettsted til å bli en database for å få bedre informasjonshåndtering og spørring på nettet.

Det er flere måter å representere dokumenter på; vektorromsmodell brukes vanligvis. Dokumentene utgjør hele vektorrommet. Denne representasjonen innser ikke viktigheten av ord i et dokument. For å løse dette introduseres tf-idf (Term Frequency Times Inverse Document Frequency).

Ved å flerskanne dokumentet kan vi implementere funksjonsvalg. Forutsatt at kategoriresultatet sjelden påvirkes, er ekstraksjon av funksjonsundersett nødvendig. Den generelle algoritmen er å konstruere en evalueringsfunksjon for å evaluere funksjonene. Som funksjonssett brukes vanligvis informasjonsgevinst , kryssentropi , gjensidig informasjon og oddsforhold . Klassifiserings- og mønsteranalysemetodene for tekstdatamining ligner veldig på tradisjonelle dataminingsteknikker. De vanlige evaluerende fordelene er klassifiseringsnøyaktighet , presisjon og tilbakekalling og informasjonspoeng .

Nettgruvedrift kan utfylle hentingen av strukturerte data som overføres med åpne protokoller som OAI-PMH : et eksempel er aggregering av verk fra akademiske publikasjoner, som blir utvunnet for å identifisere open access- versjoner gjennom en blanding av åpen kildekode og åpne datametoder av akademiske databaser som Unpaywall .

Nettinnholds gruvedrift på fremmedspråk

kinesisk

Den språkkoden av kinesiske ord er svært komplisert sammenlignet med engelsk. Den GB , Big5 og HZ kode er vanlige kinesiske ordet koder i web-dokumenter. Før tekstgruvedrift må man identifisere kodestandarden for HTML -dokumentene og omdanne den til indre kode, og deretter bruke andre dataminingsteknikker for å finne nyttig kunnskap og nyttige mønstre.

Se også

Referanser

Bøker

Jesus Mena, "Data Mining Your Website", Digital Press, 1999
Soumen Chakrabarti, "Mining the Web: Analysis of Hypertext and Semi Structured Data", Morgan Kaufmann, 2002
Fremskritt i Web Mining og Web Usage Analysis 2005 - reviderte artikler fra 7. workshop om Knowledge Discovery on the Web, Olfa Nasraoui, Osmar Zaiane, Myra Spiliopoulou, Bamshad Mobasher, Philip Yu, Brij Masand, Eds., Springer forelesningsnotater i kunstig intelligens , LNAI 4198, 2006
Web Mining and Web Usage Analysis 2004 - reviderte artikler fra 6. workshop om Knowledge Discovery on the Web, Bamshad Mobasher, Olfa Nasraoui, Bing Liu, Brij Masand, Eds., Springer Lecture Notes in Artificial Intelligence, 2006

Bibliografiske referanser

Baraglia, R. Silvestri, F. (2007) "Dynamisk tilpasning av nettsteder uten brukerinnblanding" , In Communications of the ACM 50 (2): 63-67
Cooley, R. Mobasher, B. og Srivastave, J. (1997) “Web Mining: Information and Pattern Discovery on the World Wide Web” I Proceedings of the 9th IEEE International Conference on Tool with Artificial Intelligence
Cooley, R., Mobasher, B. og Srivastava, J. “ Data Preparation for Mining World Wide Web Browsing Patterns ”, Journal of Knowledge and Information System, Vol.1, Issue. 1, s. 5–32, 1999
Costa, RP og Seco, N. "Hyponymy Extraction and Web Search Behavior Analysis Based On Query Reformulation" , 11. ibero-amerikanske konferanse om kunstig intelligens, 2008 oktober.
Kohavi, R., Mason, L. og Zheng, Z. (2004) " Lessons and Challenges from Mining Retail E-commerce Data " Machine Learning, Vol 57, s. 83–113
Lillian Clark, I-Hsien Ting, Chris Kimble , Peter Wright, Daniel Kudenko (2006) "Kombinere etnografiske og klikkstrømdata for å identifisere brukerstrategier for nettlesing" Journal of Information Research, Vol. 11 nr. 2, januar 2006
Eirinaki, M., Vazirgiannis, M. (2003) " Web Mining for Web Personalization ", ACM Transactions on Internet Technology, Vol.3, No.1, February 2003
Mobasher, B., Cooley, R. og Srivastava, J. (2000) " Automatic Personalization based on web usage Mining " Communications of the ACM, Vol. 43, nr. 8, s. 142–151
Mobasher, B., Dai, H., Luo, T. og Nakagawa, M. (2001) “ Effektiv tilpasning basert på assosieringsregel Oppdag fra nettbruksdata” I Proceedings of WIDM 2001, Atlanta, GA, USA, s. 9 –15
Nasraoui O., Petenes C., "Combining Web Usage Mining and Fuzzy Inference for Website Personalization" , i Proc. of WebKDD 2003 - KDD Workshop on Web mining as a Premise to Effective and Intelligent Web Applications, Washington DC, august 2003, s. 37
Nasraoui O., Frigui H., Joshi A. og Krishnapuram R., "Mining Web Access Logs Using Relational Competitive Fuzzy Clustering" , Proceedings of the Åttende International Fuzzy Systems Association Congress, Hsinchu, Taiwan, august 1999
Nasraoui O., "World Wide Web Personalisering", Inviterte kapittel i "Encyclopedia of Data Mining and Data Warehousing", J. Wang, Ed, Idea Group, 2005
Pierrakos, D., Paliouras, G., Papatheodorou, C., Spyropoulos CD (2003) "Nettbruk gruvedrift som et verktøy for personalisering: en undersøkelse", Brukermodellering og bruker tilpasset interaksjonsjournal, Vol.13, Utgave 4, s. . 311–372
I-Hsien Ting, Chris Kimble, Daniel Kudenko (2005) " A Pattern Restore Method for Restoring Missing Patterns in Server Side Clickstream Data "
I-Hsien Ting, Chris Kimble, Daniel Kudenko (2006) "UBB Mining: Finding Unexpected Browsing Behavior in Clickstream Data to improve a Web Site's Design"
Weichbroth, P., Owoc, M., Pleszkun, M. (2012) " Web User Navigation Patterns Discovery from WWW Server Log Files "
Madria SK, Bhowmick SS, Ng WK, Lim EP (1999) Forskningsproblemer i gruvedata for webdata. I: Mohania M., Tjoa AM (red.) DataWarehousing and Knowledge Discovery. DaWaK 1999. Forelesningsnotater i informatikk, vol 1676. Springer, Berlin, Heidelberg. https://doi.org/10.1007/3-540-48298-9_32 .

Languages

In other projects