Wrapper (data mining) - Wrapper (data mining)

Wrapper i data mining er et program som trekker ut innhold fra en bestemt informasjonskilde og oversetter det til en relasjonell form , slik at det lettere kan behandles av datamaskiner. Mange nettsider presenterer strukturerte data - telefonkataloger, produktkataloger osv. Formatert for menneskelig surfing ved hjelp av HTML-språk. Strukturerte data er vanligvis beskrivelser av objekter hentet fra underliggende databaser og vises på websider etter noen faste maler. Programvaresystemer som bruker slike ressurser, må oversette HTML-innhold til en relasjonell form. Pakkere brukes ofte som slike oversettere. Formelt sett er en innpakning en funksjon fra en side til settet med tupler den inneholder.

Pakkegenerasjon

Det er to hovedtilnærminger til generering av innpakning: induksjon av innpakning og automatisert datautvinning . Wrapper induksjon bruker overvåket læring for å lære regler for utvinning av data fra manuelt merkede treningseksempler. Ulempene med induksjon av innpakning er

  • den tidkrevende manuelle merkingsprosessen og
  • vanskeligheten med vedlikehold av innpakningen.

På grunn av den manuelle merkingsinnsatsen er det vanskelig å hente ut data fra et stort antall nettsteder, ettersom hvert nettsted har sine egne maler og krever egen manuell merking for innpakningslæring. Innpakning av innpakning er også et stort problem fordi når et nettsted endrer, blir innpakningene som er bygget for nettstedet foreldet. På grunn av disse manglene har forskere studert automatisk generering av innpakning ved hjelp av uten tilsyn med mønsterdrift. Automatisk utvinning er mulig fordi de fleste webdataobjekter følger faste maler. Hvis du oppdager slike maler eller mønstre, kan systemet utføre ekstraksjon automatisk.

Pakkegenerering på nettet er et viktig problem med et bredt spekter av applikasjoner. Ekstraksjon av slike data gjør det mulig å integrere data / informasjon fra flere nettsteder for å tilby merverditjenester, f.eks. Komparativ shopping, objektsøk og informasjonsintegrering.

Se også

Kilder

  1. ^ Nicholas Kushmerick, Daniel S. Weld, Robert Doorenbos, Wrapper Induction for Information Extraction Proceedings of the International Joint Conference on Artificial Intelligence, 1997
  2. ^ Liu, B. Web Data Mining: Exploring Hyperlinks, Contents and Usage Data , Springer, 2007.