Beregnet leksikologi - Computational lexicology

Computational leksikologi er en gren av computing linguistics , som er opptatt av bruk av datamaskiner i studiet av leksikon . Det har blitt nærmere beskrevet av noen forskere (Amsler, 1980) som bruk av datamaskiner i studiet av maskinlesbare ordbøker . Det skiller seg fra beregningsmessig leksikografi , som mer riktig ville være bruken av datamaskiner i konstruksjon av ordbøker, selv om noen forskere har brukt beregningsmessig leksikografi som synonym .

Historie

Computational leksikologi dukket opp som en egen disiplin innen datalinguistikk med utseendet til maskinlesbare ordbøker, og startet med opprettelsen av maskinlesbare bånd fra Merriam-Webster Seventh Collegiate Dictionary og Merriam-Webster New Pocket Dictionary på 1960-tallet av John Olney et al. hos System Development Corporation . I dag er beregningsleksikologi best kjent gjennom opprettelse og applikasjoner av WordNet . Etter hvert som beregningsbehandlingen av forskerne økte over tid, har bruken av beregningsleksikologi blitt brukt allestedsnærværende i tekstanalysen. I 1987 har blant andre Byrd, Calzolari, Chodorow utviklet beregningsverktøy for tekstanalyse. Spesielt ble modellen designet for å koordinere assosiasjonene som involverer sansene fra polysemøse ord.

Studie av leksikon

Beregningsleksikologi har bidratt til forståelsen av innholdet og begrensningene i utskriftsordbøker for beregningsformål (dvs. at det ble tydeliggjort at det foregående arbeidet med leksikografi ikke var tilstrekkelig for behovene til beregningsspråklighet). Gjennom arbeidet med beregningsmessige leksikologer er nesten hver del av en utskrift av ordbøker blitt studert, alt fra:

  1. hva som utgjør et hovedord - brukt til å generere rettskrivingslister for stavekontroll;
  2. hvilke varianter og bøyninger overskriften danner - brukt til empirisk forståelse av morfologi;
  3. hvordan overskriften er avgrenset til stavelser;
  4. hvordan overskriften uttales - brukes i talegenereringssystemer;
  5. delene av talen hovedordet tar på seg - brukes til POS-taggere ;
  6. eventuelle spesielle emne- eller brukskoder tilordnet hovedordet - brukt til å identifisere tekstdokumentets emne;
  7. hovedordets definisjoner og deres syntaks - brukt som et hjelpemiddel til å disambiguere ord i sammenheng;
  8. etymologien til overskriften og dets bruk for å karakterisere ordforråd etter opprinnelsesspråk - brukt til å karakterisere tekstordforråd med hensyn til dets opprinnelsesspråk;
  9. eksemplene setninger;
  10. oppkjøringene (tilleggsord og uttrykk med flere ord som dannes fra overskriften); og
  11. relaterte ord som synonymer og antonymer .

Mange beregningsspråklige ble avskrekket med de trykte ordbøkene som en ressurs for beregningsspråkvitenskap fordi de manglet tilstrekkelig syntaktisk og semantisk informasjon for dataprogrammer. Arbeidet med beregningsmessig leksikologi førte raskt til innsats i to ytterligere retninger.

Etterfølgere til beregningsleksikologi

For det første førte samarbeidsaktiviteter mellom beregningsspråklige og leksikografer til forståelsen av rollen som korpora spilte i å lage ordbøker. De fleste beregningsmessige leksikologer gikk videre med å bygge store korpora for å samle de grunnleggende dataene som leksikografer hadde brukt for å lage ordbøker. ACL / DCI (Data Collection Initiative) og LDC ( Linguistic Data Consortium ) gikk denne veien. Ankomsten av markeringsspråk førte til at det ble opprettet etiketterte korpora som lettere kunne analyseres for å lage beregningsspråklige systemer. Del-av-tale-taggete corpora og semantisk-tagged corpora ble opprettet for å teste og utvikle POS-taggere og word semantisk disambiguation-teknologi.

Den andre retningen var mot opprettelsen av Lexical Knowledge Bases (LKBs). En Lexical Knowledge Base ble ansett for å være hva en ordbok skulle være for beregningsspråklige formål, spesielt for beregningsmessig leksikalsemantiske formål. Det skulle ha den samme informasjonen som i en trykt ordbok, men helt eksplisitt når det gjelder betydningen av ordene og de aktuelle koblingene mellom sansene. Mange begynte å lage ressursene de ønsket ordbøker, hvis de hadde blitt opprettet for bruk i beregningsanalyse. WordNet kan betraktes som en slik utvikling, og det kan også være den nyere innsatsen for å beskrive syntaktisk og semantisk informasjon som FrameNet-arbeidet til Fillmore. Utenfor beregningsspråklighet kan Ontology-arbeidet med kunstig intelligens sees på som et evolusjonsarbeid for å bygge et leksikalsk kunnskapsgrunnlag for AI-applikasjoner.

standardisering

Optimalisering av produksjon, vedlikehold og utvidelse av beregningsmessige leksikoner er et av de viktige aspektene som påvirker NLP . Hovedproblemet er interoperabiliteten : forskjellige leksikoner er ofte inkompatible. Den hyppigste situasjonen er: hvordan slå sammen to leksikoner, eller fragmenter av leksikoner? Et sekundært problem er at et leksikon vanligvis er spesielt tilpasset et spesifikt NLP-program og har vanskeligheter med å bli brukt i andre NLP-programmer eller applikasjoner.

I denne sammenheng er de forskjellige datamodellene for Computational leksikoner studert av ISO / TC37 siden 2003 innenfor prosjektets leksikalske markeringsrammer som fører til en ISO-standard i 2008.

referanser

Amsler, Robert A. 1980. Ph.D. Avhandling, "Strukturen i Merriam-Webster Pocket Dictionary". University of Texas i Austin.

Eksterne linker