Tekstkorpus - Text corpus

I lingvistikk er et korpus (flertall korpus ) eller tekstkorpus en språkressurs som består av et stort og strukturert sett med tekster (i dag vanligvis lagret og behandlet elektronisk). I korpuslingvistikk brukes de til å gjøre statistisk analyse og hypotesetesting , kontrollere forekomster eller validere språklige regler innenfor et bestemt språkterritorium.

Oversikt

Et korpus kan inneholde tekster på et enkelt språk ( enspråklig korpus ) eller tekstdata på flere språk ( flerspråklig korpus ).

For å gjøre korpusene mer nyttige for å gjøre språklig forskning, blir de ofte utsatt for en prosess som kalles kommentar . Et eksempel på merking av et korpus er merking av tale eller POS-merking , der informasjon om hvert ords ordform (verb, substantiv, adjektiv osv.) Blir lagt til korpuset i form av koder . Et annet eksempel er å indikere lemma (basis) form for hvert ord. Når korpusspråket ikke er et arbeidsspråk for forskerne som bruker det, brukes interlinjær glansing for å gjøre kommentaren tospråklig.

Noen corpora har videre strukturerte analysenivåer brukt. Spesielt kan et antall mindre korporaer være fullstendig analysert . Slike korpus kalles vanligvis Treebanks eller Parsed Corpora . Vanskeligheten med å sikre at hele korpuset er fullstendig og konsekvent kommentert, betyr at disse korpusene vanligvis er mindre og inneholder rundt en til tre millioner ord. Andre nivåer av språklig strukturert analyse er mulig, inkludert merknader for morfologi , semantikk og pragmatikk .

applikasjoner

Corpora er den viktigste kunnskapsbasen i korpuslingvistikk . Andre viktige bruksområder inkluderer:

  • Maskinoversettelse
    • Flerspråklig korpus som er spesielt formatert for sammenligning side om side kalles justerte parallelle korpus . Det er to hovedtyper av parallelle korpus som inneholder tekster på to språk. I et oversettelseskorpus er tekstene på det ene språket oversettelser av tekster på det andre språket. I et sammenlignbart korpus er tekstene av samme slag og dekker det samme innholdet, men de er ikke oversettelser av hverandre. For å utnytte en parallell tekst er en slags tekstjustering som identifiserer ekvivalente tekstsegmenter (setninger eller setninger) en forutsetning for analyse. Maskinoversettelsesalgoritmer for å oversette mellom to språk blir ofte trent ved hjelp av parallelle fragmenter som består av et førstespråkskorpus og et andrespråkskorpus som er en element-for-element-oversettelse av førstespråkskorpuset.
  • Filologier
    • Tekstkorpus brukes også i studiet av historiske dokumenter , for eksempel i forsøk på å tyde gamle skrifter, eller i bibelsk stipend . Noen arkeologiske corpora kan ha så kort varighet at de gir et øyeblikksbilde. En av de korteste korpusene i tid kan være de 15–30 år lange Amarna-bokstavtekstene ( 1350 f.Kr. ). Den corpus av en gammel by, (for eksempel " Kanesj Tekster" av Tyrkia), kan gå gjennom en serie av korpus, bestemt av deres finne nettstedet datoer.

Noen bemerkelsesverdige tekstkorporaer

Se også

Referanser

Eksterne linker