Tekstfil - Text file

Tekstfil
Text-txt.svg
Filnavn forlengelse
.tekst
Internett -medietype
tekst/vanlig
Skriv inn kode TEKST
Uniform Type Identifier (UTI) offentlig. vanlig tekst
UTI -konformasjon offentlig.tekst
Type format Dokumentfilformat , Generisk beholderformat

En tekstfil (noen ganger stavet tekstfil , et gammelt alternativt navn er flatfil ) er en slags datafil som er strukturert som en sekvens av linjer med elektronisk tekst . Det finnes en tekstfil som er lagret som data i et datafilsystem . I operativsystemer som CP/M og MS-DOS , der operativsystemet ikke holder oversikt over filstørrelsen i byte, markeres enden på en tekstfil ved å plassere ett eller flere spesialtegn, kjent som slutten av -filmarkør , som polstring etter siste linje i en tekstfil. På moderne operativsystemer som Microsoft Windows og Unix-lignende systemer inneholder tekstfiler ikke noe spesielt EOF-tegn, fordi filsystemer i disse operativsystemene holder oversikt over filstørrelsen i byte. De fleste tekstfiler må ha end-of-line skilletegn , som gjøres på noen forskjellige måter, avhengig av operativsystem. Noen operativsystemer med postorienterte filsystemer bruker kanskje ikke nye linjeavgrensere, og lagrer først og fremst tekstfiler med linjer atskilt som poster med fast eller variabel lengde.

"Tekstfil" refererer til en type beholder, mens ren tekst refererer til en type innhold.

På et generisk beskrivelsesnivå er det to typer datafiler: tekstfiler og binære filer .

Datalagring

En stilisert ikonisk fremstilling av en CSV -formatert tekstfil .

På grunn av sin enkelhet brukes tekstfiler ofte til lagring av informasjon. De unngår noen av problemene med andre filformater, for eksempel endianness , padding bytes eller forskjeller i antall byte i et maskinord . Videre, når datakorrupsjon oppstår i en tekstfil, er det ofte lettere å gjenopprette og fortsette behandlingen av det gjenværende innholdet. En ulempe med tekstfiler er at de vanligvis har en lav entropi , noe som betyr at informasjonen opptar mer lagringsplass enn det som er strengt nødvendig.

En enkel tekstfil trenger kanskje ikke ytterligere metadata (annet enn kunnskap om tegnsettet ) for å hjelpe leseren med å tolke. En tekstfil kan inneholde ingen data i det hele tatt, som er et tilfelle av nullbyte-fil .

Koding

Den ASCII tegnsettet er den vanligste kompatible undergruppe av tegnsett for engelskspråklige tekstfiler, og er generelt antatt å være standard filformat i mange situasjoner. Det dekker amerikansk engelsk, men for britiske pund -skiltet , eurotegnet eller tegn som brukes utenfor engelsk, må et rikere tegnsett brukes. I mange systemer velges dette basert på standard lokalinnstilling på datamaskinen den leses på. Før UTF-8 var dette tradisjonelt enkeltbyte-kodinger (for eksempel ISO-8859-1 til ISO-8859-16 ) for europeiske språk og brede tegnkoder for asiatiske språk.

Fordi kodinger nødvendigvis bare har et begrenset repertoar av karakterer, ofte veldig små, kan mange bare brukes til å representere tekst på en begrenset delmengde av menneskelige språk. Unicode er et forsøk på å lage en felles standard for å representere alle kjente språk, og de fleste kjente tegnsettene er delsett av det veldig store Unicode -tegnsettet. Selv om det er flere tegnkoder tilgjengelig for Unicode, er den vanligste UTF-8 , som har fordelen av å være bakoverkompatibel med ASCII; det vil si at hver ASCII- tekstfil også er en UTF-8-tekstfil med identisk betydning. UTF-8 har også fordelen av at den lett kan detekteres automatisk . Således er en vanlig driftsmodus for UTF-8-kompatibel programvare, når du åpner filer med ukjent koding, å prøve UTF-8 først og falle tilbake til en lokalavhengig eldre koding når det definitivt ikke er UTF-8.

Formater

På de fleste operativsystemer refererer navnet tekstfil til filformat som bare tillater vanlig tekstinnhold med svært liten formatering (f.eks. Ingen fet eller kursiv ). Slike filer kan vises og redigeres på tekstterminaler eller i enkle tekstredigerere . Tekstfiler har vanligvis MIME -typen text/plain, vanligvis med tilleggsinformasjon som indikerer en koding.

Microsoft Windows -tekstfiler

MS-DOS og Microsoft Windows bruker et vanlig tekstfilformat, med hver tekstlinje atskilt med en kombinasjon på to tegn: vognretur (CR) og linjemating (LF). Det er vanlig at den siste tekstlinjen ikke avsluttes med en CR-LF-markør, og mange tekstredigerere (inkludert Notisblokk ) setter ikke inn automatisk en på den siste linjen.

Microsoft Windows -operativsystemer regnes en fil som en tekstfil hvis suffikset til navnet på filen (" filtypenavnet ") er .txt. Imidlertid brukes mange andre suffikser for tekstfiler med spesifikke formål. For eksempel oppbevares kildekoden for dataprogrammer vanligvis i tekstfiler som har filnamnsuffikser som angir programmeringsspråket der kilden er skrevet.

De fleste Microsoft Windows-tekstfiler bruker koding "ANSI", "OEM", "Unicode" eller "UTF-8". Det Microsoft Windows-terminologi kaller "ANSI-kodinger" er vanligvis enkeltbyte ISO/IEC 8859- kodinger (dvs. ANSI i Microsoft Notisblokk-menyene er egentlig "System Code Page", ikke-Unicode, eldre koding), bortsett fra i lokaler som kinesisk , Japansk og koreansk som krever dobbel-byte tegnsett. ANSI -kodinger ble tradisjonelt brukt som standard systemlokaler i Microsoft Windows, før overgangen til Unicode. Derimot ble OEM -kodinger, også kjent som DOS -kodesider , definert av IBM for bruk i det originale IBM PC -tekstmodusvisningssystemet. De inkluderer vanligvis grafiske tegn og strektegn som er vanlige i DOS-applikasjoner. "Unicode" -kodede Microsoft Windows-tekstfiler inneholder tekst i UTF-16 Unicode Transformation Format. Slike filer begynner vanligvis med Byte Order Mark ( BOM ), som kommuniserer endeligheten av filinnholdet. Selv om UTF-8 ikke lider av endianness-problemer, forbereder mange Microsoft Windows-programmer (dvs. Notisblokk) innholdet i UTF-8-kodede filer med BOM, for å skille UTF-8-koding fra andre 8-biters kodinger.

Unix tekstfiler

Unix-lignende operativsystemer er tekstfiler format presist beskrevet: POSIX definerer en tekstfil som en fil som inneholder tegn organisert i null eller flere linjer, der linjer er sekvenser med null eller flere ikke-nye linjer pluss et avsluttende nytt tegn, normalt LF.

I tillegg definerer POSIX a utskrivbar fil som en tekstfil hvis tegn kan skrives ut eller mellomrom eller bakside i henhold til regionale regler. Dette utelukker de fleste kontrolltegnene, som ikke kan skrives ut.

Apple Macintosh -tekstfiler

Før ankomsten av macOS anså det klassiske Mac OS -systemet innholdet i en fil (datagaffelen) for å være en tekstfil da ressursgaffelen indikerte at filtypen var "TEKST". Linjer med Macintosh -tekstfiler avsluttes med CR -tegn.

MacOS er sertifisert Unix og bruker POSIX -format for tekstfiler. Uniform Type Identifier (UTI) som brukes for tekstfiler i macOS er "public.plain-text"; ytterligere, mer spesifikke UTI er: "public.utf8-ren-tekst" for utf-8-kodet tekst, "public.utf16-ekstern-ren-tekst" og "public.utf16-ren-tekst" for utf-16- kodet tekst og "com.apple.traditional-mac-plain-text" for klassiske Mac OS-tekstfiler.

Gjengivelse

Når det åpnes av et tekstredigeringsprogram, presenteres det lesbart innhold for brukeren. Dette består ofte av filens ren tekst som er synlig for brukeren. Avhengig av applikasjonen kan kontrollkoder gjengis enten som bokstavelige instruksjoner som redaktøren har utført, eller som synlige flukttegn som kan redigeres som ren tekst. Selv om det kan være ren tekst i en tekstfil, kan kontrolltegn i filen (spesielt slutten av filtegnet) gjøre ren tekst usett med en bestemt metode.

Se også

Notater og referanser

Eksterne linker