Wikidata - Wikidata

Wikidata
Wikidata-logo-en.svg
Skjermdump
Wikidata hovedside screenshot.png
Hovedside i Wikidata i april 2021
Type nettsted
Tilgjengelig i Flere språk
Eieren Wikimedia Foundation
Redaktør Wikimedia -fellesskap
URL www .wikidata .org Rediger dette på Wikidata
Kommersiell Nei
Registrering Valgfri
Lanserte 29. oktober 2012 ; 8 år siden ( 2012-10-29 )

Wikidata er en flerspråklig kunnskapsgraf som er redigert i samarbeid av Wikimedia Foundation . Det er en vanlig kilde til åpne data som Wikimedia -prosjekter som Wikipedia og alle andre kan bruke under lisensen CC0 public domain . Wikidata er en wiki drevet av programvaren MediaWiki , og er også drevet av settet med kunnskapsgraf MediaWiki -utvidelser kjent som Wikibase .

Konsept

Dette diagrammet viser de viktigste begrepene som brukes i Wikidata.

Wikidata er en dokumentorientert database , fokusert på elementer som representerer alle slags emner, konsepter eller objekter. Hvert element tildeles en unik, vedvarende identifikator , et positivt heltall foran med store bokstaver Q, kjent som en "QID". Dette gjør at grunnleggende informasjon som kreves for å identifisere emnet som elementet dekker kan oversettes uten å foretrekke noe språk.

Eksempler på varer inkluderer sommer -OL 1988 (Q8470) , kjærlighet (Q316) , Johnny Cash (Q42775) , Elvis Presley (Q303) og Gorilla (Q36611) .

Produktetiketter trenger ikke å være unike. For eksempel er det to elementer som heter "Elvis Presley": Elvis Presley (Q303) , som representerer den amerikanske sangeren og skuespilleren , og Elvis Presley (Q610926) , som representerer hans selvtitulerte album . Imidlertid må kombinasjonen av en etikett og beskrivelsen være unik. For å unngå tvetydighet er en vares unike identifikator ( QID ) derfor knyttet til denne kombinasjonen.

Varetyper er generelle og leksemer.

Hoved deler

Wikidata skjermbilde


Et oppsett av de fire hovedkomponentene på en fase 1-Wikidata-side: etiketten, beskrivelsen, aliaser og koblinger mellom språk.

I utgangspunktet består en vare av:

  • Obligatorisk, en identifikator (QID), relatert til en etikett og en beskrivelse.
  • Eventuelt flere alias og et antall utsagn (og deres egenskaper og verdier).

Uttalelser

Wikidata skjermbilde
Tre utsagn fra Wikidatas element på planeten Mars (Q111). Verdiene inkluderer lenker til andre elementer og til Wikimedia Commons .

Uttalelser er hvordan all informasjon som er kjent om et element registreres i Wikidata. Formelt består de av nøkkelverdi-par , som passer en eiendom (for eksempel "forfatter", eller "publiseringsdato") med en eller flere foretaks verdier (som " Sir Arthur Conan Doyle " eller "1902"). For eksempel vil den uformelle engelske uttalelsen "melk er hvit" bli kodet av en setning som parrer egenskapens farge (P462) med verdien hvit (Q23444) under elementet melk (Q8495) .

Uttalelser kan tilordne en eiendom til mer enn én verdi. For eksempel kan eiendommen "okkupasjon" for Marie Curie knyttes til verdiene "fysiker" og "kjemiker", for å gjenspeile det faktum at hun engasjerte seg i begge yrker.

Verdier kan ha mange typer, inkludert andre Wikidata -elementer, strenger, tall eller mediefiler. Egenskaper foreskriver hvilke typer verdier de kan parres med. For eksempel kan eiendommens offisielle nettsted (P856) bare kobles sammen med verdier av typen "URL".

Eiendom og verdi

Eksempel på en enkel setning som består av ett eiendom -verdi -par

Wikidatas metode for å strukturere data involverer to hovedelementer: egenskaper og verdier for nevnte eiendommer (betegnet "elementer" i Wikidatas terminologi).

En egenskap beskriver dataværdien til en setning og kan betraktes som en datakategori , for eksempel farge (P462) for dataverdien blå (Q1088) eller utdanning for et personelement .

Som sagt danner eiendommer , når de er sammenkoblet med verdier , en uttalelse i Wikidata.

Den mest brukte eiendommen er sitater (P2860) , som brukes på mer enn 210 000 000 varesider.

Egenskaper har sine egne sider på Wikidata, og som et element kan inneholde flere eiendommer, resulterer dette i en koblet datastruktur av sider under samme setning.

Egenskaper kan også definere mer komplekse regler om den tiltenkte bruken, betegnet begrensninger . For eksempel inkluderer hovedstadsegenskapen (P36) en "begrensning av én verdi", noe som gjenspeiler realiteten at (vanligvis) territorier bare har en hovedstad. Begrensninger behandles som testvarsler og hint, i stedet for ukrenkelige regler.

Eventuelt kan kvalifikatorer brukes til å avgrense betydningen av et utsagn ved å gi tilleggsinformasjon som gjelder utsagnets omfang, innenfor verdiene. For eksempel kan eiendommen "befolkning" endres med en kvalifisering som "fra 2011". Verdier i uttalelsene kan også kommenteres med referanser , og peker på en kilde som støtter erklæringens innhold.

Lexemes

I lingvistikk er et leksem en enhet med leksikalsk betydning. På samme måte er Wikidatas leksemer elementer med en struktur som gjør dem mer egnet til å lagre leksikografiske data. I tillegg til å lagre språket som leksemet refererer til, har de en seksjon for former og en seksjon for sanser .

EntitySchemas

I januar 2019 startet utviklingen av en ny utvidelse for MediaWiki for å muliggjøre lagring av Shape Expressions i et eget navneområde.

Denne utvidelsen har siden blitt installert på Wikidata og gjør det mulig for bidragsytere å bruke Shape Expressions for å validere og beskrive Ressursbeskrivelse Rammedata i elementer og leksemer. Enhver vare eller lekseme på Wikidata kan valideres mot et enhetsskjema, og dette gjør det til et viktig verktøy for kvalitetssikring.

Utvikling

Opprettelsen av prosjektet ble finansiert av donasjoner fra Allen Institute for kunstig intelligens , den Gordon og Betty Moore Foundation , og Google, Inc. , totalt 1,3 millioner. Utviklingen av prosjektet er hovedsakelig drevet av Wikimedia Deutschland under ledelse av Lydia Pintscher , og ble opprinnelig delt inn i tre faser:

  1. Sentralisering av mellomspråklinker - lenker mellom Wikipedia -artikler om det samme emnet på forskjellige språk.
  2. Gir et sentralt sted for infoboksdata for alle Wikipedier.
  3. Opprette og oppdatere listeartikler basert på data i Wikidata og lenke til andre Wikimedia-søsterprosjekter, inkludert Meta-Wiki og egne Wikidata (interwikilinks).

Innledende utrulling

Wikipedia skjermbilde


En Wikipedia -artikkels liste over koblinger mellom språk som de dukket opp i en redigeringsboks (til venstre) og på artikkelsiden (til høyre) før Wikidata. Hver lenke i disse listene er til en artikkel som krever sin egen liste over koblinger mellom andre språk til de andre artiklene; dette er informasjonen sentralisert av Wikidata.
Wikidata skjermbilde
"Rediger lenker" linken i dag tar leseren til WIKIDATA å redigere Språk og interwiki lenker.

Wikidata ble lansert 29. oktober 2012 og var det første nye prosjektet til Wikimedia Foundation siden 2006. På dette tidspunktet var bare sentralisering av språkforbindelser tilgjengelig. Dette gjorde at elementer kunne opprettes og fylles med grunnleggende informasjon: en etikett - et navn eller tittel, alias - alternative termer for etiketten, en beskrivelse og lenker til artikler om emnet i alle de forskjellige språkutgavene av Wikipedia (interwikipedia -lenker) .

Historisk sett vil en Wikipedia -artikkel inneholde en liste over koblinger mellom flerspråk , som er lenker til artikler om det samme emnet i andre utgaver av Wikipedia, hvis de eksisterte. Opprinnelig var Wikidata et frittstående depot for koblinger mellom språk. Wikipedias språkutgaver kunne fremdeles ikke få tilgang til Wikidata, så de måtte fortsette å opprettholde sine egne lister over lenker mellom språk, hovedsakelig på slutten av artikelsidene.

Januar 2013 ble den ungarske Wikipedia den første som muliggjorde tilveiebringelse av koblinger mellom språk via Wikidata. Denne funksjonaliteten ble utvidet til de hebraiske og italienske Wikipediene 30. januar, til den engelske Wikipedia 13. februar og til alle andre Wikipedier 6. mars. Etter at det ikke ble oppnådd enighet om et forslag om å begrense fjerning av språklenker fra den engelske Wikipedia, ble automatisk redaktører ( bots ) gitt makt til å slette dem fra den engelske Wikipedia . September 2013 ble koblinger mellom flerspråklige sendt på Wikimedia Commons.

Erklæringer og datatilgang

4. februar 2013 ble uttalelser introdusert for Wikidata -oppføringer. De mulige verdiene for eiendommer ble opprinnelig begrenset til to datatyper (elementer og bilder på Wikimedia Commons), med flere datatyper (som koordinater og datoer) for å følge senere. Den første nye typen, streng, ble distribuert 6. mars.

Muligheten for de forskjellige språkutgavene av Wikipedia for å få tilgang til data fra Wikidata ble rullet ut gradvis mellom 27. mars og 25. april 2013. 16. september 2015 begynte Wikidata å tillate såkalt vilkårlig tilgang , eller tilgang fra en gitt artikkel i en Wikipedia til uttalelsene om Wikidata -elementer som ikke er direkte knyttet til det. For eksempel ble det mulig å lese data om Tyskland fra Berlin -artikkelen, som ikke var mulig før. April 2016 ble vilkårlig tilgang aktivert på Wikimedia Commons.

I følge en studie fra 2020 består en stor andel av dataene på Wikidata av oppføringer importert masse fra andre databaser av internettbots , noe som bidrar til å "bryte ned veggene" til datasiloer .

Forespørselstjeneste og andre forbedringer

September 2015 kunngjorde Wikimedia Foundation utgivelsen av Wikidata Query Service, som lar brukerne kjøre spørsmål om dataene i Wikidata. Tjenesten bruker SPARQL som spørrespråk. Fra november 2018 er det minst 26 forskjellige verktøy som gjør det mulig å søke etter data på forskjellige måter.

På den annen side, i Wiktionary -sidepanelet, inneholder verktøyene nå et "Wikidata -element" for å hjelpe til med å lage et nytt element og lenker til nye sider. Dette er for eksempel nyttig når elementet bare er i den engelske wiktionary og må kobles til et annet Wikimedia -prosjekt, i stedet for til Wiktionaries på andre språk.

Nedenfor er et SPARQL -eksempel for å søke etter en forekomst av (P31) TV -serier (Q5398426) med hovedemnet (P921) om øya (Q23442) og luftfartsulykke (Q744913). Imidlertid kan lignende resultater også bli funnet direkte på Wikipedia ved hjelp av kategorikryss hvis de aktuelle kategoriene eksisterer og er tillatt.

SELECT ?item ?itemLabel
WHERE {
  ?item wdt:P31 wd:Q5398426.
  ?item wdt:P921 wd:Q23442.
  ?item wdt:P921 wd:Q744913.
  SERVICE wikibase:label {bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en".}
}

Nedenfor er et annet SPARQL -eksempel for å finne en forekomst av (P31) TV -serier (Q5398426) der rollebesetningsmedlem (P161) inkluderer Daniel Dae Kim (Q299700) og Jorge Garcia (Q264914). TV-seriens tilstand forhindrer visning av en TV-serie episode (Q21191270) / todelt episode (Q21664088) og viser ikke resultater som er en film (Q11424).

SELECT ?item ?itemLabel
WHERE {
  ?item wdt:P31 wd:Q5398426.
  ?item wdt:P161 wd:Q299700.
  ?item wdt:P161 wd:Q264914.
  SERVICE wikibase:label {bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en".}
}

Linjene på logoen inneholder ordet "WIKI" kodet i morsekode . Det ble opprettet av Arun Ganesh og valgt gjennom samfunnsbeslutninger.

Resepsjon

I november 2014 mottok Wikidata Open Data Publisher Award fra Open Data Institute "for ren skala og innebygd åpenhet".

Fra november 2018 ble Wikidata -informasjon brukt i 58,4% av alle engelske Wikipedia -artikler, hovedsakelig for eksterne identifikatorer eller koordinere steder. Samlet sett vises data fra Wikidata på 64% av alle Wikipedias sider, 93% av alle Wikivoyage -artikler, 34% av alle Wikiquotes ', 32% av alle Wikisources ' og 27% av Wikimedia Commons. Bruk i andre Wikimedia Foundation -prosjekter er et vitnesbyrd.

Fra desember 2020 ble Wikidatas data visualisert av minst 20 andre eksterne verktøy og over 300 artikler er publisert om Wikidata.

Wikidatas strukturerte datasett har blitt brukt av virtuelle assistenter som Apples Siri og Amazon Alexa .

applikasjoner

  • Mwnci -utvidelsen kan importere data fra Wikidata til LibreOffice Calc -regneark
  • Det er (i oktober 2019) diskusjoner om bruk av QID -elementer i forhold til det som kalles QID -emoji
  • Wiki Explorer - Android -applikasjon for å oppdage ting rundt deg og mikroredigering Wikidata
  • KDE reiserute - en personvernbevisst åpen kildekode -reiseassistent som bruker data fra Wikidata

Se også

Referanser

Videre lesning

Eksterne linker