Borduttrekking - Table extraction

Borduttrekking er prosessen med å gjenkjenne og skille et bord fra et stort dokument, muligens også gjenkjenne individuelle rader, kolonner eller elementer. Det kan betraktes som en spesiell form for informasjonsutvinning .

Borduttrekk fra nettsider kan dra fordel av de spesielle HTML -elementene som finnes for tabeller, f.eks. "Tabell" -taggen, og programmeringsbiblioteker kan implementere tabellekstraksjon fra nettsider. Den Python pandaer programvare bibliotek kan trekke ut tabeller fra HTML nettsider via sin read_html () -funksjonen.

Mer utfordrende er tabelluttrekking fra PDF-filer eller skannede bilder , der det vanligvis ikke er noen bordspesifikk maskinlesbar markering. Systemer som trekker ut data fra tabeller i vitenskapelige PDF -filer er beskrevet.

Wikipedia presenterer noe av informasjonen i tabeller, og f.eks. Kan 3,5 millioner tabeller hentes fra den engelske Wikipedia . Noen av tabellene har et bestemt format, f.eks. De såkalte infoboksene . Stor tabelluttrekking av Wikipedia-infobokser danner en av kildene til DBpedia .

Det finnes kommersielle webtjenester for tabelluttrekking , f.eks. Amazon Textract , Googles Document AI , IBM Watson Discovery og Microsoft Form Recognizer. Det finnes også åpen kildekodeverktøy, f.eks. PDFFigures 2.0 som har blitt brukt i Semantic Scholar . I en sammenligning som ble publisert i 2017, fant forskerne at det proprietære programmet ABBYY FineReader gir best PDF -ekstraksjonseffekt blant seks forskjellige evaluerte verktøy.

Referanser

  1. ^ a b Douglas Burdick; Marina Danilevsky; Alexandre V Evfimievski; Yannis Katsis; Nancy Wang (august 2020). "Borduttrekking og forståelse for vitenskapelige og bedriftsapplikasjoner". Prosedyrer for VLDB -begavelsen. Internasjonal konferanse om svært store databaser . 13 (12): 3433–3436. doi : 10.14778/3415478.3415563 . ISSN  2150-8097 . Wikidata  Q108170445 .
  2. ^ Wenhao Yu; Wei Peng; Yu Shu; Qingkai Zeng; Meng Jiang (19. april 2020). Eksperimentelt bevisekstraksjonssystem i datavitenskap med hybridbordfunksjoner og ensemblelæring . Prosedyrer for webkonferansen 2020 . s. 951–961. doi : 10.1145/3366423.3380174 . ISBN 978-1-4503-7023-3. Wikidata  Q108172460 .
  3. ^ Benno Kruit; Hongyu Han; Jacopo Urbani (1. november 2020). Tab2Know: Bygg en kunnskapsbase fra tabeller i vitenskapelige artikler . Semantic Web - ISWC 2020: 19. internasjonale Semantisk Web-konferanse, Athen, Hellas, 2 til 6 november 2020, Proceedings, del I . Forelesningsnotater i informatikk . s. 349–365. doi : 10.1007/978-3-030-62419-4_20 . ISBN 978-3-030-62419-4. Wikidata  Q101086651 .
  4. ^ Tobias Bleifuß; Leon Bornemann; Dmitri V. Kalashnikov; Felix Naumann; Divesh Srivastava (17. august 2021). "The Secret Life of Wikipedia Tables" (PDF) . Prosedyrer for andre workshop om søk, leting og analyse i heterogene databaser . CEUR Workshop Proceedings: 20–26. Wikidata  Q108215401 .
  5. ^ Sören Auer; Christian Bizer; Georgi Kobilarov; Jens Lehmann ; Richard Cyganiak; Zachary Ives (2007). DBpedia: En kjerne for et web med åpne data . The Semantic Web: 6th International Semantic Web Conference, 2nd Asian Semantic Web Conference, ISWC 2007 + ASWC 2007, Busan, Korea, 11-15 November, 2007. Proceedings . Forelesningsnotater i informatikk . s. 722–735. doi : 10.1007/978-3-540-76298-0_52 . ISBN 978-3-540-76297-3. Wikidata  Q27910422 .
  6. ^ Christopher Clark; Santosh Divvala (2016). PDFFigur 2.0: Gruvedata fra forskningsartikler . Fortsettelse av den 16. ACM/IEEE-CS felles konferanse om digitale biblioteker . ISBN 978-1-4503-4229-2. Wikidata  Q108172042 .
  7. ^ Andreiwid Sheffer Corrêa; Pär-Ola Zander (7. juni 2017), Unleashing Tabular Content to Open Data: A Survey on PDF Table Extraction Methods and Tools , doi : 10.1145/3085228.3085278 , Wikidata  Q108173686