Vaš brskalnik ne omogoča JavaScript!
JavaScript je nujen za pravilno delovanje teh spletnih strani. Omogočite JavaScript ali pa uporabite sodobnejši brskalnik.
Repozitorij Univerze v Ljubljani
Nacionalni portal odprte znanosti
Odprta znanost
DiKUL
slv
|
eng
Iskanje
Brskanje
Novo v RUL
Kaj je RUL
V številkah
Pomoč
Prijava
Podrobno
Ekstrakcija gradnikov PDF datotek
ID
Kastelec, Erik
(
Avtor
),
ID
Mihelič, Jurij
(
Mentor
)
Več o mentorju...
,
ID
Preželj, Andrej
(
Komentor
)
PDF - Predstavitvena datoteka,
prenos
(13,41 MB)
MD5: 8C0426CA2E82ABF17EF17277AF029A71
Galerija slik
Izvleček
PDF dokumenti predstavljajo velik del dokumentov v podjetjih in na spletu. Vsebinski podatki iz dokumentov so težko berljivi s pomočjo programske opreme, kar otežuje analizo in iskanje po dokumentih. Podjetja so si želela iskanja nizov v besedilu in tabelah, a odprtokodne rešitve, ki bi to omogočala v celoti, ni bilo. Obstajale so številne rešitve, ki rešujejo del problema, npr. ekstrakcijo besedila, tabel in analizo OCR. Obstoječe metode so bile smiselno nadgrajene in povezane v program in knjižnico PDFScraper, ki proces ekstrakcije in iskanja gradnikov poenostavi. Programska rešitev omogoča široko podporo različnim tipom dokumentov, kjer se dokument primerno pripravi, analizira in omogoči iskanje po njegovih gradnikih.
Jezik:
Slovenski jezik
Ključne besede:
PDF
,
ekstrakcija
,
OCR
Vrsta gradiva:
Diplomsko delo/naloga
Tipologija:
2.11 - Diplomsko delo
Organizacija:
FRI - Fakulteta za računalništvo in informatiko
Leto izida:
2020
PID:
20.500.12556/RUL-120076
COBISS.SI-ID:
31440899
Datum objave v RUL:
15.09.2020
Število ogledov:
1600
Število prenosov:
222
Metapodatki:
Citiraj gradivo
Navadno besedilo
BibTeX
EndNote XML
EndNote/Refer
RIS
ABNT
ACM Ref
AMA
APA
Chicago 17th Author-Date
Harvard
IEEE
ISO 690
MLA
Vancouver
:
KASTELEC, Erik, 2020,
Ekstrakcija gradnikov PDF datotek
[na spletu]. Diplomsko delo. [Dostopano 26 april 2025]. Pridobljeno s: https://repozitorij.uni-lj.si/IzpisGradiva.php?lang=slv&id=120076
Kopiraj citat
Objavi na:
Sekundarni jezik
Jezik:
Angleški jezik
Naslov:
Extraction of elements from PDF documents
Izvleček:
PDF documents represent the majority of business and online documents. They focus on a visual representation of a document and do not contain structural information, which complicates analysis by computer software. Companies were looking for an open-source solution for searching through the content inside tables and text, which was not available. A lot of needed functionality was already available and was used and improved to implement an all in one solution called PDFScraper, which contains an easy to use program, as well as a backend library. PDFScraper supports different formats of input, which are appropriately transformed and analysed to make searching possible.
Ključne besede:
PDF
,
extraction
,
OCR
Podobna dela
Podobna dela v RUL:
Odprta avtentikacija
Sledilni sistem za vozilo
Spletna kartografska storitev za Slovenijo
Zunanje urejanje
Vizualizacija odprtih podatkov
Podobna dela v drugih slovenskih zbirkah:
Ni podobnih del
Nazaj