Optično prepoznavanje cirilskih znakov s pomočjo vizualno-jezikovnih modelov

Ivanović, Sandra

Podrobno

Optično prepoznavanje cirilskih znakov s pomočjo vizualno-jezikovnih modelov
ID Ivanović, Sandra (Avtor), ID Kavčič, Alenka (Mentor) Več o mentorju... Povezava se odpre v novem oknu

PDF - Predstavitvena datoteka, prenos (3,04 MB)
MD5: 6C1E9C6F31FBA2299DD8388E6A4859E7

Izvleček

Naloga se osredotoča na izboljšanje prepoznave besedila v zbirki zapisnikov yu1Parl, ki vsebuje zapisnike parlamentarnih sej Narodnega predstavništva Kraljevine SHS oziroma Jugoslavije iz obdobja 1919-1939. Ti dokumenti so zapisani v srbohrvaščini in slovenščini, pri čemer srbohrvaščina uporablja dve pisavi, latinico in cirilico, kar predstavlja dodaten izziv za optično prepoznavo znakov. Optično prepoznavo cirilskih znakov smo poskušali izboljšati s pomočjo dveh vizualno-jezikovnih modelov, GOT in SmolDocling. Za potrebe dodatnega učenja modelov je bila ustvarjena množica približno 20.000 sintetičnih slik, ki je služila kot učna množica za izboljšanje zmogljivosti modelov na zgodovinskih dokumentih. Rezultati so pokazali, da dodatno učenje vizualno-jezikovnih modelov na sintetičnih podatkih sicer izboljša uspešnost optične prepoznave cirilskih znakov, vendar na realnih dokumentih iz korpusa yu1Parl tudi prilagojeni modeli še vedno ne dosegajo zadostne stopnje zanesljivosti za praktično uporabo.

Jezik:	Slovenski jezik
Ključne besede:	optično prepoznavanje znakov, vizualno-jezikovni modeli, zgodovinski dokumenti
Vrsta gradiva:	Diplomsko delo/naloga
Tipologija:	2.11 - Diplomsko delo
Organizacija:	FRI - Fakulteta za računalništvo in informatiko
Leto izida:	2026
PID:	20.500.12556/RUL-180734
COBISS.SI-ID:	275390979
Datum objave v RUL:	16.03.2026
Število ogledov:	122
Število prenosov:	31
Metapodatki:
:	Kopiraj citat
Objavi na:

Sekundarni jezik

Izvleček:
Jezik:	Angleški jezik
Naslov:	Optical character recognition of Cyrillic characters using Vision-Language Models
The thesis focuses on improving text recognition in the yu1Parl collection, which contains transcripts of parliamentary sessions of the National Assembly of the Kingdom of Serbs, Croats and Slovenes (SHS), later Yugoslavia, from the period 1919–1939. These documents are written in Serbo-Croatian and Slovenian, with Serbo-Croatian using two scripts, Latin and Cyrillic, which presents an additional challenge for optical character recognition. We attempted to improve the recognition of Cyrillic characters using two vision-language models, GOT and SmolDocling. For the purpose of fine-tuning the models, a dataset of approximately 20,000 synthetic images was created and used as a training set to enhance model performance on historical documents. The results showed that additional training of vision–language models on synthetic data improves the performance of optical recognition of Cyrillic characters. However, on real documents from the yu1Parl corpus, even the adapted models still do not achieve a sufficient level of reliability for practical use.
Ključne besede:	optical character recognition, vision-language models, historical documents

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj