<?xml version="1.0" encoding="utf-8"?>
<Gradivo ID="181096" NadgradivoID="7054" NRID="28341059" OceID="0" DomainUrl="https://repozitorij.uni-lj.si/" IzpisPolniUrl="https://repozitorij.uni-lj.si/IzpisGradiva.php?lang=slv&amp;id=181096" StOgledov="125" StPrenosov="24" StOcen="0" VsotaOcen="0" DatumIzvoza="2026-05-01 23:11:25" OcenaSkupna="0" StPodgradiv="0" StudijskiProgramEvsID="" JeIndeksirano="0" JeVecAvtorjev="0" DovoliZahtevkeZaDostop="0">
  <PID Url="http://hdl.handle.net/20.500.12556/RUL-181096">20.500.12556/RUL-181096</PID>
  <Naslov>Evaluating robustness of LLMs in question answering on multilingual noisy OCR data</Naslov>
  <Podnaslov></Podnaslov>
  <TujJezik_Naslov></TujJezik_Naslov>
  <TujJezik_Podnaslov></TujJezik_Podnaslov>
  <Opis>Optical Character Recognition (OCR) plays a crucial role in digitizing historical and multilingual documents, yet OCR errors - imperfect extraction of text, including character insertion, deletion, and substitution can significantly impact downstream tasks like question-answering (QA). In this work, we conduct a comprehensive analysis of how OCR-induced noise affects the performance of Multilingual QA Systems. To support this analysis, we introduce a multilingual QA dataset MultiOCR-QA, comprising 50K question-answer pairs across three languages, English, French, and German. The dataset is curated from OCR-ed historical documents, which include different levels and types of OCR noise. We then evaluate how different state-of-the-art Large Language Models (LLMs) perform under different error conditions, focusing on three major OCR error types. Our findings show that QA systems are highly prone to OCR-induced errors and perform poorly on noisy OCR text. By comparing model performance on clean versus noisy texts, we provide insights into the limitations of current approaches and emphasize the need for more noise-resilient QA systems in historical digitization contexts.</Opis>
  <TujJezik_Opis></TujJezik_Opis>
  <KljucneBesede>
    <Beseda>multilingual QA</Beseda>
    <Beseda>OCR text</Beseda>
    <Beseda>large language models</Beseda>
  </KljucneBesede>
  <TujJezik_KljucneBesede>
    <Beseda>večjezično zagotavljanje kakovosti</Beseda>
    <Beseda>optično prepoznavanje besedila</Beseda>
    <Beseda>veliki jezikovni modeli</Beseda>
  </TujJezik_KljucneBesede>
  <Potrjeno>true</Potrjeno>
  <JeZaklenjeno>false</JeZaklenjeno>
  <JeRecenzirano>false</JeRecenzirano>
  <Zaloznik></Zaloznik>
  <Izvor></Izvor>
  <Jezik ID="1033" ISO639-3="eng">Angleški jezik</Jezik>
  <TujJezik ID="1060" ISO639-3="slv">Slovenski jezik</TujJezik>
  <Povezave></Povezave>
  <Pokrivanje></Pokrivanje>
  <CasovnoPokritje></CasovnoPokritje>
  <AvtorskePravice></AvtorskePravice>
  <VrstaGradiva ID="9" DRIVER="info:eu-repo/semantics/other">Drugo</VrstaGradiva>
  <DatumVstavljanja>2026-03-25 08:17:24</DatumVstavljanja>
  <DatumObjave>2026-03-25 08:17:26</DatumObjave>
  <DatumSpremembe>2026-03-26 04:21:47</DatumSpremembe>
  <DatumTrajnegaHranjenja>0000-00-00 00:00:00</DatumTrajnegaHranjenja>
  <LetoIzida>2025</LetoIzida>
  <LetoIzidaDo>0</LetoIzidaDo>
  <KrajIzida></KrajIzida>
  <LetoIzvedbe>0</LetoIzvedbe>
  <KrajIzvedbe></KrajIzvedbe>
  <Opomba></Opomba>
  <StStrani>Str. 2366-2376</StStrani>
  <StevilcenjeNivo1></StevilcenjeNivo1>
  <StevilcenjeNivo2></StevilcenjeNivo2>
  <Kronologija></Kronologija>
  <Patent_Stevilka></Patent_Stevilka>
  <Patent_DatumVeljavnosti>0000-00-00</Patent_DatumVeljavnosti>
  <VerzijaDokumenta>Zaloznikova</VerzijaDokumenta>
  <StatusObjaveDrugje>Objavljeno</StatusObjaveDrugje>
  <VrstaStroskaObjave>NiDoloceno</VrstaStroskaObjave>
  <DatumPoslanoVRecenzijo>0000-00-00</DatumPoslanoVRecenzijo>
  <DatumSprejetjaClanka>0000-00-00</DatumSprejetjaClanka>
  <DatumObjaveClanka>0000-00-00</DatumObjaveClanka>
  <Licence>
    <Licenca ID="6" Kratica="CC BY 4.0" Naziv="Creative Commons Priznanje avtorstva 4.0 Mednarodna" URL="http://creativecommons.org/licenses/by/4.0/deed.sl" Logo="by.png" LogoPolniUrl="https://repozitorij.uni-lj.si/teme/rulDev/img/licence/by.png" DatumZacetkaLicenciranja="" VezanoNa="" VezanoNaAng="" Besedilo="" BesediloAng=""></Licenca>
  </Licence>
  <EmbargoDo></EmbargoDo>
  <VrstaEmbarga ID="1" Naziv="Takojšnja javna objava" OpenAIREDostop="openAccess"></VrstaEmbarga>
  <Osebe>
    <Oseba ID="157777" Ime="Bhawna" Priimek="Piryani" AltIme="" VlogaID="70" VlogaNaziv="Avtor" ConorID="470597123" Afiliacija="" ArrsID="" ORCID=""></Oseba>
    <Oseba ID="157778" Ime="Jamshid" Priimek="Mozafari" AltIme="" VlogaID="70" VlogaNaziv="Avtor" ConorID="470597635" Afiliacija="" ArrsID="" ORCID=""></Oseba>
    <Oseba ID="157779" Ime="Abdelrahman" Priimek="Abdallah" AltIme="" VlogaID="70" VlogaNaziv="Avtor" ConorID="470598659" Afiliacija="" ArrsID="" ORCID=""></Oseba>
    <Oseba ID="154764" Ime="Antoine" Priimek="Doucet" AltIme="" VlogaID="70" VlogaNaziv="Avtor" ConorID="332161123" Afiliacija="" ArrsID="61044" ORCID=""></Oseba>
    <Oseba ID="157780" Ime="Adam" Priimek="Jatowt" AltIme="" VlogaID="70" VlogaNaziv="Avtor" ConorID="332161635" Afiliacija="" ArrsID="" ORCID=""></Oseba>
  </Osebe>
  <Identifikatorji>
    <Identifikator ID="4" Sifra="UDK" Naziv="UDK" URL="">004.85:004.352.242:81&#039;322</Identifikator>
    <Identifikator ID="15" Sifra="DOI" Naziv="DOI" URL="http://dx.doi.org/10.1145/3746252.3761295">10.1145/3746252.3761295</Identifikator>
    <Identifikator ID="3" Sifra="CobissID" Naziv="COBISS_ID" URL="https://plus.cobiss.net/cobiss/si/sl/bib/272786691">272786691</Identifikator>
    <Identifikator ID="13" Sifra="OceCobissID" Naziv="OceCobissID" URL="https://plus.cobiss.net/cobiss/si/sl/bib/272764675">272764675</Identifikator>
  </Identifikatorji>
  <Datoteke>
    <Datoteka ID="231267" DatotekaNRID="0" NamenDatotekeID="5" NamenDatoteke="Izvorni URL" FormatDatotekeID="56" FormatDatoteke="URL" MIME="text/url" IkonaFormata="url.png" IkonaFormataPolniUrl="https://repozitorij.uni-lj.si/teme/rulDev/img/fileTypes/url.png" VelikostDatoteke="0" VelikostDatotekeKratko="0,00 KB" DatumVstavljanja="2026-03-25 08:17:28" JeZbrisana="false" JeJavnoVidna="true" JeIndeksirana="false" JeVidno="true" VidnoOd="01.01.1970" Zaporedje="0">
      <Naziv></Naziv>
      <OrgNaziv></OrgNaziv>
      <URL>https://doi.org/10.1145/3746252.3761295</URL>
      <Opis></Opis>
      <OpisTujJezik></OpisTujJezik>
      <UrlObdelave></UrlObdelave>
      <FrekvencaAzuriranjaID>1</FrekvencaAzuriranjaID>
      <Verzija></Verzija>
      <MD5></MD5>
      <SHA256></SHA256>
      <UUID>8df3cc6b-281a-11f1-b0ab-0050569b8976</UUID>
      <PID></PID>
      <PrenosPolniUrl>https://repozitorij.uni-lj.si/Dokument.php?lang=slv&amp;id=231267</PrenosPolniUrl>
      <Vsebine>
      </Vsebine>
    </Datoteka>
    <Datoteka ID="231270" DatotekaNRID="14631028" NamenDatotekeID="2" NamenDatoteke="Predstavitvena datoteka" FormatDatotekeID="2" FormatDatoteke=".pdf" MIME="application/pdf" IkonaFormata="pdf.png" IkonaFormataPolniUrl="https://repozitorij.uni-lj.si/teme/rulDev/img/fileTypes/pdf.png" VelikostDatoteke="1442451" VelikostDatotekeKratko="1,38 MB" DatumVstavljanja="2026-03-25 08:23:15" JeZbrisana="false" JeJavnoVidna="true" JeIndeksirana="true" JeVidno="true" VidnoOd="01.01.1970" Zaporedje="1">
      <Naziv>RAZ_Piryani_Bhawna_2025.pdf</Naziv>
      <OrgNaziv>RAZ_Piryani_Bhawna_2025.pdf</OrgNaziv>
      <URL></URL>
      <Opis></Opis>
      <OpisTujJezik></OpisTujJezik>
      <UrlObdelave></UrlObdelave>
      <FrekvencaAzuriranjaID>1</FrekvencaAzuriranjaID>
      <Verzija></Verzija>
      <MD5>A9B7F26E6F89C804437345EC8B7760D1</MD5>
      <SHA256>199f58468624bbd4f280857ac8205138e0a2b214cf0c494d87e6afe951bfadf6</SHA256>
      <UUID>5d01143b-281b-11f1-b0ab-0050569b8976</UUID>
      <PID></PID>
      <PrenosPolniUrl>https://repozitorij.uni-lj.si/Dokument.php?lang=slv&amp;id=231270</PrenosPolniUrl>
      <Vsebine>
        <Vsebina TipVsebine="GoloBesedilo" JezikID="1033" Oznaka="" Dolzina="69877"></Vsebina>
      </Vsebine>
    </Datoteka>
  </Datoteke>
  <Organizacije>
    <Organizacija OrganizacijaID="25" Kratica="FRI" ZavodEvsID="0000066" Logo="" LogoPolniUrl="https://repozitorij.uni-lj.si/teme/rulDev/img/logo/">Fakulteta za računalništvo in informatiko</Organizacija>
  </Organizacije>
  <OrganizacijeVira>
  </OrganizacijeVira>
  <MetodeZbiranjaPodatkov>
  </MetodeZbiranjaPodatkov>
  <TipologijaDela ID="1.08" Koda="1.08" Naziv="Objavljeni znanstveni prispevek na konferenci" SchemaOrg="Article"></TipologijaDela>
  <OpenAIRE>
    <OpenAIRE ProjektID="info:eu-repo/grantAgreement/EC//101186647" Stevilka="101186647" Naslov="Centre of Excellence in Artificial Intelligence for Digital Humanities" Akronim="AI4DH" Delez="100"></OpenAIRE>
  </OpenAIRE>
  <Ostalo>
    <StIrodsDatotek>0</StIrodsDatotek>
    <StDatotekPodTrajnimEmbargom>0</StDatotekPodTrajnimEmbargom>
    <StDatotekZOmejenimDostopom>0</StDatotekZOmejenimDostopom>
  </Ostalo>
</Gradivo>
