Objavljeno u:
Naučno-tehnički pregled,
1995, vol. 45, br. 6-7
Automatsko korigovanje grešaka nastalih optičkim čitanjem srpskog teksta
Pero Šipka
Filozofski fakultet u Novom Sadu, Odsek za psihologiju
Biljana Kosanović
Vojnotehnički institut, Beograd
Sažetak: Eksperimentalno je proverena efikasnost PAKoST-a, programa za postprocesiranje optički čitanog srpskog teksta prethodno razvijenog od istih autora. Uzorak je sadržao oko 70.000 reči latinično štampanog srpskog teksta, odabranih tako da ravnomerno obuhvate različite diskurse (naučni, književni i politički), fontove i kvalitete štampe. Tekst je optički pročitan pomoću Recognite Plus, jedinog uglednog komercijalnog OCR programa koji za sada podržava jugoslovenski set karaktera. Zatim je ASCII izlaz iz Recognite podvrgnut obradi pomoću PAKoST-a u režimu automatskog korigovanja.
Efikasnost postprocesiranja proverena je uz upotrebu dva algoritma: hibridnog kontekstnog postprocesora (HCP) koji je bio ugrađen u prethodnu verziju PAKoST-a i novog, složenijeg algoritma nazvanog MiniMax, implementiranog u najnoviju verziju programa. Efikasnost MiniMax-a u ispravljanju grešaka utvrđena je kako u odnosu na Recognitu, tako i u odnosu na HCP. Oba doprinosa tačnosti prepoznavanja testirana su statistički.
Testovi pokazuju da je novi algoritam bitno unapredio efikasnost PAKoST-a. Njegovom ugradnjom broj grešaka pri optičkom čitanju, izražen u rečima, smanjen je sa 7,90%, koliko proizvodi Recognita, na 4,39%. Pored toga MiniMax, za razliku od HCP-a, proizvodi snošljiv broj grešaka tipa II (grešaka koje sam proizvodi), što ohrabruje primenu PAKoST-a kao automatskog postprocesora.
Puni tekst