Objavljeno u:
Naučno-tehnički pregled,
1995, vol. 45, br. 6-7 

Automatsko korigovanje grešaka nastalih optičkim čitanjem srpskog teksta

Pero Šipka

Filozofski fakultet u Novom Sadu, Odsek za psihologiju

Biljana Kosanović

Vojnotehnički institut, Beograd

Sažetak: Eksperimentalno je proverena efikasnost PAKoST-a, programa za postprocesiranje optički čitanog srpskog teksta prethodno razvijenog od istih autora. Uzorak je sadržao oko 70.000 reči latinično štampanog srpskog teksta, odabranih tako da ravnomerno obuhvate različite diskurse (naučni, književni i politički), fontove i kvalitete štampe. Tekst je optički pročitan pomoću Recognite Plus, jedinog uglednog komercijalnog OCR programa koji za sada podržava jugoslovenski set karaktera. Zatim je ASCII izlaz iz Recognite podvrgnut obradi pomoću PAKoST-a u režimu automatskog korigovanja.

Efikasnost postprocesiranja proverena je uz upotrebu dva algoritma: hibridnog kontekstnog postprocesora (HCP) koji je bio ugrađen u prethodnu verziju PAKoST-a i novog, složenijeg algoritma nazvanog MiniMax, implementiranog u najnoviju verziju programa. Efikasnost MiniMax-a u ispravljanju grešaka utvrđena je kako u odnosu na Recognitu, tako i u odnosu na HCP. Oba doprinosa tačnosti prepoznavanja testirana su statistički.
Testovi pokazuju da je novi algoritam bitno unapredio efikasnost PAKoST-a. Njegovom ugradnjom broj grešaka pri optičkom čitanju, izražen u rečima, smanjen je sa 7,90%, koliko proizvodi Recognita, na 4,39%. Pored toga MiniMax, za razliku od HCP-a, proizvodi snošljiv broj grešaka tipa II (grešaka koje sam proizvodi), što ohrabruje primenu PAKoST-a kao automatskog postprocesora.

Puni tekst

Adresa

trnska2

Trnska 3, Beograd, Srbija

Kontakt

011/406 11 65
011/406 11 86
Ova adresa el. pošte je zaštićena od spambotova. Omogućite JavaScript da biste je videli.

Radno vreme

Ponedeljak - Petak:
Od 8.30 do 17.00
PIB: 100136238
Matični broj: 17355830

Partneri

COPE logo
CROSSREF logo
OPENAIRE logo