Ćirilica i informacione tehnologije, naučni skup, Srpska akademija nauka i umetnosti, Beograd, 1994, usmeno saopštenje
Automatsko korigovanje grešaka nastalih optičkim čitanjem srpskog teksta
Sažetak: Eksperimentalno je proverena efikasnost Programa za automatsku korekciju srpskog teksta (PAKoST). PAKoST pripada klasi softvera za inteligentno prepoznavanje karaktera (ICR), a ova provera obavljena je u okviru završne faze procesa njegovog razvoja.
Kao uzorak za evaluaciju poslužilo je devet prigodnih tekstova iz domena tri različita diskursa srpskog jezika (naučni, beletristički i politički), pročitanih pomoću tri komercijalna programa za optičko prepoznavanje karaktera (ReadRight, Recognita i Recognita+). Efikasnost korigovanja bila je izražena ukupnim brojem ispravki, kao i statističkih grešaka (tipa I i tipa II) nastalih u toku ispravljanja pomoću programa. Obrada podataka obavljena je različitim postupcima neparametrijske statistike.
Rezultati su pokazali da je pouzdana automatska korekcija srpskog teksta na osnovu domaćeg ICR softvera kakav je PAKoST ne samo mogućna, već i efikasna u meri koja opravdava njegovu primenu, a time i komercijalizaciju. Rezultati istovremeno upućuju na opšti zaključak da se zadovoljavajuće korigovanje grešaka optički čitanog srpskog teksta ne može postići, ni postojećim komercijalnim softverom, ni primenom poznatih ICR algoritama koji su razvijeni za druge jezike. Takvo korigovanje mogućno je tek na osnovu algoritama koji se zasnivaju na temeljnoj analizi morfoloških i leksičkih karakteristika srpskog jezika. Jedan takav algoritam za ICR, formulisan kao hibrid nekoliko poznatih metoda i opštih saznanja iz domena veštačke inteligencije, ugrađen je u PAKoST kao rezultat ovog istraživanja.