Ćirilica i informacione tehnologije, naučni skup, Srpska akademija nauka i umetnosti, Beograd, 1994, usmeno saopštenje 

Automatic error correction in optical character recognition of Serbian text

Pero Šipka

Filozofski fakultet u Novom Sadu, Odsek za psihologiju

Biljana Kosanović

Filozofski fakultet u Novom Sadu, Odsek za psihologiju

Sažetak: Eksperimentalno je proverena efikasnost Programa za automatsku korekciju srpskog teksta (PAKoST). PAKoST pripada klasi softvera za inteligentno prepoznavanje karaktera (ICR), a ova provera obavljena je u okviru završne faze procesa njegovog razvoja.

Kao uzorak za evaluaciju poslužilo je devet prigodnih tekstova iz domena tri različita diskursa srpskog jezika (naučni, beletristički i politički), pročitanih pomoću tri komercijalna programa za optičko prepoznavanje karaktera (ReadRight, Recognita i Recognita+). Efikasnost korigovanja bila je izražena ukupnim brojem ispravki, kao i statističkih grešaka (tipa I i tipa II) nastalih u toku ispravljanja pomoću programa. Obrada podataka obavljena je različitim postupcima neparametrijske statistike.

Rezultati su pokazali da je pouzdana automatska korekcija srpskog teksta na osnovu domaćeg ICR softvera kakav je PAKoST ne samo mogućna, već i efikasna u meri koja opravdava njegovu primenu, a time i komercijalizaciju. Rezultati istovremeno upućuju na opšti zaključak da se zadovoljavajuće korigovanje grešaka optički čitanog srpskog teksta ne može postići, ni postojećim komercijalnim softverom, ni primenom poznatih ICR algoritama koji su razvijeni za druge jezike. Takvo korigovanje mogućno je tek na osnovu algoritama koji se zasnivaju na temeljnoj analizi morfoloških i leksičkih karakteristika srpskog jezika. Jedan takav algoritam za ICR, formulisan kao hibrid nekoliko poznatih metoda i opštih saznanja iz domena veštačke inteligencije, ugrađen je u PAKoST kao rezultat ovog istraživanja.

 

Address

trnska2

Trnska 3, Belgrade, Serbia

Contact

+381 11 406 11 65
+381 11 406 11 86
This email address is being protected from spambots. You need JavaScript enabled to view it.

Working hours

Monday - Friday:
From 8.30 to 17.00
VAT No.: 100136238
Institution ID: 17355830

Partners

DOAJ logo
COPE logo
CROSSREF logo
OPENAIRE logo