Ćirilica i informacione tehnologije, naučni skup, Srpska akademija nauka i umetnosti, Beograd, 1994, usmeno saopštenje 

Automatsko korigovanje grešaka nastalih optičkim čitanjem srpskog teksta

Pero Šipka

Filozofski fakultet u Novom Sadu, Odsek za psihologiju

Biljana Kosanović

Vojnotehnički institut, Beograd

Sažetak: Eksperimentalno je proverena efikasnost Programa za automatsku korekciju srpskog teksta (PAKoST). PAKoST pripada klasi softvera za inteligentno prepoznavanje karaktera (ICR), a ova provera obavljena je u okviru završne faze procesa njegovog razvoja.

Kao uzorak za evaluaciju poslužilo je devet prigodnih tekstova iz domena tri različita diskursa srpskog jezika (naučni, beletristički i politički), pročitanih pomoću tri komercijalna programa za optičko prepoznavanje karaktera (ReadRight, Recognita i Recognita+). Efikasnost korigovanja bila je izražena ukupnim brojem ispravki, kao i statističkih grešaka (tipa I i tipa II) nastalih u toku ispravljanja pomoću programa. Obrada podataka obavljena je različitim postupcima neparametrijske statistike.

Rezultati su pokazali da je pouzdana automatska korekcija srpskog teksta na osnovu domaćeg ICR softvera kakav je PAKoST ne samo mogućna, već i efikasna u meri koja opravdava njegovu primenu, a time i komercijalizaciju. Rezultati istovremeno upućuju na opšti zaključak da se zadovoljavajuće korigovanje grešaka optički čitanog srpskog teksta ne može postići, ni postojećim komercijalnim softverom, ni primenom poznatih ICR algoritama koji su razvijeni za druge jezike. Takvo korigovanje mogućno je tek na osnovu algoritama koji se zasnivaju na temeljnoj analizi morfoloških i leksičkih karakteristika srpskog jezika. Jedan takav algoritam za ICR, formulisan kao hibrid nekoliko poznatih metoda i opštih saznanja iz domena veštačke inteligencije, ugrađen je u PAKoST kao rezultat ovog istraživanja.

 

Adresa

trnska2

Trnska 3, Beograd, Srbija

Kontakt

011/406 11 65
011/406 11 86
Ova adresa el. pošte je zaštićena od spambotova. Omogućite JavaScript da biste je videli.

Radno vreme

Ponedeljak - Petak:
Od 8.30 do 17.00
PIB: 100136238
Matični broj: 17355830

Partneri

COPE logo
CROSSREF logo
OPENAIRE logo