Jezikovni modeli za pripravo govornega korpusa: programi za prepoznavanje govora: Teodor Petrič
Kratka vsebina
V preteklem desetletju, še posebej v zadnjih petih letih po uveljavljanju velikih jezikovnih modelov, ki temeljijo na arhitekturi transformerjev (pretvorbenih modelov), smo dobili vrsto programskih orodij, ki pospešujejo ustvarjanje večplastnih jezikovnih gradiv. Preizkušali smo programska orodja za prepoznavanje in pretvorbo govora v pisno obliko (tj. orodja Razpoznavalnik, Microsoft Word Prepiši, Vosk/Kaldi in OpenAI Whisper), ki so ključni za pospešeno ustvarjanje govornih korpusov. Uporabljali smo vrsto meril, ki zadevajo preprostost uporabe, časovni prihranek, morebitne stroške, zagotavljanje anonimnosti govorcev in različne vidike kakovosti pretvorbe (deleže besednih napak, število zamenjav, vstavitev in izpustov). Orodja za pretvorbo govora v pisno obliko so vidno napredovala, vendar bi si vsekakor želeli, da bi lahko izhodne formate programov prilagajali posameznim raziskovalnim potrebam, npr. vključitev diskurznih označevalcev (npr. tako imenovanih »mašil«) ali dejansko izgovorjenih skrčenih besednih oblik v zapis.