Nadgradnja digitalne slovarske baze za slovenščino in slovenskega oblikoslovnega leksikona sloleks s podatki o govorjeni slovenščini: načrti in cilji: Jaka Čibej, Nejc Robida, Simon Krek

Avtorji

Kratka vsebina

V prispevku predstavljamo načrte in cilje za dopolnjevanje jezikovnih virov, kot sta Digitalna slovarska baza za slovenščino in Slovenski oblikoslovni leksikon Sloleks, s podatki o govorjeni slovenščini oz. natančneje o tipično govorjenem besedišču, in sicer predvsem za namene jezikovnotehnoloških potreb (npr. razpoznavalniki in sintetizatorji govora). Po kratkem pregledu sorodnih raziskav predstavimo gradivo, ki ga bomo uporabili za ta namen (korpusa GOS in JANES), ter poglavitne izzive, na katere naletimo pri vključevanju nestandardnega besedišča v obstoječe vire, ki so bili do zdaj namenjeni predvsem pisni standardni slovenščini. Poleg problematike kanoničnih oblik (npr. lavfati/laufati) naslovimo npr. tudi tematiko nestandardnih fonemov ([ˈɡɾɔːza] vs. [ˈɦɾɔːza]), nestandardnih izgovorjav standardnih besednih oblik (mislim [ˈmiːslim] → [ˈmiːsləm]) ter nestandardne morfologije (Mihatov, opravičavam). Opisane izzive bomo v okviru projekta MEZZANINE opisali, rešitve pa dokumentirali v smernicah, ki bodo omogočile sistematično polnjenje obstoječih jezikovnih virov s tipično govorjeno leksiko.

Prenosi

Izdano

18.07.2024

Kako citirati

Nadgradnja digitalne slovarske baze za slovenščino in slovenskega oblikoslovnega leksikona sloleks s podatki o govorjeni slovenščini: načrti in cilji: Jaka Čibej, Nejc Robida, Simon Krek. (2024). In Stanje in perspektive uporabe govornih virov v raziskavah govora (pp. 27-40). Univerzitetna založba Univerze v Mariboru. https://press.um.si/index.php/ump/catalog/book/898/chapter/46