Nadgradnja digitalne slovarske baze za slovenščino in slovenskega oblikoslovnega leksikona sloleks s podatki o govorjeni slovenščini: načrti in cilji: Jaka Čibej, Nejc Robida, Simon Krek
Kratka vsebina
V prispevku predstavljamo načrte in cilje za dopolnjevanje jezikovnih virov, kot sta Digitalna slovarska baza za slovenščino in Slovenski oblikoslovni leksikon Sloleks, s podatki o govorjeni slovenščini oz. natančneje o tipično govorjenem besedišču, in sicer predvsem za namene jezikovnotehnoloških potreb (npr. razpoznavalniki in sintetizatorji govora). Po kratkem pregledu sorodnih raziskav predstavimo gradivo, ki ga bomo uporabili za ta namen (korpusa GOS in JANES), ter poglavitne izzive, na katere naletimo pri vključevanju nestandardnega besedišča v obstoječe vire, ki so bili do zdaj namenjeni predvsem pisni standardni slovenščini. Poleg problematike kanoničnih oblik (npr. lavfati/laufati) naslovimo npr. tudi tematiko nestandardnih fonemov ([ˈɡɾɔːza] vs. [ˈɦɾɔːza]), nestandardnih izgovorjav standardnih besednih oblik (mislim [ˈmiːslim] → [ˈmiːsləm]) ter nestandardne morfologije (Mihatov, opravičavam). Opisane izzive bomo v okviru projekta MEZZANINE opisali, rešitve pa dokumentirali v smernicah, ki bodo omogočile sistematično polnjenje obstoječih jezikovnih virov s tipično govorjeno leksiko.