Skladenjska drevesnica govorjene slovenščine: stanje in perspektive: Kaja Dobrovoljc

Avtorji

Kratka vsebina

V prispevku predstavljamo drevesnico SST (angl. Spoken Slovenian Treebank), prvi skladenjsko razčlenjeni korpus govorjene slovenščine, ki vsebuje uravnotežen in reprezentativni nabor besedil referenčnega korpusa govorjene slovenščine Gos z ročno pripisanimi podatki o lemah, besednih vrstah in oblikoslovnih lastnostih besed ter njihovimi odvisnostnimi skladenjskimi razmerji. Konkretno drevesnica temelji na označevalni shemi Universal Dependencies (UD), ki si prizadeva za mednarodno poenoteno oblikoskladenjsko označevanje besedil in se zaradi svoje interoperabilnosti, fleksibilnosti in naslavljanja širokega nabora slovničnih pojavov – tudi tipično govorjenih – vse pogosteje uporablja tudi za razčlenjevanje govorjenih besedil. Po predstavitvi zasnove, vsebine in dostopnosti obstoječe različice drevesnice SST v drugem delu prispevka predstavimo prve rezultate in načrte v povezavi z njenim nadaljnjim razvojem, kot sta razširitev z novimi besedili in nadgradnja smernic za označevanje tipično govorjenih pojavov.

Prenosi

Izdano

18.07.2024

Kako citirati

Skladenjska drevesnica govorjene slovenščine: stanje in perspektive: Kaja Dobrovoljc. (2024). In Stanje in perspektive uporabe govornih virov v raziskavah govora (pp. 41-62). Univerzitetna založba Univerze v Mariboru. https://press.um.si/index.php/ump/catalog/book/898/chapter/47