Skladenjska drevesnica govorjene slovenščine: stanje in perspektive: Kaja Dobrovoljc
Kratka vsebina
V prispevku predstavljamo drevesnico SST (angl. Spoken Slovenian Treebank), prvi skladenjsko razčlenjeni korpus govorjene slovenščine, ki vsebuje uravnotežen in reprezentativni nabor besedil referenčnega korpusa govorjene slovenščine Gos z ročno pripisanimi podatki o lemah, besednih vrstah in oblikoslovnih lastnostih besed ter njihovimi odvisnostnimi skladenjskimi razmerji. Konkretno drevesnica temelji na označevalni shemi Universal Dependencies (UD), ki si prizadeva za mednarodno poenoteno oblikoskladenjsko označevanje besedil in se zaradi svoje interoperabilnosti, fleksibilnosti in naslavljanja širokega nabora slovničnih pojavov – tudi tipično govorjenih – vse pogosteje uporablja tudi za razčlenjevanje govorjenih besedil. Po predstavitvi zasnove, vsebine in dostopnosti obstoječe različice drevesnice SST v drugem delu prispevka predstavimo prve rezultate in načrte v povezavi z njenim nadaljnjim razvojem, kot sta razširitev z novimi besedili in nadgradnja smernic za označevanje tipično govorjenih pojavov.