Tree-based Machine Learning Methods for Wind Farm Data
Kratka vsebina
Metode strojnega učenja na osnovi dreves za podatke iz vetrne elektrarne. Okoljski in energetski nabori podatkov so običajno kažejo nelinearne odvisnosti in kombinacijo numeričnih in kategorijskih spremenljivk. Takšne značilnosti zahtevajo bolj prilagodljive računalniške pristope. V tem kontekstu raziskujemo metode strojnega učenja na osnovi dreves, saj zagotavljajo visoko prediktivno zmogljivost in visoko raven interpretabilnosti. V tem poglavju predstavljamo primerjalno študijo izbranih regresijskih modelov na osnovi dreves, ki so bili uporabljeni za podatke iz resničnega sveta iz baze podatkov o vetrnih elektrarnah v Združenih državah. Med ocenjene metode spadajo eno samo regresijsko drevo odločanja, metoda Random Forest, ki temelji na baggingu, in sodobne implementacije gradientnega povečanja, ki jih predstavljata CatBoost in LightGBM. Vsi modeli so usposobljeni v okviru enotnega okvirja z uporabo standardnih metrik za oceno regresije. Pokazujemo, da združitveni pristopi bistveno prekašajo posamezno drevo odločanja v naših eksperimentalnih rezultatih. Zlasti modeli, ki temeljijo na povečanju gradienta, dosežejo višjo prediktivno natančnost, pri čemer LightGBM zagotavlja najboljšo splošno zmogljivost v smislu metrike kvadriranih napak in koeficienta določenosti. Analiza pomembnosti značilnosti dodatno poudarja pomembno vlogo tehničnih značilnosti turbine in kategorijskih deskriptorjev. Rezultati potrjujejo, da sodobni okvirji gradientnega povečanja predstavljajo zmogljivo in učinkovito rešitev za regresijske naloge, ki vključujejo velike okoljske in energetsko povezane naborje podatkov.






