Cross-Lingual False Friend Classification via LLM-based Vector Embedding Analysis

Mitko Nikov; Žan Tomaž Šprajc; Žan Bedrač

doi:10.18690/um.feri.6.2024

Cross-Lingual False Friend Classification via LLM-based Vector Embedding Analysis

Avtorji

Mitko Nikov

Univerza v Mariboru, Fakulteta za elektrotehniko, računalništvo in informatiko

Žan Tomaž Šprajc

Univerza v Mariboru, Fakulteta za elektrotehniko, računalništvo in informatiko

Žan Bedrač

Univerza v Mariboru, Fakulteta za elektrotehniko, računalništvo in informatiko

DOI: https://doi.org/10.18690/um.feri.6.2024.7

Kratka vsebina

In this paper, we propose a novel approach to exploring cross-linguistic connections, with a focus on false friends, using Large Language Model embeddings and graph databases. We achieve a classification performance on the Spanish-Portuguese false friend dataset of F1 = 83.81% using BERT and a multi-layer perceptron neural network. Furthermore, using advanced translation models to match words between vocabularies, we also construct a ground truth false friends dataset between Slovenian and Macedonian - two languages with significant historical and cultural ties. Subsequently, we construct a graph-based representation using a Neo4j database, wherein nodes correspond to words, and various types of edges capture semantic relationships between them.

Prenosi

PDF

Izdaja

Proceedings of the10^th Student Computing Research Symposium (SCORES’24)

Strani

33-36

##catalog.forthcoming##

30.10.2024

Kategorije

Licenca

To delo je licencirano pod Creative Commons Priznanje avtorstva 4.0 mednarodno licenco.

Kako citirati

Nikov, M., Šprajc, Žan T., & Bedrač, Žan. (2024). Cross-Lingual False Friend Classification via LLM-based Vector Embedding Analysis. In N. Lukač, I. Fister, & Štefan Kohek (Eds.), Proceedings of the10th Student Computing Research Symposium (SCORES’24) (pp. 33-36). Univerzitetna založba Univerze v Mariboru. https://doi.org/10.18690/um.feri.6.2024.7

Prenesi citat

Cross-Lingual False Friend Classification via LLM-based Vector Embedding Analysis

Avtorji

Kratka vsebina

Prenosi

Izdaja

Strani

##catalog.forthcoming##

Kategorije

Licenca

Kako citirati

Oddaj nov prispevek

Ključne besede

Deli