Проекти Относно проекта Практическа общност Е-обучение Играй и учи
Unraveling the threads of Thrace
Unraveling the threads of Thrace
Автор Kristiyan S. Simeonov
Добавено от Софийски университет „Св. Климент Охридски“

PDF

Ключови думи:
Формат: Печатно
Съставител:
Допълнение към заглавието: a text mining expedition in Pliny's Natural history
Url адрес:
APA цитиране: Simeonov, K. (2024) Unraveling the threads of Thrace: a text mining expedition in Pliny's Natural history, Научни известия "Наследство БГ", 108-113
Harvard цитиране: Simeonov, K. (2024) Unraveling the threads of Thrace, Научни известия "Наследство БГ", с. 108-113
Лиценз:
Авторски права: С авторски права

Целта на изследването е да се разработи алгоритъм за извличане на информация за Тракия в текстове на класическата римска литература, като се фокусира върху „Естествена история“ на Плиний Стари. Алгоритъмът, който може да се адаптира за всяко произведение на класически латински език, преобразува данните от формата TESS в CSV набор от данни, което дава възможност за търсене по лема и разпознаване на контекста на съответната глава от произведението с помощта на NLP моделите LatinCy от библиотеката SpaCy. Добавената функция за контекстуализация показва съседните на търсената лема думи. Алгоритъмът е оптимизиран за търсене по няколко леми, поддържа функция за токенизация, контекстуализация и търсене на книги/глави от произведението. Наборът от данни, създаден с помощта на алгоритъма, включва 73 записа, свързани етноними, топоними, реки и планини Тракия, което дава възможност за културни, исторически и географски наблюдения. Инструмент за визуализация, разработен с програмната библиотеката Streamlit, осигурява лесен достъп до данните, като чрез интерактивни графики позволява на потребителите да изследват честотата на лемите, споменаванията на глави и контекста. Изследването предоставя метод за намиране на споменавания на Тракия в труда на Плиний, като в бъдеще се планира да се подобри функцията за разпознаване на записите и да се създаде цялостен първичен набор от данни за класическата римска литература.

Проект BG05M2OP001-1.001-0001 „Изграждане и развитие на център за върхови постижения „Наследство БГ“, финансиран по Оперативна програма „Наука и образование за интелигентен растеж” 2014-2020, приоритетна ос 1 „Научни изследвания и технологично развитие“, съфинансирана от Европейския съюз чрез Европейския фонд за регионално развитие (ЕФРР)”