Направо към съдържанието

БулСемКор

от Уикипедия, свободната енциклопедия

Българският семантично анотиран корпус (БулСемКор) е структуриран корпус с текстове на български език, в който на всички думи е приписано еднозначно лексикално или граматикализирано значение. БулСемКор е създаден от Секцията по компютърна лингвистика към Института за български език при Българската академия на науките.

БулСемКор е създаден в рамките на национално финансирания проект „BulNet – лексикално-семантична мрежа на българския език“ (2005-2010), като е следвана методологията, използвана при създаването на семантично анотирания корпус СемКор (Милър 1995), в съчетание с някои специфични принципи (Коева 2010). Изходният корпус е с общ обем от 101 791 токъна и представлява извадка от Българския „Браун“ корпус (Коева и др. 2006), създаден по методологията на Корпуса „Браун“ (Франсис и Кучера 1979). Важна характеристика на БулСемКор е, че при подбора на текстовете са приложени евристични методи, които осигуряват оптимално за обема и структурата му покритие на разнообразна многозначна лексика.

БулСемКор е анотиран ръчно със значения от Българския WordNet, а обемът му е съпоставим с този на много от съществуващите семантично анотирани корпуси. При семантичната анотация в БулСемКор е извършено съотнасяне на конкретната контекстуална употреба на всяка лексикална единица от изходния корпус с точно едно семантично множество в Българския WordNet. Подборът на най-правилното измежду възможните значения се основава на множество от процедури, при които се вземат предвид другите членове на синонимните множества, тълковната дефиниция, мястото на синонимното множество в структурата на WordNet и т.н.

Броят на анотираните токъни е 99 480 (останалите токъни до изходния обем не са езикови единици). Броят на несъставните единици е 86 842, а на несвободните фрази – 5797 (12 638 токъна).

Специфики на БулСемКор

[редактиране | редактиране на кода]

Важна особеност на БулСемКор в съпоставка с много от съществуващите семантично анотирани корпуси е, че се приписва значение на всички думи в корпуса, докато в традиционната практика се е наложило да се анотират преди всичко пълнозначни несъставни думи или част от тях (основно съществителни имена и глаголи). През последното десетилетие в световен мащаб също се разработват ресурси с анотация на служебни думи и несвободни фрази, макар често анотацията да е ограничена до конкретни значения или типове. В това отношение анотацията в БулСемКор предлага по-голяма пълнота, а оттам – и по-големи възможности за езикови наблюдения и приложения в областта на компютърната лингвистика.

Анотираните единици в БулСемКор наследяват цялата лингвистична информация, асоциирана с даденото синонимно множество, която освен задължителния морфологичен и семантичен таг може да включва характеризиране на едно или повече от следните допълнителни нива (Тодорова, Кукова и Лесева 2014):

(а) частична информация за синтактичната структура на определени типове несвободни фрази – определяне на главната им част и на подчинените им части;

(б) информация за категорията (име, място, организация, дата, число и т.н.), означавана от именуваните същности;

(в) информация за таксономичната категория (време, място, начин, степен, количество и т.н.) на наречията;

(г) информация за типа на изразяваното от съюзите синтактично отношение (съчинително или подчинително);

(д) информация за изходната част на речта или форма при субстантивите;

(е) стилистична, граматична и друга информация за синонимните множества или отделни техни членове.

Система за търсене в БулСемКор

БулСемКор в META-SHARE

  • Коева 2010: Коева, Св. (ред. и съст.). Българският семантично анотиран корпус. София, 2010
  • Коева, Лесева и Тодорова 2006: Koeva, S., S. Leseva and M. Todorova. Bulgarian Sense Tagged Corpus. In Proceedings of the 5th SALTMIL Workshop on Minority Languages: Strategies for Developing Machine Translation for Minority Languages, May 23rd 2006, Genoa, Italy, pp.79 – 87.
  • Милър 1995: Miller, G. A. Building Semantic Concordances: Disambiguation vs. Annotation.– AAAI Technical Report SS-95-01, 1995, рр. 92 – 94.
  • Тодорова, Кукова и Лесева 2014: Тодорова М., Хр. Кукова, Св. Лесева. Семантично анотирани ресурси за българския език – БулСемКор. – В: Езикови ресурси и технологии за български език. София, Академично издателство „Проф. Марин Дринов“, 2014, с. 80 – 104. ISBN 978-954-322-797-6.
  • Франсис и Кучера 1979: Francis, N., H. Kucera. Manual of Information to Accompany a Standard Sample of Present-day Edited American English, for Use with Digital Computers Архив на оригинала от 2014-05-18 в Wayback Machine.. Department of Linguistics, Brown University, Providence, R. I., U.S.A., original ed. 1964, revised 1971, revised and augmented 1979. посетен на 7 юли 2013.