Български национален корпус
Българският национален корпус е голям представителен корпус за български език, който включва над 200 000 текста и над 1 милиард думи текст[1][2].
История
[редактиране | редактиране на кода]БНК е създаден в Института за български език „Проф. Любомир Андрейчин“ от сътрудници от Секцията по компютърна лингвистика и Секцията за българска лексикология и лексикография. В него са обединени електронни корпуси, разработвани от двете секции в периода 2001 – 2009 г. Корпусът непрекъснато се разширява и обогатява с нови текстове.[3][4][5]
Съдържание
[редактиране | редактиране на кода]Българският национален корпус се състои от ядро и множество паралелни сателитни корпуси. Ядрото е едноезикова българска част, която съдържа над 1 милиард думи и включва над 200 000 текста. Материалите в корпуса отразяват състоянието на българския език (предимно в неговата писмена форма) от средата на 20 век (1945 г.) до наши дни.[1]
БНК също включва 47 паралелни чуждоезични корпуса с различна големина.[6][7]
БНК е снабден с лингвистична анотация на различни нива.[8]
Подбор на текст
[редактиране | редактиране на кода]Източниците и начините за набавяне на материалите, включени в Българския национален корпус, са следните:
- Дарения от издателства и автори.
- Дигитализиране на печатни текстове чрез сканиране.
- Автоматично и ръчно извличане на електронни текстове от интернет.
Приложения
[редактиране | редактиране на кода]Българският национален корпус дава възможност за редица приложения в различни области на езикознанието: в компютърната лингвистика; в лексикографията; за теоретични изследвания на определени лингвистични явления; за наблюдения върху особеностите на отделни области на езика; за извличане на примери за демонстрация при обучението по български език и др.
Някои възможни приложения на корпуса:
- Извличане на специални или общи подкорпуси по определени критерии (тематика, автор, година / период на издаване, източник и др.), които да бъдат използвани като тренировъчни корпуси за редица приложения – граматично и семантично маркиране и пр., както и за други изследователски цели.
- Наблюдения върху честотата на употреба на думи или езикови конструкции, генериране на честотни списъци и др.
- Търсене в Корпуса на примери за определени лингвистични явления с цел лингвистично описание, лексикографско отразяване или с учебна цел в обучението по български език (достъпно за ползване в интернет).
Достъп
[редактиране | редактиране на кода]Достъпът до Българския национален корпус е напълно безплатен и включва следните възможности:
- достъп до търсачката на Българския национален корпус
- изтегляне на части от Българския национален корпус
Следните подкорпуси са предоставени за изтегляне:
- Административен корпус от официални документи на Европейския съюз – паралелен, на 23 езика с най-големи корпуси на английски, немски, румънски, гръцки и полски.
- Публицистичен корпус от SETimes.com – паралелен, на 9 балкански езика (български, гръцки, турски, сръбски, хърватски, босненски, македонски, албански, румънски) и английски.
- Научнопопулярен корпус със статии от Уикипедия – на български език.
- Административен/Научен корпус с текстове от Агенцията за лекарствата – паралелен, на 23 езика.
Вижте също
[редактиране | редактиране на кода]- Институт за български език
- Обработка на естествен език
- Корпусна лингвистика
- Компютърна лингвистика
- БулПосКор
- БулСемКор
Източници
[редактиране | редактиране на кода]- ↑ а б Koeva, Svetla, Ivelina Stoyanova, Svetlozara Leseva, Tsvetana Dimitrova, Rositsa Dekova, and Ekaterina Tarpomanova (2012) The Bulgarian National Corpus: Theory and Practice in Corpus Design[неработеща препратка]. Journal of Language Modelling, 2012, Vol. 0, No. 1, pp. 65 – 110. ISSN: 2299 – 8470
- ↑ Коева, Светла, Ивелина Стоянова, Цветана Димитрова, Светлозара Лесева (2012) „Традиции и новаторство в корпусната лингвистика: Българският национален корпус“, Списание на Българската академия на науките, 2012, 3, ISSN: 0007 – 3989
- ↑ Svetla Koeva, Sv. Leseva, I. Stoyanova, E. Tarpomanova, M. Todorova (2006) „Bulgarian Tagged Corpora“. In: Proceedings of the Fifth International Conference Formal Approaches to South Slavic and Balkan Languages, 18 – 20 октомври 2006, Sofia, Bulgaria, pp. 78 – 86.
- ↑ Светла Коева, Диана Благоева, Сия Колковска (2011) „Проектът Български национален корпус – резултати и перспективи“ Български език, 58 (2011), 3, стр. 34 – 53. ISSN 0005 – 4283.
- ↑ Koeva Sv., Blagoeva, D., Kolkovska, S. (2010) Bulgarian National Corpus Project. In: Proceedings of LREC-2010, Valletta, ELRA, pp. 3678 – 3684.
- ↑ Коева, С., Декова, Р., Стоянова, И. (2011) „Българо-английски-Х+ паралелен корпус“ – Български език, (кн. 3), стр. 100 – 118. ISSN 0005 – 4283.
- ↑ Koeva, S., Dekova, R., Stoyanova, I., Rizov, B., Genov, A. (2012) „Bulgarian X-language Parallel Corpus“. In: Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC’12).
- ↑ Koeva, Sv., Genov, A. (2011) „Bulgarian Language Processing Chain“. In: Proceeding of the Workshop Integration of multilingual resources and tools in Web applications, Hamburg.