Компютърна лингвистика

Компютърната лингвистика е интердисциплинарна теоретико-приложна наука, която се занимава както с формалното описание на естествения език, така и с разработването и прилагането на компютърните технологии при статистическото и логическото му анализиране и моделиране.

Езиковото компютърно моделиране не е ограничено в конкретен дял или граници в лингвистиката. То обикновено се осъществява от интердисциплинарни екипи от компютърни специалисти, лингвисти, програмисти, логици, математици, специалисти по изкуствен интелект, когнитивна психология и др. Разработват се електронни езикови приложения и системи, които обслужват потребителите при работата им с текстове – такива са програмите за автоматично коригиране на правописа, за автоматичен превод от един език на друг, за категоризиране и резюмиране на документи; за преобразуване на текст в реч и обратно и др., както и програми, обслужващи лингвистичните изследвания и анализи.

Области

Едни от основните области в компютърната лингвистика са:

автоматичен анализ на текстове
генериране на текстове
анализ и синтез на реч

Приложение

Автоматичен анализ на текстове

Автоматичното анализиране на текстове се използва в области като машинен превод, интелигентно търсене на информация, автоматично отговаряне на въпроси и др.

Генерирането на текстове има приложение при интелигентните интерфейси.

Компютърната обработка на реч се използва в различни компютърни системи за автоматично преобразуване на текст в реч или на реч в текст, в устройства, управлявани с гласови команди (например управление на автомобил с глас) и др.

Автоматичният анализ може да обхваща различни нива от заложената в текста информация. Това определя множество подзадачи и модули като: токънизиране (разделяне текста на определени единици – фонеми, морфеми, графични думи, лексеми, изречения и др.); тагиране (приписване на характеристики на всяка отделна единица – приписване на дадени морфологични, синтактични, морфосинтактични, семантични и др. характеристики); парсиране – морфологичен анализ, синтактичен анализ, разрешаване на различни езиково специфични явления като местоименни и неместоименни анафори, елипси и др. и на различните типове езикова многозначност.

Различните нива на анализ използват различни програми: морфологични анализатори (тагери), синтактични анализатори (парсери), разрешители на анафори, анализатори на реторичната структура.

Текущото състояние на автоматичния текстов анализ позволява сравнително надежден морфологичен анализ /до 99% точност/, недотам точен синтактичен анализ /80 – 85%/ и твърде неточно разрешаване на анафори /70 – 80%/. Съществуват и разработки за привеждане на текста в логическа форма.

При автоматичния анализ на текстове се използват ресурси, в които е зададено знанието за езика. Такива ресурси са морфологичните речници, граматиките, онтологиите, честотни таблици, информация за синтактичните рамки на глаголите и др.

Друг източник на знания са колекциите от текстове в електронен формат /корпуси/, които се използват за различни типове езикови анализи и заключения, както и за извличане на езикова информация чрез компютърни програми и статистически техники. Този дял от компютърната лингвистика е познат като корпусна лингвистика.

Генериране на текстове

Програмите за генериране на текст, за разлика от текстообработващите програми, анализиращи готовия вече текст, използват определени модели, по които се конструира смисъла на текста и конструират лингвистичното му представяне.

Анализ и синтез на реч

Обработката на реч използва статистически техники, за да се превърнат гласовите команди в текст.

Вижте също

Езикознание

Външни препратки

Секция по компютърна лингвистика при БАН теоретични и приложни изследвания в областта на компютърната обработка на естествените езици.
БГ Офис: база с думи за проверка на правописа, проверка за съгласуване на частите на речта (проверка на граматиката) и сричкопренасяне с лиценз GNU GPL
Онлайн демонстрация на системата за граматически анализ на български език
Програма за превод от шльокавица на български Архив на оригинала от 2007-05-25 в Wayback Machine. (за конзола и сървъри; онлайн демонстрация; превежда различни диалекти на шьокавицата)