Направо към съдържанието

Компютърна лингвистика

от Уикипедия, свободната енциклопедия

Компютърната лингвистика е интердисциплинарна теоретико-приложна наука, която се занимава както с формалното описание на естествения език, така и с разработването и прилагането на компютърните технологии при статистическото и логическото му анализиране и моделиране.

Езиковото компютърно моделиране не е ограничено в конкретен дял или граници в лингвистиката. То обикновено се осъществява от интердисциплинарни екипи от компютърни специалисти, лингвисти, програмисти, логици, математици, специалисти по изкуствен интелект, когнитивна психология и др. Разработват се електронни езикови приложения и системи, които обслужват потребителите при работата им с текстове – такива са програмите за автоматично коригиране на правописа, за автоматичен превод от един език на друг, за категоризиране и резюмиране на документи; за преобразуване на текст в реч и обратно и др., както и програми, обслужващи лингвистичните изследвания и анализи.

Едни от основните области в компютърната лингвистика са:

  • автоматичен анализ на текстове
  • генериране на текстове
  • анализ и синтез на реч

Автоматичен анализ на текстове

[редактиране | редактиране на кода]

Автоматичното анализиране на текстове се използва в области като машинен превод, интелигентно търсене на информация, автоматично отговаряне на въпроси и др.

Генерирането на текстове има приложение при интелигентните интерфейси.

Компютърната обработка на реч се използва в различни компютърни системи за автоматично преобразуване на текст в реч или на реч в текст, в устройства, управлявани с гласови команди (например управление на автомобил с глас) и др.

Автоматичният анализ може да обхваща различни нива от заложената в текста информация. Това определя множество подзадачи и модули като: токънизиране (разделяне текста на определени единици – фонеми, морфеми, графични думи, лексеми, изречения и др.); тагиране (приписване на характеристики на всяка отделна единица – приписване на дадени морфологични, синтактични, морфосинтактични, семантични и др. характеристики); парсиране – морфологичен анализ, синтактичен анализ, разрешаване на различни езиково специфични явления като местоименни и неместоименни анафори, елипси и др. и на различните типове езикова многозначност.

Различните нива на анализ използват различни програми: морфологични анализатори (тагери), синтактични анализатори (парсери), разрешители на анафори, анализатори на реторичната структура.

Текущото състояние на автоматичния текстов анализ позволява сравнително надежден морфологичен анализ /до 99% точност/, недотам точен синтактичен анализ /80 – 85%/ и твърде неточно разрешаване на анафори /70 – 80%/. Съществуват и разработки за привеждане на текста в логическа форма.

При автоматичния анализ на текстове се използват ресурси, в които е зададено знанието за езика. Такива ресурси са морфологичните речници, граматиките, онтологиите, честотни таблици, информация за синтактичните рамки на глаголите и др.

Друг източник на знания са колекциите от текстове в електронен формат /корпуси/, които се използват за различни типове езикови анализи и заключения, както и за извличане на езикова информация чрез компютърни програми и статистически техники. Този дял от компютърната лингвистика е познат като корпусна лингвистика.

Генериране на текстове

[редактиране | редактиране на кода]

Програмите за генериране на текст, за разлика от текстообработващите програми, анализиращи готовия вече текст, използват определени модели, по които се конструира смисъла на текста и конструират лингвистичното му представяне.

Анализ и синтез на реч

[редактиране | редактиране на кода]

Обработката на реч използва статистически техники, за да се превърнат гласовите команди в текст.