Лингвистични свързани отворени данни
Лингвистичните свързани отворени данни (ЛСОД) в обработката на естествения език, езикознанието и съседни области представляват, от една страна, метод за описание на езикови ресурси, и от друга страна, интердисциплинарната общност от специалисти, които се занимават със създаването, споделянето и използването на езикови ресурси според принципите за свързаните данни. Облакът на лингвистичните свързани отворени данни е създаден и поддържан от работна група за отворена лингвистика на фондацията „Отворено знание“, но оттогава е в центъра на дейността на няколко W3C групи, изследователски проекти и инфраструктурни усилия.
Лингвистични свързани отворени данни
[редактиране | редактиране на кода]Лингвистичните свързани отворени данни публикуват данни, необходими за езикознанието и обработката на естествения език, като следват следните принципи:[1]
- Данните трябва да бъдат лицензирани като свободни данни и за целта да се ползват лицензи като Криейтив Комънс.
- Елементите в един набор от данни трябва да се определят по уникален начин чрез URI.
- Всеки URI в ЛСОД трябва да води до действителна уебстраница и да позволява на потребителите достъп до повече информация чрез уеббраузъри.
- Действителните уебстраници на даден ресурс от ЛСОД трябва да предостави резултати чрез използването на уебстандарти като Resource Description Framework (RDF).
- Всеки езиков ресурс в ЛСОД трябва да включва хипервръзки, които да помогнат на потребителите да откриват нови ресурси и да им предоставят необходимата семантика.
Основните ползи от лингвистичните свързани отворени данни (ЛСОД) са:[2]
- Представяне: свързаните графи са по-гъвкав начин на представяне на езиковите данни.
- Оперативна съвместимост: общоприетите RDF модели могат лесно да се интегрират.
- Комбиниране: данните от различни източници могат да се комбинират лесно.
- Екосистема: инструментите за RDF и свързаните данни са широко достъпни чрез лицензи за отворен код.
- Експресивност: съществуващите формални речници (онтологии) подпомагат представянето на лингвистични ресурси.
- Семантика: взаимовръзките (чрез общи хипервръзки) дефинират какво се има предвид.
- Динамичност: уебданните подлежат на непрекъснато подобряване.
Облачната диаграма на ЛСОД се намира на следния линк: linguistic-lod.org [3]
Приложения на лингвистичните свързани отворени данни (ЛСОД)
[редактиране | редактиране на кода]Лингвистичните свързани отворени данни са прилагани успешно към голям брой научни изследователски задачи:
- Анотацията на езикови данни и съответният механизъм за езиково маркиране представляват основни елементи на анализ във всички области на емпиричното езикознание, компютърната филология и обработката на естествения език. Напредъкът в тази област обаче е възпрепятстван от предизвикателствата на оперативната съвместимост. Най-значителни сред проблемите са разликите във формалните речници (онтологии) и схемите за анотиране, които се използват за описание на различни ресурси и се поддържат от различни инструменти, подпомагащи работата с тези анотации. Използването на свързани данни за съотнасянето между езикови ресурси и онтологични/терминологични хранилища улеснява по-нататъшното използване на споделени речници и тълкуването им на базата на общи принципи.
- В корпусната лингвистика и компютърната филология припокриващите се анотации представляват добре познат проблем на обичайните XML формати. За справянето с този проблем различни модели над данни, основани на графи, се предлагат от края на 90-те години на двадесети век[4]. Обикновено те са представени чрез множество от взаимосвързани XML файлове (т.нар. standoff XML[5], съществуващи самостоятелно XML елементи или документи), които са трудни за поддържане от стандартната XML технология[6]. Моделирането на такива сложни анотации чрез технологии като свързаните данни представя формализъм, който е семантично еквивалентен на standoff XML[7], но елиминира нуждата от специализирана технология. Вместо това се разчита на съществуващата вече RDF екосистема.
- При моделирането на многоезикови ресурси, включително и свързването на лексикални ресурси като WordNet с помощта на междуезиковия индекс на Глобалната асоциация на WordNet. Тук се включва и свързването на лексикални ресурси като WordNet и Wikipedia, както е направено например в BabelNet.
- Предоставя дискусионни форуми за стандартизация на информацията в езиковите ресурси.
Лингвистичните свързани отворени данни влияят върху развитието на:
- Най-добрите практики за свързване на лексикални данни в интернет (за данни, които са публикувани според изискванията на OntoLex)
- Най-добрите практики за анотации в интернет (например използването на стандарта Web Annotation)
- Най-добрите практики за моделиране и споделяне на текстови ресурси с припокриващи се анотации
Избрани източници за лингвистични свързани отворени данни (ЛСОД)
[редактиране | редактиране на кода]Според данни от октомври 2018 г. десетте най-често свързвани ресурси в диаграмата на ЛСОД (според броя на свързаните множества от данни) са:
- Онтологията за лингвистична анотация (The Ontologies of Linguistic Annotation – OLiA – свързана със 74 множества от данни) предоставя референтна терминология за лингвистични анотации и граматически метаданни;
- WordNet (свързан с 51 множества от данни) – лексикална база данни за английския език и опора в разработването на подобни бази данни за други езици с няколко издания (принстънското издание е с 36 множества от данни; изданието на W3С е с 8 множества от данни; изданието на VU е със 7 множества от данни);
- DBpedia (свързана с 50 множества от данни) – многоезична база от знания, основана на Уикипедия;
- lexinfo.net (свързан с 36 множества от данни) предоставя референтна терминология за лексикални ресурси;
- BabelNet (свързан с 33 множества от данни) – многоезична лексикализирана семантична мрежа, която интегрира различни други ресурси, най-вече WordNet и Уикипедия;
- lexvo.org (свързан с 26 множества от данни) предоставя езикови идентификатори и друга информация, свързана с езика. Най-важното за lexvo е, че предоставя RDF представяне на трибуквени кодове от стандарта ISO 639 – 3 за езикови идентификатори и информация за езика;
- Регистърът на категория данни ISO 12620 (ISOcat; RDF издание; свързан с 10 множества от данни) предоставя полуструктурирано хранилище за езиковата терминологията. ISOcat се съхранява в Езиковия архив и по-точно – от проекта DOBES към Института за психолингвистика „Макс Планк“. Обаче преминава към CLARIN;
- UBY (RDF издание lemon-Uby; свързан с 9 множества от данни) – лексикална мрежа за английския език, интегрирала в себе си множество други лексикални ресурси;
- Glottolog (свързан със 7 множества от данни) предоставя добре подбрани езикови идентификатори за езици с малко на брой ресурси, и по-точно такива, които не са обхванати от lexvo.org;
- Уикиречник-DBpedia (wiktionary.dbpedia.org; свързано със 7 множества от данни) – това са лексикализациите на Уикиречник за понятията на DBpedia.
Развитие на ЛСОД облака и дейности на общността
[редактиране | редактиране на кода]Облачната диаграма на ЛСОД се поддържа от Работната група за отворена лингвистика към фондацията „Отворено знание“ (от 2014 г. става отворено знание). Тя е отворена за експерти по езикови ресурси и е интердисциплинарна.
Работнатата група за отворена лингвистика организира мероприятия и координира развитието на ЛСОД, а също така улеснява интердисциплинарната комуникация между участниците и потребителите на ЛСОД.
Няколко бизнес и научни W3C групи се фокусират върху специализираните страни на ЛСОД:
- W3C Ontology-Lexica Community Group (OntoLex) – развива и поддържа спецификации за машинно четими речници в облака на ЛСОД.
- W3C Best Practices for Multilingual Linked Open Data Community Group – събира информация относно най-добрите практики за създаване на междуезикови свързани отворени данни.[8]
- W3C Linked Data for Language Technology Community Group – събират сценарии за използване от потребители, както и изисквания за приложенията с езикови технологии, които ползват свързани данни.[9]
ЛСОД се развива и документира в поредица от международни семинари, практически състезания (datathons) и публикации. Сред тях се открояват следните:
· Свързани данни в лингвистиката (Linked Data in Linguistics, LDL) – ежегоден научен семинар, започнал през 2012 г.;
· Междуезикови свързани отворени данни за предприятия (Multilingual Linked Open Data for Enterprises, MLODE) – заседание на общността два пъти годишно (2012 г. и 2014 г.);
· Лятно състезание за лингвистични свързани отворени данни (Summer Datathon on Linguistic Linked Open Data, SD-LLOD) – провежда се два пъти годишно от 2015 г. насам.
Използването и развитието на ЛСОД е предмет на няколко големи изследователски проекта, сред които:
- LOD2. Creating Knowledge out of Interlinked Data (11 държави от ЕС и Корея, 2010 – 2014)[10]
- MONNET. Multilingual Ontologies for Networked Knowledge (5 държави от ЕС, 2010 – 2013)[11]
- LIDER. Linked Data as an enabler of cross-media and multilingual content analytics for enterprises across Europe (5 държави от ЕС, 2013 – 2015)[12]
- QTLeap. Quality Translation by Deep Language Engineering Approaches (6 държави от ЕС, 2013 – 2016)[13]
- LiODi. Linked Open Dictionaries (BMBF група от млади е-хуманитаристи, университетът „Гьоте“, Франкфурт, Германия, 2015 – 2020)[14]
- FREME. Open Framework of E-Services for Multilingual and Semantic Enrichment of Digital Content (6 държави от ЕС, 2015 – 2017)[15]
- POSTDATA. Poetry Standardization and Linked Open Data (Starting Grant към Европейския съвет за научни изследвания, Националният университет за дистанционно образование, Испания, 2016 – 2021)[16]
- Linking Latin (Consolidator Grant към Европейския съвет за научни изследвания, Католическият университет на свещеното сърце, Италия, 2018 – 2023)[17]
- Pret-a-LLOD (5 държави от ЕС, 2019 – 2021)[18]
- NexusLinguarum. European network for Web-centred linguistic data science (COST Action, 35 членуващи в COST държави, 2 съседни държави, една държава – интернационален партньор, 2019 – 2023).[19]
Източници
[редактиране | редактиране на кода]- ↑ Linguistic Linked Open Data
- ↑ Chiarcos, Christian; McCrae, John; Cimiano, Philipp; Fellbaum, Christiane. Towards open data for linguistics: Lexical Linked Data // Alessandro Oltramari, Piek Vossen, Lu Qin, and Eduard Hovy (eds.), New Trends of Research in Ontologies and Lexical Resources.. 2013.
- ↑ Linguistic Linked Open Data
- ↑ Bird, Steven; Liberman, Mark. Towards a formal framework for linguistic annotations // Proceedings of the International Conference on Spoken Language Processing. 1998.
- ↑ Language resource management – Linguistic annotation framework (LAF) // 2012.
- ↑ Eckart, Richard. Choosing an XML database for linguistically annotated corpora // SDV. Sprache und Datenverarbeitung 32.1/2008: International Journal for Language Data Processing, Workshop Datenbanktechnologien für hypermediale linguistische Anwendungen (KONVENS 2008), Universitätsverlag Rhein-Ruhr. 2008.
- ↑ Chiarcos, Chiarcos, Christian. Interoperability of Corpora and Annotations (draft version) // Christian Chiarcos, Sebastian Nordhoff, and Sebastian Hellmann (eds.) Linked Data in Linguistics. Representing and Connecting Language Data and Language Metadata. 2012.
- ↑ Best Practices for Multilingual Linked Open Data Community Group
- ↑ Linked Data for Language Technology Community Group
- ↑ lod2.okfn.org // Архивиран от оригинала на 2014-03-07.
- ↑ Multilingual Ontologies for Networked Knowledge (Monnet)
- ↑ LIDER: Linked Data as an enabler of cross-media and multilingual content analytics for enterprises across Europe
- ↑ Quality Translation by Deep Language Engineering Approaches
- ↑ "Linked Open Dictionaries (LiODi) // Архивиран от оригинала на 2020-01-17.
- ↑ Open Framework of E-Services for Multilingual and Semantic Enrichment of Digital Content
- ↑ POSTDATA – Poetry Standardization and Linked Open Data
- ↑ Linking Latin. Building a Knowledge Base of Linguistic Resources for Latin
- ↑ Pret-a-LLOD project home page
- ↑ CA18209 – European network for Web-centred linguistic data science