WordNet
ВНИМАНИЕ: Тази статия се нуждае от частичен или цялостен превод. Ако имате познания по използвания език, не се колебайте! Чуждият текст, който не е преведен до 2 седмици след поставянето на шаблона, ще бъде изтрит. Благодарим Ви, че помагате на Уикипедия! |
WordNet е лексикална база данни за английски език.[1]
Думите са групирани в синонимни редове, наречени синсети (synsets), които са снабдени с кратки дефиниции и примери за употреба. Системата използва и множество от релации между синонимните редове или отделни техни членове. По тази причина WordNet може да се разглежда като комбинация от различни видове речници – тълковен речник, синонимен речник и други. WordNet може да се ползва от различни потребители (обикновено посредством уеб браузър), но и намира широко приложение в областта на автоматичната обработка на естествените езици и изкуствения интелект.
Базата данни и софтуерът на WordNet се разпространяват безплатно. Лексикографските данни (lexicographer files) и компилаторът (grind) също са свободни за ползване.
Кратка история
[редактиране | редактиране на кода]WordNet оригинално е разработен от Лаборатарията за когнитивни науки към под ръководството на професора по психология George Armitage Miller. Проектът започва през 1985, а в последните години се ръководи от Christiane Fellbaum.
Съдържание на базата от данни
[редактиране | редактиране на кода]Към ноември 2012 година, последната версия на WordNet е 3.1.[2]
Базата от данни съдържа 155 287 думи, организирани в 117 659 синонимни множества (синсети), формиращи 206 941 двойки дума-значение; в компресирана форма представлява файл с размер 12 MB.[3]
Като лексикални категории WordNet включва съществителни имена, глаголи, прилагателни имена и наречия, но не и предлози, (не)определителни членове и други служебни думи.
Синсетите включват думи, които могат да бъдат определени като синоними. Това може да бъдат прости думи, както и съставни думи и колокации (свободни съчетания, описващи дадено понятие), например eat out ‘храня се извън къщи’ или car pool ‘автомобили за споделено използване’. Дадена многозначна дума може да участва с различните си значения в различни синсети.
Всеки синсет съдържа кратка дефиниция и един или повече илюстративни примери. Например:
- good, right, ripe – (most suitable or right for a particular purpose; „a good time to plant tomatoes“; „the right time to act“; „the time is ripe for great sociological changes“)
Синсетите се свързват с други синсети посредством множество от семантични релации. Някои от релациите са ограничени само до специфичен клас думи. В Принстънския WordNet присъстват следните релации:
- Релации между съществителни имена
- хиперними: Y е хиперним на X, ако всяко X е (вид) Y (canine ‘животно от семейството Canidae’ е хиперним на dog ‘куче’)
- хипоними: Y е хипоним на X, ако всяко Y е (вид) X (dog е хипоним на canine)
- съподчинени понятия: Y е съподчинено на X, ако X и Y споделят хиперним (wolf ‘вълк’ е съподчинено понятие на dog и обратно)
- мероним: Y е мероним на X, ако Y е част от X (window ‘прозорец’ е мероним на building ‘сграда’)
- холоним: Y е холоним на X, ако X е част от Y (building е холоним на window)
- Релации между глаголи
- хиперним: глаголът Y е хиперним на глагола X, ако действието X е (вид) Y (to perceive ‘възприемам’ е хиперним на to listen ‘чувам’)
- тропоним: глаголът Y е тропоним на глагола X, ако действието Y представлява извършване на X по определен начин (to lisp ‘фъфля’ е тропоним на to talk ‘говоря’)
- импликация: глаголът Y се имплицира от X, ако извършването на X означава, че непременно се извършва и Y (to sleep ‘спя’ е имплицирано от to snore ‘хъркам’)
- съподчинени понятия: глаголи, които споделят общ хиперним (to lisp и to yell ‘викам’)
Тези семантични релации свързват целите синсети. Съществуват и релации между отделни членове на синсетите (отделни думи). Например, съществителното director се свързва с глагола direct чрез морфосемантична релация.
Структура
[редактиране | редактиране на кода]Съществителните имена и глаголите са организирани в йерархии, дефинирани чрез релациите hypernym или IS A. Например, думата dog се среща в следната хиперонимна йерархия (думи на едно ниво са от същия синсет; всеки синсет има уникален идентификатор):
dog, domestic dog, Canis familiaris => canine, canid => carnivore => placental, placental mammal, eutherian, eutherian mammal => mammal => vertebrate, craniate => chordate => animal, animate being, beast, brute, creature, fauna => ...
На върха тези йерархии са организирани в 25 начални „дървета“ при съществителните и 15 при глаголите (описани в lexicographic files). Прилагателните имена не са организирани в йерархични дървовидни структури, а са свързани с релации за антонимия и подобие.
Ограничения
[редактиране | редактиране на кода]WordNet не включва информация за етимологията на думите или произношението им, а относно употребата информацията е силно ограничена. Също така WordNet се стреми да включва ежедневна лексика и затова покритието на специализирана терминология не е добро.
Приложения
[редактиране | редактиране на кода]WordNet се използва в приложения и системи за отстраняване на лексикално-семантична многозначност и за други цели[4][5][6][7]
Системи за откриване на подобие на текстове, основани на WordNet:
- Свързване на речници [10]
Global WordNet Association (GWA)
[редактиране | редактиране на кода]Global WordNet Association (GWA)[11] осигурява платформа за обсъждане, споделяне и свързване на уърднетите за различни езици. Също така Асоциацията промотира въвеждането на стандарти за уърднетите, за да се осигури тяхната съвместимост и да се улесни използването им за многоезични проекти и системи. GWA поддържа списък на уърднетите по света.[12]
WordNet за други езици
[редактиране | редактиране на кода]В последните години бяха създадени уърднети за различни езици. През 2012 беше изготвен лист на уърднетите и лицензите, които ползват[13]
The Open Multilingual WordNet[14] осигурява достъп до свободно разпространявани уърднети, включително Princeton Wordnet of English (PWN).
- CWN (Chinese Wordnet or 中文詞彙網路) supported by National Taiwan University.[15]
- WOLF (WordNet Libre du Français), a French version of WordNet.[16]
- JAWS (Just Another WordNet Subset)[17] built using the Wiktionary and semantic spaces
- IndoWordNet[18]
- MultiWordNet[19] a multilingual WordNet aimed at producing an Italian WordNet strongly aligned with the Princeton WordNet.
- Open Multilingual Wordnet Архив на оригинала от 2014-08-19 в Wayback Machine. - множество от свободно достъпни WordNets за 34 езика
- EuroWordNet[20][21]
- BalkaNet[22]
- Проекти като BalkaNet и EuroWordNet за създаване на различни wordnets.
- Руският wordnet на Санктпетербургския университет[23] or Russnet[24] by Saint Petersburg State University
- FinnWordNet е WordNet за фински.[25]
- GermaNet е WordNet за немски език, разработен от University of Tübingen.[26]
- OpenWN-PT за бразилски португалски.[27]
- plWordNet[28] за полски, разработен от Wrocław University of Technology.
- PolNet[29] полска версия на WordNet, разработена от Adam Mickiewicz University in Poznań (CC BY-NC-ND 3.0 license).
Близки системи
[редактиране | редактиране на кода]- BabelNet,[30]
- SUMO[31]
- OpenCyc[32]
- DOLCE[33].
- OntoWordNet[34]
- DBpedia[35]
- eXtended WordNet[36].
- Webster's Dictionary.
- ImageNet[37]
- BioWordnet[38]
- WikiTax2WordNet и Wikipedia categories[39]
- WordNet++[40]
- SentiWordNet[41]
- ColorDict.
- UBY-LMF.
Свързани проекти
[редактиране | редактиране на кода]Дистрибуции
[редактиране | редактиране на кода]WordNet се разпространява за следните приложения:
Вижте също
[редактиране | редактиране на кода]Литература
[редактиране | редактиране на кода]- ↑ G. A. Miller, R. Beckwith, C. D. Fellbaum, D. Gross, K. Miller. 1990. WordNet: An online lexical database. Int. J. Lexicograph. 3, 4, pp. 235 – 244
- ↑ Current WordNet version // Wordnet.princeton.edu, 9 ноември 2012. Архивиран от оригинала на 2012-12-27. Посетен на 11 март 2014.
- ↑ WordNet Statistics // Wordnet.princeton.edu. Архивиран от оригинала на 2011-08-06. Посетен на 11 март 2014.
- ↑ R. Navigli. Word Sense Disambiguation: A Survey, ACM Computing Surveys, 41(2), 2009, pp. 1 – 69
- ↑ E. Agirre, O. Lopez. 2003. Clustering WordNet Word Senses. In Proc. of the Conference on Recent Advances on Natural Language (RANLP’03), Borovetz, Bulgaria, pp. 121 – 130.
- ↑ R. Navigli. Meaningful Clustering of Senses Helps Boost Word Sense Disambiguation Performance Архив на оригинала от 2011-06-29 в Wayback Machine., In Proc. of the 44th Annual Meeting of the Association for Computational Linguistics joint with the 21st International Conference on Computational Linguistics (COLING-ACL 2006), Sydney, Australia, July 17-21st, 2006, pp. 105 – 112.
- ↑ R. Snow, S. Prakash, D. Jurafsky, A. Y. Ng. 2007. Learning to Merge Word Senses, In Proc. of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL), Prague, Czech Republic, pp. 1005 – 1014.
- ↑ Ted Pedersen – WordNet::Similarity // D.umn.edu, 16 юни 2008. Посетен на 11 март 2014.
- ↑ M. T. Pilehvar, D. Jurgens and R. Navigli. Align, Disambiguate and Walk: A Unified Approach for Measuring Semantic Similarity. Proc. of the 51st Annual Meeting of the Association for Computational Linguistics (ACL 2013), Sofia, Bulgaria, August 4 – 9, 2013, pp. 1341 – 1351.
- ↑ Ballatore A. et al. Linking geographic vocabularies through WordNet // Annals of GIS 20 (2). 2014.
- ↑ The Global WordNet Association. globalwordnet.org // globalwordnet.org, 4 февруари 2010. Посетен на 11 март 2014.
- ↑ Wordnets in the World // Архивиран от оригинала на 2011-10-21. Посетен на 2015-05-04.
- ↑ Francis Bond and Kyonghee Paik 2012a. A survey of wordnets and their licenses Архив на оригинала от 2016-03-04 в Wayback Machine.. In Proceedings of the 6th Global WordNet Conference (GWC 2012). Matsue. 64 – 71
- ↑ compling.hss.ntu.edu.sg // Архивиран от оригинала на 2014-08-19. Посетен на 2015-05-04.
- ↑ Chinese Wordnet (中文詞彙網路) official page at National Taiwan University
- ↑ S. Benoît, F. Darja. 2008. Building a free French wordnet from multilingual resources. In Proc. of Ontolex 2008, Marrakech, Maroc.
- ↑ C. Mouton, G. de Chalendar. 2010.JAWS: Just Another WordNet Subset. In Proc. of TALN 2010.
- ↑ Pushpak Bhattacharyya, IndoWordNet, Lexical Resources Engineering Conference 2010 (LREC 2010), Malta, май 2010.
- ↑ E. Pianta, L. Bentivogli, C. Girardi. 2002. MultiWordNet: Developing an aligned multilingual database Архив на оригинала от 2007-08-15 в Wayback Machine.. In Proc. of the 1st International Conference on Global WordNet, Mysore, India, pp. 21 – 25.
- ↑ P. Vossen, Ed. 1998. EuroWordNet: A Multilingual Database with Lexical Semantic Networks. Kluwer, Dordrecht, The Netherlands.
- ↑ The Global WordNet Association // Globalwordnet.org, 4 февруари 2010. Посетен на 5 януари 2014.
- ↑ D. Tufis, D. Cristea, S. Stamou. 2004. Balkanet: Aims, methods, results and perspectives. A general overview Архив на оригинала от 2011-07-18 в Wayback Machine.. Romanian J. Sci. Tech. Inform. (Special Issue on Balkanet), 7(1 – 2), pp. 9 – 43.
- ↑ Русский WordNet // Pgups.ru. Архивиран от оригинала на 2013-11-05. Посетен на 5 януари 2014.
- ↑ RussNet: Главна страница // Project.phil.spbu.ru. Посетен на 11 март 2014.
- ↑ FinnWordNet – The Finnish WordNet – Department of General Linguistics // Ling.helsinki.fi. Архивиран от оригинала на 2015-04-21. Посетен на 5 януари 2014.
- ↑ GermaNet // Sfs.uni-tuebingen.de. Архивиран от оригинала на 2015-05-18. Посетен на 11 март 2014.
- ↑ arademaker/openWordnet-PT ¡ GitHub // Github.com. Посетен на 5 януари 2014.
- ↑ official webpage plwordnet.pwr.wroc.pl // Архивиран от оригинала на 2015-05-12. Посетен на 2015-05-04.
- ↑ official webpage www.ltc.amu.edu.pl
- ↑ R. Navigli, S. P. Ponzetto. BabelNet: Building a Very Large Multilingual Semantic Network. Proc. of the 48th Annual Meeting of the Association for Computational Linguistics (ACL 2010), Uppsala, Sweden, July 11 – 16, 2010, pp. 216 – 225.
- ↑ A. Pease, I. Niles, J. Li. 2002. The suggested upper merged ontology: A large ontology for the Semantic Web and its applications Архив на оригинала от 2016-03-04 в Wayback Machine.. In Proc. of the AAAI-2002 Workshop on Ontologies and the Semantic Web, Edmonton, Canada.
- ↑ S. Reed and D. Lenat. 2002. Mapping Ontologies into Cyc Архив на оригинала от 2004-06-13 в Wayback Machine.. In Proc. of AAAI 2002 Conference Workshop on Ontologies For The Semantic Web, Edmonton, Canada, 2002.
- ↑ Masolo, C., Borgo, S., Gangemi, A., Guarino, N., Oltramari, A., Schneider, L.S. 2002. WonderWeb Deliverable D17. The WonderWeb Library of Foundational Ontologies and the DOLCE ontology. Report (ver. 2.0, 15-08-2002)
- ↑ Gangemi, A., Guarino, N., Masolo, C., Oltramari, A. 2003 Sweetening WordNet with DOLCE.
- ↑ C. Bizer, J. Lehmann, G. Kobilarov, S. Auer, C. Becker, R. Cyganiak, S. Hellmann, DBpedia – A crystallization point for the Web of Data Архив на оригинала от 2010-02-02 в Wayback Machine.. Web Semantics, 7(3), 2009, pp. 154 – 165.
- ↑ S. M. Harabagiu, G. A. Miller, D. I. Moldovan. 1999. WordNet 2 – A Morphologically and Semantically Enhanced Resource Архив на оригинала от 2004-07-04 в Wayback Machine.. In Proc. of the ACL SIGLEX Workshop: Standardizing Lexical Resources, pp. 1 – 8.
- ↑ J. Deng, W. Dong, R. Socher, L. Li, K. Li, L. Fei-Fei. ImageNet: A Large-Scale Hierarchical Image Database Архив на оригинала от 2014-10-03 в Wayback Machine.. In Proc. of 2009 IEEE Conference on Computer Vision and Pattern Recognition
- ↑ M. Poprat, E. Beisswanger, U. Hahn. 2008. Building a BIOWORDNET by Using WORDNET’s Data Formats and WORDNET’s Software Infrastructure – A Failure Story. In Proc. of the Software Engineering, Testing, and Quality Assurance for Natural Language Processing Workshop, pp. 31 – 39.
- ↑ S. Ponzetto, R. Navigli. Large-Scale Taxonomy Mapping for Restructuring and Integrating Wikipedia Архив на оригинала от 2011-07-15 в Wayback Machine., In Proc. of the 21st International Joint Conference on Artificial Intelligence (IJCAI 2009), Pasadena, California, July 14-17th, 2009, pp. 2083 – 2088.
- ↑ S. P. Ponzetto, R. Navigli. Knowledge-rich Word Sense Disambiguation rivaling supervised systems. In Proc. of the 48th Annual Meeting of the Association for Computational Linguistics (ACL), 2010, pp. 1522 – 1531.
- ↑ S. Baccianella, A. Esuli and F. Sebastiani. SentiWordNet 3.0: An Enhanced Lexical Resource for Sentiment Analysis and Opinion Mining Архив на оригинала от 2011-07-22 в Wayback Machine.. In Proceedings of the 7th Conference on Language Resources and Evaluation (LREC'10), Valletta, MT, 2010, pp. 2200 – 2204.
- ↑ Piek Vossen, Claudia Soria, Monica Monachini: Wordnet-LMF: a standard representation for multilingual wordnets, in LMF Lexical Markup Framework, edited by Gil Francopoulo ISTE / Wiley 2013 (ISBN 978-1-84821-430-9)
- ↑ Babylon WordNet // Babylon.com. Архивиран от оригинала на 2015-01-01. Посетен на 11 март 2014.
- ↑ GoldenDict – Browse /dictionaries at Sourceforge.net // Sourceforge.net, 1 декември 2010. Посетен на 5 януари 2014.
- ↑ Lingoes WordNet // Lingoes.net, 16 ноември 2007. Посетен на 11 март 2014.
Външни препратки
[редактиране | редактиране на кода]- Официален сайт
- Проекти, свързани с Wordnet Архив на оригинала от 2010-02-08 в Wayback Machine.
- Global Wordnet – Global WordNet Association
- BabelNet
- Списък от многоезични проекти за WordNet
Допълнителни източници
[редактиране | редактиране на кода]Тази страница частично или изцяло представлява превод на страницата WordNet в Уикипедия на английски. Оригиналният текст, както и този превод, са защитени от Лиценза „Криейтив Комънс – Признание – Споделяне на споделеното“, а за съдържание, създадено преди юни 2009 година – от Лиценза за свободна документация на ГНУ. Прегледайте историята на редакциите на оригиналната страница, както и на преводната страница, за да видите списъка на съавторите.
ВАЖНО: Този шаблон се отнася единствено до авторските права върху съдържанието на статията. Добавянето му не отменя изискването да се посочват конкретни източници на твърденията, които да бъдат благонадеждни. |