Направо към съдържанието

WordNet

от Уикипедия, свободната енциклопедия

WordNet е лексикална база данни за английски език.[1]

Думите са групирани в синонимни редове, наречени синсети (synsets), които са снабдени с кратки дефиниции и примери за употреба. Системата използва и множество от релации между синонимните редове или отделни техни членове. По тази причина WordNet може да се разглежда като комбинация от различни видове речници – тълковен речник, синонимен речник и други. WordNet може да се ползва от различни потребители (обикновено посредством уеб браузър), но и намира широко приложение в областта на автоматичната обработка на естествените езици и изкуствения интелект.

Базата данни и софтуерът на WordNet се разпространяват безплатно. Лексикографските данни (lexicographer files) и компилаторът (grind) също са свободни за ползване.

WordNet оригинално е разработен от Лаборатарията за когнитивни науки към под ръководството на професора по психология George Armitage Miller. Проектът започва през 1985, а в последните години се ръководи от Christiane Fellbaum.

Съдържание на базата от данни

[редактиране | редактиране на кода]
Пример: записът за думата „Hamburger“ в WordNet

Към ноември 2012 година, последната версия на WordNet е 3.1.[2]

Базата от данни съдържа 155 287 думи, организирани в 117 659 синонимни множества (синсети), формиращи 206 941 двойки дума-значение; в компресирана форма представлява файл с размер 12 MB.[3]

Като лексикални категории WordNet включва съществителни имена, глаголи, прилагателни имена и наречия, но не и предлози, (не)определителни членове и други служебни думи.

Синсетите включват думи, които могат да бъдат определени като синоними. Това може да бъдат прости думи, както и съставни думи и колокации (свободни съчетания, описващи дадено понятие), например eat out ‘храня се извън къщи’ или car pool ‘автомобили за споделено използване’. Дадена многозначна дума може да участва с различните си значения в различни синсети.

Всеки синсет съдържа кратка дефиниция и един или повече илюстративни примери. Например:

good, right, ripe – (most suitable or right for a particular purpose; „a good time to plant tomatoes“; „the right time to act“; „the time is ripe for great sociological changes“)

Синсетите се свързват с други синсети посредством множество от семантични релации. Някои от релациите са ограничени само до специфичен клас думи. В Принстънския WordNet присъстват следните релации:

  • Релации между съществителни имена
    • хиперними: Y е хиперним на X, ако всяко X е (вид) Y (canine ‘животно от семейството Canidae’ е хиперним на dog ‘куче’)
    • хипоними: Y е хипоним на X, ако всяко Y е (вид) X (dog е хипоним на canine)
    • съподчинени понятия: Y е съподчинено на X, ако X и Y споделят хиперним (wolf ‘вълк’ е съподчинено понятие на dog и обратно)
    • мероним: Y е мероним на X, ако Y е част от X (window ‘прозорец’ е мероним на building ‘сграда’)
    • холоним: Y е холоним на X, ако X е част от Y (building е холоним на window)
  • Релации между глаголи
    • хиперним: глаголът Y е хиперним на глагола X, ако действието X е (вид) Y (to perceive ‘възприемам’ е хиперним на to listen ‘чувам’)
    • тропоним: глаголът Y е тропоним на глагола X, ако действието Y представлява извършване на X по определен начин (to lisp ‘фъфля’ е тропоним на to talk ‘говоря’)
    • импликация: глаголът Y се имплицира от X, ако извършването на X означава, че непременно се извършва и Y (to sleep ‘спя’ е имплицирано от to snore ‘хъркам’)
    • съподчинени понятия: глаголи, които споделят общ хиперним (to lisp и to yell ‘викам’)

Тези семантични релации свързват целите синсети. Съществуват и релации между отделни членове на синсетите (отделни думи). Например, съществителното director се свързва с глагола direct чрез морфосемантична релация.

Съществителните имена и глаголите са организирани в йерархии, дефинирани чрез релациите hypernym или IS A. Например, думата dog се среща в следната хиперонимна йерархия (думи на едно ниво са от същия синсет; всеки синсет има уникален идентификатор):

dog, domestic dog, Canis familiaris
    => canine, canid
       => carnivore
         => placental, placental mammal, eutherian, eutherian mammal
           => mammal
             => vertebrate, craniate
               => chordate
                 => animal, animate being, beast, brute, creature, fauna
                   => ...

На върха тези йерархии са организирани в 25 начални „дървета“ при съществителните и 15 при глаголите (описани в lexicographic files). Прилагателните имена не са организирани в йерархични дървовидни структури, а са свързани с релации за антонимия и подобие.

WordNet не включва информация за етимологията на думите или произношението им, а относно употребата информацията е силно ограничена. Също така WordNet се стреми да включва ежедневна лексика и затова покритието на специализирана терминология не е добро.

WordNet се използва в приложения и системи за отстраняване на лексикално-семантична многозначност и за други цели[4][5][6][7]

Системи за откриване на подобие на текстове, основани на WordNet:

implementation

  • Свързване на речници [10]

Global WordNet Association (GWA)[11] осигурява платформа за обсъждане, споделяне и свързване на уърднетите за различни езици. Също така Асоциацията промотира въвеждането на стандарти за уърднетите, за да се осигури тяхната съвместимост и да се улесни използването им за многоезични проекти и системи. GWA поддържа списък на уърднетите по света.[12]

WordNet за други езици

[редактиране | редактиране на кода]

В последните години бяха създадени уърднети за различни езици. През 2012 беше изготвен лист на уърднетите и лицензите, които ползват[13]

The Open Multilingual WordNet[14] осигурява достъп до свободно разпространявани уърднети, включително Princeton Wordnet of English (PWN).

WordNet се разпространява за следните приложения:

  1. G. A. Miller, R. Beckwith, C. D. Fellbaum, D. Gross, K. Miller. 1990. WordNet: An online lexical database. Int. J. Lexicograph. 3, 4, pp. 235 – 244
  2. Current WordNet version // Wordnet.princeton.edu, 9 ноември 2012. Архивиран от оригинала на 2012-12-27. Посетен на 11 март 2014.
  3. WordNet Statistics // Wordnet.princeton.edu. Архивиран от оригинала на 2011-08-06. Посетен на 11 март 2014.
  4. R. Navigli. Word Sense Disambiguation: A Survey, ACM Computing Surveys, 41(2), 2009, pp. 1 – 69
  5. E. Agirre, O. Lopez. 2003. Clustering WordNet Word Senses. In Proc. of the Conference on Recent Advances on Natural Language (RANLP’03), Borovetz, Bulgaria, pp. 121 – 130.
  6. R. Navigli. Meaningful Clustering of Senses Helps Boost Word Sense Disambiguation Performance Архив на оригинала от 2011-06-29 в Wayback Machine., In Proc. of the 44th Annual Meeting of the Association for Computational Linguistics joint with the 21st International Conference on Computational Linguistics (COLING-ACL 2006), Sydney, Australia, July 17-21st, 2006, pp. 105 – 112.
  7. R. Snow, S. Prakash, D. Jurafsky, A. Y. Ng. 2007. Learning to Merge Word Senses, In Proc. of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL), Prague, Czech Republic, pp. 1005 – 1014.
  8. Ted Pedersen – WordNet::Similarity // D.umn.edu, 16 юни 2008. Посетен на 11 март 2014.
  9. M. T. Pilehvar, D. Jurgens and R. Navigli. Align, Disambiguate and Walk: A Unified Approach for Measuring Semantic Similarity. Proc. of the 51st Annual Meeting of the Association for Computational Linguistics (ACL 2013), Sofia, Bulgaria, August 4 – 9, 2013, pp. 1341 – 1351.
  10. Ballatore A. et al. Linking geographic vocabularies through WordNet // Annals of GIS 20 (2). 2014.
  11. The Global WordNet Association. globalwordnet.org // globalwordnet.org, 4 февруари 2010. Посетен на 11 март 2014.
  12. Wordnets in the World // Архивиран от оригинала на 2011-10-21. Посетен на 2015-05-04.
  13. Francis Bond and Kyonghee Paik 2012a. A survey of wordnets and their licenses Архив на оригинала от 2016-03-04 в Wayback Machine.. In Proceedings of the 6th Global WordNet Conference (GWC 2012). Matsue. 64 – 71
  14. compling.hss.ntu.edu.sg // Архивиран от оригинала на 2014-08-19. Посетен на 2015-05-04.
  15. Chinese Wordnet (中文詞彙網路) official page at National Taiwan University
  16. S. Benoît, F. Darja. 2008. Building a free French wordnet from multilingual resources. In Proc. of Ontolex 2008, Marrakech, Maroc.
  17. C. Mouton, G. de Chalendar. 2010.JAWS: Just Another WordNet Subset. In Proc. of TALN 2010.
  18. Pushpak Bhattacharyya, IndoWordNet, Lexical Resources Engineering Conference 2010 (LREC 2010), Malta, май 2010.
  19. E. Pianta, L. Bentivogli, C. Girardi. 2002. MultiWordNet: Developing an aligned multilingual database Архив на оригинала от 2007-08-15 в Wayback Machine.. In Proc. of the 1st International Conference on Global WordNet, Mysore, India, pp. 21 – 25.
  20. P. Vossen, Ed. 1998. EuroWordNet: A Multilingual Database with Lexical Semantic Networks. Kluwer, Dordrecht, The Netherlands.
  21. The Global WordNet Association // Globalwordnet.org, 4 февруари 2010. Посетен на 5 януари 2014.
  22. D. Tufis, D. Cristea, S. Stamou. 2004. Balkanet: Aims, methods, results and perspectives. A general overview Архив на оригинала от 2011-07-18 в Wayback Machine.. Romanian J. Sci. Tech. Inform. (Special Issue on Balkanet), 7(1 – 2), pp. 9 – 43.
  23. Русский WordNet // Pgups.ru. Архивиран от оригинала на 2013-11-05. Посетен на 5 януари 2014.
  24. RussNet: Главна страница // Project.phil.spbu.ru. Посетен на 11 март 2014.
  25. FinnWordNet – The Finnish WordNet – Department of General Linguistics // Ling.helsinki.fi. Архивиран от оригинала на 2015-04-21. Посетен на 5 януари 2014.
  26. GermaNet // Sfs.uni-tuebingen.de. Архивиран от оригинала на 2015-05-18. Посетен на 11 март 2014.
  27. arademaker/openWordnet-PT ¡ GitHub // Github.com. Посетен на 5 януари 2014.
  28. official webpage plwordnet.pwr.wroc.pl // Архивиран от оригинала на 2015-05-12. Посетен на 2015-05-04.
  29. official webpage www.ltc.amu.edu.pl
  30. R. Navigli, S. P. Ponzetto. BabelNet: Building a Very Large Multilingual Semantic Network. Proc. of the 48th Annual Meeting of the Association for Computational Linguistics (ACL 2010), Uppsala, Sweden, July 11 – 16, 2010, pp. 216 – 225.
  31. A. Pease, I. Niles, J. Li. 2002. The suggested upper merged ontology: A large ontology for the Semantic Web and its applications Архив на оригинала от 2016-03-04 в Wayback Machine.. In Proc. of the AAAI-2002 Workshop on Ontologies and the Semantic Web, Edmonton, Canada.
  32. S. Reed and D. Lenat. 2002. Mapping Ontologies into Cyc Архив на оригинала от 2004-06-13 в Wayback Machine.. In Proc. of AAAI 2002 Conference Workshop on Ontologies For The Semantic Web, Edmonton, Canada, 2002.
  33. Masolo, C., Borgo, S., Gangemi, A., Guarino, N., Oltramari, A., Schneider, L.S. 2002. WonderWeb Deliverable D17. The WonderWeb Library of Foundational Ontologies and the DOLCE ontology. Report (ver. 2.0, 15-08-2002)
  34. Gangemi, A., Guarino, N., Masolo, C., Oltramari, A. 2003 Sweetening WordNet with DOLCE.
  35. C. Bizer, J. Lehmann, G. Kobilarov, S. Auer, C. Becker, R. Cyganiak, S. Hellmann, DBpedia – A crystallization point for the Web of Data Архив на оригинала от 2010-02-02 в Wayback Machine.. Web Semantics, 7(3), 2009, pp. 154 – 165.
  36. S. M. Harabagiu, G. A. Miller, D. I. Moldovan. 1999. WordNet 2 – A Morphologically and Semantically Enhanced Resource Архив на оригинала от 2004-07-04 в Wayback Machine.. In Proc. of the ACL SIGLEX Workshop: Standardizing Lexical Resources, pp. 1 – 8.
  37. J. Deng, W. Dong, R. Socher, L. Li, K. Li, L. Fei-Fei. ImageNet: A Large-Scale Hierarchical Image Database Архив на оригинала от 2014-10-03 в Wayback Machine.. In Proc. of 2009 IEEE Conference on Computer Vision and Pattern Recognition
  38. M. Poprat, E. Beisswanger, U. Hahn. 2008. Building a BIOWORDNET by Using WORDNET’s Data Formats and WORDNET’s Software Infrastructure – A Failure Story. In Proc. of the Software Engineering, Testing, and Quality Assurance for Natural Language Processing Workshop, pp. 31 – 39.
  39. S. Ponzetto, R. Navigli. Large-Scale Taxonomy Mapping for Restructuring and Integrating Wikipedia Архив на оригинала от 2011-07-15 в Wayback Machine., In Proc. of the 21st International Joint Conference on Artificial Intelligence (IJCAI 2009), Pasadena, California, July 14-17th, 2009, pp. 2083 – 2088.
  40. S. P. Ponzetto, R. Navigli. Knowledge-rich Word Sense Disambiguation rivaling supervised systems. In Proc. of the 48th Annual Meeting of the Association for Computational Linguistics (ACL), 2010, pp. 1522 – 1531.
  41. S. Baccianella, A. Esuli and F. Sebastiani. SentiWordNet 3.0: An Enhanced Lexical Resource for Sentiment Analysis and Opinion Mining Архив на оригинала от 2011-07-22 в Wayback Machine.. In Proceedings of the 7th Conference on Language Resources and Evaluation (LREC'10), Valletta, MT, 2010, pp. 2200 – 2204.
  42. Piek Vossen, Claudia Soria, Monica Monachini: Wordnet-LMF: a standard representation for multilingual wordnets, in LMF Lexical Markup Framework, edited by Gil Francopoulo ISTE / Wiley 2013 (ISBN 978-1-84821-430-9)
  43. Babylon WordNet // Babylon.com. Архивиран от оригинала на 2015-01-01. Посетен на 11 март 2014.
  44. GoldenDict – Browse /dictionaries at Sourceforge.net // Sourceforge.net, 1 декември 2010. Посетен на 5 януари 2014.
  45. Lingoes WordNet // Lingoes.net, 16 ноември 2007. Посетен на 11 март 2014.

Допълнителни източници

[редактиране | редактиране на кода]
  Тази страница частично или изцяло представлява превод на страницата WordNet в Уикипедия на английски. Оригиналният текст, както и този превод, са защитени от Лиценза „Криейтив Комънс – Признание – Споделяне на споделеното“, а за съдържание, създадено преди юни 2009 година – от Лиценза за свободна документация на ГНУ. Прегледайте историята на редакциите на оригиналната страница, както и на преводната страница, за да видите списъка на съавторите. ​

ВАЖНО: Този шаблон се отнася единствено до авторските права върху съдържанието на статията. Добавянето му не отменя изискването да се посочват конкретни източници на твърденията, които да бъдат благонадеждни.​