Andrew Krizhanovsky » Publication
Share It:
Published
2011-05-08
Published on SciPeople2011-05-08 17:41:39
Оценка использования корпусов и электронных библиотек в Русском Викисловаре
Труды международной конференции «Корпусная лингвистика–2011». – СПб.: С.-Петербургский гос. университет, Филологический факультет, 2011, 348 с. – C. 217—222. ISBN 978-5-8465-0005-5.
Abstract
Корпус является важным инструментом лексикографов при создании словарей. В этой работе оценивается – в каком объёме используются различные корпуса и электронные библиотеки в Русском Викисловаре для иллюстрации значений слов и словосочетаний. Викисловарь – это многофункциональный многоязычный словарь и тезаурус. Численная оценка цитат Русского Викисловаря получена с помощью разработанной компьютерной системы автоматического извлечения данных из Викисловаря. На начало 2011 г. Русский Викисловарь содержал больше 280 тысяч словарных статей, из которых было извлечено и сохранено в базу данных машинно-читаемого словаря 51.5 тысяч цитат, из них 82 % иллюстрируют русские слова. На немецком языке (втором по числу цитат) представлено только 3 % от всех цитат. Анализ данных Викисловаря показал, что для каждой третьей цитаты указан корпус текстов или электронная библиотека, из которого получена цитата. Главным источником оказался Национальный корпус русского языка, на который ссылается 95 % цитат с источниками. На втором месте – электронная Библиотека Максима Мошкова, на которую ссылается 1.3 % цитат с источниками (215 цитат).

http://code.google.com/p/wikokit/
wikt_ruscorpora_14_full.pdf
Show statistics 
