Andrew Krizhanovsky » Publication

Share It:
Blog It:
Published 2010-11-04 Published on SciPeople2010-11-04 20:55:56 JournalArtificial Intelligence


Преобразование структуры словарной статьи Викисловаря в таблицы и отношения реляционной базы данных
Крижановский Андрей / Andrew Krizhanovsky
Abstract В статье обсуждается вопрос автоматического извлечения данных из Викисловаря – многоязычного многофункционального словаря, создающегося силами энтузиастов со всего мира на тех же принципах, на которых успешно работает энциклопедия Википедия. С точки зрения компьютерной обработки текста словарная статья Викисловаря представляет собой обычный текст. Руководство Викисловаря описывает структуру словарной статьи и ряд правил, которых должны придерживаться редакторы словаря. Эта структура и правила позволяют взглянуть на словарную статью с точки зрения объектно-ориентированного программирования. В этом случае сама статья и её разделы и подразделы будут соответствовать классам, а наличие каких-либо подразделов в разделах указывает на наличие отношений между классами-подразделами и классами-разделами. Такое соответствие позволяет перевести "плоский" текст Викисловаря в объектно-ориентированную форму, а именно: на основе данных Викисловаря создать экземпляры классов, присвоить значения свойствам объектов. Естественным результатом будет создание программного интерфейса (API) для работы с объектами этих классов, а по сути – с данными Викисловаря. С другой стороны, для удобной компьютерной обработки данные Викисловаря должны храниться в базе данных. В данной работе представлено, как при создании машинно-читаемого Викисловаря были решена задача преобразования структуры словарной статьи Викисловаря в таблицы и отношения реляционной базы данных, т.е. «плоский» текст словарных статей Викисловаря был преобразован и сохранён в специально разработанную реляционную базу данных. Созданный машинно-читаемый словарь содержит толкования слов, семантические отношения и переводы, извлечённые из Английского и Русского Викисловарей. Разработанное программное обеспечение находится в свободном доступе c открытой лицензией (http://code.google.com/p/wikokit) с тем, чтобы привлечь учёных и программистов к использованию построенного машинного словаря и развитию парсера.

Comments

You should sign in or sign up for comment this post
This comment was deleted
This comment was deleted
This comment was deleted