About this group

Основная задача - создание инструмента, который бы позволял автоматически извлекать лексико-семантические отношения из русскоязычных текстов. В программе Unitex (http://igm.univ-mlv.fr/~unitex/index.php?page=3&html=beta.html#)мы создаем паттерны, определяющие лексико-семантические отношения, которые в последующем запускаются на корпусе текстов. В результате мы получаем извлеченные бинарные отношения.

R Автоматическое извлечение лексико-семантических отношений из русскоязычных текстов

Основная цель проекта — создание инструмента, позволяющего автоматически извлекать семантические отношения из русскоязычных текстов. Для работы используется программа Unitex, в которой создаются графы, где прописываются паттерны для извлечения. На данном этапе работы написанные графы были проверены на корпусе тектов DBPedia (1,325,858 sentences, ~47,000,000 tokens). В результате мы получаем извлеченные бинарные отношения. Подробное описание проекта и результаты исследования.
Краткое описание паттернов и сводку результатов можно посмотреть здесь .
С текущими результатами проекта вы можете ознакомиться   здесь .
Перед Вами откроются извлеченные гипо-гиперонимические отношения по результатам запуска паттернов на тексте DBPedia (1,325,858 sentences, ~47,000,000 tokens). Числа  — ссылки на полный текст из корпуса (на них можно не обращать внимание). Вквадратных скобках стоят размеченные слова, справа от них — категория (в данном случае гипоним или гипероним), в фигурные скобки включается более широкий контекст. В конце указывается по какому шаблону была произведена разметка. Пример из последней версии разметки: 
{этнический[ язык]=HYPER}:{[ бейсик-инглиш]=HYPO},{[ латино]=HYPO}[PATTERN=3]   Т.е. можно выделить более общий...