Википедия:Вики-конференция 2009/Программа/Доклады/Машинная обработка Русского Викисловаря

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

Машинная обработка Русского Викисловаря[1][править код]

Скриншот графического интерфейса к машинно-читаемому словару, построенному на основе данных Русского Викисловаря.

Аннотация. В докладе обсуждается вопрос — является ли Викисловарь вещью в себе? Если нет, то в каких приложениях и компьютерных программах он может использоваться? Что для этого сделано и что ещё предстоит сделать? В работе рассказывается о создании машинно-читаемого словаря на основе данных Русского Викисловаря.

Введение. Викисловарь, как лингвистический ресурс — это лакомый кусочек для систем автоматической обработки текста. Но… только после преобразования текстов Викисловаря в машинный формат, после создания машинного интерфейса с богатой функциональностью, то есть такого набора функций, который позволит выполнять различные полезные запросы к извлечённым данным.

Кратчайший путь от слова “рапорт” до слова “труд”, найденный в тезаурусе Русского Викисловаря (“рапорт”, “отчёт”, “дневник”, “журнал”, “издание”, “публикация”, “работа”, “труд”) с помощью алгоритма Дейкстры. На примере отношений между словами - “дневник”, “журнал”, “издание” - видно существующую проблему не различения значений слов (омонимии), т.е. "схлопывания" значений, в разработанной программе вычисления семантической близости между словами.

Мотивация. Викисловарь по определению является «многофункциональным многоязычным словарём и тезаурусом». При этом, чтобы оценить потенциал Викисловаря, достаточно вспомнить успех «просто» тезауруса WordNet, который совсем не «многофункциональный» и не «многоязычный», но при всех своих недостатках[2] активно применяется во многих приложениях. Вероятно, машинно-читаемый словарь (MRD), построенный по данным Викисловаря, будет востребован:

Feedback. Что это даст редакторам и читателям Викисловаря? Графическая оболочка к данным, извлечённым из Викисловаря, позволит редакторам выполнять сложные запросы[3]. У читателей будет доступ к словарю в режиме офлайн.

Трудности. Омонимия. В пределах одной словарной статьи (т.е. одной страницы Викисловаря) явно указаны: (1) разные значения слова, (2) соответствующие им семантические отношения (например, синонимы) и (3) соответствующие переводы. Однако при упоминании этого слова в других словарных статьях (например в толковании слова или в переводе) нет явного указание на значение слова. Для читателей это, в целом, не представляет трудности, но это требует разработки специальных алгоритмов для автоматического снятия омонимии.

Реализация и результаты. Программа написана на языке Java и состоит из двух частей: парсер Викисловаря и графическая оболочка для работы с извлечёнными данными.[4] Графическая оболочка написана на JavaFX, и её можно представить в виде некоторого браузера к данным машинно-читаемого словаря. Итак, положено начало созданию парсера Русского Викисловаря.

Примечания[править код]

  1. Работа выполнена при финансовой поддержке РФФИ (проект № 08-07-00264), Президиума РАН (проект № 213).
  2. См. WordNet#Problems and Limitations
  3. Сложные запросы, например, с помощью символов-джокеров, будут в следующих версиях программы. В данной версии реализован только поиск по слову.
  4. См. страницу с программой wiwordik. Осторожно, альфа-версия программы!

Ссылка на презентацию