Википедия:Вики-конференция 2009/Программа/Доклады/Машинная обработка Русского Викисловаря
Машинная обработка Русского Викисловаря[1][править код]
Аннотация. В докладе обсуждается вопрос — является ли Викисловарь вещью в себе? Если нет, то в каких приложениях и компьютерных программах он может использоваться? Что для этого сделано и что ещё предстоит сделать? В работе рассказывается о создании машинно-читаемого словаря на основе данных Русского Викисловаря.
Введение. Викисловарь, как лингвистический ресурс — это лакомый кусочек для систем автоматической обработки текста. Но… только после преобразования текстов Викисловаря в машинный формат, после создания машинного интерфейса с богатой функциональностью, то есть такого набора функций, который позволит выполнять различные полезные запросы к извлечённым данным.
Мотивация. Викисловарь по определению является «многофункциональным многоязычным словарём и тезаурусом». При этом, чтобы оценить потенциал Викисловаря, достаточно вспомнить успех «просто» тезауруса WordNet, который совсем не «многофункциональный» и не «многоязычный», но при всех своих недостатках[2] активно применяется во многих приложениях. Вероятно, машинно-читаемый словарь (MRD), построенный по данным Викисловаря, будет востребован:
- в поисковых системах,
- в системах сравнения онтологий,
- при распознавании запроса в запросно-ответных системах,
- при определение значения многозначного слова,
- при автоматическом создание тезаурусов,
- в машинном переводе,
- в компьютерных программах, помогающих в изучении языков (CALL).
Feedback. Что это даст редакторам и читателям Викисловаря? Графическая оболочка к данным, извлечённым из Викисловаря, позволит редакторам выполнять сложные запросы[3]. У читателей будет доступ к словарю в режиме офлайн.
Трудности. Омонимия. В пределах одной словарной статьи (т.е. одной страницы Викисловаря) явно указаны: (1) разные значения слова, (2) соответствующие им семантические отношения (например, синонимы) и (3) соответствующие переводы. Однако при упоминании этого слова в других словарных статьях (например в толковании слова или в переводе) нет явного указание на значение слова. Для читателей это, в целом, не представляет трудности, но это требует разработки специальных алгоритмов для автоматического снятия омонимии.
Реализация и результаты. Программа написана на языке Java и состоит из двух частей: парсер Викисловаря и графическая оболочка для работы с извлечёнными данными.[4] Графическая оболочка написана на JavaFX, и её можно представить в виде некоторого браузера к данным машинно-читаемого словаря. Итак, положено начало созданию парсера Русского Викисловаря.
Примечания[править код]
- ↑ Работа выполнена при финансовой поддержке РФФИ (проект № 08-07-00264), Президиума РАН (проект № 213).
- ↑ См. WordNet#Problems and Limitations
- ↑ Сложные запросы, например, с помощью символов-джокеров, будут в следующих версиях программы. В данной версии реализован только поиск по слову.
- ↑ См. страницу с программой wiwordik. Осторожно, альфа-версия программы!