Научный журнал
Фундаментальные исследования
ISSN 1812-7339
"Перечень" ВАК
ИФ РИНЦ = 1,674

МОДЕЛЬ ПРОЦЕССА МНОГОЯЗЫКОВОГО ИНТЕЛЛЕКТУАЛЬНОГО ИНФОРМАЦИОННОГО ПОИСКА С УЧЕТОМ МУЛЬТИАГЕНТНОЙ РЕАЛИЗАЦИИ

Шоуман М.А. 1
1 Московский государственный технический университет им. Н.Э. Баумана
Рост количества информации в сети Интернет заставляет постоянно совершенствовать средства поиска необходимых данных. С учетом того, что большинство пользователей интернета знают не менее одного иностранного языка, современные средства поиска должны быть многоязыковыми. Однако имеющиеся поисковые системы не обеспечивают автоматического многоязыкового поиска. В статье выполнен анализ процесса многоязыкового интеллектуального информационного поиска и выявлены операции, входящие в указанный процесс. Полученное множество операций декомпозировано для реализации отдельными интеллектуальными агентами. Критериями декомпозиции послужили возможность и целесообразность распараллеливания их выполнения, а также минимизация передаваемой между агентами информации. В результате получена модель многоязыкового интеллектуального информационного поиска в виде нечеткого метаграфа. Предложена реализация поисковой системы на мультиагентной платформе JADA. Приведены результаты выполнения экспериментов на реализованной системе.
мультиагентные системы
многоязыковой информационный поиск
нечеткий метаграф
1. Иванова Г.С. Автоматический поиск информации с использованием мульти-агентной системы / Г.С. Иванова, А.М. Андреев, В.И. Нефедов, М.А. Шоуман, Е.В. Егорова // Электромагнитные волны и электронные системы. – 2015. – Т. 20 – № 2. – С. 33–38.
2. Иванова Г.С., Андреев А.М., Шоуман М.А. Поиск и Ранжирование документов с использованием мультиагентной системы. //Фундаментальные исследования. – 2015. – № 10 . – Часть 3. – С.489–494.
3. Многоязычный поиск Google. – URL: http://www.searchengines.ru/seoblog/ mnogoyazych.html (дата обращения 11.11.2015).
4. Bellifemine, F. L., Caire, G., и др. Developing Multi-Agent Systems with JADE. : Wiley. – 2007.
5. Bellifemine F, Poggi A, Rimassa G: JADE – A FIPA-compliant agent framework, University of Parma. – 2000.
6. Jialun Q., Zhou Y., Yilu Z., Chau M., Hsinchun C. Multilingual Web retrieval: An experiment in English-Chinese business intelligence. // Journal of the American Society for Information Science and Technology(JASIST). – 2006. – Vol. 5. –P. 671–683.
7. Manning D., Raghavan C., Sch tze H. Introduction to Information Retrieval: Cambridge. – England. – 2008.
8. Singhal A. Modern information retrieval: a brief overview // Bulletin of the IEEE Computer Society Technical Committee on Data Engineering. – 2001. – Vol 24. – P. 35–43.
9. Yoshinaga K., Terano T., Zhong N. Multi-lingual Intelligent Information Retriever with Automated Ontology Generator // In Proc. of Third International Conference on Knowledge-Based Intelligent Information Engineering Systems. – 1999. – P. 62–65.

Многоязыковой информационный поиск – процесс поиска информации в сети Интернет на нескольких языках. При автоматическом многоязыковом поиске пользователь вводит запрос на одном языке, а поисковая система должна обеспечивать перевод запроса на указанные языки и предоставлять ранжированные результаты на всех выбранных языках.

Большинство широко известных поисковых систем, таких как Yandex, Google и др., не реализуют всех функций автоматического многоязыкового поиска. Так, например, поисковые системы Yandex и Google не обеспечивают поиск по переводам введенных терминов. А объявленная возможность многоязыкового поиска Google [3] предполагает поиск по введенному запросу среди документов на других языках. Отсутствие многоязыкового поиска в указанных системах предполагает выполнение перевода терминов и ранжирование результатов поисков на различных языках вручную.

Немногочисленные существующие многоязыковые поисковые системы имеют существенные недостатки, а именно значительное время поиска и сложные методы ранжирования найденных документов, применение которых дополнительно увеличивает время отклика системы.

Уменьшить время многоязыкового поиска можно, используя распараллеливание обработки. С этой целью целесообразным представляется применение мультиагентных платформ для реализации поисковых систем. Помимо обычного распараллеливания мультиагентная организация при наличии соответствующих ресурсов позволяет выполнить масштабирование системы.

Однако для разработки эффективной мультиагентной реализации системы необходимо исследовать процесс многоязыкового информационного поиска и построить его модель.

Целью настоящего исследования является разработка структурной модели процесса многоязыкового интеллектуального поиска, которая позволит проанализировать процесс поиска и выполнить его декомпозицию для последующей реализации взаимодействующими мультиагентами. Кроме этого, модель процесса должна учитывать неопределенность характеристик документов, на базе которых выполняется оценка релевантности документов запросу.

Модель процесса интеллектуального информационного поиска на трех языках

В [1] рассмотрена модель процесса интеллектуального информационного поиска текстовых документов с помощью мультиагентной системы на одном языке. При этом предполагается выполнение следующих операций:

  • ввод запроса;
  • поиск в Интернете по ключевым словам;
  • извлечение информации из Веб-источников;
  • интеллектуальный анализ извлеченных документов;
  • получение оценок релевантности документов запросам;
  • ранжирование документов по степени релевантности.

Модель представляет собой нечеткий метаграф, поскольку указанная модель является иерархической и позволяет отобразить совокупность операций, выполняемых в процессе поиска одним мультиагентом. Неточность оценок релевантности документов в этой модели отображается в виде нечеткого множества вершин нечеткого метаграфа.

Модель многоязыкового информационного поиска на базе мультиагентной реализации имеет свои особенности. Так, эта модель помимо необходимости перевода терминов, задаваемых пользователем на одном языке, должна учитывать:

  • необходимость отдельных поисков в Интернете по запросу на каждом языке;
  • особенности интеллектуального анализа текстов на различных языках;
  • необходимость совместного ранжирования полученных результатов.

Первая операция многоязыкового поиска – ввод запроса. Эту операцию целесообразно выполнять отдельным интерфейсным агентом.

Следующая операция – перевод на указанные языки. Эту операцию должен выполнять агент-переводчик. Анализ показал, что при переводе по возможности следует использовать словарь терминов (устоявшихся словосочетаний), а не отдельных слов [6, 9]. Это обеспечит лучшее качество перевода и исключит извлечение нерелевантных документов.

Операции поиска выполняются отдельно с разными переводами запроса. Однако за счет индексирования и других приемов ускорения время поиска по сравнению с временем выполнения других операций невелико, а потому поиск целесообразно выполнять одним агентом, обращаясь для получения ссылок к одной из поисковых систем (Google, Yandex и т.п.).

Операции извлечения и анализа текстов выполняются для каждого языка отдельно, поскольку документы на различных языках будут обрабатываться с использованием соответствующих правил языков. Интеллектуальный анализ текстов включает лексемизацию, фильтрацию и лемматизацию, что позволяет увеличить точность оценки релевантности документов [7, 8].

В [2] для оценки релевантности документов предложено использовать векторную меру и статистические веса появления терминов в документах. Неточность этих оценок частично скомпенсирована за счет использования экспертной системы на базе нечеткого логического вывода Сугено [2]. Правила для системы нечеткого логического вывода формируются с использованием характеристик вершин нечеткого метаграфа.

Операция оценки релевантности уже не зависит от языка, поскольку на этом этапе для всех документов должна использоваться единая мера сходства. Однако выполнение этой операции разными агентами для различных языков увеличит возможности распараллеливания процесса.

Операции извлечения, анализа текстов и оценки релевантности передают друг другу большие объемы информации (тексты документов). Передача этих данных различными агентами через сообщения нецелесообразна, поэтому эти операции следует выполнять одним агентом для каждого языка.

Операция ранжирования должны выполняться над всеми документами сразу, поэтому ее также должен выполнять один агент.

Тогда структура нечеткого метаграфа shouman01.wmf, представляющего собой модель процесса многоязыкового интеллектуального поиска, описывается следующим образом:

shouman02.wmf

где shouman03.wmf – множество операций, осуществляемых в процессе поиска и интеллектуальной обработки документов; shouman04.wmf – нечеткое множество на X – множество операций (табл. 1), осуществляемых в процессе поиска и интеллектуальной обработки документов с учетом неопределенности shouman05.wmf, где ? – функции принадлежности, ?xi ? X??: xi ? [0, 1];

shouman06.wmf – множество сообщений, передаваемых между мультиагентами:

shouman07.wmf – передается запрос;

shouman08.wmf – передаются запрос и его переводы;

shouman09.wmf – передаются извлеченные тексты документов;

shouman10.wmf – передаются извлеченные тексты документов;

shouman11.wmf – передаются извлеченные тексты документов;

shouman12.wmf – передаются оценки релевантности документов;

shouman13.wmf – передаются оценки релевантности документов;

shouman15.wmf – передаются оценки релевантности документов.

Таблица 1

Условные обозначения элементарных операций поиска

Элемент множества

Обозначение

Операция

shouman16.wmf

UI

Ввод ключевых слов пользователем

shouman17.wmf

AR, RU, EN

Перевод ключевых слов на остальные языки

shouman18.wmf

URL

Поиск ссылок на каждом языке

shouman19.wmf

RD

Извлечение документов

shouman20.wmf

DT

Лексемизация документов

shouman21.wmf

DF

Фильтрация документов

shouman22.wmf

DS

Лемматизация документов

shouman23.wmf

TW

Вычисление весов терминов

shouman24.wmf

OE

Вычисление оценок релевантности и ранжирование результатов

Каждому агенту в модели соответствует подмножество операций:

  • интерфейсному агенту – shouman25.wmf;
  • агенту-переводчику – shouman26.wmf;
  • поисковому агенту – shouman27.wmf;
  • агенту извлечения документов и интеллектуальной обработки текстов на арабском языке – shouman28.wmf;
  • агенту извлечения документов и интеллектуальной обработки текстов на русском языке – shouman29.wmf;
  • агенту извлечения документов и интеллектуальной обработки текстов на английском языке – shouman30.wmf;
  • агенту ранжирования результатов поиска – shouman31.wmf.

Аналогично могут быть построены модели информационного поиска, рассчитанные на большее количество языков. Для добавления еще одного языка следует добавить словари для перевода терминов на этот язык и интеллектуального агента, умеющего выполнять анализ текстов на этом языке.

Реализация системы многоязыкового интеллектуального поиска на мультиагентной платформы JADA

Процесс многоязыкового информационного поиска был реализован в виде мультиагентной системы. В качестве программной среды при этом была использована среда JADE (Java Agent Development Framework) [5]. Эта среда является программным обеспечением для разработки агентских приложений в соответствии со спецификациями FIPA [4] для взаимозаменяемых интеллектуальных мультиагентных систем.

На рис. 2 показан вывод агента-переводчика пользовательского запроса «database».

Выполненная реализация позволила исследовать процесс интеллектуального многоязыкового информационного поиска. Так, в табл. 2 показаны результаты вычисления весов терминов для запроса «Искусственный интеллект». Указанный запрос был переведен на английский и арабский языки, и полученные три запроса были переданы поисковой системе Google. Анализ представленных результатов подтверждает необходимость совокупного ранжирования полученных документов, поскольку среди первых 7 найденных документов на каждом языке присутствуют документы с низкими характеристиками весов терминов, т.е. документы, которые на основании вычисленных характеристик релевантности должны быть признаны нерелевантными.

pic_55.tif

Рис. 1. Модель процесса интеллектуального информационного поиска на трех языках: RU – русском; EN – английском; AR – арабском

pic_56.tif

Рис. 2. Вывод агента-переводчика пользовательского запроса со словом «database»

Таблица 2

Взвешенные нормализованные веса терминов для первых семи документов, найденных по запросу «Интеллект искусственный»

Арабский язык. Нормализованный вес термина

Английский язык. Нормализованный вес термина

Русский язык. Нормализованный вес термина

word_1.wmf

word_2.wmf

Artifici

Intellig

Интеллект

искусственный

0,812

0,583

0,456

0,494

0,781

0,625

0

0

0,832

0,555

0,707

0,707

0,657

0,478

0,024

0,975

0,707

0,707

0

0

0,618

0,786

0,708

0,707

0,994

0,110

0

0

0,723

0,690

0

0

0,678

0,735

0,707

0,707

0,942

0,099

0,707

0,707

0,669

0,706

На рис. 3 показана диаграмма прироста времени поиска при добавлении одного языка. За счет распараллеливания обработки этот прирост составляет примерно 25 ± 10 %, что зависит от количества документов, найденных в Интернете по конкретному запросу на добавленном языке.

pic_57.tif

Рис. 3. Зависимость времени работы системы от количества используемых языков

Эксперимент был осуществлен с использованием следующего оборудования: ЦП Intel (R) core (TM) i7-2670 QM CPU @2.20 GHZ, установленная память (ОЗУ): 6.00 ГБ и тип ОС: 64-битная операционная система.

Заключение

В статье предложена модель многоязыкового интеллектуального информационного поиска в виде нечеткого метаграфа, которая позволяет отобразить основные особенности указанного процесса с учетом последующей реализации поисковой системы на мультиагентной платформе.

Исследование выполненной реализации позволяет сделать вывод об обязательности ранжирования совокупности результатов выполнения многоязыковых поисковых запросов.

Статистическая обработка результатов исследования мультиагентной реализации позволяет сделать вывод о том, что прирост времени при добавлении одного языка зависит от количества документов на этом языке, найденных при выполнении запросов, и составляет примерно 25 ± 10 %.


Библиографическая ссылка

Шоуман М.А. МОДЕЛЬ ПРОЦЕССА МНОГОЯЗЫКОВОГО ИНТЕЛЛЕКТУАЛЬНОГО ИНФОРМАЦИОННОГО ПОИСКА С УЧЕТОМ МУЛЬТИАГЕНТНОЙ РЕАЛИЗАЦИИ // Фундаментальные исследования. – 2015. – № 12-4. – С. 724-728;
URL: https://fundamental-research.ru/ru/article/view?id=39612 (дата обращения: 29.03.2024).

Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания»
(Высокий импакт-фактор РИНЦ, тематика журналов охватывает все научные направления)

«Фундаментальные исследования» список ВАК ИФ РИНЦ = 1,674