Скорость построения моделей для поисковых систем можно увеличить в 50 раз

Фото: mipt.ru

Разработчиками МФТИ и  ВЦ РАН Андреем Кулунчаковым и Вадимом Стрижовым предложен новый метод автоматического построения ранжирующих моделей. Эти модели используются для того, чтобы обработать запрос от пользователя на поиск информации в коллекциях документов или в интернете. Предлагаемый метод значительно повышает скорость построения моделей. Результаты исследования опубликованы в журнале  Expert Systems with Applications , который стоит на первой позиции в рейтинге журналов по искусственному интеллекту по версии Google Scholar.

При поиске среди миллионов документов в сети пользователь ожидает в результате получить небольшой полезный список. Документы списка должны быть проранжированы согласно поисковому запросу. Остальные документы для пользователя являются информационным мусором. Цель поисковой системы — найти нужный документ по запросу небольшой длины. Предложенный метод строит ранжирующие модели, позволяющие быстро достигнуть этой цели. Подобные модели являются ядром современных поисковых систем.   

Андрей Кулунчаков, соавтор работы, студент кафедры интеллектуальных систем МФТИ, комментирует: «Постановка задачи предполагала использование  только коллекций документов и поисковых запросов. Не допускалось использование никакой внешней информации о контексте, в котором выполнялся поиск. Такая задача имеет наиболее общий характер. Ранжирующие модели, предназначенные для быстрого и точного поиска информации, используются во многих областях от спам-фильтров до колл-центров».


Ранжирующая модель строится на основе простейших математических функций. Подобная модель предполагает создание из них сложной функции, которая бы решала поставленную задачу. Работа учёных была направлена на оптимизацию способа построения такой модели. Качество построенной модели смотрели в том числе, с помощью живой экспертной оценки адекватности получаемого списка документов.


Одним из способов построения моделей является генетическое программирование. Название оно получило из-за схожести с механизмом естественного отбора в природе. В ходе решения задачи строится множество промежуточных решений — «поколений» моделей, в большей или меньшей степени похожих на искомую модель высокого качества, максимально соответствующую запросу. Алгоритм отсеивает модели низкого качества путём «естественного отбора» и на основе оставшихся создает более подходящие. Лучшие «особи» имеют большую вероятность быть включёнными в следующие поколения. Сменяя множество поколений, алгоритм приближается к оптимальному решению.


К сожалению, так происходит лишь в теории. На практике число моделей растёт чрезвычайно быстро с ростом сложности. Для перебора моделей, состоящих всего лишь из восьми функций, требуется не менее суток вычислений. При этом следует перебрать все варианты, из которых в будущем может эволюционировать наилучшее решение. В предшествующих работах это достигалось медленным и не оптимальным полным перебором.


Андрей Кулунчаков и Вадим Стрижов в рамках своего исследования создали новый подход к порождению  ранжирующих моделей для поиска документов в больших коллекциях, не имеющих этих недостатков. Также исследователи решили проблему «стагнации».  Когда в сменяющих друг друга «поколениях» модели  структурно похожи и их «скрещивание» не даёт существенно новых результатов, происходит «стагнация», или «застой». В таком случае вероятность появления качественной модели существенно снижается. Для того, чтобы избежать стагнации, в поколение добавляются новые модели с целью повышения разнообразия.


Чтобы показать, что созданный метод получает модели, превосходящие по качеству  современные альтернативы, авторы поставили численный эксперимент. Были использованы базы данных Национального института стандартов и технологий США, предназначенные для анализа и сравнения подобных систем. Они состояли из двух миллионов документов и двухсот тысяч запросов. Эксперимент показал, что полученные модели имеют более высокое качество ранжирования, согласно принятому критерию МАР - Mean Average Precision (популярная мера эффективности поиска информации). Сам же метод позволяет получить модель высокого качества за существенно меньшее время.

 
По теме
Сведения в отношении ООО «ГРИНГАРАНТ ГРУПП» подлежат включению в реестр недобросовестных поставщиков - Долгие Пруды Московское областное УФАС России рассмотрело сведения, представленные ГБУ МО «Мосавтодор» в отношении ООО «ГРИНГАРАНТ ГРУПП» для включения в реестр недобросовестных поставщиков.
22.06.2018
premiy - Администрация г. Пущино с 13 июня по 13 июля во всех муниципалитетах Московской области авторы, подавшие свои проекты на соискание премий Губернатора Московской области «Наше Подмосковье», презентуют их лично.
22.06.2018
 
Московская область стала лидером среди регионов России по предложению для инвесторов - Правительство Московской области Источник: ©, сайт «Википедия» Московская область стала лидером по предложению для инвесторов среди регионов России, также сейчас в Подмосковье размещено самое большое количество промышленных площадок,
22.06.2018
Журналисты «КП» проверили городской пляж на берегу реки Коломенки - Коломенская правда Вячеслав Петрович, начальник управления по ГО, ЧС и безопасности администрации округа: - Все зоны отдыха у воды находятся под видеонаблюдением, сигнал с камер выведен в единую дежурную диспетчерскую службу.
22.06.2018 Коломенская правда
Ночной пожар в Румянцеве - Красное знамя В ночь на 17 июня в деревне Румянцево загорелся частный жилой дом. Сообщение о пожаре поступило на пульт диспетчера  службы 112 в 0 часов 55 минут.
22.06.2018 Красное знамя
ЛЮБЕРЦЫ.22 июня. INLUBERTSY.RU – В оперативно-дежурную смену центра управления в кризисных ситуациях поступило сообщение о загорании частного дома по адресу: городской округ Люберцы, Новомарусинский проезд,
22.06.2018 Люберецкая панорама
По сообщению старшего дознавателя ОНД по Рузскому району Алексея Старченко, днем 21 июня загорелся мусор на контейнерной площадке по улице Заводской в поселке Колюбакино.
22.06.2018 Красное знамя
Камеры наружного наблюдения стали частью нашей жизни, к счастью или к параноидальному сожалению.
21.06.2018 Газета Вперёд
Балашиха в числе победителей конкурса «Лучший подъезд Подмосковья» - Газета Факт На форуме «Формирование комфортной городской среды в Московской области», который состоялся 21 июня в Реутове, прошло награждение победителей смотра-конкурса «Лучший подъезд Подмосковья».
22.06.2018 Газета Факт
В канун 77-й годовщины начала Великой Отечественной войны в Павловском Посаде вспыхнули «Свечи памяти» - Павлово-Посадские известия 22 июня – самая скорбная дата в истории нашего государства. 77 лет назад в этот день началась война, унёсшая около 30 миллионов жизней советских людей, только треть из которых были военнослужащими,
21.06.2018 Павлово-Посадские известия
Более 70 километров дорог отремонтируют в Воскресенском районе - Министерство транспорта и дорожной инфраструктуры В Воскресенском районе продолжается ремонт автодорог. В этом году в муниципалитете отремонтируют 127 участков региональных и муниципальных дорог протяженностью порядка 77 километров.
22.06.2018 Министерство транспорта и дорожной инфраструктуры
Турнир по киберфутболу пройдет в Химках - Городские вести В Химках открылась регистрация на турнир по FIFA18. Соревнования в дисциплине 1×1 среди молодежи пройдут 30 июня под крытой сценой в парке культуры и отдыха им.
21.06.2018 Городские вести
В Мособлдуме рассмотрят вопросы о введении бесплатной парковки для владельцев электромобилей - Московская областная Дума В Мособлдуме 21 июня прошёл круглый стол на тему: «Электромобили как важная составляющая мероприятий по снижению загрязнения атмосферного воздуха».
22.06.2018 Московская областная Дума
В 2018 году в поселке Реммаш на территории парка «Сквер мира» Сергиево‐Посадского района появится новый скейт‐парк.
22.06.2018 Копейка
В Воскресенском районе продолжается ремонт автодорог. В этом году в муниципалитете отремонтируют 127 участков региональных и муниципальных дорог протяженностью порядка 77 километров.
22.06.2018 Министерство транспорта и дорожной инфраструктуры