SPTAG: алгоритм машинного обучения с открытым исходным кодом от Microsoft

сптаг

Сегодняшние поисковые системы сильно изменились поскольку они обслуживаются не только путем простого возврата страниц после получения одного или нескольких ключевых слов, но также пытаются отвечать на вопросы, предлагать контексты и т. д. Пользователи даже могут выполнять поиск по другим элементам, например изображениям.

Да конечноСледующие поисковые предпочтения пользователей не новость: Это была трудная борьба с момента появления веб-поиска.

Но сейчас удовлетворить эти потребности становится все труднее. постоянно меняющаяся благодаря достижениям в области искусственного интеллекта, в том числе разработанным исследовательской группой Bing и исследователями из исследовательской лаборатории Microsoft.

«Искусственный интеллект делает продукты, с которыми мы работаем, все более и более естественными», Ранган Маджумдер сказал: Руководитель групповой программы отдела исследований Bing и искусственного интеллекта Microsoft.

Использование векторов для лучшего поиска

Алгоритмы машинного обучения Bing используются для создания векторов, (по сути, цифровое представление слова, пикселя изображения или другой точки данных). Вектор помогает понять, что на самом деле означает часть данныхбудь то текст на веб-странице, изображения, звук или видео.

После того, как числовая точка была присвоена данным определенный, может упорядочивать или отображать векторы, с близкими числами, помещенными близко друг к другу для обозначения сходства. Эти приблизительные результаты отображаются для пользователей, улучшая результаты поиска.

Microsoft начала сосредотачиваться на технология, на которой он основан Исследование вектора Bing когда инженеры компании начали замечать необычные закономерности в поисковых шаблонах пользователей.

«Проанализировав наши журналы, команда обнаружила, что поисковые запросы становились все длиннее и длиннее, - сказал Маджумдер.

Это наводило на мысль, что пользователи задавали больше вопросов, давали слишком много деталей из-за предыдущих результатов, которые не были удовлетворительными при поиске по ключевым словам, или «пытались вести себя как компьютеры» при описании абстрактных вещей.

Благодаря Bing Search векторизация расширилась до более чем 150 миллиардов проиндексированных данных. поисковые системы для улучшения сравнения с традиционными ключевыми словами.

эти включать простые слова, символы, фрагменты веб-страниц, полные запросы и т. д. СМИ. Как только пользователь выполнит поиск, Bing может проанализировать проиндексированные векторы и предоставить наилучшее соответствие.

Векторное отображение также формируется с использованием технологии глубокого обучения для постоянного улучшения.

Модели учитывают такие входные данные, как клики конечного пользователя после поиска, чтобы лучше понять смысл этого поиска.

Space Partition Tree and Graph выпущен с открытым исходным кодом

на самом деле, Microsoft использует алгоритм под названием Space Partition Tree and Graph. (SPTAG). Входной запрос преобразуется в вектор, и SPTAG используется для быстрого поиска «ближайших соседей», то есть векторов, похожих на входные.

«Microsoft использует векторный поиск для своей собственной поисковой системы Bing, технологии, которая помогает Bing лучше понимать цели миллиардов поисковых запросов и находить наиболее релевантные результаты на миллиардах веб-страниц».

Microsoft стал доступен всем как проект с открытым исходным кодом на GitHub,

«Один из самых передовых и наиболее подходящих инструментов искусственного интеллекта для удовлетворения постоянно меняющихся потребностей пользователей в поиске».

В среду издатель также разместил образцы пользовательской техники и сопутствующее видео для этих инструментов через лабораторию искусственного интеллекта Microsoft.

Команда Bing заявила, что надеется, что предложение с открытым исходным кодом можно будет использовать. крупными компаниями или приложениями для определения разговорного языка на основе фрагмента аудио, или для служб, включающих множество изображений, таких как приложение, которое позволяет пользователям сопоставлять данные и результаты поиска.

Исходный код SPTAG


Оставьте свой комментарий

Ваш электронный адрес не будет опубликован. Обязательные для заполнения поля помечены *

*

*

  1. Ответственный за данные: AB Internet Networks 2008 SL
  2. Назначение данных: контроль спама, управление комментариями.
  3. Легитимация: ваше согласие
  4. Передача данных: данные не будут переданы третьим лицам, кроме как по закону.
  5. Хранение данных: база данных, размещенная в Occentus Networks (ЕС)
  6. Права: в любое время вы можете ограничить, восстановить и удалить свою информацию.