SPTAG: un algoritmo de aprendizaje automático open source de Microsoft

sptag

Los motores de búsqueda de hoy han evolucionado mucho ya que no solo se sirven con solo devolver las páginas después de recibir una o más palabras clave, sino que también intentan responder preguntas, sugerir contextos, etc. Los usuarios incluso tienen la capacidad de buscar desde otros elementos, como imágenes.

Por supuesto, seguir las preferencias de búsqueda de los usuarios no es nuevo: ha sido una lucha difícil desde la creación de la búsqueda web.

Pero ahora, cada vez es más difícil satisfacer estas necesidades siempre cambiantes, gracias a los avances en inteligencia artificial, incluidos los desarrollados por el equipo de investigación de Bing y los investigadores del laboratorio de investigación de Microsoft.

“La inteligencia artificial hace que los productos con los que trabajamos sean cada vez más naturales”, dijo Rangan Majumder, Gerente de Programas del Grupo para el equipo de Investigación de Bing e Inteligencia Artificial de Microsoft.

Usando vectores para una mejor búsqueda

Los algoritmos de aprendizaje automático de Bing se utilizan para crear vectores, (esencialmente una representación digital de una palabra, un píxel de imagen u otro punto de datos). Un vector ayuda a capturar lo que realmente significa un dato, ya sea texto en una página web, imágenes, sonido o videos.

Una vez que el punto numérico se ha asignado a un dato determinado, puede organizar o mapear vectores, con números cercanos colocados cerca uno del otro para representar la similitud. Estos resultados proximales se muestran a los usuarios, lo que mejora los resultados de búsqueda.

Microsoft comenzó a centrarse en la tecnología en la que se basa la investigación vectorial de Bing cuando los ingenieros de la compañía comenzaron a notar patrones inusuales en los patrones de búsqueda de los usuarios.

“Al analizar nuestras revistas, el equipo descubrió que las consultas de búsqueda se hacían cada vez más largas”, dijo Majumder.

Esto sugería que los usuarios hacían más preguntas, daban muchos detalles debido a resultados anteriores que no eran satisfactorios con una búsqueda por palabra clave, o “intentaban actuar como computadoras” cuando describían cosas abstractas.

Con Bing Search, la vectorización se ha expandido a más de 150 mil millones de datos indexados de motores de búsqueda para mejorar la comparación con las palabras clave tradicionales.

Estos incluyen palabras simples, caracteres, fragmentos de páginas web, consultas completas y otros medios. Una vez que un usuario realiza una búsqueda, Bing puede analizar los vectores indexados y proporcionar la mejor coincidencia.

La asignación de vectores también se forma utilizando tecnología de aprendizaje en profundidad para la mejora continua.

Los modelos tienen en cuenta las entradas, como los clics del usuario final después de una búsqueda para comprender mejor el significado de esta búsqueda.

Space Partition Tree and Graph fue liberado como código abierto

De hecho, Microsoft usa un algoritmo llamado Space Partition Tree and Graph (SPTAG). Una consulta de entrada se convierte en un vector, y SPTAG se usa para encontrar rápidamente “vecinos más cercanos”, es decir, vectores que son similares a la entrada.

“Microsoft usa la búsqueda vectorial para su propio motor de búsqueda Bing, una tecnología que ayuda a Bing a comprender mejor la intención detrás de miles de millones de búsquedas web y encontrar el resultado más relevante entre miles de millones de páginas web”.

Microsoft ha puesto a disposición de todos, como un proyecto de código abierto en GitHub,

“una de las herramientas de inteligencia artificial más avanzadas y más adecuadas para satisfacer las necesidades de búsqueda de los usuarios en constante cambio”.

El miércoles, el editor también publicó ejemplos de técnicas de usuario y un vídeo de acompañamiento para estas herramientas a través del laboratorio de inteligencia artificial de Microsoft.

El equipo de Bing ha declarado que espera que la oferta de código abierto pueda ser utilizada por las empresas o aplicaciones principales para identificar un idioma hablado basado en un fragmento de audio, o para servicios que incluyen muchas imágenes, como una aplicación que permite a los usuarios relacionar los datos y búsquedas.

Código fuente de SPTAG


Sé el primero en comentar

Deja tu comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

*

*

  1. Responsable de los datos: Miguel Ángel Gatón
  2. Finalidad de los datos: Controlar el SPAM, gestión de comentarios.
  3. Legitimación: Tu consentimiento
  4. Comunicación de los datos: No se comunicarán los datos a terceros salvo por obligación legal.
  5. Almacenamiento de los datos: Base de datos alojada en Occentus Networks (UE)
  6. Derechos: En cualquier momento puedes limitar, recuperar y borrar tu información.