SPTAG: un algoritme d'aprenentatge automàtic de codi obert de Microsoft

sptag

Els motors de cerca d'avui han evolucionat molt ja que no només es serveixen amb només tornar les pàgines després de rebre una o més paraules clau, sinó que també intenten respondre preguntes, suggerir contextos, etc. Els usuaris fins i tot tenen la capacitat de buscar des d'altres elements, com imatges.

Per descomptat, seguir les preferències de recerca dels usuaris no és nou: ha estat una lluita difícil des de la creació de la cerca web.

Però ara, cada vegada és més difícil satisfer aquestes necessitats sempre canviants, gràcies als avenços en intel·ligència artificial, inclosos els desenvolupats per l'equip d'investigació de Bing i els investigadors de laboratori d'investigació de Microsoft.

«La intel·ligència artificial fa que els productes amb els que treballem siguin cada vegada més naturals», va dir Rangan Majumder, Gerent de Programes de el Grup per a l'equip d'Investigació de Bing i Intel·ligència Artificial de Microsoft.

Usant vectors per a una millor recerca

Els algoritmes d'aprenentatge automàtic de Bing s'utilitzen per crear vectors, (Essencialment una representació digital d'una paraula, un píxel d'imatge o un altre punt de dades). un vector ajuda a capturar el que realment significa una dada, Ja sigui text en una pàgina web, imatges, so o vídeos.

Una vegada que el punt numèric s'ha assignat a una dada determinat, pot organitzar o mapejar vectors, Amb nombres propers col·locats a prop un de l'altre per representar la similitud. Aquests resultats proximals es mostren als usuaris, el que millora els resultats de cerca.

Microsoft va començar a centrar-se en la tecnologia en què es basa la investigació vectorial de Bing quan els enginyers de la companyia van començar a notar patrons inusuals en els patrons de recerca dels usuaris.

«A l'analitzar les nostres revistes, l'equip va descobrir que les consultes de cerca es feien cada vegada més llargues», va dir Majumder.

Això suggeria que els usuaris feien més preguntes, donaven molts detalls causa de resultats anteriors que no eren satisfactoris amb una recerca per paraula clau, o «intentaven actuar com ordinadors» quan descrivien coses abstractes.

Amb Bing Search, la vectorització s'ha expandit a més de 150 mil milions de dades indexats de motors de cerca per millorar la comparació amb les paraules clau tradicionals.

Estos inclouen paraules simples, caràcters, fragments de pàgines web, consultes completes i altres mitjans. Una vegada que un usuari realitza una recerca, Bing pot analitzar els vectors indexats i proporcionar la millor coincidència.

L'assignació de vectors també es forma utilitzant tecnologia d'aprenentatge en profunditat per a la millora contínua.

Els models tenen en compte les entrades, com els clics de l'usuari final després d'una recerca per comprendre millor el significat d'aquesta cerca.

Space Partition Tree and Graph va ser alliberat com a codi obert

de fet, Microsoft fa servir un algoritme anomenat Space Partition Tree and Graph (SPTAG). Una consulta d'entrada es converteix en un vector, i SPTAG s'usa per trobar ràpidament «veïns més pròxims», és a dir, vectors que són similars a l'entrada.

«Microsoft fa servir la cerca vectorial per al seu propi motor de cerca Bing, una tecnologia que ajuda a Bing a comprendre millor la intenció darrere de milers de milions de recerques web i trobar el resultat més rellevant entre milers de milions de pàgines web».

Microsoft ha posat a disposició de tots, com un projecte de codi obert a GitHub,

«Una de les eines d'intel·ligència artificial més avançades i més adequades per satisfer les necessitats de recerca dels usuaris en constant canvi».

Dimecres, l'editor també va publicar exemples de tècniques d'usuari i un vídeo d'acompanyament per a aquestes eines a través de laboratori d'intel·ligència artificial de Microsoft.

L'equip de Bing ha declarat que espera que l'oferta de codi obert pugui ser utilitzada per les empreses o aplicacions principals per identificar un idioma parlat basat en un fragment d'àudio, o per a serveis que inclouen moltes imatges, com una aplicació que permet als usuaris relacionar les dades i recerques.

Codi font de SPTAG


Deixa el teu comentari

La seva adreça de correu electrònic no es publicarà. Els camps obligatoris estan marcats amb *

*

*

  1. Responsable de les dades: AB Internet Networks 2008 SL
  2. Finalitat de les dades: Controlar l'SPAM, gestió de comentaris.
  3. Legitimació: El teu consentiment
  4. Comunicació de les dades: No es comunicaran les dades a tercers excepte per obligació legal.
  5. Emmagatzematge de les dades: Base de dades allotjada en Occentus Networks (UE)
  6. Drets: En qualsevol moment pots limitar, recuperar i esborrar la teva informació.