Новости

Optimization 2016: в окрестностях «Палеха»

Автор Дата 07.12.2016

1–2 декабря в Москве прошла собор Optimization 2016. В секции «Поисковые механизмы» Александр Садовский (Яндекс) выступил с докладом «В окрестностях Палеха».

Поисковыми системами создано тьма(-тьмущая алгоритмов, позволяющих лучше понимать текстовую доза запроса. Но Яндекс стремится уразуметь пользовательские запросы еще лучше. Следственно команда поиска обратила внимание получи и распишись нейросети.

Есть много известных технологий на обработки больших объемов текстовой информации, скажем, Word2vec или DSSM. Проблемы сих реализаций в том, что они академические. Каждый встречный и поперечный академический алгоритм работает со стандартным множеством документов и запросов и показывает хорошие научные результаты, только при попытке применить его к реальным базам с огромным в количестве документов, он дает либо малолетний, либо нулевой прирост качества.

Ни Водан из алгоритмов с первой попытки малограмотный удалось заставить работать, поэтому Яндекс перешел к поиску собственной технологии, которая даст выгоду пользователю и возрастание качества поиска. Так появился алгорифм «Палех».


На слайде выше композиция нейросети, где смешиваются слова, словесные биграммы и буквенные триграммы. В результате сего нейросеть получает два разных вектора – градиент запроса и вектор заголовка документа.

Неравно эти векторы близки, это из чего следует, что запрос похож на рубрика документа. Если они различаются, сие означает, что они разные и откапывать по этому запросу этот устав не нужно. Получается, можно соизмерять запросы и тексты документов с помощью нейросетей.

Основная засада в том, что нейросеть нужно гвоздить (в голову). Она, как ребенок, который покамест ничего не знает, но какой-никакой может научиться многому, если весь сделать правильно. И для этого нужны отрицательные упражнения и положительные примеры. Если одного с этих классов примеров не короче, нейросеть ничему не научится.

Образцовый подход к обучению состоит в том, который в качестве обучающего множества берутся клики, наравне-то решается проблема их разреженности и в среднем держи этом множестве система обучается. Только этот подход показал довольно слабые результаты. И этому поглощать свои причины.

Например, есть порядочно большой пласт документов, которые дают отписка прямо в сниппете. Логично, что по части такому документу пользователь не кликнет, хоть бы он мог послужить положительным примером.


Первооснова достижение в разработке «Палеха» состоит в книжка, что Яндекс научился находить правильные упражнения для обучения, и это дало насущный прирост качества.

Что берется в качестве положительных примеров? Яндексу посчастливилось построить модель, которая позволяет провозвещать, насколько пользователь заинтересован в том, что-что он видит на сайте согласно данному запросу, и задержится ли некто там надолго. Это стало положительным примером.

Безвыгодный менее важны отрицательные примеры. Вона некоторые варианты:

Первый – случайные документы. В базе Яндекса миллиарды документов, хотя даже по самой широкой теме многословного запроса релевантной является чуть доля процента в выдаче. Это означает, сколько, взяв случайный заголовок, мы с значительный вероятностью получим нерелевантный документ. Нейросеть решила эту проблему непринужденно: если слова запроса встречались в заголовке, возлюбленная считала его релевантным, если в помине (заводе) нет – нерелевантным. Нужно было усложнить ей задачу.

Дальнейший вариант – слова запроса в заголовке случайного документа. Однако нейросеть научилась обходить и это, приблизительно что качество поиска не росло.

Незаинтересованный вариант – Яндекс заставил нейросеть отстаивать саму с собой с помощью подхода hard negative mining. В отдельных случаях мы берем некоторый пул заголовков, которые безвыгодный являются релевантными и относятся к случайным документам, нейросеть считает какие-так из них более подходящими. В случае если взять самые подходящие из нерелевантных и сорвалось с языка, что это и есть отрицательный притча, качество начинает расти.

В результате правильное короб отрицательных и положительных примеров дало крутой рост качества по текстовому поиску в на к тем алгоритмам, что у нас ранее имеются.

Вот примеры работы «Палеха» точно по сравнению с алгоритмом BM25:


А это результат ради коммерческого запроса:


В завершение выступления Алексаня ответил на популярные вопросы для «Палех». Оказалось, что:

  • «Палех» содержит все типы запросов и все языки и регионы.
  • Его действительность составляет pFound + 1,6% (на запросах длинного хвоста).
  • «Палех» может сказываться на изменение трафика на сайт.
  • Алгорифм малоэффективен при поиске цитат. 

Источник

Optimization 2016: в окрестностях «Палеха»

Автор Дата 07.12.2016

1–2 декабря в Москве прошла ассамблея Optimization 2016. В секции «Поисковые механизмы» Александр Садовский (Яндекс) выступил с докладом «В окрестностях Палеха».

Поисковыми системами создано сила алгоритмов, позволяющих лучше понимать текстовую кусок запроса. Но Яндекс стремится осознать пользовательские запросы еще лучше. Вследствие того команда поиска обратила внимание для нейросети.

Есть много известных технологий угоду кому) обработки больших объемов текстовой информации, к примеру (сказать), Word2vec или DSSM. Проблемы сих реализаций в том, что они академические. Всякий академический алгоритм работает со стандартным множеством документов и запросов и показывает хорошие научные результаты, только при попытке применить его к реальным базам с огромным в количестве документов, он дает либо миниатюрный, либо нулевой прирост качества.

Ни Вотан из алгоритмов с первой попытки маловыгодный удалось заставить работать, поэтому Яндекс перешел к поиску собственной технологии, которая даст выгоду пользователю и рост качества поиска. Так появился алгорифм «Палех».


На слайде выше астроблема нейросети, где смешиваются слова, словесные биграммы и буквенные триграммы. В результате сего нейросеть получает два разных вектора – градиент запроса и вектор заголовка документа.

Коль скоро эти векторы близки, это из чего явствует, что запрос похож на аншлаг документа. Если они различаются, сие означает, что они разные и заставать по этому запросу этот транс не нужно. Получается, можно уравнивать запросы и тексты документов с помощью нейросетей.

Основная препятствие в том, что нейросеть нужно выучивать. Она, как ребенок, который пока ничего не знает, но каковой может научиться многому, если кончено сделать правильно. И для этого нужны отрицательные упражнения и положительные примеры. Если одного с этих классов примеров не хорошего понемножку, нейросеть ничему не научится.

Свободный подход к обучению состоит в том, аюшки? в качестве обучающего множества берутся клики, вроде-то решается проблема их разреженности и в среднем бери этом множестве система обучается. Да этот подход показал довольно слабые результаты. И этому трескать (за (в) обе щеки) свои причины.

Например, есть вдоволь большой пласт документов, которые дают отповедь прямо в сниппете. Логично, что вдоль такому документу пользователь не кликнет, а и он мог послужить положительным примером.


Становая жила достижение в разработке «Палеха» состоит в часть, что Яндекс научился находить правильные упражнения для обучения, и это дало насущный прирост качества.

Что берется в качестве положительных примеров? Яндексу посчастливилось построить модель, которая позволяет предвосхищать, насколько пользователь заинтересован в том, зачем он видит на сайте за данному запросу, и задержится ли некто там надолго. Это стало положительным примером.

Неважный (=маловажный) менее важны отрицательные примеры. Смотри некоторые варианты:

Первый – случайные документы. В базе Яндекса миллиарды документов, только даже по самой широкой теме многословного запроса релевантной является только доля процента в выдаче. Это означает, как, взяв случайный заголовок, мы с больший вероятностью получим нерелевантный документ. Нейросеть решила эту проблему без усилий: если слова запроса встречались в заголовке, возлюбленная считала его релевантным, если пропал – нерелевантным. Нужно было усложнить ей задачу.

Другой вариант – слова запроса в заголовке случайного документа. Однако нейросеть научилась обходить и это, приблизительно что качество поиска не росло.

Незаинтересованный вариант – Яндекс заставил нейросеть воевать саму с собой с помощью подхода hard negative mining. Кое-когда мы берем некоторый пул заголовков, которые отнюдь не являются релевантными и относятся к случайным документам, нейросеть считает какие-так из них более подходящими. Если нет взять самые подходящие из нерелевантных и проронить, что это и есть отрицательный модель, качество начинает расти.

В результате правильное мириады отрицательных и положительных примеров дало ехидный рост качества по текстовому поиску в прирост к тем алгоритмам, что у нас сейчас имеются.

Вот примеры работы «Палеха» объединение сравнению с алгоритмом BM25:


А это результат на коммерческого запроса:


В завершение выступления Сашура ответил на популярные вопросы для «Палех». Оказалось, что:

  • «Палех» заключает все типы запросов и все языки и регионы.
  • Его бездейственность составляет pFound + 1,6% (на запросах длинного хвоста).
  • «Палех» может воздействовать на изменение трафика на сайт.
  • Алгорифм малоэффективен при поиске цитат. 

Источник