Search

«Яндекс» запустил гибридную систему перевода с использованием нейросетей

"Яндекс" запустил гибридную систему перевода с использованием нейросетей

Компания «Яндекс» объявила о внедрении в сервис «Яндекс.Переводчик» гибридной системы перевода, использующей как привычную статистический метод перевода, так и нейросети.

«При переводе нейросеть не разбивает тексты на отдельные слова и фразы — она обрабатывает целые предложения. За счет этого переведенный текст хорошо читается: порой даже можно подумать, что его написал человек. Статистический переводчик так не умеет, зато хорошо запоминает и переводит редкие и сложные слова и фразы. Работая вместе, две системы компенсируют недостатки друг друга», — говорится в сообщении, опубликованном в блоге «Яндекса».

Как пояснили в компании, с момента запуска «Яндекс.Переводчик» использовал статистическую систему перевода, которая предусматривает разбивку предложений на части и подбор всех возможных переводов для каждого из фрагментов с определением их вероятности. После этого система составляет различные варианты переведенного приложения, выбирая тот, в котором содержатся фрагменты с высокими вероятностями, хорошо сочетающиеся друг с другом.

Преимущество такой системы заключается в том, что статистический переводчик хорошо запоминает редкие и сложные слова и фразы. В то же время результат перевода нередко бывает похож на мозаику: общая картина понятна, но заметно, что она составлена из отдельных кусочков.

Что же касается нейросетевого переводчика, то, как и статистический, он анализирует массив параллельных текстов и учится находить в них закономерности. Однако нейросеть работает не со словами и фразами, а с предложениями. Такой подход позволяет учесть смысловые связи внутри предложения, поняв его контекст.

«У нейросетевого перевода тоже есть свои недостатки. Если по каким-то причинам нейронной сети трудно перевести то или иное предложение – а такое время от времени случается, — она поведёт себя примерно как студент на экзамене: начнет что-то выдумывать от себя в надежде угадать правильный ответ», – отметили в «Яндексе».

Еще один минус нейросетевого переводчика состоит в том, что он, в отличие от статистического перевода, не всегда хорошо справляется с переводом редких слов.

Именно поэтому компания решила объединить два подхода и создать гибридную систему, которая объединяет статистический и нейросетевой перевод.

«Когда «Яндекс.Переводчик» получает от пользователя текст, он отдает его на перевод обеим системам – и нейронной сети, и статистическому переводчику. Затем алгоритм, основанный на методе обучения CatBoost, оценивает, какой перевод лучше. При выставлении оценки учитываются десятки факторов – от длины предложения (короткие фразы лучше переводит статистическая модель) до синтаксиса. Перевод, признанный лучшим, показывается пользователю», – говорится в сообщении.

В настоящее время гибридная система перевода доступна в веб-версии «Яндекс.Переводчика» для переводов с английского языка на русский (на это направление приходится около 80% всех запросов к сервису). В ближайшие месяцы компания намерена запустить систему и для других направлений. При этом разработчики встроили в систему переключатель, который позволят пользователям сравнить гибридный и статистический переводы.

Напомним, в начале августа элементы искусственного интеллекта в свою систему перевода публикаций внедрила социальная сеть Facebook, а ранее нейросети начали использовать в сервисе Google Translate.