🔤 Нейросети-переводчики уже способны передавать тонкости языка и учитывать контекст не только одного предложения, но и целых абзацев. Новая модель семейства YandexGPT для перевода заняла первое место на бенчмарке DiBiMT в категории перевода с английского на русский поэтому мы решили рассказать, как устроен перевод с помощью GPT-моделей. А подробнее о процессе обучения новой модели команда рассказала в новой статье на Хабре.
В основе нейросети-переводчика лежит базовая языковая модель. Во время обучения она видела огромное количество текстов на разных языках и знает, как слова складываются в предложения. Но, несмотря на хорошие знания, на этом этапе их всё ещё не хватает для того, чтобы переводить тексты на близком к профессиональному уровне. Чтобы нейросеть могла качественно переводить, её нужно дополнительно обучать под эту задачу.
Обучение идёт по схеме: сначала модели показывают две версии одного текста — оригинал и профессиональный перевод, чтобы она училась их сопоставлять. Затем ИИ-тренеры дают оценки нейросетевым переводам. Так модель понимает, какие её действия привели к лучшему результату, и учится переводить более качественно.
К нейросетям-переводчикам более высокие требования, чем к чат-ботам. Чат-боты могут импровизировать или переводить слишком буквально, а от переводчиков люди ожидают сохранения оригинального контекста, включая тон, подбор выражений и подобные нюансы стиля авторских текстов. Модель должна улавливать семантику текста, чтобы правильно перевести игру слов или выбрать верный перевод для многозначного термина.
Сейчас большинство моделей способны хорошо обработать параграф текста, но доверять им перевод целой книги пока рано. Причина — в объёме информации, которую нейросети учитывают при работе (размере контекстного окна). Например, нейросеть может забыть переведённое ранее прозвище персонажа и дать ему новое.
Для оценки нейросетей-переводчиков есть специальные бенчмарки. Например, DiBiMT, на котором новая модель Яндекса заняла первое место, фокусируется на работе с многозначными словами. Для этого отбирают предложения с терминами, смысл которых человеку легко понять из контекста, но машине разобрать сложно. Профессиональные переводчики составляют рейтинг возможных переводов, а потом по нему оценивают работу моделей от разных разработчиков.
Подписывайтесь 👉 @techno_yandex