Потенциальных преимуществ у такой архитектуры очень много, от возможности подключения энкодеров и декодеров для новых языков или модальностей, до поддержки более длинных контекстов и потенциально более гладкой интеграции с retrieval. Но пока что многие вещи LCM даются хуже, чем языковым моделям на уровне токенов. То ли мы упираемся в ограничения пространства SONAR, то ли у обучения модели end2end есть какие-то преимущества, отсутствие которых нужно компенсировать. В общем, необходимо ещё больше рисёча. Хотя какие-то приложения, где важен трансфер навыков между языками, на основе LCM можно делать уже сейчас (пользуясь тем, что SONAR уже 200-язычный).
Код для воспроизведения наших экспериментов начинаем понемножку выкладывать.