Отвечаю на вопрос о способе выбора моделью верного ответа (опрос см. выше
Но это противоречит элементарной логике
Snowflake AI решили проверить, насколько реально сложны популярные бенчмарки. Так и выяснилось, что сложность тестов не в самих заданиях, а в подходах к скорингу.
Исследование показало: если дать модели все варианты ответов сразу, перформанс заметно улучшается. Например, LLaMA 3.1 70B* повышает показатели с 64% до 93%
* продукт экстремистской организации, деятельность которой запрещена на территории РФ
Изображение Snowflake AI Research