Benchmarks Test Reliability?
[Статья][Блогпост][Код]
Новые SOTA LLMки выходят нынче, как собаки нерезанные, и тем острее встает ребром вопрос о качестве их оценки.
Полностью исчерпывающего протокола замером, удовлетворяющего нуждам всех категорий пользователей нет, да и не факт, что он достижим, потому приходится, скрепя сердце, полагаться на те или иные бенчмарки, принятые в литературе или индустрии.
Группа исследователей из MIT решила взглянуть критически на популярные бенчмарки и качество ведущих моделей на них, и обнаружила следующее:
⚡Ни одна модель не является безупречной, и даже SOTA LLM допускают осечки в простых случаях
⚡Бенчи не без греха. В популярном GSM8k 5% условий и решений содержат проблемы.
⚡У разных моделей разные достоинства. o1-mini лучше всех из списка в плане общего решения математических задач, но Sonnet понимает текст (reading comprehension).
Далее в блоге авторы приводят примеры забагованных задач:
🎯 С неправильным ответом
🎯 С ошибками и неоднозначностью в условии
🎯 Где забыли условие задачи
Кроме того, на днях те же авторы опубликовали почищенный тест-сет GSM8k под названием GSM8K-Platinum, и показали,, что ведущие LLM допускают на нем гораздо меньше ошибок по сравнению с оригинальной версией от OpenAI.
Мораль проста - ежели у вас есть штангенциркуль, смотрите, чтобы у него не поехала шкала.
У проекта есть классный 🥰 дашборд с визуализациями ошибок моделей.