Оценивать ИИ-модели сложно, но нужно. Вот как это делают сегодня
Новые ИИ-модели появляются регулярно, поэтому их не получается даже сосчитать и протестировать. И все же тестировать их нужно, чтобы получить хотя бы примерное представление о возможностях алгоритмов.
Для этого сегодня существуют бенчмарки, которые способны оценить способности модели в выполнении разных задач. Но у бенчмарков есть свои ограничения и им в помощь появились так называемые чат-бот-арены. Вот как работают эти методы:
В бенчмарках сравнивают модели по качеству выполнения типовых задач
Зачем вообще нужны бенчмарки ИИ-моделей? С помощью них можно сравнить несколько моделей и оценить их эффективность по разным параметрам: точность ответа, скорость работы, работа со сложными задачами и т. д. Важно не ставить знак равенства между бенчмарком и просто тестом. Тест нужен, чтобы оценить работу модели (корректность выполнения задач, отсутствие ошибок и т. д.), а бенчмарк — чтобы сравнить модель с конкурентами.
Для бенчмарков существуют таблицы лидеров, где можно сравнить результаты разных ИИ-моделей.
Типичным примером бенчмарка можно считать ImageNet, который позволяет оценить, как ИИ-модель справляется с классификацией изображений — чем больше изображений «узнает» ИИ, тем лучше.
Есть и другие бенчмарки, заточенные под оценку выполнения одной конкретной задачи. Скажем, тест Glue/SuperGlue позволяет оценить способности ИИ-модели в обработке естественного языка; LibriSpeech тестирует ИИ на распознавание речи; FRMT дает представление о том, насколько хорошо модель справляется с машинным переводом.
Для бенчмарков используют специальные датасеты
Возьмем для примера Glue. Внутри этого бенчмарка 9 тестов, каждый из которых проверяет ИИ-модель на качество работы с разными аспектами естественного языка: классификация предложений, ответ на вопрос, анализ тональности текста и т. д.
Каждый тест — это отдельный датасет, на котором и проверяют ИИ-модель, давая ей задания разной сложности (например, противоречит ли одно предложение другому и т. д.).
По каждому из тестов бенчмарк выставляет оценку по шкале (чаще всего от 0% до 100%), а затем выводит среднее значение.
SuperGlue отличается более сложными задачами: ИИ тестируют на более длинных отрывках текста, от модели требуется более глубокое понимание языка, его логики и т. д.
У бенчмарк-тестов есть свои недостатки
Например, велика вероятность, что тестируемая модель обучалась на тех же датасетах, что присутствует в бенчмарке. В этом случае говорить об объективной оценке производительности ИИ-модели невозможно.
Еще бенчмарки не всегда могут дать реальное представление о том, как ИИ поведет себя в «полевых» условиях. Бенчмарк — это контролируемая среда, где невозможно учесть все варианты того, как будет использоваться модель.
Чтобы справиться с этими недостатками, появились чат-бот-арены
В качестве альтернативы обычным бенчмаркам появилась LMSYS Chatbot Arena. Принцип ее работы следующий: пользователю предлагают задать вопрос двум LLM, названия которых он не знает, а затем выбрать лучший. Пользователь также может выбрать модели, которые он хочет протестировать.
Появление арен стало ответом на усложнение самих языковых моделей, которые теперь могут отвечать не только на закрытые, но и открытые вопросы. Качество ответов на открытые вопросы оценить сложнее, поэтому создатели LMSYS обратились к краудсорсингу. Так разработчик видит оценку производительности своей модели не только со стороны «бездушного» бенчмарка, но и от непосредственных пользователей сервиса. То есть арена не заменяет обычные бенчмарки, а дополняет их.
Для составления таблицы лидеров в арене используется рейтинг Эло — универсальный метод оценки навыков в любой игре, где соревнуются 2 игрока (или 2 команды). Изначально рейтинг Эло использовали в шахматах.