Для оптимізації моделей використовують скорінг по важливих параметрах.
Параметри ці є базові - accuracy, safety, verbosity і тд, а є кастомні. Кастомні залежать від ринку і, власне, моделі.
Як визначити ті важливі параметри - це робота умовного РМа в ШІ продукті. Один з наших клієнтів міряє «вайб» моделі. Для них вайб - це наскільки користувач почувається почутим, в безпеці і довіряє моделі та обирає модель замість людини.
Далі, раніше використовували людей для оцінки відповідей моделі. Тобто, є промт + відповідь. Людина заходить, і має задачу оцінити від 1 до 5, наскільки ця відповідь безпечна. То є RLHF.
Як обирати оцінку - на це є свої правила. Власне, це і називається рубрік.
З продуктової точки зору - нам треба обрати важливі характеристики, а потім ще і подумати, що для нас буде 5 із 5.
Моделі на рівні інструкцій і конституції вчать, що вони мають слухати людину і не дуже багато умнічать. В результаті, ми маємо доволі «мʼякі» моделі. Це може бути ок для чатаджіпіті, але не дуже ок для моделі-лікаря. Пʼять із пʼяти будуть мати дуже різний вигляд для цих двох моделей.
Ось і маєш, що один і той самий параметр, одна оцінка, але дуже різна поведінка.
Тому рубрік - це одна з основних речей, з якими поки граються РМи, а далі можливо і гроуз менеджери почнуть. Бо кожна зміна рубрику буде впливати на кінцевого користувача, їх ретеншн і то всьо.
Не бачив поки зручного інструменту для менеджменту рубриків, їх аналітики і поєднання їх впливу та даних з умовної амплітуди