💬 Вчера я выступил на PyCon2024, где зарелизил нашу либу RuRAGE (RuRAGE - Russian RAG Evaluation) для автовалидации generation части в RAG’e и датасет MTSBerquad для SFT LLM на задачу GQA/LFQA. Всё с открытыми лицензиями, пользуйтесь! Спасибо, всем кто слушал и задавал вопросы, было круто, это очень классный опыт
🫶Пока в RuRAGE мы не подвезли автоматическое создание бустинга, надо разобраться с авто-подбором порогов, когда итоговая полезность генеративного ответа может быть не бинарной (0, 1), а мультиклассовой и также надо решить что юзать в качестве модельки: остаться на CatBoost или мб засунуть какой-нибудь H2O AutoML. В любом случае, уже сейчас можно брать либу для генерации фичей и кинуть сверху любую свою модельку. Однако, помните о всех нюансах, которые я упоминал на выступлении (слайд 12)
Либа была создана буквально в последнюю неделю
👨🦳, поэтому не стоит ее рассматривать как серебряную пулю. Автометрики это про дополнительный этап валидации, а не основной. Далее нам предстоит огромный скоуп работ по RuRAGE, roadmap по ближайшим целям может найти в readme на гите. Это открытый проект, поэтому мы будем ждать ваших предложений и pull request’ов!
⏺RuRAGEpip install rurage
⏺MTSBerquadfrom datasets import load_dataset
ds = load_dataset("MTS-AI-SearchSkill/MTSBerquad")