Как и почему в процессе обучения DPO меняется правдоподобие (растет/падает/не меняется) у y_chosen и y_rejected?
Недавно, залипая в метрики обучения, я и сам задался таким вопросом. Ответ в комментариях.
#interview_questions
Добро пожаловать на канал AI[ex]Time! Если вас интересуют новости о Machine Learning, Engineering, и Time Management, то вы попали по адресу. Меня зовут Александр, и я здесь для того, чтобы делиться с вами всей актуальной информацией в этих областях. На канале вы найдете обзоры на статьи, кейсы из моего опыта, а также мои мысли по поводу последних тенденций. Всю дополнительную информацию вы можете найти в первом сообщении канала. Если у вас возникли вопросы или вы хотели бы связаться со мной, не стесняйтесь писать мне на @alex_golubev13. Присоединяйтесь к AI[ex]Time и будьте в курсе всех новостей и трендов в мире Machine Learning, Engineering и Time Management!
07 Feb, 18:25
26 Jan, 13:25
22 Jan, 18:52
18 Jan, 16:57
20 Dec, 14:08
20 Dec, 14:08
12 Dec, 16:24
I'm Andy, and I’m giving $1M to the first team that exceeds 90% on a new version of the SWE-bench benchmark
. Звучит вызывающе, поэтому давайте посмотрим на это чуть подробнее. Кстати, про сам бенчмарк я немного писал в посте тут. 09 Dec, 16:39
15 Nov, 13:09
01 Nov, 15:50
28 Oct, 19:32
Мистер Санчес выяснил, что 40% учеников его 5-го класса получили итоговую оценку ниже B. Сколько учеников получили итоговую оценку B и выше, если у него 60 учеников в 5-м классе?
16 Oct, 17:02
07 Oct, 17:52
26 Sep, 13:13
02 Sep, 12:12
01 Sep, 14:56
27 Aug, 12:41
20 Aug, 08:50
30 Jul, 15:27
29 Jul, 19:09
18 Jul, 17:02
15 Jul, 20:02
28 Jun, 16:12
`
``, и далее LLM из-за формата обучения думает, что дальше должна последовать критика, и начинает ее генерировать. Причем генерировать мы можем множество различных вариантов параллельно (после такой операции у авторов получалось 28 штук), в итоге имея целый список потенциальных ответов от критика. Наилучший мы выбираем по формуле rm_score + LENGTH_MODIFIER * num_highlights, на этом этапе и происходит контроль precision/recall tradeoff. Подробно этот шаг описан в секции 7.1. Rm_score - оценка Reward модели, LENGTH_MODIFIER - гиперпараметр, контролирующий влияние кол-во хайлайтов. 24 Jun, 19:35
11 Jun, 16:30
14 May, 20:02