razinkov.ai

@razinkov_ai


Меня зовут Евгений Разинков, я рассказываю об AI.

YouTube: video.razinkov.ai
Tg: @EvgenyRazinkov

razinkov.ai

20 Oct, 10:57


Добрый день!

Десятая часть разбора статьи про Llama 3.1: как уменьшают количество галлюцинаций и делают модель более управляемой:
https://youtu.be/voNTtvyy-_U

razinkov.ai

19 Oct, 09:05


Добрый день!
Стрим про первый поток нашей онлайн-школы начинается:
https://youtube.com/live/v1TRbW0AizI?feature=share

razinkov.ai

18 Oct, 13:23


Всем доброго дня!

Завтра, в субботу, в 12:00 по московскому времени я проведу стрим, расскажу, как прошел первый поток нашей AI-школы) Со статистикой и отзывами)

Предварительно зарегистрироваться на второй поток (начнется в ноябре) можно здесь:
https://razinkov.ai/school

razinkov.ai

06 Oct, 14:14


Всем привет!

Записал вот такое оптимистичное послание AI-специалистам:
https://youtu.be/kqJjUm3LYDk

Edit: звук исправлен)

razinkov.ai

27 Sep, 18:15


Добрый вечер!

Продолжаем разбор Llama 3.1) часть 9: long context & tool use 👍

https://youtu.be/t2pSGz9sm6k

razinkov.ai

25 Sep, 18:41


Добрый вечер!

Восьмая часть рабора статьи про Llama 3.1: multilinguality & reasoning!
https://youtu.be/caljKjCcC38

Тем временем вышла Llama 3.2 🥲
https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/

razinkov.ai

20 Sep, 17:29


Добрый вечер!

Llama 3.1: разбор статьи. Часть 7 😱

Разбираем, как генерируется качественный код для файн-тюнинга Llama:
https://youtu.be/dhDCWEeIOZg

razinkov.ai

17 Sep, 09:29


Добрый день!
А вот и шестая часть разбора статьи по Llama 3.1: Post-training data.

Для тех, кто не сдается, от тех, кто не сдается)

https://youtu.be/RLAiyZP-Fvw

razinkov.ai

05 Sep, 09:11


Добрый день!
Пятая часть разборы статьи про Llama 3.1. Тема: Direct Preference Oprimization:
https://youtu.be/2_RDSMu61YQ

Релевантные статьи
Direct Preference Optimization: Your Language Model is Secretly a Reward Model
Мы можем файн-тюнить модель на предпочтениях людей без модели наград и обучения с подкреплением, а просто за счет DPO-лосса.
https://arxiv.org/abs/2305.18290

Iterative Reasoning Preference Optimization
NLL-компонента для DPO-лосса. Улучшает) Плюс позволяет сохранять форматирующие токены (в отличие от ванильного DPO)
https://arxiv.org/abs/2404.19733

razinkov.ai

02 Sep, 17:26


Добрый вечер!

Четвертая часть разбора Llama 3.1. Reward model & supervised fine-tuning:

https://youtu.be/4aUYhAgW5h4

razinkov.ai

30 Aug, 18:37


Добрый вечер!
Llama 3.1, разбор статьи, часть 3:
https://youtu.be/1Ut-3-Ost0w

razinkov.ai

27 Aug, 13:45


Добрый день!
Третья часть разбора статьи про Llama 3.1 будет в пятницу, а вот плейлист:
https://www.youtube.com/playlist?list=PL6-BrcpR2C5QXuCaev_DJ_o9lqYkAxSmo

razinkov.ai

24 Aug, 18:19


Хорошая обзорная статья для первого знакомства с миром агентов. Хайповая тема сейчас)

A Survey on Large Language Model based Autonomous Agents
https://arxiv.org/abs/2308.11432

razinkov.ai

20 Aug, 07:51


Доброе утро!
Продолжаем разбирать статью про Llama 3.1, на этот раз читаем разделы Model Architecture и Scaling Laws:
https://youtu.be/fR8flHXcvLs

razinkov.ai

18 Aug, 17:26


При обучении LLM в последних 10-20% итераций повышают долю качественных и domain-specific данных и получают ощутимый прирост на многих бенчмарках.

Этот прием используется и в Llama 3.1 (см. Data Annealing)

Does your data spark joy? Performance gains from domain upsampling at the end of training
https://arxiv.org/abs/2406.03476

razinkov.ai

15 Aug, 15:35


Добрый день!
Вы не спрашивали, конечно, но вот классный туториал по PCA :)

razinkov.ai

12 Aug, 18:39


Разбор статьи про Llama 3.1. Часть 1. Продолжение следует)

https://youtu.be/YoRsqImynUE

razinkov.ai

11 Aug, 15:09


Over-training – обучение модели, неоптимальной с точки зрения scaling laws (соотношение между FLOPs, количеством параметров и количеством токенов), когда компьюта выделено непропорционально больше. А размер модели получается меньше. В этом есть плюс на этапе инференса с вычислительной точки зрения.

Language models scale reliably with over-training and on downstream tasks
https://arxiv.org/abs/2403.08540

razinkov.ai

11 Aug, 14:34


Вместо warmup+cosine annealing LR schedule предлагается warmup+constant+cooldown.

Cooldown – снижение к финальному LR за сравнительно небольшое количество итераций в конце обучения.

Не надо заранее принимать решение, сколько итераций будем обучать.

Как понимаю, сейчас всё равно используют cosine, но вместе с cooldown.

Scaling Laws and Compute-Optimal Training Beyond Fixed Training Durations
https://arxiv.org/abs/2405.18392

razinkov.ai

10 Aug, 16:46


Если после пре-трейнинга LLM с cosine learning rate decay на одном датасете вы получили еще большой датасет. Что делать – объединять датасеты и учить с нуля (дорого)? Дообучать? Если второе – что делать с LR? Продолжать с последнего значения неэффективно, оно слишком мало.

В статье предлагается: re-warming & re-decaying, то есть линейно повысить до исходного значения, и снова уменьшать с cosine decay.

Это о проблемах cosine annealing при обучении LLM.

Simple and Scalable Strategies to Continually Pre-train Large Language Models
https://arxiv.org/abs/2403.08763