Если уж выбирать зло, я бы предпочел шлюхоботов вместо дурацких NFT-ботов.
(с) Геральт из Ривии
Канал 'КПД' (@quant_prune_distill) - это место, где вы найдете все о квантовании, прунинге и дистилляции нейронных сетей. Если вы интересуетесь темой сжатия сетей, то этот блог идеально подойдет для вас. Здесь собрана информация от древнейших времен до настоящего времени, чтобы помочь вам разобраться в этой сложной теме. Мы предлагаем самые свежие новости, исследования, и советы от экспертов в области машинного обучения. Присоединяйтесь к нашему каналу и станьте частью сообщества, увлеченного технологиями сжатия нейронных сетей. Узнавайте новое, обменивайтесь опытом и прокачивайте навыки вместе с 'КПД'.
13 Jan, 16:09
12 Jan, 17:28
10 Jan, 20:43
PerLayerCompressionPress
.02 Jan, 17:47
31 Dec, 13:38
28 Dec, 20:24
27 Dec, 10:40
25 Dec, 08:01
20 Dec, 18:52
20 Dec, 17:08
20 Dec, 13:53
16 Dec, 16:27
15 Dec, 16:33
09 Dec, 08:32
model.layers.1.mlp.down_proj
.07 Dec, 08:06
07 Dec, 08:05
SDXL/SD3 Medium
. 06 Dec, 15:46
04 Dec, 08:09
03 Dec, 08:48
03 Dec, 08:44
03 Dec, 08:41
01 Dec, 05:50
01 Dec, 05:49
29 Nov, 05:33
27 Nov, 21:38
27 Nov, 21:37
21 Nov, 18:52
15 Nov, 00:37
15 Nov, 00:33
D/N
меньше 🔽 у больших 🔼 моделей. \delta_{PTQ}
, где ошибка растет степенным образом по количеству данных, убывает степенным образом по размеру модели, и растет экспоненциально с уменьшением битности. (1 - e^{P/gamma})
. Т.е модель с квантизацией чего либо и эквивалентна модели с N (1 - e^{P/gamma})
параметрами. Коэффцициенты P, gamma свои у весов, активаций и кэшей. Кэши легче всего квантизуются, веса посередине, а активации тяжелее всего.C = 6 (P / 16) ND
(16 от bf16) и ищут оптимум по лоссу.15 Nov, 00:29
D
- количество данныхN
- количество параметров моделиP
- precision на обученииD/N = 2000
у Llama-3 против D/N=20
по Шиншилле).L(N, D, P) = AN^{-\alpha} + BD^{-\beta} + E + \delta_{PTQ} (N, D, P)
\delta_{PTQ}
- прирост лосса, вызванный квантизацией.L(N, D, P) = AN^{-\alpha} (1 - e^{P_{w} / \gamma_w}) (1 - e^{P_{a} / \gamma_a}) (1 - e^{P_{kv} / \gamma_kv}) + BD^{-\beta} + E
12 Nov, 20:35
12 Nov, 07:52
10 Nov, 08:00
09 Nov, 11:18
08 Nov, 20:49
AutoLigerKernelForCausalLM
или патчинг модели из 🤗. А можно импортировать модули и из них собрать модельку.08 Nov, 14:30
transformers
. 04 Nov, 20:41
29 Oct, 20:43
29 Oct, 07:54
<bos>
токена. 23 Oct, 14:45
https://arxiv.black/pdf/{arxiv-id}
.22 Oct, 07:52
22 Oct, 07:50
21 Oct, 14:58
quip-sharp/lib/utils
18 Oct, 07:37
(1 + 9) / (4 + 6) = 1
1/2(1/4 + 9/6) = 0.875
(то есть меньше) 15 Oct, 21:11
6 = binom(2, 4)
вариантам. На обучении оптимизируются логиты вероятности сэмплирования одного из вариантов масок (т.е маска есть взвешенная сумма возможных вариантов), а на инференсе берется наиболее вероятный. Обучение суть просто оптимизация кросс-энтропии (как на pretrain). Веса при этом заморожены.2:4
, но требующая определенных вычислительных затрат (т.е прилично дороже чем прогнать SparseGPT). Результат достойный, но все же просадка остается довольно заметной - больше чем у SOTA методов 2-битной квантизации. Вероятно, если еще оптимизировать веса вместе с масками - можно выжать больше. 12 Oct, 19:38
|w dw|
- модуль веса на градиент, посчитанный на 100 батчах из 64 сэмплов (не то, что я пол ImageNet-а пихал в свое время). 09 Oct, 10:50
09 Oct, 05:55
06 Oct, 07:02
04 Oct, 08:49
02 Oct, 16:14
O(n^2)
операций, хотя любой детсадовец знает, что O(n log n)
. 25 Sep, 18:41
23 Sep, 08:23
15 Sep, 21:20
13 Sep, 18:03
12 Sep, 07:36
Reviewer N2
😈. 05 Sep, 07:53
03 Sep, 09:08