🔗 Карточка модели:
https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r
Старший Авгур - это Telegram-канал, где вы найдете сохраненки и шитпосты про машинное обучение от пользователя @YallenGusev. Если вы увлечены искусственным интеллектом, машинным обучением и всем, что связано с этой темой, то этот канал именно для вас. @YallenGusev делится своими знаниями, опытом и веселыми картинками, чтобы сделать ваше погружение в мир машинного обучения еще более увлекательным. На канале вы найдете не только интересные материалы и новости из мира ML, но и возможность общаться с единомышленниками, делиться своими мыслями и вопросами. Присоединяйтесь к каналу "Старший Авгур" и окунитесь в захватывающий мир машинного обучения вместе с @YallenGusev!
11 Feb, 16:01
07 Feb, 09:49
06 Feb, 19:48
05 Feb, 14:55
05 Feb, 11:11
04 Feb, 21:27
04 Feb, 21:14
03 Feb, 13:22
02 Feb, 18:51
31 Jan, 15:42
30 Jan, 13:54
29 Jan, 10:28
27 Jan, 23:29
23 Jan, 14:50
22 Jan, 21:26
22 Jan, 16:32
13 Jan, 10:42
12 Jan, 23:03
12 Jan, 22:48
12 Jan, 14:23
08 Jan, 20:51
08 Jan, 00:43
03 Jan, 15:08
31 Dec, 15:18
29 Dec, 22:46
8 ← 1 ← 5 ← 4 ← 3 → 0 → 2 → 6 → 7
3 → 4 | 5 → 1 | 4 → 5 | 0 → 2 | 3 → 0 | 1 → 8 | 6 → 7 | 2 → 6 / 3 7
3 → 0 → 2 → 6 → 7
27 Dec, 15:19
27 Dec, 12:17
24 Dec, 13:39
from cut_cross_entropy.transformers import cce_patch
model = ...
model = cce_patch(model)
23 Dec, 14:56
"model": {
"attn_implementation": "flash_attention_2", // вы поняли
"load_in_4bit": true, // квантование модели
...
},
"trainer": {
"gradient_accumulation_steps": 32, // аккумуляция градиентов
"bf16": true, // смешанная точность
"optim": "adamw_8bit", // квантование оптимизатора
"gradient_checkpointing": true, // чекпоинты активаций
...
},
"lora": {...} // адаптеры
20 Dec, 21:28
20 Dec, 21:25
15 Dec, 22:52
15 Dec, 22:41
11 Dec, 08:37
04 Dec, 21:43
30 Nov, 16:27
29 Nov, 10:34
28 Nov, 22:31
28 Nov, 22:00
28 Nov, 21:57
26 Nov, 13:27
18 Nov, 16:12
17 Nov, 23:24
17 Nov, 13:14
16 Nov, 18:19
16 Nov, 16:55
16 Nov, 12:52
13 Nov, 22:49
13 Nov, 09:27
11 Nov, 14:59
11 Nov, 08:13
08 Nov, 22:16
07 Nov, 22:10
03 Nov, 13:44
02 Nov, 22:30
02 Nov, 22:24
02 Nov, 21:31
31 Oct, 17:58
28 Oct, 22:12
27 Oct, 09:43
26 Oct, 22:38
25 Oct, 15:12
25 Oct, 11:18
from datasets import load_dataset
examples = dict()
for row in load_dataset("Vikhrmodels/ru-arena-general", split="train"):
examples[row["turns"][0]["content"]] = 0
for row in load_dataset("Vikhrmodels/GrandMaster-PRO-MAX", split="train"):
ex = row["conversation"][0]["content"]
if ex in examples:
examples[ex] = 1
print(sum(examples.values()))
25 Oct, 07:53
22 Oct, 20:51
19 Oct, 22:58
15 Oct, 17:52
12 Oct, 12:12
10 Oct, 21:42
10 Oct, 10:06
07 Oct, 17:00
07 Oct, 09:27
02 Oct, 19:59
02 Oct, 09:55
26 Sep, 21:04
26 Sep, 07:45