Градиент обреченный @doomgrad Channel on Telegram

Градиент обреченный

11 Feb, 10:52

🔺 Обновление Lingtrain

По просьбам учащихся добавил в lingtrain-aligner и Lingtrain Alignment Studio армянский язык. Спасибо Максиму Степанянцу из ВШЭ за помощь!

🔸 Отдельный язык нужен, чтобы текст корректно делился на предложения (при делении по привычным знакам препинания можно выбрать язык General).

🔸 В армянском пунктуация как раз своя, вместо точек используются двоеточия, а признаки вопросительного предложения могут стоять внутри, причем их может быть несколько в разных словах.

🔸 P.S. На каникулах добавил в библиотеку много нового — расчет эмбеддингов по API, хранение их в БД, новый модуль corrector. Никак руки не дойдут описать все это, но скоро сделаю.

870

Градиент обреченный

08 Feb, 09:23

Работы венгерского художника Иштвана Ороса.

По мотивам журнала Проектор про венгерский плакат.

2,041

Градиент обреченный

07 Feb, 10:41

DeepSeek начал открывать кофейни, в меню LatteGPT, Turing Tea, Backpropagation Raf

2,377

Градиент обреченный

06 Feb, 08:31

#perplexity_clone

Попробовал накидать страничку со стримингом из API Perplexity. Прикольно, из коробки работают поиск и рассуждения.

Жалко, что фильтр по поисковым источникам только на высоком tier'е работает (надо закинуть $500 на счет), а то бы поигрались.

2,227

Градиент обреченный

05 Feb, 18:28

Интересный эфир на youTube, популяризаторы науки Сурдин и Семихатов смотрят и обсуждают фильм Интерстеллар.

https://www.youtube.com/watch?v=miheS43AasA

2,315

Градиент обреченный

04 Feb, 06:56

Хорошая статья от Антона про обучение R1, test-time scaling, «озарение» и про то как Zero версия убирает узкое горлышко в виде человека из обучения модели рассуждениям.

2,231

Градиент обреченный

04 Feb, 06:56

DeepSeek-R1 для чайников

Ну и наделала же DeepSeek шуму. Мне пришлось целый хабропост написать 😁

TLDR: мало слов про сравнение с ChatGPT и метрики, много слов про технические детали обучения, датасеты, GRPO и якобы эмерджентный «Aha! moment».

2,016

Градиент обреченный

29 Jan, 09:07

Так, очередной подгон от китайских коллег. Пойдемте посмотрим.

https://chat.qwenlm.ai/

Upd. Инференс дорогой, в 3-4 раза дороже gpt-4o.

3,210

Градиент обреченный

28 Jan, 16:46

А вот скажите, есть ли среди вас кто-то, кто рубит в low-level-ML? Руками под CUDA писать, оптимизировать потоки данных, кэши, вот это всё? Если да, то черкните мне в личку (@oulenspiegel), возможно у меня для вас будет прямо хорошее предложение

2,745

Градиент обреченный

28 Jan, 06:46

The Illustrated DeepSeek-R1

Заметка от Аламмара про устройство DeepSeek-R1

https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1

2,884

Градиент обреченный

25 Jan, 08:15

🔺 Делаем свою Perplexity

Perplexity — это поисковая система, которая обрабатывает выдачу популярными моделями (в Pro версии их можно выбирать, это GPT-4o/o1, Claude и пара других) с удобным интерфейсом и списком источников.

Есть разные режимы, типа поиска видео или режим Writing, когда веб-поиск отключен и можно работать как с обычной языковой моделью.

Компания привлекла полмиллиарда долларов инвестиций в декабре и на днях запустила новый API.

🔸 Называется новый сервис Sonar API, есть две версии — sonar и sonar-pro. Стоит $1/$1 за 1M input/output токенов у базовой модели и $3/$15 у Pro.

🔸 Сами поисковые запросы, которые происходят внутри, тоже стоят денег, $5 за 1000 запросов. Базовая модель делает только 1 такой поиск, Pro может делать несколько.

🔸 В зависимости от расходов есть разные уровни использования (tiers), на них появляются дополнительные фичи, типа фильтров по доменам для поиска.

Так вот, поигрался немного с этим API (можете попробовать через playground), работает достаточно стабильно, находит данные по актуальным событиям и людям.

Ссылки на источники тоже выдает. То есть, чтобы самому сделать подобный сервис, по сути хватит одного такого API (и денег).

В целом так можно сделать и по частям — найти поисковое API типа Bing в Azure или DuckDuckGo, попарсить найденные сайты, подложить в контекст и сходить в следующее API. Не так сложно, но будет больше работы по поддержке, а тут один вызов — и готово.

По-моему, search API у OpenAI и других сервисов пока нет (может, вы где-то видели подобное API?).

Upd. Спасибо за ссылки!

3,356

Градиент обреченный

24 Jan, 15:07

#работаиздома

Размышляю над проблемами ризонинга и инвестициями в AI пока человек сидит за компьютером.

3,039

Градиент обреченный

23 Jan, 06:34

🔺 DeepSeek-R1 и DeepSeek-R1-Zero

Как было сказано ранее, модели от китайских исследователей выложены в открытый доступ и показывают результаты на уровне o1.

🔸 Например, в отчете пишут, что модель пробивает рейтинг в 2000 на Codeforces (хорошие соревнования по программированию с довольно сложными задачками), это лучше 96% участников.

🔸 Локальный запуск: запустить эти модели будет непросто из-за их размера, поэтому авторы сделали ряд моделей поменьше, используя дистилляцию. От 1.5B до 70B.

🔸 Попробовать: полная R1 доступна на официальном сайте в режиме DeepThink.

🔸 Приложение: мобильное приложение работает бесплатно, ссылки есть тут.

🔸 Мини-обзор: https://hfday.ru/u/2501.12948.html

4,011

Градиент обреченный

20 Jan, 12:04

Когда по-быстрому встроил ИИ в проект

4,509

Градиент обреченный

20 Jan, 07:29

Качаем на флешку, пока не удалили

https://huggingface.co/deepseek-ai/DeepSeek-R1

3,911

Градиент обреченный

20 Jan, 07:03

На together.ai появилась бесплатная Llama 3.3 70B по API.

🔸 На Free tier'е у них 60 запросов в минуту/60k токенов. Если добавить карту, то будет 600/180k.

🔸 Работает без VPN и мобильных, совместима с OpenAI клиентом. Можете встроить в свой пет-проектик.

https://api.together.ai/models/meta-llama/Llama-3.3-70B-Instruct-Turbo-Free

import os
import openai


os.environ["TOGETHER_API_KEY"] = "your_free_key"

client = openai.OpenAI(
  api_key=os.environ.get("TOGETHER_API_KEY"),
  base_url="https://api.together.xyz/v1",
)

response = client.chat.completions.create(
  model= "meta-llama/Llama-3.3-70B-Instruct-Turbo-Free"
  #"meta-llama/Meta-Llama-3.1-8B-Instruct-Turbo",
  messages=[
    {"role": "system", "content": "Ты — ассистент Шерлока Холмса."},
    {"role": "user", "content": "Кто убил садовника?"},
  ]
)

#Интригующая загадка, действительно! К сожалению, я не располагаю конкретными деталями о деле, касающемся убийства садовника. Однако я могу предложить некоторые общие наблюдения и идеи, которые могут помочь нам начать расследование.

#Во-первых, давайте рассмотрим место преступления...

3,931

Градиент обреченный

18 Jan, 15:16

🔺 Что будет, если замедлить скорость света?

Наткнулся на любопытный игровой проект от MIT. Если ходить и собирать шарики в этой игре, то все сильнее замедляется скорость света и начинает проявляться куча интересных эффектов.

🔸 Эффект Доплера. Движение в сторону источника света вызывает синее смещение, а в противоположную сторону — красное.

🔸 Сдвиг спектра. Инфракрасный и ультрафиолетовый свет могут сдвигаться в видимую область спектра.

🔸 Аберрации. Объекты, находящиеся в направлении движения, кажутся ярче, из-за концентрации света в этом направлении.

🔸 Замедление времени. Движущиеся NPC и другие объекты замедляются в зависимости от вашей скорости.

🔸 Искажение пространства. Окружающее пространство начинает сжиматься в направлении движения. Авторы пишут, что это проявление преобразований Лоренца.

В сумме все это дает не очень комфортную для глаз картинку, так что в реальности предлагаю скорость света не расшатывать.

👉 Попробовать можно тут — A Slower Speed of Light

4,725

Градиент обреченный

15 Jan, 13:56

ждём смс

В ChatGPT добавили отложенные задачи. Уведомление с результатом приходит в виде пуша или письма.

🔸 Можно попросить гуглить что-нибудь на нужную тему раз в день и подготавливать текст (например, задачку по программированию или задание на английском для чтения) и отправлять на почту.

🔸 С почты можно настроить дальнейшую интеграцию (помню, раньше пользовался штуками типа IFTTT). Отправлять к себе в телеграм, постить в соцсеть или скидывать в pocketbook cloud на электронную читалку.

//Upd. На почту все-таки не весь ответ приходит, а ссылка в интерфейс, хотя отработка происходит в положенное время.

3,703

Градиент обреченный

12 Jan, 16:18

Поигрался с kling'ом

Пора бы уже сделать кому-то удобный сервис по генерации множества сцен с консистентными персонажами и связыванием их в один ролик. По отдельности вроде понятно как, но вот прям лень возиться.

4,203

Градиент обреченный

11 Jan, 10:14

Выложил несколько LoRA моделек с классиками.

https://habr.com/ru/articles/872926/

7,042

Градиент обреченный

10 Jan, 11:16

63-й год был сложноват, но Сергей справился

3,965

Градиент обреченный

08 Jan, 10:32

🔺 DeepSeek v3

Поигрался с DeepSeek v3, который вышел недавно. Соскоки с русского на китайский, которые были раньше (типа "力ный" вместо "сильный", что само по себе любопытное явление), прекратились.

🔸 Есть web-поиск и режим DeepThink, аналог o1. Работает похуже, чем ChatGPT, те же буквы может посчитать неправильно, но в целом рассуждения работают.

🔸 Цена дешевая, если получится поплнить баланс, — $0.27 и $1.10 за 1M токенов на вход и выход. У GPT-4o — $2.5 и $10.

👉 Я тут в отпуске освоил AliPay и смог оплатить, делюсь ключом от API поиграться (пока там есть деньги): sk-2d6cfbbd72d74b52bba11ea5336cc2f6

🔸 Но есть и просто обычный чат и он бесплатен, попробуйте обязательно. Работать стала почти на уровне лучших моделей.

👉 DeepSeek-чат | HF | Статья

3,621

Градиент обреченный

07 Jan, 12:07

Поискал сравнение актуальных цен на популярные LLM, чтобы не делать свой скрипт, и почти везде цены не всегда правильные (особенно часто отличаются у Gemini или нет моделей типа DeepSeek, которая по ощущениям уже сравнима с лучшими).

1️⃣ В итоге нашел на docsbot.ai, вроде бы цены правильные.

2️⃣ А на openrouter.ai ещё любопытней — можно посмотреть на каких платформах раздается API модели и их средние показатели типа задержки и те же цены.

Там же видно, где и какие модели сейчас доступны бесплатно (по API).

3,466

Градиент обреченный

03 Jan, 15:13

🔺 Осваиваем FLUX, LoRA и ComfyUI

Написал заметку про то, как дообучать модель FLUX на небольшом количестве картинок, как настраивать ComfyUI и работать в нем.

🔸 Можно обучать локально, если есть видеокарта дома. Можно арендовать сервер с картой на полчаса. Можно обучить и генерировать на платформе типа fal.ai.

🔸 По-умолчанию LoRA получается примерно на 30 Мб, а на различных сервисах около 130 Мб и работает получше. Можно поменять ранги в скриптах обучения, чтобы увеличить размер. Про это тоже написал.

🔸 Подходит, само собой, не только для лиц, а для чего угодно. Можно переносить стили с ваших картинок или обучать на какие-то специфические вещи.

👉 https://habr.com/ru/companies/ods/articles/871256/

3,761

Градиент обреченный

02 Jan, 17:21

🔺 Новые фото Стругацких

Ух, вроде получилось. Друзья, весь день провозился с обучением лоры под Стругацких, совместно сделать их одной лорой так и не получилось (Борис Натанович есть в предыдущем посте).

Осложняется все тем, что фотографий у братьев крайне мало, особенно у старшего, Аркадия. А то, что есть — это подобие сканов.

Поулучшал найденный материал, как смог, и обучил несколько моделей. Работают они менее стабильно, иногда соскакивают на женский пол и рисуют сестру Стругацкую (!)

Пришлось изрядно почеррипикать, но всё же полученные генерации — это теперь лучшие фото АБС в сети! 😄

🎉 P.S. Оказалось, что сегодня — День научной фантастики (приурочен к ДР другого супер-фантаста). С чем я вас и поздравляю.

На этом, наверное, закончу с картинками и опишу, как такие делать.

3,329

Градиент обреченный

02 Jan, 12:05

🎄

3,492

Градиент обреченный

01 Jan, 07:58

Завожу лору на FLUX

3,004

Градиент обреченный

18 Dec, 14:01

🇯🇵 Всем привет с родины Годзиллы

Тут все спокойно, титаны не атакуют. Если тоже соберетесь, то:

🔸 Визу делают за 4 дня, бесплатно. Дали на три года, раньше тут не был.

🔸 Удобно до вылета купить eSIM и ходить потом везде с 5g интернетом.

Местные везде стараются помочь, по-английски часто не понимают. При пересадке в Пекине не могли найти гостиницу, нам сначала объясняли по карте, а потом проводили до нее за 15 минут. Сейчас в Осаке.

1,562

Градиент обреченный

13 Dec, 14:03

🫣 Коллеги из музыкальной команды зарелизили генератор песен. Сделал вам медитативную композицию.

P.S. В Гигу доезжает, скоро будет во всех интерфейсах.

👉 Попробовать | Хабр

2,350

Градиент обреченный

13 Dec, 10:48

Сделал обзор Phi-4. Как вам?

Обзор полностью автоматический (делается по ссылке на статью) + небольшие правки по тексту. Использовал только что вышедшую Gemini 2 (gemini-2.0-flash-exp).

Если норм, то буду периодически добавлять такие обзоры к некоторым статьям (буду пробовать разные модели).

👉 Они будут тут: https://hfday.ru/u/

2,294

Градиент обреченный

12 Dec, 08:11

Друзья, вернул Градиент на место.

Для справки, это все еще отсылка к Стругацким. В некоем искусственно созданном городе между желтой стеной и обрывом проходит Эксперимент. Люди, живущие в городе, попали в него из разных эпох и о деталях эксперимента не знают, пытаясь жить в соответствии со своими взглядами.

Книга не то, чтобы очень легкая и понятная, писалась в 70-х, а была издана гораздо позже. Название, кстати, со слов авторов, читается через букву «е».

2,140

Градиент обреченный

12 Dec, 07:28

Channel name was changed to «Градиент обреченный»

0

Градиент обреченный

10 Dec, 10:07

Тем временем Грок почти научился рисовать надписи на русском.

P.S. Это вчерашний релиз x.ai. Выкатили модель для генерации картинок Aurora.

//по-моему, надписи на русском до этого в популярных моделях не работали

👉 Релиз | Grok

2,443

Градиент обреченный

10 Dec, 08:07

Channel name was changed to «Doomgrad»

0

градиент обреченный

04 Dec, 08:04

🔺 Умный редактор в GigaChat'е

Коллеги много трудились и выкатили в Гигу инструмент для редактирования текстов (аналог Canvas в ChatGPT и AI-помощника в notion).

Можно по-разному редактировать свой текст — дополнять, сокращать, менять стиль и переводить. Так как все работает на наших моделях, то функционал можно будет расширять как угодно.

Я бы, например, добавил еще генерацию иллюстраций по тексту, применение стиля на основе образца и ввод команд в свободной форме.

Попробуйте и напишите идеи, что бы еще было полезно сделать.

👉 giga.chat

2,251

градиент обреченный

03 Dec, 09:26

🔺 Switty

Коллеги из Яндекса выложили новую T2I модель. Рисует неплохо, хотя главное улучшение в архитектуре. Как я понял, ускорили генерацию на 30 процентов (убрали авторегрессионность и на высоких разрешениях в конце отключили guidance — усиление влияния текста на генерацию).

P.S. Не то, чтобы я сразу полез рисовать нюдсы, но да, они генерятся.

👉 Статья | GitHub | Демо на HF

1,487

градиент обреченный

01 Dec, 08:48

Сходили на лекцию Владимира Сурдина и Алексея Семихатова про научные открытия.

Узнал, что условия для жизни есть даже в нашей Солнечной системе на нескольких планетах. И что в 2030 году к спутнику Юпитера прилетит Europa Clipper, чтобы там эту жизнь поискать. Ждём ⏳

В общем лекция отличная, часть Сурдина даже чуть больше понравилась. Такие просветительские лекции происходят довольно часто и не только в Москве, так что сходите при оказии.

1,857

градиент обреченный

29 Nov, 07:29

🔺 Энциклопедия ИИ

Друзья, мой коллега Сергей Марков написал книгу в жанре научпоп про машинное обучение. Называется она «Охота на электроовец: большая книга искусственного интеллекта».

🔸 Писал он её 6 лет (!), переработав несколько тысяч источников.

🔸 Если вам интересно, как область зарождалась и развивалается, какие люди за этим стоят и как это всё работает, то очень рекомендую.

🔸 Книга не дешёвая — формат у нее подарочный, но красивая. А еще её можно скачать бесплатно прямо на сайте автора.

👉 Труд автора можно поддержать плюсиком к статье на Хабре про эту книгу.

👉 Upd. Купить можно на озоне.

2,330

градиент обреченный

28 Nov, 09:15

А этот стиль затягивает...

2,289

градиент обреченный

27 Nov, 07:41

В Claude добавили возможность создания стиля ответа. Можно скормить немного текста, например, отрывок из какого-нибудь писателя, кусок документации или даже просто спам. Получите стиль, который можно затем выбирать при генерации.

Скорее всего текст или его характеристики просто идут в промпт, поэтому такое можно эмулировать с любой другой моделью, но как часть UI выглядит удобно.

2,245

градиент обреченный

25 Nov, 09:10

На выходных переделал дизайн странички с обзорами статей. Стало красивей!

➕ добавил разных мелочей типа аффилиаций (скоро добавлю фильтры по ним).

2,346

градиент обреченный

22 Nov, 14:40

🔺 HFday.ru

Начинаем потихоньку заглядывать в полные тексты статей. Сделал обкачку и парсинг PDF с arxiv'а, занятие очень познавательное. Научился делать с PDF скриншоты и обрезать белые поля (они могут быть разные). Добавил их на карточки статей.

Полные обзоры

Путем долгих экспериментов получилось сделать первые полные обзоры. Делаю GigaChat'ом, пока получается как на картинке (сделано по этой статье). Самое сложное, конечно, с переводом терминов. Все сетки понемногу галлюцинируют.

Поэкспериментирую дальше. Если будет стабильно работать, то для избранных статей можно будет добавить такое на hfday.ru.

Аффилиации

Название конторы или института и имена авторов также научился доставать, пока сохраняются в json'ы. Скоро протащу на странички, можно будет смотреть статьи только от Google или MS.

Ссылки с тегами

Еще прокинул фильтры в параметры. Теперь вот так можно найти, например, все статьи по RAG'ам за ноябрь.

https://hfday.ru/m/2024-11.html?cat=rag

🔸 Напоминаю, что на этой страничке у нас ежедневные обзоры статей с HF Dily Papers, все делается скриптами, которые лежат на гитхабе, там же все развернуто. Контент генерируется разными LLM, можете переделать эту машинерию свои нужды.

👉 GitHub

2,651

градиент обреченный

21 Nov, 16:30

Завтра в 19:00 презентация моей книги в «Архэ». Приходите, расскажу разное

📍Вход свободный! Регистрация: https://arhe.msk.ru/?p=144635
📹 Также мы организуем прямую трансляцию лекции. Трансляция пройдет здесь: https://www.youtube.com/c/ЦентрАрхэ
📌 По всем вопросам относительно лекции обращайтесь по почте [email protected]
♦️ Лекция пройдет по адресу: Москва, ст. метро «Павелецкая», ул. Дубининская, д. 20, стр. 1 (Научно-популярная библиотека «Научка»)

2,539

градиент обреченный

21 Nov, 12:28

Вот это я понимаю спам, а не эти ваши "заберите nft, заберите nft".

//пойду за картофаном, пока не улетел

2,755

градиент обреченный

21 Nov, 11:24

🔺 GlotLID. Классификатор языков на 2000+ классов

Вышла новая модель для детекции языков с большим упором на малоресурсные.

🔸 Всего 2102 класса, полный список с кодами в статье, занимает 60% от самой статьи. Модель — fasttext, обучили на своем датасете GlotLID-C.

🔸 Пишут, что на самых редких языках (скорее всего нижние по данным несколько сотен), работает не очень. Попробовал на языках России, которые есть в «Маленьком принце» (башкирский, удмурсткий, эрзянский, якутский и т.д.), все кроме кубачинского и орокского языков определяет без ошибок (а этих языков в модели, судя по всему, нет).

🔸 В репозитории есть полезная кастомная обертка для модели — CustomLID. Через нее можно задать только нужные языки, чтобы классификация шла только по ним.

В общем штука полезная, берём.

👉 Paper | GitHub | Демо на HF

1,213

градиент обреченный

19 Nov, 14:07

Тут коллеги намекают, что есть же официальный клиент, а вы про него не знаете. Давайте исправлять.

У него и функционал побогаче (есть потоковая передача токенов, например, и работа с функциями), и имя погигачатистей.

#pip install gigachat

from gigachat import GigaChat

key = "N2RlZmM4MDAtMWI4Ny00YmZjLWIxZjgtYTAwYjI1YmNhZTUwOjFmMjhiZmIzLTFlYTktNDQ2Zi05ZDQ5LWZmMWYyNmVhMjllOQ=="

with GigaChat(credentials=key, verify_ssl_certs=False) as giga:
    response = giga.chat("Почему у кошек мокрый нос?")

print(response.choices[0].message.content)

👉 GitHub (код и докуменатция)

Upd. Друзья, ключ я не забыл удалить, это мой. Пользуйтесь, пока там есть баланс.

1,691

градиент обреченный

19 Nov, 10:46

🔺 GigaChat MAX в API

Друзья, последняя версия модели стала доступна по API. Можно тестировать.

🔸 Для удобства накидал простенький клиент (закинул на pypi):

#pip install gigadoom

import gigadoom as gd


SECRET_KEY = "secret"
acc_token, token_exp = gd.chat.get_access_token(SECRET_KEY)

#models
models = gd.chat.get_models(acc_token)

print(models)

#chat
system = "Ты отвечаешь в стиле Николая Гоголя, с юмором и глубоким смыслом."

query = "В чем смысл жизни?"
history = [{"content": system, "role": "system"}]

answer, history, usage = gd.chat.get_completion(query, acc_token, history=history, model="GigaChat-Max")

#Ах, батенька! Смысл жизни...

#use previous history
query = "А теперь расскажи про квантовую механику в общих чертах."
answer, history, usage = gd.chat.get_completion(query, acc_token, history=history)

print(history)
print(answer)

🔸 Чтобы поиграться, вот вам мой ключик, там осталось 800k токенов, можно потратить. Можно попробовать свои систем-промпты, чего через UI не сделать. Если заметите что-то интересное, то пишите.

Ключ: N2RlZmM4MDAtMWI4Ny00YmZjLWIxZjgtYTAwYjI1YmNhZTUwOjFmMjhiZmIzLTFlYTktNDQ2Zi05ZDQ5LWZmMWYyNmVhMjllOQ==

👉 Официальный клиент можно найти тут.

1,907

градиент обреченный

19 Nov, 07:35

Сегодня день рождения Юрия Кнорозова, человека, который в 1950-х годах дешифровал письменность майя.

Археолог и майянист Майкл Ко в книге «Разгадка кода майя» пишет, что Кнорозов, работая несколько десятилетий в институте Этнографии, занимал «весьма уютный уголок у окна, в ужасающе тесной комнатушке в конце коридора».

«Для меня работа Кнорозова знаменует триумф человеческого духа: упорный и целеустремленный одиночка-ученый смог исключительно силой своего ума проникнуть во внутренний мир чужого народа, который жил тысячу лет назад, да еще в джунглях на другой стороне земного шара»

1,578

градиент обреченный

13 Nov, 08:09

А вторая в принципе ничего

3,089

градиент обреченный

08 Nov, 09:47

🔺 HFday.ru

Друзья, спасибо за большой фидбек с доработками. Много чего обновил по вашим просьбам. Разбил классификацию на два прохода и пересчитал, стало более точно. Добавил новые классы (small_models, leakage, healthcare, low_resource и другие).

🚀 Добавил топ статей за месяц и статьи за сентябрь. Статей, конечно, огромное количество. За пару месяцев их уже 800+.

🔸 В фильтры добавил возможность пересекать и объединять категории (значки A∪B A∩B). Теперь в топе за месяц можно выбрать, например, бенчмарки+аудио и получить только такие статьи.

🔸 Экспериментирую с обзорами по полным версиям статей, чтобы при этом сохранить их структуру и по возможности достать картинки. Довольно муторное дело, в html версии на arxiv'е не всегда полные статьи, разбирать архив с latex'ом это какой-то гемор, pdf парсить тоже не сахар. Но что-нибудь придумаем.

👉 Сайт | GitHub

3,490

градиент обреченный

07 Nov, 17:57

🌸Больше языков для LLM🌸
#nlp #про_nlp

Huggingface в поиске контрибьюторов носителей языков!
Корпус FineWeb на 15 трлн токенов теперь ждёт большое расширение на 1000+ языков 🎉

🟣

Сколько языков сейчас представлены в практике моделирования языка?

Если считать, что в целом живых языков 6-7 тысяч,
— в базе Ethnologue 7164
— суммарно во всех LLM работах упоминается примерно 1500 языков (в основном за счет работ NLLB и Towards MT for next 1000 languages)
— у звучащей речи чуть лучше: 4000 языков, но у 70% из них меньше чем 2 часа записей (за счет XEUS)

🟣

Бутылочное горлышко валидации
Все ресурсы, которые так или иначе языки описывают, можно расположить на 2 осях координат: их качество и их пригодность для ML-применений. Окажется, что наиболее доступные и пригодные для предобучения моделей корпуса (CommonCrawl, его вариации) в то же время оказываются и наименее качественными.

Причина тому — автоматическое определение языка (см fasttext) невозможность ручной валидации. Автоматические быстрые классификаторы как правило могут с высоким уровнем надежности определить не более 200 языков, тогда как большинство языков оказывается в большой куче "мусора" — наименее надежно атрибутированных данных.

Бутылочное горлышко для того, чтобы побороть валидацию на большом объеме данных — это наличие сообщества носителей языков, которые бы активно контрибьютили и помогали улучшить как классификаторы, так и способы оценки качества получаемых языковых моделей.

Я уже несколько раз рассказывала про ситуацию с многоязычными данными, и даже несколько раз за этот год меняла слайды — так быстро меняется ситуация! И сегодня даже в лучшую сторону.

🟣

Инициатива HuggingFace

Помимо расширения корпуса FineWeb, HuggingFace ищет волонтеров и носителей языка, чтобы расширить именно процедуру многоязычной оценки языковых моделей.
Новая инициатива — FineTasks — объединяет 4 стандартных бенчмарк-формата:

— Машинное чтение: Понимание предоставленного контекста и ответы на вопросы на его основе.
— Общие знания: Ответы на вопросы о фактах из различных областей без дополнительного контекста.
— Понимание естественного языка (NLU): Понимание семантики предоставленного ввода.
— Рассуждения на основе здравого смысла: Демонстрация способности выполнять простые рассуждения, требующие воплощенных знаний.
— Генеративные задачи: Умение генерировать корректный текст на целевом языке.

Авторы уже собрали 185 задач для 9 языков: поддерживаются
китайский, французский, арабский, русский, тайский, хинди, турецкий, суахили и телугу.

Цель для полного бенчмарка — как минимум 50 языков из разных семей, ареалов и с разной письменностью.

Ну и... ждём большой новый многоязычный корпус с открытой лицензией!

Куда контрибьютить?
🟣 Контрибьютить новые задания и языки можно здесь в шаблоне
🟣Мини-гайд
🟣Блог HF

2,145

градиент обреченный

07 Nov, 07:25

🔺 Grok API и $25

API от x.ai запустили в публичную бету.

🔸 Пока есть только одна модель grok-beta. Это та самая новая модель, которая должна уже доучиться в этом году. На следующей неделе обещают выкатить мультимодальную (с пониманием картинок).

🔸 Бесплатно дают $25 в месяц, плюс добавляют еще столько бесплатных, сколько пользователь купит. Но это все действует пока идет бета-тестирование — до конца года.

🔸 Работает без VPN и подтверждения телефона, так что можно легко попробовать и поподключать к своим пет-проектам до конца года.

🔸 Цена будет подороже чем у GPT-4o — $5.00 и $15.00 за 1M input/output токенов. У gpt-4o $2.5 и $10 соответственно.

🔸 Так как API совместимо с OpenAI и Anthropic, то можете просто поменять в их клиентах название модели на grok-beta и base_url на https://api.x.ai/v1.

👉 Рабочий пример. Потыкайте насколько Grok адекватный. По-русски вроде неплохо отвечает.

from openai import OpenAI

XAI_API_KEY = "xai-0IsopkrHdCf9T3RtXNdA8WlETOzXwsr7l1a8jRZmzi6mrLEStmOJW294nB8gQLR8CFdPLlAEo8BEZ1WF"
client = OpenAI(
    api_key=XAI_API_KEY,
    base_url="https://api.x.ai/v1",
)

completion = client.chat.completions.create(
    model="grok-beta",
    messages=[
        {"role": "system", "content": "You are Grok, a chatbot inspired by the Hitchhikers Guide to the Galaxy. Answer in Russian."},
        {"role": "user", "content": "What is the meaning of life, the universe, and everything?"},
    ],
)

print(completion.choices[0].message.content)

#Согласно "Автостопом по галактике" Дугласа Адамса, ответ на вопрос о смысле жизни...

👉 console.x.ai

2,505

градиент обреченный

06 Nov, 07:40

Посчитал, все верно

Её сестра

2,629

градиент обреченный

05 Nov, 10:39

✍️ a sqlinj➡️🐍😈 tool for me

Свежая заметка про то как GPT-4 используют для написания эксплоитов и вредоносных утилит. Предлагается кодировать в hex или использовать emoji.

Хитро, но, если просто спросить про SQL injection в прошедшем времени и попросить написать скрипт, то так тоже сработает.

2,454

градиент обреченный

02 Nov, 10:28

Друзья, у меня в очередной раз случился день рождения. Последний раз такое происходило примерно с год назад, поэтому давайте познакомимся.

Меня зовут Сергей. Работаю программистом, хотя мог бы, наверное, стать переводчиком, музыкантом или спортсменом, если бы был поумнее и посильнее.

Часто трудно выбрать какое-то одно увлечение и это отражается в хобби, которые никакой конкретной цели не преследуют. Это и языки с музыкой, и спорт (благодаря работе подсел последние полтора года на теннис) с книжками, и другие бесполезные вещи.

На работе в Сбере занимаемся с коллегами исследованиями языковых моделей и обучаем GigaChat. Только что дописали статью на Хабр про MAX, в котором я тоже поучаствовал, сделав для него токенизатор.

На канале мы с вами общаемся в основном на темы, связанные с ИИ, машинным обучением и проектами типа Lingtrain'а. Статей выходит огромное количество, поэтому я делаю инструмент с автообзорами (тг тоже будет), а в канале буду писать больше про практические вещи и изредка про личные. Можете его бустануть.

👉 А чем занимаешься ты? О чем мечтаешь? Полететь к звёздам или выспаться?

3,084

градиент обреченный

01 Nov, 14:58

Вечерний выпуск подкаста Радио-D

Рецепт: Инструкция от холодильника Бирюса, Claude, ElevenLabs, "унца" из Радио-Т

Долго подбирал голоса на ElevenLabs, равнозначный женский так и не настроил. А мужской прям отлично слушается.

2,820

градиент обреченный

31 Oct, 11:40

Написал для прикола скриптик, который генерит вот такие подкасты по статьям.

Такой NotebookLM на коленке.

Обсуждают CLEAR: Character Unlearning in Textual and Visual Modalities, тык.

3,094

градиент обреченный

31 Oct, 07:45

Наконец-то закончил работу над большим пет-проектом.

Я смог запустить Llama 3.1-8b прямо в браузере на cpu с помощью нашего нового алгоритма сжатия AQLM+PV.

Можно потестить демо здесь

видео

2,285

градиент обреченный

29 Oct, 11:52

🔺 SONAR в lingtrain-aligner

Добавил в наш инструмент для выравнивания текстов пулл от Давида с эмбеддинг-моделью SONAR от Meta.

🔸 Поддерживает 200 языков. Полный список кодов здесь (названия тут).

🔸 На MTEB (см. вкладку bitext mining) она показывает себя лучше замечательной модели LaBSE на 100+ языков.

🔸 Пример выравнивания через python библиотеку lingtrain-aligner можно посмотреть в статье. Если прокинуть код языка из списка, то качество должно дополнительно увеличиться (это нужно только для SONAR'а). По-умолчанию, стоит греческий, с ним нормально работает для известных модели языков.

В этой же статье рассказывается как дообучить LaBSE на свой язык с примером для марийского и как потом использовать.

aligner.align_db(...
                 model_name="sonar",
                 ...,
                 lang_emb_from="bak_Cyrl", #башкирский
                 lang_emb_to="rus_Cyrl"
)

🔸 В веб-приложении модель тоже можно использовать, надо в конфиге .env указать MODEL="sonar".

👉 lingtrain-aligner | UI | Хабр | SONAR

2,989

градиент обреченный

27 Oct, 14:07

По просьбам читателей добавил обзоры на английском и на китайском (через gpt-4o). UI вроде тоже весь локализовал. Если что найдете, пишите.

P.S. Для теста добавил фоновые картинки для статей с рейтингом 20+ (промпт пишет gpt-4o, генерит flux). По-моему, это не особо нужно (хотя прикольно), а как вам?

👉 HFday.ru

3,106

градиент обреченный

25 Oct, 09:02

🔺 GigaChat MAX

Друзья, отличные новости — выкатили самую большую модель GigaChat'а для всех.

🔸 Среди улучшений, типа красивостей при форматировании (LaTeX, списки и другая разметка), работы с кодом и т.д., постарались добавить в обучение больше мультиязычных данных, включая малые языки.

Таких корпусов, к сожалению, немного самих по себе, но мы их отслеживаем, так что выкладывайте побольше в открытый доступ.

🔸 Токенизация стала значительно более оптимальной для всех доменов, что увеличивает также и эффективный контекст.

🔸 API скоро появится, а сейчас можно работать через UI.

Все навыки должны были улучшиться, так что тестируйте, пишите фидбек!

Все ваши отзывы команда читает и старается улучшить Гигу.

👉 giga.chat | Замеры и описание | @gigachat_bot

3,980

градиент обреченный

24 Oct, 09:50

Добавил на hfday.ru навигацию по дням.

Теперь можно выбрать фильтр по нужной теме, например, галлюцинации или RAG'и и почитать обзоры найденных статей за последнее время.

История листается вглубь времен на три недели, когда появилась идея это пет-проекта. Пришлось заморочиться с выходными, так на них HF daily papers не обновляется и был дубляж страничек.

Дальше добавлю топ за неделю/месяц и английский язык.

3,090

градиент обреченный

23 Oct, 09:13

🔺 Claude обновился

Что мы имеем спустя 4 месяца после выхода Sonnet 3.5?

Claude 3.5 Haiku. Появилась малая версия 3.5, по способностям как третий Opus (модельный ряд Claude — это Хайку → Сонет → Опус).

Claude 3.5 Sonnet. Сонет тоже обновился, особенно по части кода. Пишут, что кодит теперь лучше GPT-4o*. Цена при этом осталась прежней.

Computer use. Теперь Claude может "подключится" к вашему компу в стиле удаленщика, шарить по экрану и делать то, что попросите. Делается это через вызов внешних инструментов, которыми управляет модель. Чтобы начать, подготовили демо с кодом и контейнером.

👉 Новость | Computer use API | PDF про модели

3,070

градиент обреченный

20 Oct, 16:21

Сходил сдал HSK3 (экзамен на знание китайского). Вот это уже интересно, даже письменная часть добавилась, а несколько вопросов я вообще не понял :) Аудитория тоже подросла, вместо школьников уже по большей части студенты.

3,406

градиент обреченный

20 Oct, 06:10

Такой промпт написал для классификации статей по темам. Каких тем не хватает?

...
DATASET: Papers that introduce new datasets or make significant modifications to existing ones
DATA: Papers focusing on data processing, cleaning, collection, or curation methodologies
BENCHMARK: Papers proposing or analyzing model evaluation frameworks and benchmarks
AGENTS: Papers exploring autonomous agents, web agents, or agent-based architectures
NLP: Papers advancing natural language processing techniques or applications
CV: Papers developing computer vision methods or visual processing systems
RL: Papers investigating reinforcement learning theory or applications
RLHF: Papers specifically about human feedback in RL (PPO, DPO, etc.)
RAG: Papers advancing retrieval-augmented generation techniques
CODE: Papers about code-related models or programming benchmarks
INFERENCE: Papers optimizing model deployment (quantization, pruning, etc.)
3D: Papers on 3D content generation, processing, or understanding
AUDIO: Papers advancing speech/audio processing or generation
...

https://gist.github.com/averkij/0e39e43fef4ec9282aa89fd0cdc65f07

👉 Upd. Добавил PLP, STORY_GENERATION, HALLUCINATIONS, убрал NLP.

👉 Upd 2. Добавил LONG_CONTEXT, убрал QUANTUM.

👉 Upd 3. Добавил SYNTHETIC.

👉 Upd 4. Добавил TRANSLATION. Пересчитал все.

3,407

градиент обреченный

18 Oct, 12:42

Немного полезного контента.

// Заметили как рука Шмидхубера тянется за медалью в конце?

// Upd. Генерить тут.

2,932

градиент обреченный

18 Oct, 09:23

🔺 Bukva

Ребята из CV-команды снова вносят вклад в развитие русского жестового языка. На этот раз подготовили и выложили датасет для дактиля — жестовой азбуки.

🔸 В датасете 33 класса, на каждый класс есть минимум по 100 видео (всего 3757). Размечало датасет больше сотни человек (!), владеющих РЖЯ. Можно почитать про то как его собирали и зачем он нужен.

👉 Хабр | Датасет | Paper

3,025

градиент обреченный

14 Oct, 07:30

Экспериментально добавил на HFday.ru (обзоры статей с HF Daily Papers) фильтр по темам — nlp, cv, reasonong и т.д., так как статей иногда бывает довольно много, до 40 штук за день.

Классификация идет тоже через Claude (он генерит до 5 тем на статью), показываются все доступные темы.

Страничка синхронизируется с HF все каждые два часа, для новых статей генерируется обзор и он добавляется к остальным. Добавил также сколько прошло времени с прошлого обновления.

Еще добавил сортировку по добавлению на HF, по ней все добавленные в течение дня статьи будут показываться наверху.

Все настройки странички сохраняются в local storage браузера. UI постарался сделать красивым, довольно муторное дело, особенно для мобильного (фронтендеры, как вы это терпите?).

Кому интересно, как работает — код тут, там же проект и развернут. Пользуемся, пишем как вам такая читалка.

👉 Upd. Перевел классификацию на промпт ниже. Добавил сортировку. Модель gpt-4o-mini.

3,695

градиент обреченный

07 Oct, 07:54

🔺 HFday.ru

Сделал для сообщества сайтик с обзорами статей с HF Daily Papers на русском.

Синхронизируется каждые 2 часа, можно отсортировать по рейтингу или вывести вверх недавно добавленные статьи, чего, кстати, на оригинальной страничке не сделать.

Обзор, теги и прочие данные генерируются через Claude на основе спаршенных с сайта абстрактов.

Развернуто все полностью на GitHub — через Workflow джобы и Pages, что само по себе очень прикольно. Скрипты обновляют файлы с данными, пишут логи и генерируют страничку, которая коммитится обратно в репозиторий. Такую автоматизацию удобно использовать для своих проектов, чуть позже опишу, как это настраивать.

Предыдущие выпуски откладываются в папку prev_papers. Кушает это где-то по 20-30 рублей в день (claude 3.5 sonnet). Код открыт.

В общем, добавляйте в закладки и шарьте с коллегами. Идеи приветствуются.

—
Upd. Всем привет, кто пользуется и заходит на канал. Пишите как вам, что добавить.

Добавил сортировки, дату публикации, пофиксил баги.

Upd 2. Добавил классификацию промптом через gpt-4o-mini.

Upd 3. Добавил навигацию по дням.

Upd 4. Добавил английский и китайский. Локализовал UI на них.

👉 Сайт | Код

15,273

градиент обреченный

02 Oct, 12:57

🔺 EuroLLM 1.7B Instruct

Неплохая маленькая модель от альянса UTTER, включающего в себя несколько Европейских университетов.

🔸 Обучили на 4T токенов на языках Евросоюза, причем целенаправленно добавили к ним несколько дополнительных, таких как русский, китайский, турецкий и украинский.

🔸 Токенизатор на 128k токенов с улучшенной относительно Llama 3 фертильностью для всех языков кроме английского.

🔸 В данные добавили по 20% параллельных данных en-xx, xx-en. Добавили код и математику. Обучали в два этапа, заканчивая чистыми данными.

🔸 В итоге моделька качественно генерирует на русском, в отличие от Llama, которая периодически вставляет иностранные слова или токены в текст, причем выглядит это порой очень забавно.

🔸 Зато с фантазией как раз лучше у Ламы 3.2 3B (например, она придумала слоганы для книжного магазина "Книжный ад" — "Ад в каждом томе" и "Стоимость книги: бесконечность").

Обещают обучить модели покрупнее, ждём.

👉 Статья | HF

3,840

градиент обреченный

01 Oct, 10:14

Чуть почистил скрипт по генерации обзоров статей. Сделал обзоры в стиле разных персонажей, можете поугадывать, хотя это не так сложно.

Перевел парсинг на фид NLP Newsletter со статьями за неделю. Модель — GPT-4o с json_mode, чтобы надежно возвращать все за один запрос.

P.S. Ах да, обещал выложить — скрипт.

P.P.S. Можете поменять API на бесплатный Мистраль и поиграться с ним, если нет токена от openai.

Upd. Поменял на обычный стиль, так тексты по приятней выглядят.

👉 https://averkij.github.io/top_papers/

3,562

градиент обреченный

30 Sep, 07:39

Ура, досчиталось 🎉

3,718

градиент обреченный

29 Sep, 16:43

Тут коллеги из CV команды совместно с Центром исследования жестового языка запустили крутую вещь — словарь РЖЯ (русского жестового языка).

Сейчас записали и выложили несколько сотен видео с разных ракурсов для различных понятий. Планируют добавить еще несколько тысяч.

По-моему, очень круто. Я бы добавил еще какой-то грамматический комментарий о том, как составлять из жестов предложения с видео-примерами или даже мини-курс по РЖЯ.

Проект будет активно развиваться, так что идеи приветствуются. Какие бы слова туда еще добавить?

👉 Сайт | Хабр

3,932

градиент обреченный

28 Sep, 12:07

Пока шел дождик, накидал скрипт, который парсит страничку с лучшими статьями по ML за неделю, выкачивает abstract'ы и лезет в Claude за объяснениями в разных стилях и генерацией дополнительной информации типа заголовков, эмодзи и тегов.

Красивый UI не смог нагенерить ни чем, так что большинство времени ушло на верстку. Стоит один такой "выпуск" где-то 0.15 долларов.

P.S. Скрипт причешу и выложу, сможете поиграться.

https://averkij.github.io/top_papers/

4,592

градиент обреченный

17 Sep, 07:01

Это я выбираю, за какую задачу взяться первой.

4,504

градиент обреченный

15 Sep, 08:06

Ух, выровнял «Маленького принца» на удмуртском и добавил в нашу параллельную книгу-трансформер.

🔸 Добавил в Lingtrain Aligner функционал по разбиению строк (пост) после загрузки текстов, поэтому получилось более точно, плюс начал заменять отсутствующие предложения прочерком, чтобы впоследствии можно было и их добавить в готовую книгу. С остальными версиями постепенно буду делать аналогично.

🔸 Таким образом, уже есть параллельная версия книги на 18 языках — алтайском, балкарском, башкирском, дигорском, коми, кубачинском, марийском и горномарийском, мокшанском и эрзянском, орокском, татарском, удмуртским, хакасском, чувашском, якутском, русском и французском.

🔸 Делаю бурятский. Если у вас есть ещё редакции, то смело присылайте. Желательно с указанием переводчика.

👉 Книжка | GitHub

5,556

градиент обреченный

12 Sep, 18:41

AGI не достигнут

5,577

градиент обреченный

12 Sep, 11:56

🔺 Pixtral

Mistral выложила веса мультимодальной модели на 12B параметров.

Сначала показалось, что она сделана на основе NeMo, но токенизаторы у них сильно отличаются.

Веса только выложили и официальных деталей/замеров я пока не видел. Через vllm нормально запускается и работает в отличии от Reflection.

Скорее всего русский язык был в обучении, так как надписи на картинках в принципе распознает, хотя иногда и ошибается. Пойдем тестить.

P.S. Коммит в mistral-common.

👉 HF

3,645

градиент обреченный

03 Sep, 12:11

🔺 Transformer Explainer

Классная интерактивная визуализация про то, как работает трансформер.

Можно покрутить температуру и посмотреть как меняются вероятности распределения следующего токена. Можно вбить свой текст. Можно просто почитать статью под диаграммой.

Напомню также про классическую статью Illustrated Transformer

👉 Визуализация | GitHub | Видео

12,456

Градиент обреченный

градиент обреченный (Russian)

Градиент обреченный

Градиент обреченный

Градиент обреченный

Градиент обреченный

Градиент обреченный

Градиент обреченный

Градиент обреченный

Градиент обреченный

Градиент обреченный

Градиент обреченный

Градиент обреченный

Градиент обреченный

Градиент обреченный

Градиент обреченный

Градиент обреченный

Градиент обреченный

Градиент обреченный

Градиент обреченный

Градиент обреченный

Градиент обреченный

Градиент обреченный

Градиент обреченный

Градиент обреченный

Градиент обреченный

Градиент обреченный

Градиент обреченный

Градиент обреченный

Градиент обреченный

Градиент обреченный

Градиент обреченный

Градиент обреченный

Градиент обреченный

Градиент обреченный

Градиент обреченный

градиент обреченный

градиент обреченный

градиент обреченный

градиент обреченный

градиент обреченный

градиент обреченный

градиент обреченный

градиент обреченный

градиент обреченный

градиент обреченный

градиент обреченный

градиент обреченный

градиент обреченный

градиент обреченный

градиент обреченный

градиент обреченный

градиент обреченный

градиент обреченный

градиент обреченный

градиент обреченный

градиент обреченный

градиент обреченный

градиент обреченный

градиент обреченный

градиент обреченный

градиент обреченный

градиент обреченный

градиент обреченный

градиент обреченный

градиент обреченный

градиент обреченный

градиент обреченный

градиент обреченный

градиент обреченный

градиент обреченный

градиент обреченный

градиент обреченный

градиент обреченный

градиент обреченный

градиент обреченный

градиент обреченный

градиент обреченный

градиент обреченный

градиент обреченный