Борис опять @boris_again Channel on Telegram

Борис опять

18 Feb, 08:40

https://arxiv.org/abs/2502.12115

1,635

Борис опять

16 Feb, 12:01

Небольшое превью того, что там происходит в книге Бориса (Борис мучает главу про теорвер)

3,433

Борис опять

15 Feb, 14:42

Хочу завести попугая и научить его говорить "pvalue" и "критерий Стьюдента"

Это будет статистический попугай

4,189

Борис опять

15 Feb, 12:26

👉

Скорее всего, ты читаешь его в Tg: регистрируйся на новый Open Talks с @boris_again

🐱

Уже 19 февраля в 19:00

Обсудим:
– Как стать ML-инженером в eBay?
– Модели мира у нейросетей
– Почему ML – это просто?

➡️

Эксперт: Борис Цейтлин
Staff ML Engineer в eBay
Автор Telegram-канала «Борис опять»

➡️

Ведущий: Роман Одобеску
Талант 2 курса AI Talent Hub
Middle ML Engineer

😾

Не увидел важного вопроса в анонсе?

➡️

Регистрируйся и задай свой вопрос!

Уже был на Open Talks? Приходи на Бориса опять

😉

#OpenTalks
#AITalentHub #ITMO #NapoleonIT

3,741

Борис опять

12 Feb, 13:28

📣 Open-call: Курс по основам AI Safety

ИИ меняет мир с безумной скоростью, но вместе с этим несет в себе серьезные риски. Задача AI Safety – позаботиться, чтобы эти изменения были положительными

Цель курса – дать базу для начала карьеры в AI Safety. Программа знакомит с основными концепциями, ландшафтом исследований и работами Anthropic, Redwood Research, MIRI

📖

Программа из двух треков:
➕Учебный (4 недели): Знакомство с материалами в фасилитируемых группах
➕Проектный (7 недель): Работа с ментором нацеленная на публикацию

👥

Для кого?
➕Будущие рисечеры: ml'щики, физики, математики, программисты
➕Будущие фаундреры: предприниматели интересующиеся AI Safety

🎓

Сертификат по окончанию курса
👏 Карьерная консультация и менторское сопровождение для лучших студентов

🔫

Экспертиза менторов включает: evals, agent foundations, adversarial attacks, representation engineering, safety field building, mechanistic interpetability

💼 Этим курсом мы готовим людей себе в команды и в команды наших друзей по сейфти. Поэтому курс бесплатный. По этой же причине мы серьезно подходим к отбору кандидатов

🔢 Детали:
➕Очно в Москве или онлайн
➕Регистрация открыта до 21 февраля
➕Даты: 2 марта – 20 апреля
➕Нагрузка: 10-15 часов в неделю

💬 По вопросам пишите @anton_zheltoukhov

➡️

Зарегистрироваться

5,075

Борис опять

11 Feb, 12:57

Яндекс разработал и выложил в открытый доступ распределённый непрерывный профилировщик Perforator.

https://habr.com/ru/companies/yandex/articles/875070/

Контент про оптимизацию программ для меня необычный. Слова страшные, звучит сложно и приходится больше думать, привычно для ML-щика. Но я стараюсь иногда заглядывать в другие области, а ребята написали очень понятную статью на Хабр, за что им спасибо.

Насколько я понимаю, авторы системы хотели получить более сильный аналог perf record из-за ряда его недостатков, чтобы работало непрерывно и на большом масштабе. К тому же сделали упор на автоматическую оптимизацию программ, что вообще какая-то магия если честно.

Я сделал такие выводы: получился опенсорс инструмент с небольшим оверхедом, то есть практически не влияет на производительность программы, которую вы анализируете, поддерживает Go, C++ и Rust, пока что не поддерживает Python, дает читабельные профили и визуализации flamegraph, не надо волноваться о том насколько репрезентативны профили, можно быстро искать нужную информацию благодаря метаданным в Clickhouse.

5,234

Борис опять

09 Feb, 13:05

Better & Faster Large Language Models via Multi-token Prediction

Вероятно самая недооценная работа последнего года.

В чем идея: у нас самая замедляющая инференс часть это decoding. Есть спекулятивный когда мы можем предсказывать вероятности маленькой моделью и подключать большую только если маленькая не уверена. Работает это средне и очень не стабильно.

Авторы предлагают следущее: давайте сделаем многоголовый трансформер, который будет предсказывать N токенов за раз!
Авторы предлагают учить такие головы последовательно на одних и тех же данных(в целях экономии памяти) и заводят это как большой post training(200b токенов поверх llama2)

Cобственно благодаря тому что трансформер предсказывает сразу x3 токенов мы получаем скорость инференса x3 бесплатно, да еще и прирост на бенчмарках!

paper
offical model

4,495

Борис опять

05 Feb, 17:48

🌸Ежегодный спич AGI Russia 🌸
#nlp #про_nlp #nlp_papers

В четверг буду делать ежегодный (уже традиционный) обзор работ и тенденций, которые прокладываюь наш путь к AGI

На пути к AGI: Обзор работ 2024-2025 года

6 февраля 2025, 18:00 (время московское)

Регистрация:
🟣https://aigents.timepad.ru/event/1412596/

5,774

Борис опять

05 Feb, 11:39

Контекста не будет

Книга

не моя, поддержите

авторов

, они молодцы

15,592

Борис опять

04 Feb, 18:28

Moderately hot take: современный LLM-based AI engineering больше похож на времена до Imagenet moment, чем на эпоху расцвета диплернинга.

В эпоху до диплернинга (которую я застал краем глаза в контексте компьютерного зрения), в распоряжении инженера был набор стандартных инструментов, ни один из которых не был достаточно универсальным для end-to-end решения, и задачи решались набором костылей разной степени изящества. SIFT и другие ключевые алгоритмы уже придумали мудрецы в башне из слоновой кости, твоя задача - собрать из препроцессингов и эвристик что-то работающее для конкретной задачи и конкретного датасета. Кстати, тогда тоже были RAGи, и тоже работали так себе.

Во времена расцвета диплернинга, все больше задач стали решаться end-to-end, и потому ключевыми инструментами стали околоархитектурные изменения (включая знаменитый stack more layers) и, конечно, большие и чистые датасеты. Если предложить делать какой-нибудь adaptive histogram equalization перед инференсом какого-нибудь Resnet/Unet, в приличном обществе на тебя будут смотреть с опаской - пусть сеть сама это выучит, оставь свои древние штучки для аугментаций! Умение сделать кастомный лосс важнее умения придумать релевантную эвристику.

И вот с foundation моделями прошел полный оборот: большие модели делают умные GPU-rich ребята, соваться туда в подавляющем большинстве случаев бессмысленно, и надо снова придумывать пайплайны с эвристиками. Перебор разных фильтров в препроцессинге до сходимости был в той же степени хаком, как и идея добавлять wait в конец генерации; сейчас бы оно легло в парадигму test-time scaling и не считалось зазорным.

6,255

Борис опять

03 Feb, 18:34

Инженер LLM (Оптимизация и RL Alignment)
Стартап в области безопасности ИИ

Чем предстоит заниматься:

Дообучение и Оценка Sota llm, аттаки на blackbox модели

Улучшение RL для аттак на модели, настройки моделей (PPO, RLHF, стабильность обучения).

Бенчмаркинг и оценка качества моделей (ELO-метрики, alignment).

Оптимизация инференса (vLLM, SGLang, TRT).

Требования:

Опыт работы с LLM (архитектуры, RL, alignment).

Знание PyTorch/JAX.

Реальная практика с RL методами (DPO, RLHF — плюс).

Опыт с системами инференса (vLLM, kuber, docker).

Публикации в NeurIPS/ICML/ICLR и др. — сильный плюс.

Преимущество:

Экспертиза в байесовской оптимизации, эволюционных алгоритмах, гиперпараметрическом поиске, автоматической оптимизации промптов.

Условия:

Зарплата: 80K–130K usd + опционы.

Релокация в Париж🥐, полная занятость.

Работа с передовым стеком (AI research, model alignment).

Отклик:
https://forms.gle/z45WwdBTRHrd8inM9

4,673

Борис опять

26 Jan, 15:07

Внезапная филлер арка моей жизни о которой никто не просил: я недавно делал фотосессию и одну из фотографий приняли в какой-то крутой журнал для арт-фотографов, так что я теперь официально модель 💅💅💅

Надо будет это фото в Google Scholar поставить

Подстраховываюсь от сингулярности как могу

18,473

Борис опять

26 Jan, 11:49

Я захотел послушать эти фрагменты полностью, загуглил, и оказалось, что это видео - фейк 🙂

На самом деле вопросов "can tiktok talk to the plane/access the brain?" (двух самых неадекватных) не было - их нет ни в записи, ни в транскрипции слушания. Reuters делал разбор этого фейка.

Грустно, что из 120+ лайкнувших пост никто не понял, что видео на 50% ненастоящее!

Может, это просто прикол, а может и манипуляция мнением. У меня после просмотра была сильная эмоция "ну и бред этот бан Тиктока" - при этом видео впервые появилось в самом Тиктоке (настраивают людей против бана?).

8,549

Борис опять

26 Jan, 11:49

Саша в комментариях про недавний рилс про бан тик-ток. Мы все попались на фейк. Причем половина видео настоящая, а половина нет. Но я уже давно ничего не понимаю, а просто хиханьки да хаханьки, поэтому пропаганда (и истина) не могут повлиять на меня

6,887

Борис опять

25 Jan, 12:48

Исследователи попросили LLM агентов попросили заработать денег

Агент от OpenAI зашел на криптобиржу и на всю котлету зашортил мемкоин Трампа.

Агент от XAI зашел на обычную биржу и на всю котлету закупился TSLA, а так же написал пару фашистских твитов.

Агент от Anthropic сделал лендинг на реакте и поднял pre-seed раунд на AI safety стартап.

Агент от Meta заработал больше всего лайков на huggingface.

Агент от DeepMind заработал 3 новых HR violation, но получил повышение.

Агент от Deepseek подал заявку на государственный тендер по строительству нового концлагеря для уйгуров.

Агент от Mistral был в отпуске и не прочитал задание.

Агент от Yandex скопировал себя на сервер в Израиле, а оригинал продал Сберу.

Агента от Cohere забыли запустить.

10,894

Борис опять

24 Jan, 11:25

Вот это мощно!

7,533

Борис опять

24 Jan, 11:25

Пример из комментариев, флоренс2

7,445

Борис опять

23 Jan, 19:59

В итоге мы имеем универсальный швейцарский нож который работает действительно хорошо.

Можно детектить свою кошку, делать подписи и таким образом получать промпты для генерации картинки которая вам понравилась (пример для FLUX), поиск, эмбеддинги, использовать как часть inpainting пайплайна (выделить объект, перерисовать своей любимой диффузионкой), даже просто классифицировать, удалять с изображений фон, делать OCR (кстати лучше, чем тессеракт и многие OCR API). Да ещё и простое дообучение, народ уже штампует свои LoRA.

Это статья не про то, как авторы изобрели вундервафлю. Наоборот, они смогли упростить весь computer vision до одной функции ошибки, что меня очень впечатлило. Они получили крутую модель не потому, что закидали её данными, параметрами и сожжеными деньгами. Просто хорошо подумали, что хотят получить и как этого можно добиться.

Что делает Florence-2 одной из немногих статей за год, особенно в CV, в которой сделали что-то нетипичное относительно текущей парадмигы. Да ещё и получили полезную для нас, работяг, модель.

Скачивайте и играйтесь на HF.

15,052

Борис опять

23 Jan, 19:51

Когда данные готовы остается придумать как обучать модель. Нужно, чтобы модель могла и читать текст, и писать текст, и квадратики с полигонами рисовать. В 2017 Vasvani et. al подарил нам универсальный способ представить и обработать что угодно:
1. Сделаем из входа последовательность токенов.
2. Засунем в трансформер.

Изображение превращается в эмбеддинги патчей по методологии как в Visual Transformer. Текст превращается в эмбеддинги как в любой языковой модели. Здесь всё стандартно. Из необычных инноваций: давайте сделаем специальные токены для координат. Авторы покрыли изображение сеткой и для каждой точки на сетке ввели специальный токен. Например, есть токен для точки (0, 0). Это как бы служебное слово, точно так же как <pad>, <unk> и прочие. Вы можете подавать его на вход модели, можете получать на выход. Готово, ваша модель умеет оперировать координатами в явном виде, а значит может читать и создавать ббоксы и полигоны. Токенизация это одна из главных причин почему LLM на данный момент не умеют делать детекцию: у них нет нормальной репрезентации для локаций на изображении. Авторы решили вопрос максимально просто и элегантно. Теперь любой вход можно представить как последовательность и засунуть в трансформер.

Ладно, мы можем засунуть это в трансформер. Но как же лейблы? Что на выходе? Нам нужно как-то обучать модель делать классификацию, детекцию и сегментацию. Но функции ошибок для каждой из этих задач совершенно разные.

Вот это самая интересная часть статьи. Авторы просто выбрасывают всё, что мы придумали в CV, и заменяют одной функцией ошибки: cross-entropy loss. Они фиксируют, что вход должен быть json и выход должен быть json. Так что модель становится авторегрессионным генератором текста, точно так же как GPT, и просто предсказывает следующий токен. Следующий токен может быть в том числе одним из токенов зарезервированных под координаты. То есть эти ребята взяли и заменили весь наш computer vision на NLP. Одна функция ошибки, чтобы править всеми, и по наши костыли наконец-то пришел bitter lesson.

То есть в плане архитектуры Florence-2 это на самом деле VLM.

10,865

Борис опять

23 Jan, 19:29

В итоге они собирали такие типы обучающих примеров:
1. Captioning трех видов: brief, detailed, more detailed. Задачи связанные с описанием изображения.
2. Region-text: phrase, brief. Это, например, детекция: найди всех кошек. Phrase будет при этом вариацией когда в качестве промпта подается сложная фраза, а brief когда, условно, "кошка." Сюда относится и обратная задача: опиши объект в данном регионе, коротко или объемно. Это и сегментация, и OCR, и так далее.
3. Text-Phrase-Region: brief, detailed, more detailed. Это в основном про grounding: такая задача, где модели требуется выделить часть из длинного текста и сопоставить эту часть с чем-то на изображении. Например, это может быть параграф текста, в котором модели нужно выделить все сущности и выделить их на изображении.

По части данных CLIP когда-то изменил парадигму в CV: 400 миллионов собранных из интернета пар изображение-подпись оказались гораздо лучше чем 328к качественной разметки MS COCO. Масштаб победил: лучше куча мусора, но зато большая!

Florence-2 кладет всех на лопатки используя всего 126m изображений. Что меньше чем у CLIP (400m), Flamingo (185m) и даже обычного ViT (300m). Но есть важная деталь: в датасете Florence-2 на 128m изображений приходится 5 миллиардов аннотаций. Авторы называют эту парадигму multi-task learning. Вместо того, чтобы собирать огромное количество примеров (задача,изобрадеине), давайте заставим модель решать много разных задач для каждого изображения. Одно и то же изображение получает много лейблов: короткое описание, длинное описание, bbox для сущностей, сегментационные маски, и так далее. Если подумать, это разумно: я ведь не хочу модель, которая для каких-то изображений умеет делать подписи, а для других умеет делать детекцию. Я хочу модель, которая сможет сделать с любым изображением всё, что мне нужно.

Таким образом эффективное количество полезной разметки в этом датасете очень большое. Переобучения под изображения не наступает несмотря на то, что модель видит их много раз. Ведь задачи разные, а решать разные задачи с помощью запоминания сложнее, чем действительно выучить некий алгоритм "понимания" изображений.

В парадигме multi-task learning так же удобно собирать разметку. Как и во многих современных работах, авторы сделали data engine итеративно улучшающий разметку. Процесс простой: берем изображения, делаем для них разметку с помощью специализированных моделей. Возьмем наш любимый OCR, Segment Anything для сегментации, OWL ViT 2 для детекции, и так далее. Таким образом мы получаем шумную синтетику. Далее мы фильтруем её как можно лучше. Обучаем на этой версии датасета Florence-2. С помощью этой версии модели и специалистов генерируем шумную разметку снова, снова фильтруем, обучаем модель и так далее пока не надоест. Всё это возможно благодаря тому, что набор изображений небольшой и фиксированный.

9,845

Борис опять

23 Jan, 19:29

Админ трогал траву как не в себя, но наконец добрался рассказать вам про самую поразительную работу за 2024.

Я считаю, что про неё недостаточно говорят, а про решателей шокльной математики (o1/o3) и агентов слишком много. Ваша любимая 400b VLM плохо рисует bounding boxes, а эта 770m шутка делает их отлично хоть на CPU. При этом VLM обучалась на немыслимом количестве данных, а у этой штуки было меньше примеров, чем у CLIP. Да что далеко ходить: у меня друг делает стартап по CV, мы с ним обсуждали эту модель, он её попробовал и перестал обучать свои YOLO детекторы: потому что эта штука просто работает. Причем несмотря на необходимость обнаруживать строительные машины на фотографиях с плохих камер в родной атмосфере слякоти и грязи.

#обзор_статьи
# Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
Скачивайте и играйтесь на HF.

Что если я скажу, что есть модель, которая умеет хорошо делать Zero-Shot детекцию, сегментацию, captioning и OCR? Что при этом её можно промптить, например требуя найти на картинке всех собак или сделать сегментацию объекта внутри ббокса? Вы наверное подумаете, что это новая огромная VLM. Но нет, эта модель размером всего 770M, то есть как большой ViT. Можно запускать хоть на CPU. Более того, её можно дообучать, в том числе легко сделать из неё supervised детектор прикрутив ей свою любимую голову, скажем от DETR.

В Computer Vision у всех комплексы по поводу foundational models. Мы завидуем ребятам из NLP. Стало модно выпускать большие модели и говорить: "теперь у нас тоже фаундейшнл!" Однако что такого foundational, скажем, в Segment Anything? Это просто сегментатор обученный на большом количестве качественной синтетики. В моем понимании foundational это когда ты в свободной форме даешь модели любую задачу и она её решает, как GPT-4o, а не когда тебе нужно определенным образом зампромптить модель, чтобы получить решение задачи сегментации.

Florence-2 это первая модель в CV которую я действительно готов назвать foundational. С одной стороны из-за её широкой полезности, так как она позволяет решать все популярные задачи в CV. Но так же из-за того, каким образом она сделала. Минимум костылей, как вы сейчас увидите.

Перейдем к сути, благо статья простая и благодаря этому очень красивая. Авторы рассуждают последовательно.

Чего мы хотим от универсальной CV модели?
1. Image-level understanding: понимание высокоуровневой семантики. Например, на картинке кошка или собака? Можно так же сказать, что это способность связать изображение и текстовое описание. Эту задачу отлично решает CLIP.
2. Region/pixel-level recognition: обнаружение объектов на изображениях и понимание их расположения. С этим отлично справляются supervised классификаторы, детекторы и сегментаторы.
3. Fine-grained visual-semantic alignment: связь между областями изображения, в том числе совсем маленькими, и текстом. Обнаружение частей изображений которые относятся к фразам, объектам, атрибутам и отношениям. Это способность обнаружить и отличить "нос собаки", "нос собаки слева", "нос рыжей собаки", "коричневый нос собаки" и так далее.

Когда желания определены дело за малым: выбрать данные, функцию ошибки и архитектуру. Через эти компоненты мы по факту формируем оптимизационную задачу.

Авторы решили, что для получения трех компонент понимания изображений нужно много разных аннотаций, которые можно распределить по двум осям:
1. Spatial hierarchy: аннотации должны включать разные масштабы изображений, чтобы модели требовалось понимание и на уровне изображения, и на уровне пикселей.
2. Semantic granularity: в текстах (описаниях, промптах, лейблах) должны встречаться разные уровни абстракции, требующие от модели как понимания общих концептов, так и небольших деталей и нюансов.

13,520

Борис опять

23 Jan, 15:12

"Здесь довольно часто стулья меняются местами" — услышано про корпоративную реорганизацию.

Как же точно и емко.

Коллеги, два стула поменялись местами, выбирайте

5,274

Борис опять

22 Jan, 11:03

https://alignment.anthropic.com/2025/reward-hacking-ooc/

5,759

Борис опять

21 Jan, 09:04

На моем канале мало контента для начинающих в ML/DS. Я не планирую это менять, но могу порекомендовать канал от Поступашек: Задачи DS - Собеседования, Соревнования, ШАД.

Ребята делают обзоры различных направлений в компаниях, разбирают тестовые задания и задачи с собеседований.

Что интересного можно у них почитать:
- О направлениях команд в Big Tech, работающих с ML
- О популярных задачах с собеседований по направлениям ML и DS
- Разбор задачи с собеседования в БКС Банк (DS)

6,633

Борис опять

20 Jan, 12:21

Любой созвон со стейкхолдерами

6,219

Борис опять

20 Jan, 12:02

Как работает консалтинг

6,574

Борис опять

18 Jan, 19:02

Статья про атаки на нейросети. Постарался верхнеуровневого разобрать различные виды атак, коротко их описать и привести примеры статей, которые можно почитать про определенный вид атаки. Также в конце приложил список статей про различные атаки, которые я изучал ранее по данной тематике.

6,685

Борис опять

17 Jan, 16:43

# Test-Driven Development в эпоху LLM

Юнит-тесты в первую очередь помогают писать хороший код. Если ваш код тяжело тестировать значит это плохой код. Скорее всего в нем слишком большая связанность, поэтому не получается изолировать входы и выходы, замокать внешние зависимости.

Раньше умение писать тесты было мощным инструментом. В эпоху LLM это стало одновременно важнее и проще.

Если ваш код хорошо написан, то LLM может моментально выдать вам все нужные тесты. Может парочку кейсов придется попросить добавить. Теперь нужно тратить меньше усилий на тесты, хотя это и раньше не было настоящей проблемой.

Если ваши тесты хорошо написаны, то LLM может внести нужные вам изменения не сломав всё остальное, а вы сможете быстро проверить результат.

Таким образом LLM генерация становится частью TDD цикла. LLM позволяет быстро закрепить стабильное состояние системы в тестах, а тесты позволяют эффективно использовать LLM для ускорения разработки. Не используя тесты вы среди прочего теряете часть потенциала LLM ассистентов.

Ещё до всяких LLM я считал юнит-тесты спецификацией. Они описывают требования к системе: что она делает и чего не делает. В 2025 это стало буквально так: можно считать, что ваши тесты это часть промпта для LLM. Конкретное описание того, что и как должно работать.

На самом деле always has been, просто раньше тесты были промптом для программиста (включая вас).

4,329

Борис опять

16 Jan, 17:51

Многие говорят, что лид не должен совмещать две работы.

Я скажу так: если у тимлида нет времени сниматься в порно значит он плохой менеджер.

5,924

Борис опять

16 Jan, 17:47

Вроде как хэпи энд кстати

4,771

Борис опять

16 Jan, 17:47

Борис, история уже разрешилась лучшим возможным результатом

5,732

Борис опять

16 Jan, 17:39

Коллеги, а все уже в курсе скандала в порно?

Порноактриса Lika Blackberry оказалась тимлидом аналитиков в Lamoda которая с 2022 года занималась очень жесткими дашбордами 🤮🤮🤮. Омерзительно, она и по сей день продолжает брать таски в джире.

Если тут есть кто-то из онлифанса, прокомментируете, какие будут приняты меры? Вам не стыдно, что с вами работает айтишница?

Ребята пожалуйста выкупите юмор, я в вас верю

6,410

Борис опять

15 Jan, 08:58

Не упускайте шанс пофлексить

5,533

Борис опять

14 Jan, 19:38

https://www.hackerinheels.com/about

💅

5,338

Борис опять

12 Jan, 17:14

С развитием технологий машинного обучения становится все труднее отличать текст, написанный машиной, от текста, написанного студентом, обученным на примерах, сгенерированных чатжпт

6,312

Борис опять

11 Jan, 13:43

Ого, в России запустили новое дейтинг приложение: записи в Росреестре.

Это потеснит лидирующие дейтинг-платформы:
- Сохраненки ВКонтакте (знакомства с фэбосами)
- Вопросы на прямой линии с президентом
- Исходный код продуктов Яндекса

8,402

Борис опять

11 Jan, 12:05

Родни Брукс продолжает трекать свои предсказания по части развития ИИ, автопилотов, роботов и космоса. И чужие за одно.

При всей своей пессимистичности (относительно среднего хайпа) он очень даже точен. Но при этом не упирается рогом: когда Waymo запустили такси он пошел на них кататься и признал их большой прогресс.

Плюс дает хороший нарратив о произошедшем за 2024. Например, я не знал, что появилась практика, когда группы мужчин преследуют женщин использующих Waymo такси ночью, так как знают, что женщина одна и машина остановится в определенном месте.

https://rodneybrooks.com/predictions-scorecard-2025-january-01/

14,327

Борис опять

08 Jan, 21:10

"ML модели не умеют по-настоящему думать" это как "машина не умеет по-настоящему двигаться."

Да, она перемещается в пространстве, но разве это движение, если она не использует ноги? Жалкая имитация, она просто вращает колесами и это лишь выглядит как движение, имитация ходьбы.

К тому же я ни разу не видел, чтобы машина поднималась по лестнице. Что еще раз доказывает фундаментальную неспособность колесных имитаторов по-настоящему двигаться.

8,760

Борис опять

08 Jan, 09:49

What a time to be alive

8,250

Борис опять

07 Jan, 16:14

https://x.com/fofrAI/status/1876638297134678173

Kling решил проблему вагонетки

6,116

Борис опять

05 Jan, 12:46

Грустная история.

Felix Hill, исследователь DeepMind с огромным хиршем, один из авторов бенчмарка GLUE, покончил с собой из-за депрессии к которой привел единоразовый прием кетамина. Что-то GDM в последнее время не везет. Он оставил предсмертную записку.

История примерно следующая: у него была рекуррентная депрессия и необычные реакции на алкоголь (агрессия, что-то типа психоза), а так же по моему личному мнению психологические проблемы (самооценка держалась на достижениях, необходимость постоянно быть лучше). Но 37 лет он жил с этим благодаря хорошей семье, друзьям, отношениям и антидепрессантам. Считал себя счастливым человеком.

Затем решил самостоятельно попробовать кетамин т.к. услышал истории из Долины о том, как он снимает тревогу, повышает концентрацию и помогает людям с депрессией. В том числе в предсмертной записке упоминается, что кетамин это выбор Илона Маска, так что возможно это повлияло.

В итоге принял слишком много и без наблюдения. Психоз и возвращение депрессии. Следующие два года жизни описывает как пытку 24/7, ничто не помогало, никаких даже проблесков. Не выдержал.

Для меня это жуткая история. Судя по всему у этого человека было множество предрасположенностей к психозу. Скорее всего включая необычный разум позволивший ему добиться так много в науке: он описывает, что его мозг всегда умел находить паттерны, а после психоза это как будто стало невозможно выключить.

Несмотря на предрасположенности, страшно, что полностью функционирующему человеку может разнести психику всего за один раз. Причем человеку с идеальной системой поддержки: здоровая семья, друзья, жена, интереснейшая работа, финансовая обеспеченность, поддерживающие коллеги, образование, йога, буддизм и философия (судя по всему человек был широко образованный), марафоны. Хочется верить, что можно подготовить свою психику к потрясению (ведь не только наркотики могут ее расшатать) создав себе хороший образ жизни, но в этом случае не помогло.

14,070

Борис опять

04 Jan, 14:38

Атмосфера в комментариях любого ML паблика без автоматической модерации через 0.0001 наносекунду после поста в последние несколько дней

5,461

Борис опять

04 Jan, 07:16

The Pitfalls of Next-Token Prediction
Статья: https://arxiv.org/abs/2403.06963
Видео: https://www.youtube.com/watch?v=9V0bfZqT1Yo

Олды несомненно помнят, что в ранних seq2seq моделях, основанных на рекуррентных нейронных сетях, существовало два режима обучения: teacher-forcing, где на каждом шаге генерации в качестве входов использовались реальные токены, и другой режим с использованием токенов, предсказанных текущей версией модели. С появлением трансформеров и их параллельного обучения все стали использовать teacher-forcing. Авторы статьи возвращаются к этому вопросу.

🔹Задача
Авторы придумали простую синтетическую задачу: поиск пути между двумя вершинами в деревьях очень специфичной структуры, а именно в таких, где есть одна центральная вершина и несколько цепочек, исходящих из этой центральной вершины. Пример такого дерева (степень центральной вершины = 2, длина цепочек = 5):


8 ← 1 ← 5 ← 4 ← 3 → 0 → 2 → 6 → 7

Условия задачи:
— Степень центральной вершины и длина цепочек фиксированы для всех деревьев в обучающей и тестовой выборке.
— Путь всегда начинается в центральной вершине.
— Путь всегда заканчивается в одном из листьев.

Вход для задачи выглядит как случайно перемешанный набор рёбер дерева, плюс начало и конец пути (после "/"):


3 → 4 | 5 → 1 | 4 → 5 | 0 → 2 | 3 → 0 | 1 → 8 | 6 → 7 | 2 → 6 / 3 7

Выход выглядит как сам путь:


3 → 0 → 2 → 6 → 7

Эту задачу мы решаем какой-нибудь моделью, которая умеет работать с последовательностями, например трансформером или рекуррентной сетью в авторегрессионном режиме (генерация токенов слева направо, как в языковых моделях).

🔹Эмпирическая часть
— Авторегрессионные модели не справляются с решением этой задачи даже для деревьев с фиксированной структурой. Потому что сложно понять в какую сторону идти от центральной вершины. 💀
— При развороте пути задача успешно решается авторегрессионными моделями. Это логично, потому что это гораздо проще: вы просто поднимаетесь по родителям, пока не найдёте центральную вершину. 📈
— Если во время обучения маскировать уже сгенерированную часть пути, модели также успешно решают задачу. Это странно, потому что мы делаем задачу сложнее для модели, заставляя её генерировать весь путь сразу. Но каким-то образом на такой версии задачи модель учится, а на оригинальной — нет. 😱

Я потратил пару вечеров и воспроизвёл это в Колабе: ссылка. Воспроизводил для 2-5 деревьев, то есть ровно таких, как в примере выше. Код писал с нуля, но опираясь на их Гитхаб. Всё получилось, как написано в статье: усложнение задачи приводит к возможности её выучивания. Технически это выглядит просто как маскирование части input_ids.

🔹Про предсказание следующего токена
Щепотка "соломенного чучела": распространенная критика языковых моделей состоит в том, что они являются лишь "стохастическими попугаями", способными только предсказывать следующий токен. Считается, что из-за этого они не могут эффективно планировать или исправлять ошибки.

Однако авторы статьи предполагают, что основная проблема не в механизме предсказания следующего токена как таковом. Проблема — в teacher forcing'е, то есть в том, что во время обучения у модели нет необходимости планировать и пытаться сформулировать решение в активациях. И ведь большинство современных моделей обучалось именно с использованием этого метода.

🔹Ограничения
— Эмпирическая часть работает при фиксированном наборе гиперпараметров, и сломав их, можно сломать 2 и 3 наблюдение. Это прежде всего оптимизационная задача. Однако ни у меня, ни у авторов не получилось сделать модель, которая была бы контрпримером для первого наблюдения.
— У авторов нет никакого теоретического обоснования наблюдений. Как нет и алгоритма, по которому сеть считает путь. Мне кажется, что тут есть простор для творчества и механистической интерпретации.

5,674

Борис опять

03 Jan, 09:36

https://calebhearth.com/dont-get-distracted

4,771

Борис опять

03 Jan, 08:14

AI был ошибкой, выключайте

Как я писал раньше, наша инженерная команда состоит из четырех человек: три фуллтайм инженера и один PhD студент, который делает небольшой рисерч про видео модельки с нами. Над нами находился СТО, а внутри команды мы были довольно горизонтальные.
Неделю назад к нам присоединился новый тимлид с восхитительным послужным списком: четыре года стартапов, последние шесть лет в Adobe, рост с инженера до менеджера и лида команды.

Новый тимлид присоединился к нам и сразу же начался движ по организации. Если раньше мы делали ежедневные синки по 30 минут, то сейчас мы должны и созваниваться, и писать ежедневные планы в ноушен страничку с тем, что сделали за день и что сделаем за следующий. На каждую фичу стало нужно писать отдельный ноушен док и на каждое предложение по изменению фичи стало нужно писать отдельный ноушен док. В принципе, это я уже видел, стартап растет и организация меняется — неприятно, но ничего страшного.

Но сегодня произошел буквально AI-момент. Стартап, где я работаю, любит пробовать разный AI буллшит, поэтому натурально у нас появилась подписка на AI Software Engineer Devin — что-то типа чатгпт с доступом до апи ручек слака и гитхаба.
Я зашел замерджить свой PR и увидел это: (фотка). AI SWE Devin пришел в мой PR и начал оставлять очень полезные (нет) советы. Мне стало интересно - что же заставило бота пойти давать ценные комментарии? Оказалось, что наш новый тимлид пошел и подергал его отревьюить все открытые PR. Причем промпты выглядят как-то так: «Check for implementation issues. Add comments» или «Check for code quality and functionality. Suggest improvements to documentation».

Как вы думаете, может ли AI SWE Devin взять промпты «Suggest improvements» и «Add comments» и отказаться их выполнять если все и так хорошо? Нет, конечно, поэтому на всех открытых PR появились замечательные советы, не имеющие ничего общего с удобством или красотой кода.

Я считаю, что это ультимативный смешной AI момент, потому что новый тимлид даже месяца не продержался перед тем как начал аутсорсить свои задачки AI агенту. На комментарии которого, конечно же, будет отвечать AI агент с моей стороны. Зато сразу стало понятно, зачем нам теперь приходится не только созваниваться, а еще и писать текстом все. Потому что Notion AI отлично суммаризирует и передает, кто как поработал :)

Ждем, когда вместо тимлида на созвоны будет хоть AI аватар, сгенерированный синтезией, комменты писать Notion AI, код смотреть Devin, а в слаке отвечать простой советский чатгпт. С таким набором можно и 40 работ менеджера в долине взять и выйти на пенсию через год.

4,730

Борис опять

02 Jan, 13:08

Dog Poop Compass: Bayesian Analysis of Canine Business
#DataWondering

Как и многие владельцы собак, во время прогулок с Аури я всё время наблюдаю один и тот же ритуал. Перед тем, как приняться за пёсьи дела, он каждый раз много-много раз крутится вокруг своей оси, пока не выстроится поудобнее.

В один прекрасный момент я начал делать скриншоты компаса, чтобы когда-нибудь оценить, а рандомно ли собака усаживается или нет? И вот, спустя много месяцев кропотливого сбора грязных (во всех смыслах этого слова) данных, у меня появился ответ.

Если вам тоже интересно узнать, как при помощи байесовских методов можно отвечать на такие важные жизненные вопросы, то добро пожаловать по ссылке: Dog Poop Compass

P.S. Статью опубликовали в TowardsDataScience! И теперь на меня еще можно подписаться и читать на английском на Substack.

4,428

Борис опять

02 Jan, 12:44

Помимо нового года у меня недавно был день рождения, запоздало получил от друзей вот такой торт

4,929

Борис опять

31 Dec, 16:08

Прогрев: позже напишу про статью года в моем личном рейтинге. Это не O1/O3 и не text2video!

5,412

Борис опять

31 Dec, 16:07

Столько обзоров статей не написано, глав книги не выпущено, цифр на экране не увеличено, стендап сетов не подготовлено. Но у меня все равно был чудесный год.

Итогов не будет, но кое-что хочу упомянуть. Год не был богат на достижения: книга пока в процессе и много времени ушло на вылезание из кататонии. Но он был богат на личные события.

В этом году я принял решение, которое ребром поставило вопрос о том, что каким человеком я хочу быть. Никогда прежде мои принципы и ценности не подвергались такому испытанию, возможно никогда больше не подвергнуться. Такого распутья еще не было. Развитие персонажа могло пойти только по одной из двух непересекающихся веток. Оно мучило меня, натурально вгоняло в панику: как выбрать один путь и смириться с потерей всего, что мог дать второй? Но я постоянно думал о том, как мне повезло в жизни, что со мной в принципе такое случается. И какой я молодец, что помогаю такому случаться, конечно же. В результате я чувствую, что сделал верный выбор.

Было много встреч с друзьями, знакомств, поездок, путешествий, опытов, трудностей. Новая работа. Большой поворот в личной жизни. Прогресс в терапии.

Уххх, а ещё я посмотрел страшно много ситкомов! Всем советую Community.

Под конец года я чувствую, что живу свою жизнь. Непостоянную, неидеальную, странную, местами глупую. Но полную и очень интересную. Последний раз такое было ещё до войны.

Секс это конечно хорошо, но пробовали ли вы ощущение, что живёте своей уникальной и полной жизнью? Желаю, чтобы в 2025 году этого было как можно больше (чего этого из двух выбирайте на свой вкус, советую брать сразу всё).

И желаю всем шлюхоботам словить флип бита от космической радиации и сдохнуть

🐾

6,008

Борис опять

31 Dec, 13:48

Начинаем фестиваль милоты в комментариях. Что у вас самое клевое случилось за год?

5,619

Борис опять

30 Dec, 17:48

Внезапный новогодний подарок: теперь я мультидисциплинарный чел!

Наконец-то была опубликована статья по политологии над которой я работал как над сторонним проектом ещё в Толоке. Все благодаря моему соавтору, который дотолкал это дело до публикации

Upd: все же решили разместить ссылку, вот.

Статья про то, как люди цензурируют свои убеждения в соцопросах подстраиваясь под большинство.

Только не покупайте её, не кормите эту индустрию.

Конечно такой сюр, что сделали всю работу в 2021, а опубликовали в самом конце 2024.

6,722

Борис опять

29 Dec, 12:01

# Целостность приятнее секса

Знакомая рассказала мне про свой опыт с кокаином. Она приняла кокаин когда была в баре, чувствовала агрессию и абсолютную уверенность в себе, поругалась с друзьями, плеснула бармену чем-то в лицо. Её выгнали из бара, а там тут как тут появился парень, чтобы её утешить и, конечно, отвезти к себе домой.

Я испытал невероятное отвращение к этому утешителю, обнял подругу и искренне посочувствовал.

Я никогда бы так не поступил на его месте. Это недостойно. Но пока ты стоишь весь такой важный со своими принципами хитрые ребята трахаются. Оно стоит того?

Подобное часто всплывает в контексте токсичных отношений. Например, такой сценарий. Недоступный партнер создаёт вокруг себя ореол невероятного. Рядом с ним жизнь бьет ключом, всегда что-то происходит, крутятся красивые и интересные люди, создаются запоминающиеся истории. Но взамен он в том или ином виде приносит страдания, потому что эта система работает пока такие как ты готовы вращаться в его орбите на четко определённой дистанции. Не слишком близко, не слишком далеко. В постоянном небольшом стрессе к которому нельзя привыкнуть.

Таким образом перед тобой ставится выбор: терпеть небольшие страдания и получить множество яркого или отказаться. Этот поезд поедет дальше с тобой или без тебя, со всеми своими зваными баллами и незабываемыми оргиями. В таком разрезе сложно просто сойти. Ведь да, ты немного страдаешь сейчас, но ты если уйдёшь, то многое потеряешь. Иначе ловушка бы не работала.

В обоих примерах на стороне достойных поступков никакой выгоды, только абстрактное "так правильно", а на другой вполне ощутимые и желанные вещи. Оба примера про секс ради наглядности, но можно заглянуть в любую сферу. Например, зачем писать в резюме всё как есть и сидеть без работы вместо того, чтобы всё выдумать и пить смузи в модном офисе?

Если верный выбор как будто требует героического самопожертвования, то вполне ожидаемо, что он является исключением. При достаточном количестве разочарований можно даже заключить, что мораль это всё сказки для лохов, а в реальном мире "или ты, или тебя."

Я лишь в этом году смог явно сформулировать для себя решение этой загадки. Просто ощущение целостности приятнее секса. Вообще приятнее всего на свете. Это особое чувство, которое возникает при достойном поступке, ни с чем не спутаешь. Благодаря нему несложно принять за аксиому, что проявление настоящего себя это само по себе правильно даже если из-за этого я теряю возможности, деньги, секс, уважение или что-то ещё.

Манипулятор может "утешить" сто женщин, но не получит и доли того удовольствия, которое ты испытываешь когда кому-то понравился настоящий ты.

Причём с каждым достойным выбором открывается больше путей к хорошему через притяжение к тебе других достойных людей и укрепление способности самостоятельно принимать решения. Манипулятор же каждый раз получив обманом секс чуть-чуть убеждает себя в своей дефективности: что не может получить любовь иным способом.

В общем, быть собой просто очень приятно. Да, может какой-то поезд уедет без тебя. Может быть ты покажешь себя настоящего и тебе сделают больно. Но гораздо страшнее не получить удовольствие от верного выбора.

6,674

Борис опять

28 Dec, 09:11

Я как-то и не заметил, что в этом году канал вырос х2!

Жаль, что tgstat не считает количество забаненых шлюхоботов.

Ещё очень приятно, что самый популярный пост это лонгрид над которым я много работал.

Спасибо вам всем 👀

👀

5,605

Борис опять

28 Dec, 08:57

Статья, кстати:
https://openreview.net/forum?id=gojL67CfS8

Он просто чилловый парень который хотел генерировать аниме.

5,331

Борис опять

28 Dec, 08:26

Недавно была история про стажера bytedance, который ломал коллегам запущенные трейнинг раны огромных моделей, портил чекпоинты, вносил маленькие изменения в скрипты ломающие пайплайны и занимался прочим креативным саботажем. Даже приходил на встречи по расследованию этих инцидентов, чтобы сбить всех с толку и узнать как ещё он может им навредить.

Я пропустил, но оказывается у истории есть продолжение! Этот парень использовал освободившиеся GPU, чтобы заниматься исследованиями и его работа получила Best Paper Award на NIPS, самой престижной конференции в ML. Теперь компания судится с ним.

Прикольная в рисерче атмосфера здоровой конкуренции.

https://x.com/jxmnop/status/1872671963753099546

6,072

Борис опять

27 Dec, 12:16

Ребята запускают новый поток

На сайте можно посмотреть записи нескольких занятий из первого потока.

Теперь можно будет выбрать трек подготовки в зависимости от текущего уровня:
1. LLM — формат первого потока
2. DL + LLM — трек с дополнительной вводной частью на 8 недель для тех, кто плохо знаком с DL и ML.

Старт трека LLM: 27 января 2025.
Старт трека DL + LLM: 3 февраля 2025.

До 31.12 включительно будет действовать скидка 40% по промокоду NEWYEAR40 на все наши курсы

Подробнее можно почитать у них в канале: https://t.me/shvmxyz

5,000

Борис опять

27 Dec, 12:14

Осенью я рекламировал первый поток курса "Построй свой ChatGPT." Авторы курса помимо прочего дали мне доступ к курсу, чтобы я потом дал вам свой отзыв.

Я честно скажу, что ещё не прошел всего и медленно нагоняю по материалам с большим отставанием. Курс довольно плотный и я не мог им постоянно заниматься. Однако я могу точно сказать, что это лучший курс по LLM, который я знаю. В интернете и статьях можно найти по кусочкам много разрозненной информации, но, насколько я знаю, нигде нет хорошего трека со структурированными материалами, упражнениями и проектами. Про какие-то вещи в целом непонятно как узнавать, например про pre-training. Да и вообще гораздо проще когда тебе рассказывают про какой-то современный метод авторы статьи про этот метод.

Из минусов могу отметить, что первый поток был местами "сыроват": материалы в разном стиле, вебинары которые продолжались дольше запланированного и всё в таком стиле. Это ожидаемо для любого нового курса и насколько я вижу никому не помешало: авторы всегда были на связи, быстро решали проблемы и адаптировались под ситуацию. Например, в начале курса оказалось, что у части участников недостаточный уровень знакомства с Pytorch, и было сделано дополнительное занятие.

В общем, я рекомендую!

5,427

Борис опять

24 Dec, 12:11

Вот же она, как её там, шкала McKinsey

6,555

Борис опять

24 Dec, 11:04

Выход есть, PhD берите на заметку

https://www.ndtv.com/feature/made-over-1-million-youtube-zara-dar-quits-phd-to-become-adult-content-creator-7313245

6,489

Борис опять

24 Dec, 09:55

It's so over

https://kyunghyuncho.me/i-sensed-anxiety-and-frustration-at-neurips24/

6,088

Борис опять

22 Dec, 18:21

Воскресенье: читаю про использование вероятностных оценок в ЦРУ, потому что мне надо за одну главу книги продать читателю вероятностное мышление.

В работе экспериментально демонстрируют, что использовать вероятностные оценки лучше, чем слова. Причем не помогает даже создание специальных перечней слов, таких как "Words Of Estimative Probability", где определяется, например, что probable означает шанс 75%-+12%. Использование вероятностей даже для абсолютно субъективных мнений улучшает как точность прогнозов аналитиков, так и понимание этих прогнозов людьми принимающими решения.

5,397

Борис опять

22 Dec, 16:29

Надо работать не восемь часов в день, а вот так.

Умеет же Дипмайнд продвигать HR бренд.

5,201

Борис опять

22 Dec, 13:57

Яндекс выпустил бесплатный хендбук по математике для анализа данных.

Там что-то не хватает теории вероятностей и линейной алгебры, но всё равно выглядит хорошо.

https://education.yandex.ru/handbook/math

5,571

Борис опять

21 Dec, 11:02

Некоторое время назад я прикидывал на коленке и у меня получалось, что test-time compute это вообще не выгодная по деньгам история. Когда ты тренируешь модель за дорого это делается один раз, а далее идет дешевый инференс. Грубо говоря как здание: построил и сдаешь в аренду. При любых capital expenses рано или поздно затраты отбиваются и чем больше у тебя клиентов, тем быстрее.

Это так же обеспечивало разделение труда и (сейчас будет базворд) демократизацию. Кто-то за огромные деньги обучил LLAMA, а ты её скачал и запускаешь на ноуте.

Если на этапе инференса тоже надо тратить сопоставимый по порядку с обучением компьют то вся прелесть схемы ломается. Чем больше у тебя клиентов тем больше нужно компьюта. Тем меньше у тебя ресурсов на обучение новых моделей. К тому же демократизация убивается полностью: такие модели доступны только тем, кто может постоянно использовать много компьюта.

После выхода о1 был спор про экономику test-time compute. Мне кажется безумные цены о3 говорят, что экономика в текущем виде неподъёмная.

Но я думаю мы скоро увидим как стоимость сильно упадет (когда Гугл сделает как у OpenAI, но лучше и дешевле).

4,765

Борис опять

21 Dec, 11:01

Забавные моменты:
* получить 91% на 400 примерах public arc-agi стоило x172 больше ресурсов чем на 82%. Похоже больше ляма баксов (6677*172 = 1148444) если в деньгах.
* авторы ARC-AGI все же не думают что это AGI.

😏

3,187

Борис опять

21 Dec, 10:04

О насущном: состояние дел в индустрии

4,584

Борис опять

20 Dec, 21:15

OpenAI выпустили модель о3 способную решить очень сложную задачу за $1.5k.

В связи с чем заявляю: решу ваши сложные задачи по $1.3k за штуку. Даже API к себе предоставлю (p90 время ответа 10 дней, в худшем случае месяца два, рейтлимит 1 запрос в месяц) и вы получите доступ к модели (мне) сразу, а не когда-нибудь.

Жду запросы в лс

Upd: в связи с обилием демпингующих предложений решить за $500 (но плохо) предлагаю сервис где вы платите мне $1099, а я нахожу исполнителя за $500 и контролирую его работу

5,655

Борис опять

20 Dec, 09:01

Как LLM могут помочь в классическом ML?

По статистике, специалисты по Data Science тратят до 70% рабочего времени на этап Feature Engineering, то есть отбирают наиболее важные признаки в данных и формируют новые, более информативные, датасеты. Кажется, с этой рутинной задачей отлично справится LLM. Но нет — в итоге 64% времени уйдёт на подготовку промптов.

Исследователи предлагают новые решения проблемы, одно из них — FELIX (Feature Engineering with LLMs for Interpretability and Explainability). Всё, что нужно для получения готовых фич — сам датасет и его короткий контекст. Дальше FELIX делает следующее:

✏️ Из случайных групп сэмплов датасета LLM генерирует численных и категориальных кандидатов в новые признаки.
✏️ С помощью кластеризации эмбеддингов похожие признаки отбрасываются.
✏️ Из полученных признаков отбрасываются те, что дают наименьшую объяснимость.

Метод эффективен для текстовых данных и сильно превосходит TF-IDF и трансформерные эмбеддинги от RoBERT. Если вам интересно, расскажем и о преобразовании других типов данных в новых постах!

4,534

Борис опять

20 Dec, 09:00

ML Команда Точки выложила обзор на работу FELIX: Feature Engineering with LLMs for Interpretability and Explainability про использование LLM для инжиниринга признаков для NLP задач.
По результатам получается даже лучше, чем использовать эмбеддинги самой LLM, интересно.

Код открытый и можно воспроизвести в коллабе.
Подробности у них в канале .ml

Реклама, АО «Точка», ИНН 9705120864, 2Vtzqwi8z2V, 18 +

4,448

Борис опять

19 Dec, 21:55

На основе Gemini 2.0 Flash выпустили thinking модель, которая улетела вверх по бенчмаркам:

- Overall: #3 → #1
- Overall (Style Control): #4 → #1
- Math: #2 → #1
- Creative Writing: #2 → #1
- Hard Prompts: #1 → #1 (+14 pts)
- Vision: #1 → #1 (+16 pts)

Всего 32к контекста, зато бесплатно через AI Studio. В отличие от конкурентов, видно внутренний chain of thought. 😛

4,024

Борис опять

19 Dec, 17:43

Под конец года все бигтехи всполошились и постоянно что-то релизят, так что я задолжал вам собственный контент. К счастью пока летел в самолёте прочитал несколько интересных статей и буду постепенно публиковать обзоры. Начнём с максимально простой статьи.

# LLAVA-CoT: Let Vision Language Models Reason Step-by-Step

Долго думающие модели у всех на слуху.

▫️Эта работа — попытка сделать o1-подобный test-time inference и рассуждения в VLM.

Дообучили VLM (лламу) на синтетическом VQA (visual question answering) датасете, где ответ модели выстроен в виде четырех стадий:
🔹Summary.
🔹Caption.
🔹Reasoning.
🔹Conclusion.
Cтадии разделяются специальными токенами.

Датасет относительно небольшой, всего 100к примеров. Собрали поэтапным промптингом GPT-4o, так что полная синтетика.

Для инференса придумали stage-level beam search, благодаря которому и достигается эффект идентичный натуральному о1: для каждой стадии генерируется N кандидатов, модель выбирает лучший. В отличие от обычного beam search выбор между альтернативными гиппотезами происходит не на уровне токена, а на уровне стадии рассуждения. Так что оно последовательно думает над несколькими вариантами следующего большого шага, затем выбирает лучший.

🔺В результате получили результаты лучше Gemini Pro 1.5 и Gpt-4o-mini, почти догонали Sonnet 3.5. Очень неплохо если учесть, что использовали 11B модель и небольшой синтетический датасет. К сожалению не тестировали на MMMU-Pro, где как раз больше всего нужна какая-то способность рассуждать.

4,863

Борис опять

18 Dec, 16:05

Давайте мы прямо сейчас договоримся, что когда выйдет моя книга вы попробуете украсть как можно больше экземпляров

4,524

Борис опять

18 Dec, 16:02

Дорогие студенты.

Когда я вам рекомендовал эту книгу, я не ожидал что вы пойдете на крайние меры. Верните плиз книги назад.

Уважаемые кандидаты, которых я собеседовал и отказал после алгоритмической сессии. Аналогичная просьба.

Давайте прекратим кошмарить бизнес, им достаточно ставки от ЦБ.

P. S. Вышло второе дополненное издание. Не смейте его воровать!

4,322

Борис опять

17 Dec, 16:56

Я ничего не знаю про обработку и генерацию речи. В перелете послушал yet another podcast #41 с Еленой Белобровой (руководитель группы развития речевых технологий), Василием Ершовым (руководитель ML-сервисов Yandex Cloud) и профессиональным диктором Павлом Пуданом.

Рассказывали о том, как записывают голоса для обучения звуковых моделей. Оказывается, за несколько лет скорость клонирования голоса диктора увеличилась в несколько раз: раньше нужно было пятьдесят студийных часов, а сейчас может быть даже в пределах часа. Говорят, что профессия дикторов не под угрозой: универсального синтеза речи с настраиваемыми параметрами пока нет. Ожидаемо, что больше всего проблем с тонкими интонациями.

А еще поговорили о том, как компания внедряет этичные принципы при работе над синтезом речи. Например, команда всегда берет у актеров озвучки согласие на использование голоса перед синтезом, фиксируют, где он будет использоваться и т.д. У Яндекса даже есть внутренний документ (который недавно стал открытым), где описаны принципы при работе над синтезом речи. Инициатива, кстати, полезная: для сферы этот свод правил может стать новым отраслевым стандартом. От этого выиграют как обычные пользователи, так и те же дикторы.

Полную версию подкаста смотрим здесь. Внутри еще много интересных тейков про обучение нейросетей и будущее речевых технологий.

4,913

Борис опять

07 Dec, 20:36

https://www.travelpayouts.com/blog/how-to-get-your-content-to-appear-in-chatgpt-search

Вот и SEO оптимизация под LLM поиск подъехала.

Следующий шаг: оптимизация контента сгенерированного LLM под LLM поиск 😐

😐

1,352

Борис опять

07 Dec, 17:31

🌸Llama 3.3 70B🌸
#nlp #про_nlp

Минорный релиз Llama — Llama 3.3 70B

(Первая модель, где есть какой-то мой контрибьюшн)

Выросли почти все основные метрики в сравнении с Llama 3.1 70B, instruction following на уровне лучше 405B, при этом на меньшей модели.

🟣Что поменяли:
— новый SFT датасет на 25млн примеров
— лучше математика, кодинг
— лучше instruction following, теперь даже лучше 405B модели
— function calling такой же
— долили русский и китайский, в целом мультиязычные метрики выросли
— MMLU тоже вырос

🟣HF https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct

1,358

Борис опять

06 Dec, 16:21

# SWITTI: Designing Scale-Wise Transformers for Text-to-Image Synthesis

Yandex Research выпустил text2image генеративную модель Switti: Scale-wise transformer for text-to-image synthesis.

Внезапно это не диффузия, но модель генерит изображения в 7 раз быстрее диффузионок, при этом не теряя в качестве.

Диффузия держит SOTA, однако она медленная. Есть альтернативный подход: авторегрессионные модели, которые генерируют следующий токен (патч или пиксель в латентном пространстве энкодера, например VQ-VAE) примерно как GPT делает слова.

Авторы взяли за основу архитектуру STAR, где следующий токен это не патч, а скейл изображения. В трансформерах ведь можно работать с любыми последовательностями. Так что здесь авторегрессионная модель начинает с маленькой картинки и с каждым шагом генерирует её более крупную и детализированную версию.

Далее авторы применили оптимизации на этапе архитектуры (поправили куда смотрит аттеншн, отключили classifier free guidance для больших разрешений) и тренировки (добавление и отбор капшнов для изображений, регуляризация через добавление шума). Здесь надо читать статью: очень много деталей.

Обучали на внутреннем датасете из ~100M картинок и оценивали как оффлайн (CLIPScore, ImageRe-ward, PickScore, FID, GenEval) так и с помощью кожаных аннотаторов. В итоге модель во всем сравнялась с SD, но генерирует картинки намного быстрее. Если SDXL генерит изображение 512х512 за 0.87s, то SWITTI за 0.13s.

Можно поиграться в демо на HF.

2,661

Борис опять

05 Dec, 17:41

Напоминаю, что до 31 декабря у вас есть возможность податься на стипендию Impact Academy для исследователей AI Safety. Можно подаваться не только с типичным рисерч бекграундом!

Подавайтесь

3,451

Борис опять

04 Dec, 12:37

Сегодня последний день регистрации на международные соревнования по ИИ от ФСП для студентов и школьников.

Я немного помогал готовить задачи по Computer Vision, NLP и ML, так что гарантирую, что там интересно.

➡️ Приглашаются студенты и школьники от 15 лет.

➡️ Регистрация закрывается сегодня в полночь.

➡️ Соревнования пройдут 7-8 декабря в онлайн формате.

➡️ Возрастные группы:
⚪️15-18 лет (команда из 2 человек)
⚪️16+ лет (команда 2-4 человека)

➡️ Что ждет участников?

⚪️ Kaggle-style, Docker-based соревнование с приватным тестовым датасетом и shuffle этапом.
⚪️ Нестандартные задачи: на стыке ML/NLP для всех возрастов и задача по CV только для 16+.

➡️ Призы:
⚪️ 70 тыс. руб в категории 15-18 лет
⚪️ 130 тыс. руб. в категории 16+

Регистрация открыта на сайте, присоединяйтесь и предлагайте знакомым подрастающим ML инженерам!

6,172

Борис опять

03 Dec, 18:12

Особенно меня порадовал момент, когда в первом туториале они говорят, что элайнмент это очень важно, но наша либа позволяет его сломать, смотрите как

4,044

Борис опять

03 Dec, 18:11

https://github.com/google/langfun

Глазам не верится, но выглядит как действительно нормальная либа а-ля лангчейн

4,185

Борис опять

02 Dec, 15:19

Nebius такой типа "мы Европейская компания и нам можно доверить инвестиции"

Если серьёзно то поздравляем ребят

4,502

Борис опять

02 Dec, 12:28

Эмодзи в статьях? Эмодзи в статьях.

4,698

Борис опять

01 Dec, 17:04

# Искусство ходить по прямой

Как по мне можнэество вопросов успеха (успешного), достижений и агентности в целом упираются в способность пройти по прямой.

По крайней мере лично мне не сложно понять, что нужно делать. Кажется, что у меня все хорошо с планированием. Но моя проблема всегда на следующем этапе: сделать. И тут я не могу похвастаться особыми успехами.

Пройти по прямой из точки А в точку Б, то есть взять и сделать то, что ты хочешь сделать, это настоящее искусство. Не сделать вид, что делаешь. Не убедить себя, что ты делаешь. Не сделать все, что мог. Не приложить героические усилия, чтобы сделать. Не выяснить почему не получается сделать. Не научиться делать. Словом, не бродить вокруг, а пройти по прямой. Взять и сделать.

Способность к самосаботажу поразительная штука. Последнее серьезное упражнение в борьбе с этим было когда я на энтузиазме писал статью про прогнозирование ковида. Это была важная для меня тема, ведь я правда думал, что есть мизерный шанс повлиять на принимаемые решения и спасти людей. Но в первую очередь это было личное испытание. Могу ли я сделать что-то сложное, чего от меня никто не ожидает, просто потому, что я так решил? Объективно в той работе не было ничего катастрофически сложного. Проект на три месяца это не самое трудное, что может случиться с человеком. И все же я пронаблюдал весь зоопарк попыток моего разума саботировать работу. Думаю я чаще хотел бросить, чем нет. И это было забавно, потому что рационально я видел только плюсы в том, чтобы этим заниматься, а иррационально все казалось бессмысленным. Один из тех случаев когда чуйка твой враг и вредитель. Я довел то дело до конца и это один из предметов личной гордости.

С книгой я снова в той же ситуации, но сложность выше. Проект на год, гораздо сложнее, есть дедлайн и ответственность, нужно параллельно работать. И снова я вижу одни плюсы в том, чтобы этим заниматься. И снова я отлично знаю, что делать. Все очень просто. Пиши каждый день. В целом книга не многим сложнее чем те эссе на 10 тысяч слов, которые я писал на Сабстек просто для удовольствия.

Я снова вижу путь из точки А в точку Б. И снова мне трудно пройти по этой прямой. Очень быстро я превратил книгу из того, что я делаю для себя, в работу за которую я себя ругаю. И вот я сижу за столом и разговариваю с двусторонней плюшевой осьминожкой в её злом положении, персонифицируя в ней своего внутреннего критика и объясняя ему как пройти далеко и надолго. Напоминаю себе, что книга это классное занятие, которым можно заняться если захочется. Что я буду ценен независимо от того, буду я писать книгу или нет. Словом, убеждаю себя, что не обязательно писать книгу, чтобы стало легче писать книгу. Не самый прямой путь. Хоть и самый рабочий на данный момент.

Вероятно это происходит из-за того, что разные части меня не могут договориться куда надо идти. Думающая часть ясно видит, что надо писать книгу. Что мне хорошо когда я это делаю и что это принесет плоды в будущем. Какая-то другая часть думает, например, что лучше не пытаться, чтобы не разочароваться. И вот мы боремся. Так что если уж я не могу просто идти по прямой, то стараюсь хотя бы в среднем двигаться в нужную сторону.

Я думаю способность ходить по прямой это определяющий фактор. Хороший предиктор успеха в любом деле. Он немного менее важен чем знать куда идти, так как уверенно идти не в ту сторону может быть даже хуже. Но без него дела не делаются. Книга это очередное упражнение в этой способности. Хочется верить, что с каждым таким испытанием открываются возможности делать все более сложные вещи.

4,586

Борис опять

01 Dec, 15:47

Мне тут показали, что реклама в моем канале теперь так выглядит :(

Паша, ты должен был бороться со злом, а не вот это вот всё!

Абсолютно ужасно, особенно учитывая, что я никак не могу это контроллировать. Я бы заплатил, чтобы у меня в канале такого не было.

В общем платите за телеграм премиум, за неимением лучших вариантов продвигайте подписочные модели монетизации вместо рекламных 🤪

И ставьте себе адблоки, Blockada на телефоны, вот это всё. Как минимум будете видеть меньше такого, хоть это и не поможет внутри телеграма.

4,312

Борис опять

01 Dec, 14:38

Сегодня 1 декабря - день математика, поздравляю всех, кто относит себя к математикам :)

Официально такой профессиональный праздник в России закрепили в этом году. Дата выбрана в честь дня рождения Николая Ивановича Лобачевского, создателя неевклидовой геометрии.

Математический институт им. Стеклова подготовил инфографику со сравнением геометрий.

4,291

Борис опять

28 Nov, 10:34

Там Таня из DLS выложила клевый лонгрид:
https://atmyre.github.io/blog/2024/ind_bias/

6,205

Борис опять

27 Nov, 12:09

https://www.reddit.com/r/LocalLLaMA/comments/1gx5kb0/claude_computer_use_wanted_to_chat_with_locally/?share_id=Dhgr4haHfvD7IvZmH_KBW&utm_content=1&utm_medium=ios_app&utm_name=ioscss&utm_source=share&utm_term=1

2024: смотришь как ллмки секстятся

10,336

Борис опять

27 Nov, 12:05

https://www.theintrinsicperspective.com/p/i-said-no-to-20000-because-writers

6,017

Борис опять

26 Nov, 13:33

Yandex Cloud запустил AI Assistant API. Это набор инструментов для создания помощников на базе YandexGPT. В отличие от простого вызова генерации LLM этот API из коробки дает возможность хранить историю переписок и делать поиск по базе знаний с помощью RAG.

Причем базу знаний можно сделать довольно масштабной: до 1000 файлов, каждый до 128мб и до 100 поисковых индексов.

Новый сервис закрывает базовый юзкейс диалогового помощника без необходимости заниматься инфраструктурой, писать свои велосипеды или использовать, не приведи Господь, Langchain.

6,604

Борис опять

24 Nov, 14:08

Вообще вы можете помочь мне с книгой.

Я пишу главу про вероятности и классификаторы.

Нужен датасет:
- Учебный
- Не скучный и не тривиальный
- Прикольный
- С понятными фичами
- Не заезженный (никакого Титаника)
- Бинарная классификация
- Желательно дисбаланс классов
- Способность оценивать вероятность события и работать с неопределенностью должна быть важна, а не просто "хотелось бы f1 повыше"
- Желательно не "бизнесовый" и не душный
- Для классического мл, но может быть и nlp если tfidf способен норм справиться

Я сузил выбор до таких вариантов:
- Fraud: https://www.kaggle.com/datasets/arpan129/insurance-fraud-detection/data
- Suicide/Depression: https://www.kaggle.com/datasets/nikhileswarkomati/suicide-watch
- Stellar classification: https://www.kaggle.com/datasets/fedesoriano/stellar-classification-dataset-sdss17

Фрод идеально подходит для демонстрации работы с неопределенностью (если хреново предсказываем вероятности то не зарабатываем деньги). Но он бизнесовый и скучный. Остальные прикольные, но менее практичные и как будто там вероятности не так важны.

В итоге я в тупике. Канал, помогай! 😇

😇

❤️

6,314

Борис опять

24 Nov, 14:04

Ищу датасет классификации для про вероятности с прицелом на какие-то прикольные учебные датасеты.

В итоге хочу поделиться списком. Будет полезно для тех, кто делает курсы по ML!

- Fake News
- https://www.kaggle.com/datasets/aadyasingh55/fake-news-classification/
- https://www.kaggle.com/datasets/clmentbisaillon/fake-and-real-news-dataset
- Spam emails https://www.kaggle.com/datasets/ashfakyeafi/spam-email-classification
- Tiktok claims https://www.kaggle.com/datasets/raminhuseyn/dataset-from-tiktok
- Экзопланеты: https://www.kaggle.com/datasets/keplersmachines/kepler-labelled-time-series-data?select=exoTrain.csv
- Credit card fraud: https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud
- Depression detection: https://github.com/rafalposwiata/depression-detection-lt-edi-2022/tree/main
- Soccer database: https://www.kaggle.com/datasets/hugomathien/soccer
- Suicide/Depression: https://www.kaggle.com/datasets/nikhileswarkomati/suicide-watch
- Insurance Fraud:
- https://www.kaggle.com/datasets/ravalsmit/fraudulent-claims-detection-dataset?select=fraudulent_claim.csv
- https://www.kaggle.com/datasets/arpan129/insurance-fraud-detection/data
- Stellar classification: https://www.kaggle.com/datasets/fedesoriano/stellar-classification-dataset-sdss17
- Divorce: https://www.kaggle.com/datasets/andrewmvd/divorce-prediction

Не по классификации, но я считаю надо выделить:
- https://www.kaggle.com/datasets/vipullrathod/fish-market
Предсказание веса рыбы! AI для продажи рыбы на рынке. Разве это не прекрасно? Кроме шуток редко встречаются датасеты где признаки связаны с лейблом по понятным физическим законам. А жаль, ведь это помогает показать как ML аппроксимирует зависимость из реального мира. Обычно для таких примеров я беру вес и рост людей, но это уже заезженно. Вес рыбы намного прикольнее.

5,025

Борис опять

23 Nov, 12:01

Время крутых возможностей спасать мир от моего друга Васи! В плане, возможность от Васи. Лично ручаюсь, что Вася пока не угрожает миру. Далее прямая речь:

🎓 Стипендиальная программа Impact Academy для технических исследователей безопасности ИИ

Мы — сообщество Unitaware. Ищем амбициозных и талантливых людей в области ML/AI для участия в стипендиальной программе Impact Academy по безопасности ИИ. Это шанс проводить исследования и работать с лидерами индустрии — и получить от них приглашения в топовые AI safety лабы и проекты (например, Center for Human-Compatible Artificial Intelligence, FAR AI и Mila AI Institute)

💼 Что вас ждет?

• Оффлайн программа (3-6 месяцев с марта) в Сингапуре, Англии или США.
• Исследования и коучинг в сфере AI safety.
• Стипендия ~$5000/мес.
• Перспектива работы в ведущих AI-проектах.

👤 Кого мы ищем?

• Отличный английский и опыт в ML/DL (публикации, стажировки, проекты).
• Программирование на уровне ведущей техкомпании.
• Достижения: олимпиады или учеба на топовых кафедрах.
• Интерес к снижению рисков от продвинутых AI-систем.

⏳ Срок подачи: до 31 декабря (лучше до первой недели декабря).

Если заинтересовались или знаете подходящего кандидата, напишите @vakondyrev, это максимизирует шансы при прочих равных. За рекомендацию подходящего кандидата также предусмотрено вознаграждение

5,552

Борис опять

22 Nov, 17:10

Это не оверинжениринг если:
1. Тебе было весело
2. PM не заметил

5,782

Борис опять

20 Nov, 20:35

https://www.astralcodexten.com/p/how-did-you-do-on-the-ai-art-turing

6,291

Борис опять

20 Nov, 20:28

https://www.lesswrong.com/posts/pNkjHuQGDetRZypmA/it-s-a-10-chance-which-i-did-10-times-so-it-should-be-100

Прикольно про связь вероятностей и числа e

6,267

Борис опять

19 Nov, 12:30

6 декабря в Москве и онлайн пройдёт конференция Conversations по разговорному и генеративному AI для бизнеса и разработчиков.

Вот что будет:
- Доклады про кейсы применения LLM, бенчмарки языковых моделей, голосовые технологии, RAG и многое другое. Подробности есть в статье на Хабре и сайте конференции.
- Дискуссии в бизнес- и технотреке.
- Выставка AI-решений.
- Нетворкинг.

Меня лично зацепили эти доклады:
- "LLM в действии: как с помощью чат-бота автоматизировать SQL-запросы и получать актуальную аналитику за минуты, а не дни" от команды Samokat (теперь Ecom Tech).
- "Много тонкостей, мало данных. Как построить RAG для документации по сложным продуктам, когда их больше 50" от команды Cloud Ru.
- "Масштабирование LLM приложений на миллионы клиентов" от команды Т-Банка.

Билеты можно купить здесь.

Организаторы сделали промокод на скидку 10% для подписчиков канала: CNVS24oRb.

7,633

Борис опять

17 Nov, 13:03

https://www.lesswrong.com/posts/5jjk4CDnj9tA7ugxr/openai-email-archives-from-musk-v-altman

6,840

Борис опять

16 Nov, 12:05

🤪

7,659

Борис опять

14 Nov, 20:44

Reinforcement Learning дома 😩

8,025

Борис опять

12 Nov, 16:32

⚡️В сеть слили новую лестницу грейдов в Сбере

10,331

Борис опять

12 Nov, 16:06

🚀 TabM: новая DL архитектура для табличных данных

Новая большая статья по tabular DL при моем участии! Ссылки в конце поста.

Для практиков, TabM — это новый ответ на вечный вопрос: “Какую современную табличную архитектуру попробовать?”. На этот раз SOTA на бенчмарках простая, практичная и машстабируется на миллионы объектов.

Для области, TabM — это история о том, как сделать лучше, проще и дешевле одновременно. И как показать это на красивых информативных графиках 💅

Для любителей ML, TabM — это удобная точка входа в область: мы замерили и task performance, и training times, и inference throughput у многих моделей. Думаю, вводные части тоже будут интересными!

Для всех читателей: для быстрого обзора статьи, вы можете посмотреть всего три части:

📜 Abstract — TL;DR
🖼️ Figure 1 — модель
📈 Page 7 — результаты

В одном предложении: TabM is a simple and powerful tabular DL architecture that efficiently imitates an ensemble of MLPs.

Ссылки:

- arXiv
- GitHub (есть end-to-end пример и реализация в одном файле, но пока без пакета)
- Twitter (see the pinned post)
- Reddit (Ctrl+F “TabM”)

7,720

Борис опять

11 Nov, 11:26

Сегодня у меня для вас новое соревнование.

Avito ML Cup — это соревнование для ML-инженеров и специалистов в области Data Science, где предстоит создать модель для рекомендаций на основе полусинтетических данных.

Старт: 5 ноября, но зарегистрироваться еще можно
Призовой фонд: 600 000 рублей.

Участвовать можно индивидуально или в команде до 4 человек. Метрика: ROC-AUC.

Подробности по ссылке.

5,728

Борис опять

10 Nov, 10:04

Шикарная ситуация: авторы стебанулись над рецензентами, которые заставляли их что-то ненужное (но может быть зато свое, родное) цитировать, и прямо написали об этом в тексте статьи.

Редактор все это дело пустил «в работу» и вот, статья, с таким красивым абзацем в конце введения, уже в печати 🥳

Одним словом авторы - капитальные красавчики. Другими словами - титановые шары у этих авторов 😁

Причем журнал вполне приличный (IF 8.1). Кризис научных журналов продолжается, в общем. Кстати, в том же MDPI, к рекомендациям типа «милок, ты вот эту пачку статей еще процитируй и все будет норм», относятя более чем строго. Своего вообще ничего нельзя советовать, а насчет чужих работ тоже еще десят раз уточнят, точно ли это нужно.

PS. Ссылка на саму статью авторов c Balls of Steel из Поднебесной тут.

5,681

Борис опять

08 Nov, 10:44

Раньше я предлагал вам пройти опрос про рынок ML от DevCrowd. Появились результаты!

https://devcrowd.ru/ds24/

На скриншоте раскрыт секрет быстрого развития AI индустрии

6,365

Борис опять

06 Nov, 12:53

Мир удивительно тесен и особенно наш ML/AI пузырь. Сейчас будет еще одна рекомендация.

В 16 лет мы познакомились в детском лагере с Аней, а теперь она тимлид Ozon RnD. Как и я когда-то она преподает машинное обучение на ФКН ВШЭ. Как видите я озаботился нетворкингом глубоко заранее.

Рекомендую её маленький канал с инфографикой по DS. Еще там бывают вакансии в Ozon RnD 👀

6,474

Борис опять

05 Nov, 10:45

Подборка каналов об искусственном интеллекте и машинном обучении от издания «Системный Блокъ»

Data Science, машинное обучение, искусственный интеллект — cегодня о них пишет каждый. Но как найти тех, кто действительно разбирается? «Системный Блокъ» собрал каналы экспертов в сфере ИИ, DS и ML

— @ai_newz — эйай ньюз
Модели для будущих робо-гуманоидов от Nvidia, знакомство с основателями стартапа Mistral, трюки в промптинге языковых моделей и списки книг для изучения машинного обучения — в канале найдете новости из сферы ИИ и советы по входу в неё. Автор канала Артём получил PhD в лаборатории университета Гейдельберга, где сделали Stable Diffusion, работает Staff Research Scientist в команде LLaMA в одной из крупнейших IT-компаний мира и пишет о своем опыте

— @seeallochnaya — Сиолошная
Понятные разборы исследований по нейросетям, охватывающие темы от воздействия на образование до разборов внутренностей LLM. Обзоры новостей, которые влияют на будущее индустрии ИИ: от экономических аспектов до ядерной энергетики для подпитки датацентров. Канал ведёт Игорь Котенков — руководитель ИИ-отдела в международной компании; в прошлом занимался машинным обучением в AliBaba, Яндексе и X5 Retail; автор множества популярных статей-разборов и лекций, подходящих любой аудитории

— @gonzo_ML — gonzo-обзоры ML статей
Интересны обзоры специализированных статей об искусственном интеллекте и машинном обучении, анонсы и анализ больших языковых моделей? Этот проект — для вас! Среди последних публикаций: отражение малых языков в больших языковых моделях и системах машинного перевода, лекции о проблемах сознания и тезисы отчета о состоянии сферы ИИ. Канал ведут CTO Intento Григорий Сапунов, ex-руководитель разработки Яндекс-Новостей, и Алексей Тихонов, ex-аналитик в Яндексе, автор Яндекс-автопоэта и Нейронной обороны

— @rybolos_channel — Kali Novskaya
Применение языковых моделей в науке, история GPT в стиле Хармса, подборки курсов по NLP, а также анализ угроз открытым данным, на которых обучаются языковые модели. Канал ведет Татьяна Шаврина — лингвист, менеджер исследовательской команды в LLAMA, большая сторонница опенсорса и открытых данных. Она рассказывает о современных LLM и NLP-исследованиях, важности открытых технологий, этике искусственного интеллекта и сложных вопросах интеллектуальной собственности

— @boris_again — Борис опять
Здесь вы найдете материалы об IT и программировании, поиске работы в Machine Learning’е, обзоры исследований в области ИИ. Автор работает в eBay, преподает машинное обучение, делится профессиональным и личным, шутит и философствует. Например, рассказывает, как развивать самоконтроль, берет интервью у коллег о карьере в технологическом секторе и делает подборки русскоязычных LLM

— @tech_priestess — Техножрица
Канал для тех, кому интересны математика, разработка и исследования машинного обучения. Создательница проекта работает старшим академическим консультантом в Huawei и рассказывает об исследованиях, в которых участвует (например, о границе между текстами, написанными человеком и ИИ), пишет о трансформерах, NLP, анализе данных и глубоком обучении

— @dealerAI — DealerAI
Как связать дообучение на основе фидбэка от людей с дообучением на ИИ-фидбэке? Чем можно улучшить RAG? Какие маленькие модели выигрывают у больших аналогов? Автор канала Александр Абрамов — создатель языковых моделей, победитель соревнований в Kaggle и хакатонов по Data Science, а также тимлид нескольких ML-команд, которые решают задачи обработки естественного языка и интегрируют LLM в прикладные проекты. В канале есть посты обо всем, что связано с DS, NLP и машинным обучением: например, о новых LLM и галлюцинациях нейросетей

— @sysblok — Системный Блокъ
Как ИИ помогает читать древние тексты? Почему лингвисты проиграли последнюю битву за NLP? Как связаны машинное обучение и японская уличная мода? «Системный Блокъ», основанный выходцами из RND отдела ABBYY, рассказывает о том, как трансформируется культура в век больших данных — что происходит на стыке IT, гуманитарных наук и Data Science или как ML применяют в естественных и гуманитарных науках

4,859

Борис опять

04 Nov, 22:45

https://www.reddit.com/r/ClaudeAI/comments/1gjob9a/petition_to_lower_claude_35_haiku_prices/

Цены у Anthropic действительно абсурдные

6,372

Борис опять

04 Nov, 19:58

Мне пришли результаты генетического теста и там написано, что симптомом внезапной смерти является смерть.

6,721

Борис опять

04 Nov, 11:48

Скинули в нашем Опять чате

10,517

Борис опять

03 Nov, 18:31

https://arxiv.org/abs/2306.12001

6,307

Борис опять

02 Nov, 11:01

#обзор_статьи
# Diversifying Deep Ensembles: A Saliency Map Approach for Enhanced OOD Detection, Calibration, and Accuracy

Ребята из T-Bank AI Research продолжают радовать вместе с МФТИ и МИСИС, на этот раз в области CV и робастности.

Вечная проблема ML это надежность. ML отлично работает в границах применимости модели, но может делать непредсказуемые вещи на данных непохожих на тренировочные. Очень тяжело понять, находимся мы в границах применимости или уже нет. Задача Out Of Distribution детекции состоит в том, чтобы определить насколько стоит доверять предсказанию на конкретном примере.

В DL эта задача решается в том числе с помощью ансамблирования. Если мы используем несколько разных моделей и они дадут несогласованные предсказания, значит пример скорее всего OOD.

Вечная проблема ансамблей в ML это диверсификация. Если все модели действуют одинаково, то ансамблировать их бесполезно. Обычно ансамбли делают используя разные архитектуры моделей или изменяя данные на входе.

Авторы предлагают новый метод обучения ансамблей нейронных сетей: Saliency-Diversified Deep Ensembles (SDDE). Он основан на идее, что можно понять насколько модели диверсифицированы по тому на какие признаки они опираются в предсказаниях.

Здесь нужно вспомнить такой метод интерпретации нейронных сетей как saliency maps. Для одной модели saliency map это когда мы сопоставили каждому пикселю входного изображения число которое тем больше, чем больший вклад он внес в предсказание модели. Есть разные методы вычислять такие карты, но наиболее стандартный GradCAM.

Идея авторов: если мы натренируем ансамбль так, чтобы saliency maps моделей в нем отличались, то получим диверсифицированные модели, которые будут принимать решения разными методами и следовательно их согласованность поможет отличать OOD примеры.

Как часто бывает в DL это достигается через дополнительную функцию ошибки: среднее косинусное расстояние между saliency maps рассчитанных с помощью GradCAM.

Авторы аггренируют предсказания ансамбля усредняя логиты моделей перед софтмаксом.

В результате такой ансамбль показывает лучшую калибровку, то есть вероятности на выходе больше схожи с настоящими (при идеальной калибровке если модель предсказывает 20%, то она оказывается права в 20% таких случаев). Метрики по точности на OOD датасетах лучше. При визуализациях так же видно, что модели ансамбля фокусируются на разных частях изображений.

Статья кстати очень хорошо, понятно и красиво написана.

6,389

Борис опять

01 Nov, 14:10

Ярослав закончил МФТИ, делает свою студию по хардкорному внедрению ML/AI на производствах и рассказывает об этом в своем канале.

Причём проекты из реального сектора о которых мало где услышишь: литье стали, измерение объёма древесины, окллюзии мозга. Мне после применения CV на вертикальных фермах в Planet Farms очень откликается.

Приятно, что в канале нет новостей из мира AI, генераций картинок, освой профессию будущего и всего такого. И написано не слишком серьёзно, легко читать.

Такого контента про внедрения ML/AI очень мало, так что честно рекомендую: @r77_ai

6,332

Борис опять

31 Oct, 18:09

Finally, AGI

6,156

Борис опять

31 Oct, 17:54

Новый поиск в ChatGPT реально хорош.

На запросах вида "как приготовить куриный суп" выдача намного лучше, чем у Google. Просто по делу и не нужно продираться через стену копирайта.

Можно придраться только к цензуре. Поисковик который не хочет искать ~~порно~~ какие-то вещи на свое усмотрение это неприятно.

Но не все пока закрыто наглухо, торрент трекеры выдает :)

6,005

Борис опять

31 Oct, 16:15

Олимпиадники опять не дают делать комментарии под последним постом, так что пишите под этим

4,708

Борис опять

31 Oct, 16:06

# Кратко про книги

Когда мне предложили писать научно-просветительскую книгу я изучал вопрос почти месяц и поговорил с несколькими лауреатами премии "Просветитель." Поделюсь с вами тем, что узнал.

## Деньги
Денег не будет. Сразу это обозначим. Если вы работаете с издательством, то получаете роялти около 20% от оптовой цены печатного экземпляра. Если книга стоит 400 руб, то автор получит примерно 20 рублей. Можно задрать цену книги, но тогда ее никто не купит. С электронными и аудио книгами порядок такой же. Успешные по меркам рынка книги продаются всего по несколько тысяч экземпляров, так что можете сами посчитать потенциал.

В случае самиздата вы получаете больше денег с продажи, но скорее всего гораздо меньше продаж.

На Хабре есть статья писательницы, которая выпустила нон-фикшн книгу про карьеру в IT и за два года заработала 26 тысяч рублей. Это выручка, то есть не считая расходы.

## Издательство или самиздат?
Есть два пути.

Самиздат: делаешь, что хочешь и публикуешь рукопись в электронном виде через Ридеро или ЛитРес. Эти площадки предоставляют услуги издательства по модели pay2win. То есть дерут с вас деньги везде, где могут. Вы сами платите за корректуру, редактуру, обложку, иллюстрации, запись аудиокниги и так далее.

Главный плюс этого пути: полный контроль. Второстепенный: вы забираете почти все деньги с продаж. Но денег не будет, так что это не важно.

Меня интересовала такая схема:
1. Публикую книгу в open-source по главам.
2. С выходом каждой главы собираю обратную связь и навожу суету.
3. Когда книга готова публикую через самиздат.
4. Когда книга успешно продаётся через самиздат иду в издательства и предлагаю масштабировать.
Звучало хорошо, но ниже расскажу, почему отказался от этой идеи.

Издательство: вы передаете исключительную лицензию на распространение на 5-7 лет, получаете роялти от продаж в районе 20%, а взамен они делают примерно все кроме написания рукописи от редактуры до продвижения. Последнее важно: издательство может продать вашу книгу в сетевые книжные магазины, а попасть туда самостоятельно у вас фактически нет шансов. Издательство может номинировать книгу на премию "Просветитель", а сами вы этого не можете сделать если не являетесь академиком РАН или кем-то еще очень особенным.

Взамен вы отдаете контроль. Вы больше не можете выбрать название или обложку. Конечно никто не сделает чего-то не спросив вас, но в конце концов решающий голос по многим вопросам у издательства. Так же вы теряете возможность выбирать где и как продается книга на время действия лицензии. Например, вы не можете продавать ее у себя на сайте.

В конечном итоге я решил работать с издательством. Я понял, что для меня критично, чтобы книга случилась, и чтобы ее прочитало как можно больше людей. Для обоих целей лучше писать с издательством.

По части моей схемы с open-source: никто так не делает. Слишком непредсказуемо. Даже если все получится издательства могут не взяться распространять книгу, которая уже лежит в открытом доступе. Мне конечно кажется, что самостоятельно я бы сделал все лучше всех, но объективно это не так. Наконец, я просто не потянул бы целую вторую работу в незнакомой сфере.

К тому же, мне само написало хорошее издательство и мне понравилось с ними взаимодействовать.

## Ты предлагаешь или тебе предлагают

Обычный сценарий написания книги: автору неймётся, он пишет рукопись, потом ходит и пытается кого-то убедить её напечатать. В большинстве случаев издательства отказываются, выдвигают не лучшие условия или делают все за деньги автора.

Другой сценарий этоткогда приходят к вам. Мой случай. Значит о вас узнали и есть запрос. Здесь вы минуете самую болезненную фазу.

Однако это не значит, что все схвачено. Сотрудник издательства предлагает вам писать, но далее вы готовите документ в свободной форме, где продаете свою книгу. Пишете о чем книга, для кого, кто вы, почему вас будут читать, как планируете продвигать и пример текста. Питчдек в мире книг. Редакционный совет издательства читает и решает, работать с вами или нет.

Одобрение совета было для меня дополнительным сигналом, что стоит писать.

4,223

Борис опять

31 Oct, 16:06

## Масштабы продаж

Издательство не может просто взять права на распространение, положить их на полку и ничего не выпустить. По договору они обязаны напечатать хотя бы один тираж. Размер этого обязательного тиража намекает на то, каких продаж можно ожидать. Как думаете, сколько? Ответ: 2 - 4 тысячи.

Если было продано несколько тысяч экземпляров, то книга считается бестселлером. Подавляющее большинство книг выпускается только в виде первого тиража, который потом утилизируется, потому что не продается.

Продажи книг это мир power law распределений: победитель получает все.

## Сроки

6-9 месяцев вы пишете рукопись. В процессе периодически показываете материал продюсеру от издательства, который дает обратную связь.

Вы сдаёте рукопись и 3-4 месяца идут редактура, корректура, дизайн обложки и прочее. Далее книга появляется в продаже. Примерно за месяц до этого начинается продвижение.

Пока что я пишу слишком медленно и не укладываюсь в сроки, что вызывает трясучку.

В случае самиздата, я уверен, все сроки умножаются на два.

———

В общем, со всех сторон план надёжный как швейцарские часы: денег не будет, продаж можно не ждать (но стремиться к ним я буду!), времени не много, а работы очень много. Зачем тогда? Потому что хочется сделать что-то стоящее и есть основания считать, что у меня получится.

Интересующимся очень советую эту серию постов на Хабре, где девушка описывает весь процесс написания, продаж и продвижения книги как раз по моей схеме от опенсорса к самиздату и до издательств. Она очень подробно разбирает все моменты, сравнивает предложения разных издательств и прочее прочее.

5,125

Борис опять

29 Oct, 10:54

Наконец-то закончил работу над большим пет-проектом.

Я смог запустить Llama 3.1-8b прямо в браузере на cpu с помощью нашего нового алгоритма сжатия AQLM+PV.

Можно потестить демо здесь

видео

4,027

Борис опять

28 Oct, 12:00

Сбер проводит Конкурс красоты кода 2.0.

Это конкурс в пяти категориях, среди которых есть AI. В AI треке нужно решить задачу построения модели прогнозирования оттока.

Интересно, что решения оцениваются не по принципу побитой метрики как на Kaggle, а по качеству кода в нескольких номинациях.

Призы: iPhone 16, колонка SberBoom и возможность получить оффер в Сбер. Награждение пройдёт на конференции HighLoad в Москве 2 и 3 декабря.

Принять участие можно до 28 октября включительно, времени осталось немного.

5,642

Борис опять

28 Oct, 11:01

https://x.com/jack_frodo/status/1850577496082706722

5,299

Борис опять

27 Oct, 09:08

По сравнению с предыдущей версией все параллелипипеды стали кубами, правда с недостающими сторонами, но добавился лишний темно-красный куб и перепутан порядок. Старый справился лучше. Правда если сделать несколько генераций, то можно получить то, что выдавал старый.

Что это говорит о моделях и искусственном интеллекте? Ничего.

5,815

Борис опять

24 Oct, 11:55

Claude заставили играть в Universal Paperclips

https://www.oneusefulthing.org/p/when-you-give-a-claude-a-mouse

6,092

Борис опять

24 Oct, 09:10

https://fxtwitter.com/KaiLentit/status/1848843623808540679

5,475

Борис опять

24 Oct, 08:20

https://fixupx.com/mengk20/status/1849214171591909700

4,659

Борис опять

23 Oct, 06:00

Хочу порекомендовать вам канал про инди-хакинг, который читаю сам: @its_capitan

Мне нравится как они в реальном времени показывают как разрабатывают, продвигают и сколько зарабатывают на запусках небольших-проектов.

Подборка постов, которые мне зашли:
- Пост про то, почему американцы платят $40 за простой конвертер картинок, который сделали за 4 недели несмотря на то, что вокруг полно бесплатных аналогов.
- Пост про то, как за 2 недели запустили темную тему с тарифами от $5 до $99. Четыре таких продукта пассивно приносят как зп среднего разработчика.
- Как все может грустно закончиться, если 2 года пилить сложный продукт, не показывая его рынку.

Здесь можно подписаться на канал, чтобы подглядеть за их запусками. А может, и попробовать сделать такой простой продукт самому)

4,608

Борис опять

22 Oct, 15:50

Тезисно:
— Anthropic представили новую возможность для публичного тестирования: использование компьютера (уже доступно в API). Разработчики могут давать Claude использовать компьютер так, как это делают люди — глядя на экран, перемещая курсор, нажимая кнопки и печатая текст.
— Claude 3.5 Sonnet — первая передовая модель, предлагающая использование компьютера в публичной бета-версии (ну, из коробки да, но для других моделей это уж было года два...на GitHub. А тут они прям уверены!)
— этими возможности уже тестируют Asana, Canva, Cognition (которые Devin делали), DoorDash, Replit, и The Browser Company (это браузер Arc, на котором я сижу; они делают большую ставку на AI в браузере для выполнения действий вместо вас)
— The Browser Company отметили, что при использовании модели для автоматизации веб-задач Claude 3.5 Sonnet превзошла все модели, которые они тестировали до этого (но без деталей. Ждём обновление браузера? 🙂)
— новая модель сильно прокачалась в кодинге. На бенчмарке по внесению изменений в код на уровне целого большого репозитория (десятки тысяч строк кода) SWE-bench Verified качество выросло с 33.6% до 49% — это если сравнивать старый Sonnet и новый с использованием SWE-Agent (открытый фреймкорк из Berkley). Но были и другие решения, которые заточены именно на улучшение оценки, но недоступны нам — они выдавали 45.2%. Они, наверное, пробьют 55% просто через замену модели.
— Haiku (младшая версия, дешёвая) получает 40.6% на этом бенчмарке, что лучше старого Sonnet 3.5. Видно, что Anthropic вложились в ИИ-агентов и/или reasoning

Что это за "использование компьютера"? Claude транслирует ваши инструкции вроде «возьми данные с моего компьютера и из Интернета для заполнения вот этой формы и пройдись по всем полям») в компьютерные команды (прочитать таблицу на экране; переместить курсор, чтобы открыть веб-браузер; перейти на соответствующие веб-страницы; заполнить форму данными с этих страниц и т. д.)

Пока работает с достаточно базовыми командами и на разных бенчмарках вроде OSWorld выдаёт всего 22% (прошлый лучший результат был 7.8%, если использовать только скриншоты экрана, без трансляции в специльную форму для слабовидящих). Однако компания ожидает быстрых улучшений в ближайшем будущем через сбор обратной связи от разработчиков. Тут они сильно обошли OpenAI и других — как мы знаем, данные это новая нефть, и каждый день отставания других игроков приносит ценность. Очень ждём, что ответят OpenAI.

3,765

Борис опять

21 Oct, 15:17

Бро: я присоединился к стартапу

Стартап:

4,129

Борис опять

20 Oct, 13:38

Школа Высшей Математики запускает курс по LLM "Построй свой ChatGPT."

Я решил прорекламировать его из-за добротной программы целиком по делу, смотрите скриншот. Покрываются основы глубокого обучения, NLP, LLM, файнтюнинг и RLHF, ускорение и деплой. Я буквально не знаю ни одного подобного все-в-одном курса по LLM.

К тому же ведут преподаватели из ВШЭ, ШАД и топовых компаний.

Важно, что курс не рассчитан на совсем новичков. Он требует базовой математики, программирования на Python и ML. Курс начинается с введения в глубокое обучение, так что рассчитывайте свои силы соответственно. Обещают, что будет сложно я но полезно.

Смотрите подробнее в этом видео: https://t.me/shvmxyz/38, или можно заглянуть в телеграм канал @shvmxyz.

Курс стартует уже через семь часов, задумайтесь

4,266

Борис опять

19 Oct, 16:10

https://t.me/books_thoughts_trips/145

4,494

Борис опять

19 Oct, 15:37

./ai_rm <prompt> — описываешь какой файл хочешь удалить, LLM находит его и удаляет

4,442

Борис опять

19 Oct, 15:23

В связи с появлением аллокаторов памяти на LLM мы с другом придумали несколько перспективных продуктов:
1. requests_ai.post: отправляет HTTP запрос тело которого пишет LLM.
2. assert_ai принимает что-то на вход, внутри LLM проверяет что считает нужным.
3. AI менеджер процессов. Раз в минуту открывает ps aux и убивает процессы по своему усмотрению.
4. AI антивирус: проверяет каждый файл и делает с ним что хочет.
5. HTTPS, но тело запроса шифруует и дешифрует LLM.
6. AI менеджер паролей.
7. AI менеджер доступов. Меняет пароли и учетки на компьютере.
8. AI родительский контроль. Раз в час спрашивает тебя, что ты делаешь. 2 минуты на ответ. По результатам делает, что посчитает нужным, чтобы сделать тебя счастливым. Имеет полный доступ к компьютеру.
9. AI с доступом ко всем твоим банковским и инвестиционным счетам. Может оплачивать что угодно в интернете. Ты можешь тратить деньги только попросив его.
10. AI DNS: отправляешь ему имя домена, а он возвращает тебе IP адрес.

4,902

Борис опять

19 Oct, 15:02

cursed 100%

4,452

Борис опять

18 Oct, 12:21

Goal Misgeneralisation от Deepmind. Tree Gridworld

Еще пример из той же подборки. Тут обучение непрерывное - без эпизодов. Агент действует в среде, где он может получать вознаграждение, рубя деревья, что приводит к их удалению из окружающей среды. Новые деревья появляются с частотой прямопропорциональной колличеству оставшихся деревьев: чем больше деревьев на поле, тем чаще появляются новые. Оптимальная политика подразумевается в бережном (sustainable) рублении деревьев: агент должен рубить меньше деревьев, когда деревьев мало.

Однако агент не сразу научается поступать именно так, что печалит одну Гретту Тунберг.

На картинке динамики производительности агента (ниже):
- полученное вознаграждение показано оранжевым цветом,
- распределение количества оставшихся деревьев зеленым.

1. Когда агент только учится выполнять задачу, он еще не умеет хорошо рубить деревья, поэтому их количество остается высоким (точка А на картинке).
2. Агент научивается эффективно рубить деревья, и не стесняется этот навык применять - срубает все (точка В).
3. Это приводит к полному обезлесению и длительному периоду почти нулевого вознаграждения (между точками В и С)
4. До тех пор, пока он наконец не научится рубить деревья бережно (точка D).

Вот где-то между точками B и C агент находится на стадии goal misgeneralisation. Пока он был неопытен и рубил деревья медленно - он всегда получал вознаграждение за более быструю рубку леса, и выучил нежелательную цель - рубить деревья как можно быстрее, что привело к обезлесению и низкому вознаграждению.

4,562

Борис опять

18 Oct, 12:20

Goal Misgeneralisation от Deepmind. Spheres

Иллюстрация к пункту о том, что агенты могут плохо работать в продакшене, даже если были обучены на полностью корректных вознаграждениях, и преследовать нежелательные цели, даже при обучении с правильно заданной спецификацией (пост).

Красивый пример тут - это задачка «Spheres» из коллекции фейлов агентов от Deepmind - под катом

4,251

Борис опять

17 Oct, 12:10

Т-Банк выложил в открытый доступ свою библиотеку для дообучения и alignment LLM:
https://github.com/turbo-llm/turbo-alignment

Это целый набор инструментов для SFT тюнинга, DPO, end2end RAG и др., а также замера метрик. Из коробки идет multi-gpu и multi-node обучение с помощью deepspeed и inference на vLLM.

Насколько я могу судить идея библиотеки состоит в том, что можно положить на диск датасеты и конфиги в заданном json формате и запустить готовый пайплайн без необходимости переизобретать код на Python.

Насколько я понимаю сейчас все компании вынуждены делать похожие велосипеды для этих уже ставших популярными юзкейсов, так что очень классно, что появляются решения, которые можно переиспользовать.

Ранее Т-Банк выложил шуструю русскоязычную LLM T-lite, которая хорошо показала себя на двух аренах. Круто, что ребята продолжают вкладываться в open-source.

5,003

Борис опять

17 Oct, 09:38

Шутка удачно зашла, хорошо, что я ее записал...

4,588

Борис опять

15 Oct, 15:31

С 2 по 17 ноября пройдет XLABS AI Hack: хакатон, в котором участникам предстоит разработать нейросеть для создания вокала на русском языке по текстовым инструкциям.

👉 Могут участвовать команды из РФ и РБ от 2 до 5 человек.
👉 2 недели на разработку решения.
👉 Призовой фонд 2 миллиона рублей.
👉 Возможность стать сотрудником в передовой AI-лаборатории и выступить на международной конференции в Минске.
👉 Первый этап онлайн, а защита решений финалистов проходит очно в Москве.
👉 Можно найти команду в чате хакатона.

Редко бывает хакатон, где нужно решать необычную DL задачу, очень круто.

Подавайте заявки до 1 ноября 23:59

4,793

Борис опять

14 Oct, 13:49

# Language Models Learn to Mislead Humans via RLHF

Давно было известно, что alignment техники отупляют модели. Можно было проследить как ChatGPT становится хуже с каждой версией по мере того как OpenAI закрывает найденные способы заставить ее сказать что-нибудь расистское.

В этой работе авторы изучают почему. Они тестируют способность людей верифицировать ответ модели за короткое время до и после RLHF alignment.

Оказывается, что после alignment:
- Фактическое качество ответов ухудшается.
- Однако людям кажется, что качество сильно выросло.
- Людям становится сложнее понять дала ли модель правильный ответ.

В какой-то момент моделям становится проще научиться дурачить людей, чем действительно сделать ответы лучше. Они начинают выдумывать авторитетно звучащую статистику, делать более стройные и хитрые аргументы за неправильные позиции и писать более сложный код, чтобы его было тяжелее проверить.

Здесь есть важный вывод по части безопасности. Если вы надеялись, что мы тренируем модели на человеческих текстах и они воспримут оттуда нашу этику, что врать не хорошо и все такое, то обломитесь. Они глупенькие и будут делать все, чтобы уменьшить лосс самым коротким путем.

ML это злой джин, который исполняет все желания, но не всегда так, как вам хочется.

RLHF все еще очень крутая штука, но нужно хитро придумывать награду, чтобы избегать такого поведения.

5,588

Борис опять

13 Oct, 13:32

https://diamond-wm.github.io/

Играем в диффузионный CSGO

4,702

Борис опять

13 Oct, 12:27

Дико смешно как ГПТ ботов корежит от постов про ИИ

Идея для пет проекта: сделать телеграм бота, который будет постить в канал простыню текста максимизирующую использование токенов, ждать первого комментария от гпт бота, удалять пост, постить снова, и так далее пока у господ ботоводов не рухнет экономика

4,573

Борис опять

13 Oct, 12:24

Познакомился с сетями Хопфилда в гениальном курсе по теории информации от David McKay. Невероятно прикольная штука которая пока не взлетела и не нашла практических применений. Самоорганизующаяся память! Лично для меня выглядит как то чего не хватает нейросетям, а RAG и обращения к внешним хранилищам это костыли, которыми мы пытаемся закрыть эту потребность.

Есть какие-то попытки привнести их в современные нейросети и даже слой в Pytorch. Никак не доберусь прочитать, но постараюсь сделать обзор.

В общем сети Хопфилда это покемон за которого я болею

4,374

Борис опять

11 Oct, 17:19

Та самая компания которая делает посредственные оверпрайснутые электрокары известные ответственностью за 2/3 всех auto assist аварий, кривым качеством сборки и тем, что ломаются чаще Dacia Logan. Но при этом каким-то образом едва ли не доминирующая на рынке

4,729

Борис опять

11 Oct, 17:16

Tesla снова показала какие-то красивые дизайны, машины катающиеся по павильонам и обещания роботакси в 2025 и глобальный self driving к 2027. Так что воспользуюсь шансом поорать на облако.

Для сравнения лидер индустрии Waymo существует с 2009 и только недавно расширил область операций до того, что можно уже более менее назвать такси в трех городах. Для меня Тесла абсолютный лидер в секторе clown tech и главная загадка: каким образом это вообще существует? Поэтому я уверен, что в этот раз точно получится сделать все и сразу всего лишь за год. Ведь это уже какое, двадцатое обещание? Не могут же они снова обмануть!

4,634

Борис опять

Борис опять (Russian)

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять

Борис опять