Сиолошная @seeallochnaya Channel on Telegram

Сиолошная

15 Feb, 09:12

Слоган пары следующих постов — «what gets measured gets improved».

Сначала 12-го февраля Nvidia выпустила блогпост. В нём рассказывается, как DeepSeek R1 может использоваться для оптимизации кернелов — это такие маленькие программы, выполняющие несколько простых функций на видеокарте (GPU). Кернелы используются для запуска LLM, многие (все?) отдельные операции или блоки операций прописаны как раз в них.

Создание оптимизированного кернела — то есть такого, который утилизирует GPU эффективно, на полную — требует специальные навыки и занимает много времени даже у опытных инженеров. Нужно думать о том, как обращаться с памятью GPU, в какие моменты где какие переменные запоминать, в каком порядке операции выполнять, в какой части памяти данные хранить — от всего этого зависит скорость. Иногда даже имеет смысл не сохранять промежуточный результат, а пересчитывать его после при необходимости (потому что память ценнее). Ну и вишенка на торте — для разных поколений GPU кернелы могут отличаться — потому что на ново архитектуре эффективнее посчитать что-то можно по-другому (пример FlashAttention 3). В общем, много сложных неочевидных решений.

Идея: давайте для каждого кернела напишем тесты, которые позволяет проверить, что он работает в точности так, как мы ожидаем. Если входные аргументы одни, то результат вот такой, а если вот такие — то другой. Теперь когда такие тесты есть, мы можем брать любую программу, прогонять через тесты и проверять, совпадает ли она с нашим ожиданием. А затем берём LLM, даём ей описание кернела, его код и говорим «сделай лучше». Моделька думает, выплёвывает код кернела, мы его тестируем на реальной GPU и замеряем время. Если тесты не прошли — отдаём модели на переработку, если прошли, то добавляем в промпт время (ну и тут понятно, стало лучше/хуже).

Повторяя эту операцию в цикле мы можем рассчитывать на некоторые улучшения (если LLM достаточно умна или кернелы были совсем неоптимизированными).

Nvidia хвастается, что они смогли ускорить несколько достаточно популярных кернелов (используемых в PyTorch FlexAttention, если вам интересно) на 10-110%. Это не означает, что все модели и всегда будут быстрее, так как отдельные кернелы используются в отдельных моделях. Плюс, кернел это очень малая часть вычислений — ускорение одного даже на 400% может привести к суммарному ускорению всей модели на, условно, 5%.

На картинке 1 — ускорения для разных кернелов относительно того, что сейчас есть в PyTorch (то есть по идее со следующим обновлением все должны получить ускоренные версии кернелов), а на картинке 2 — доля кернелов из некоторого бенчмарка, для которых модель смогла написать код, проходящий все тесты (без условия «он быстрее того что было»). Видно, что чем больше времени Nvidia давали подумать рассуждающей модели R1, тем больше эта доля.

7,713

Сиолошная

14 Feb, 08:29

Как раз на днях вышла статья от Google, где они показывают масштабирование Visual-Language модели на 100 миллиардов картинок и пытаются оценить, становятся ли результаты лучше. Если смотреть только на английские бенчмарки с западными ценностями, то разницы между 10B пар в тренировочной выборке и 100B почти нет.

Зато разница существенна на бенчмарках, оценивающих навыки модели по cultural и language diversity. По ним видно, что впереди ещё пахать и пахать, можно получать приросты — и это как раз то, о чём я написал выше; то, чего я жду (и соответственно жду способа проверки, бенчмарк) от моделей следующего поколения.

Вот такой же рост (и как следствие метод замера) должен быть для LLM следующего поколения; «да, тут и там мы приросли по 3-7%. А вот мы собрали наши бизнес кейсы, проверили на них и прирост 50%! а на японском вообще 146%!»

12,361

Сиолошная

14 Feb, 08:29

Вчера в нашем чате канала обсуждали, что Gemini 2.0 Pro пока по всем демонстрируемым параметрам не выглядит как модель следующего поколения — по бенчмаркам она очевидно отстаёт от рассуждающих моделей (но это ок), но совсем едва-едва выигрывает у базовых моделей текущего поколения, если брать какой-то базовый набор замеров.

При этом я не считаю, что из этого следуют выводы «масштабирование предтренировки моделей упёрлось в стену» и «модели Google еле улучшились по отношению к тому, что уже было на рынке». Для меня не ясно, почему в табличке метрик, опубликованной в блоге с анонсом Gemini 2.0 Pro, выбраны эти, а не другие бенчмарки.

Я писал ранее в канале, что мои ожидания от дальнейшего роста моделей — в количестве нюансов и деталей, которые они надёжно запомнили (и не галлюцинируют), и в применимости в длинном хвосте распределения задач: сюда входят и разные языки, и непопулярные работы, о которых в интернете не так много написано, и прочее. И моё ожидание, что модели следующего поколения как раз должны продавать (в значении «демонстрировать превосходство») именно в этом.

Я вполне OK с тем, что компании сделают свои новые бенчмарки для оценки прогресса там. OpenAI вон за полгода 4 новых выкатили! Никак к чему-то готовятся 🤔 А Google в декабре показали FACTS Grounding для оценки способности LLM генерировать ответы, которые не только фактически точны по отношению к предоставленному в промпте контексту, но и достаточно подробны, чтобы давать удовлетворительные ответы на запросы пользователей. И этот бенчмарк есть в вышеупомянутом блоге. И там есть прирост (не очень большой). И... всё. (и ещё на бенчмарке OpenAI показали рост).

Вспомните как было с GPT-4: там показали и замеры на большом наборе экзаменов (НЕ стандартный замер, который долго обсуждали), на большом наборе языков (чтобы показать, что модель стала более доступной людям, для которых английский не родной язык), и затем феноменальные на тот момент мультимодальные навыки, показав новый рекорд с отрывом на 4 из 8 бенчмарков.

Может быть к глобальному запуску Pro подвезут ещё что нибудь, но пока я бы сказал, что Google зафейлил часть демонстрации того, почему next gen — это next gen. Да, у них есть агенты, но они в разработке, их и пощупать нельзя, и сами Google про них ничего не пишут (зайдите в блог и сделайте поиск по странице).

Если смотреть на картинку из блогпоста, то модель можно было бы спокойно назвать Gemini Pro 1.5-003 (уже были 001 и 002). Если OpenAI покажут Orion aka 4.5 также — я тоже скажу, что они или failed to deliver on model, или failed to deliver the message.

UPD: даже больше скажу, я от трёх человек, включая @bogdanisssimo, услышал, что новые Gemini по-русски очень живо общаются, «видно, что больше начитанность, больше данных видели», но... почему Google-то нам это не показывает? В компании на 200 тысяч сотрудников не хватило пиарщиков или рисователей табличек? 😀

11,541

Сиолошная

13 Feb, 21:17

Прошла AIME II, авторы снова замерили модели. Топ на свежих задачах* не поменялся — o3-mini, o1, потом R1. Кажется, задачи в этот раз были легче: топ-1 решила все задачи как минимум по одному разу (из 4 попыток). Ризонер от Google снова потерялся в серединке(

* Не могу найти ссылку, но по итогу для AIME I видел в твиттере, что нашли 9 таких же или очень похожих задач (из 15), опубликованных в интернете до олимпиады за значимый срок. Интересно, сколько найдут тут.

Авторы matharena, проводившие оценку, опубликовали код для проверки, а также заявили, что следующие замеры проведут через 2 дня — там пройдет HMMT, мат. соревнование, проводимое в Harvard + MIT. Задачек там вроде побольше, и они кажется даже чуть посложнее (википедия говорит «mid-AIME to olympiad»). Желаем удачи LLM-контестантам 👀

UPD: интересно если на свежей олимпиаде 9 из 15 задач были в интернете в почти таком же виде, то что это говорит о более ранних датасетах для эвалюации, по которым мы сравнивали модели последние полгода 🤯

😑

13,984

Сиолошная

13 Feb, 15:37

TheInformation пишет — но это и не секрет — что Anthropic близки к выпуску своей размышляющей модели. Не секрет это потому, что Dylan Patel и Semianalysis уже дважды говорил, что он слышал, что Anthropic имеет модель, сильнее o3, и что она пока не анонсирована.

Отличие от OpenAI в том, что «модель совмещает в себе как обычную LLM, так и рассуждающую», то есть для простых запросов она не думает долго, а сразу пишет ответ. Правда, не ясно, в чём функциональное отличие от OpenAI — у меня o1 иногда начинает писать ответ через 2 секунды, когда вопрос плёвый. Уверен, что можно сократить и до около нуля. У модели Anthropic тоже будут уровни, позволяющие контролировать длительность (и стоимость) рассуждений.

А про качество газетчики написали следующее: «когда модели позволяют думать в течение максимального количества времени, она превосходит самую продвинутую модель рассуждений OpenAI, к которой сегодня имеют доступ клиенты (то есть ее модель o3-mini-high) в некоторых тестах программирования»

Однако главный вопрос, на который пока нет ответа, заключается в том, сколько будет стоить новая модель Anthropic и будет ли она дешевле недавно выпущенной модели o3-mini от OpenAI (которая дешевле, чем нерассуждающая GPT-4o).

Компания планирует выпустить модель в ближайшие недели.

👍

🤪 блин а Claude 4.0 то когда

19,144

Сиолошная

13 Feb, 12:56

Elon Musk про Grok 3, модель следующего поколения (источник):
— очень мощный навык рассуждения
— в тестах, которые они провели, Grok 3 пока «показывает себя лучше, чем всё, что было релизнуто, из числа тех моделей, о которых мы знаем» (o3 формально не релизнута 🙂с ней могли не сравниваться)
— иногда модель «пугающе умна»: предлагает неочевидные решения, о которых ты даже не подумал/не ожидал
— Grok 3 натренирован на огромном количестве синтетических данных, а сама тренировка «очень эффективна»
— сейчас проходят последние шаги полировки, «вероятно релиз через 1-2 недели»

===

Очен ждем — это будет вторая модель следующего поколения, которая обучена на существенно большем количестве мощностей. Первая — Gemini 2.0, однако нам пока доступна Flash (младшая версия) и Pro (которая пока ни в каких бенчмарках не засветилась, а те, что показаны Google, очень не впечатляют).

Если даже Grok будет настолько лучше текущего поколения — это будет отличным знаком для моделей OpenAI и Anthropic, выходящих в ближайшее время. Если на самом деле Elon приукрасил картину, то... это ничего не значит 🤷‍♂️ если догоняющая компания, которая зашла в гонку последней, (хоть она и движется безумно быстро), не показывает результат — это не знак отсутствия дальнейшего прогресса

===

И на сладкое: сотрудник xAI написал свой рейтинг моделей в программировании, где поставил разработки OpenAI на первое место, а Grok 3 сразу после них (но выше Sonnet 3.6). Поэтому сотрудник уже... бывший 😀

🤠

Ну а как будет на самом деле узнаем после релиза.

15,252

Сиолошная

13 Feb, 10:05

OpenAI подала заявление в суд по иску Илона Маска к OpenAI, где юристы компании утверждают, что его недавнее предложение о покупке стартапа за $97.4 млрд полностью противоречит его же аргументам в суде. Маск этим иском требует заблокировать преобразование OpenAI в коммерческую структуру, утверждая, что активы компании не могут быть переданы "для частной выгоды".

А поскольку он целиком логичен, то делает предложение купить некоммерческую часть группой частных инвесторов. Это же вообще не будет никакой частной выгоды, вы не понимаете, это другое.

Маск, в свою очередь, заявил, что готов отозвать предложение о покупке, если компания остановит реструктуризацию.

Судья Роджерс ранее намекнула, что не видит необходимости в немедленных действиях против OpenAI, и вероятно позволит делу дойти до суда, где Маску придется давать показания. Правда, это может случиться не раньше конца 2026 года.

Альтман уже заявил, что компания "не продается", и назвал предложение Маска, владеющего конкурирующим стартапом xAI, попыткой "замедлить нас". А юристы OpenAI иронизируют, что, похоже, все ограничения на передачу активов для Маска перестают действовать, если покупателем выступает он сам и его союзники.

https://www.bloomberg.com/news/articles/2025-02-12/musk-s-open-ai-bid-debunks-his-court-battle-claims-altman-says

15,108

Сиолошная

12 Feb, 20:17

https://youtu.be/v0gjI__RyCY

У Dwarkesh вышел подкаст с двумя глыбами Google — легендарным Jeff "Norris" Dean и Noam Shazeer, сотрудником, за которого заплатили 2 миллиарда долларов 🙂

это мы смотрим

16,746

Сиолошная

12 Feb, 19:36

Сэм Альтман рассказал о дальнейших планах OpenAI.

Планируют выпустить GPT-4.5 (подтвердили, что это Orion) в ближайшие недели — это будет последняя “нелинейно размышляющая” (non-chain-of-thought) модель.

Затем последует GPT-5, которая объединит модели o-series и GPT-series, станет универсальнее. Будет доступна как в приложении, так и через API.

GPT-5 заменит o3, а сама o3 не будет выпускаться отдельно. Бесплатные пользователи ChatGPT получат доступ к GPT-5 (на стандартном уровне интеллекта). Plus-подписчики получат улучшенную версию GPT-5. Pro-подписчики получат ещё более мощную версию, включающую голос, canvas, поиск, deep research и другие функции (какие?).

GPT-4.5 – через несколько недель!
GPT-5 – через несколько месяцев!

12,694

Сиолошная

12 Feb, 19:25

Sama написал, что Orion — это GPT-4.5, а не GPT-5 🤯

https://x.com/sama/status/1889755723078443244

> “We will no longer ship o3 as a standalone model.” 😱

16,404

Сиолошная

12 Feb, 07:12

Competitive Programming with Large Reasoning Models

OpenAI выпустили скорее не статью, а отчёт о том, как они замеряют прогресс в программировании у моделей, и сравнивают o3 с o1 и o1-ioi (системой, которая была заточена на решение международной олимпиады по информатике; там были свои методы с агрегацией и фильтрацией решений).

Большая часть метрик уже была показана ранее, тут больших сюрпризов нет, просто добавили деталей. Одна из важнейших — это то, как сравнивают решения LLM с решениями людей в соревнованиях, где играет роль время отправки решения и количество ошибок. Недостаточно просто написать код, который прошёл все тесты — нужно это делать как можно быстрее. Понятно, что кластер с 100,000 видеокарт сгенерирует пару сотен решений быстрее, чем человек, так ещё и одновременно для всех задач сразу — как быть?

OpenAI выбрали, как мне кажется, достаточно резонную стратегию (тут и ниже — в контексте оценки рейтинга CodeForces): они использовали медианное время отправки и количество попыток среди всех людей, кто решил задачу. Таким образом полученные оценки слегка занижены относительно того, если бы OpenAI гнались за максимальным скором, и считали, что отправляют решения быстрее всех (или хотя бы как топ-10-20%, а не медианный).

<тут я должен напомнить что при таком замере рейтинг o3 достигает 2724, или 99.8 перцентиль, то есть лучше неё очень малая доля участников>

===

Другая интересная вещь: o3 во время рассуждений может пользоваться инструментами (o1 пока нет), то есть запускать код, который сама пишет, без отправки решения. Почти наверняка модель так обучалась.

На картинке вы видите одну из стратегий, обнаруженную o3 во время тренировки и применяемую тут: для проблем, где проверка нетривиальна, она часто пишет простые решения методом перебора — жертвуя эффективностью ради правильности — затем перекрестно проверяет результаты с помощью своих более оптимизированных алгоритмических реализаций. Этот самодельный механизм проверки позволяет o3 выявлять потенциальные ошибки и повышать надежность своих решений.

Говоря проще код на картинке — это проверка в духе «так, вот тут решение, в котором я точно уверен, а вот моё оптимизированное. Не продолбался ли я где-то? Ща проверим на сотне случайных примеров». И всё это в рамках цепочки рассуждений.

Благодаря DeepSeek R1 мы знаем, что OpenAI не врали, когда говорили, что модель сама по себе придумывает паттерны рассуждений, без вмешательства человека и явного прописывания таких стратегий. Скорее всего, этот пример тоже относится к таким — модель во время обучения просто поняла, что такие проверки позволяют чаще справляться с задачами, меньше ошибаться (что вполне логично), и начала применять технику. Ведь по сути это та же самопроверка, которую мы видели для математических задач, просто с отдельным запуском кода.

Absolute Cinema 🖐😶🤚

17,711

Сиолошная

11 Feb, 20:22

Серьёзный вопрос к некоторым представителям моей аудитории

Зачастую под анонсом моделей, технологий, блогпостов, эссе, да хоть чего, касающегося лидеров ИИ-компаний (в основном Sama и Dario Amodei) всплывает комментарий в духе «чего не скажешь ради инвестиций, всё делают ради бабок, просят деняк» и тому подобное. Я вот прям сейчас увидел первый комментарий у Gonzo вот тут — он такого же содержания.

Я пытаюсь понять, для вот таких людей это действительно единственное объяснение, которое они считают очевидным и самым вероятным, и зачастую даже не дают никаких сопроводительных комментариев?

Вопрос к таким людям — как вы для себя отбиваете всю остальную критику такой точки зрения? Или вы просто эту критику не видите/не воспринимаете, всерьёз считая, что никаких реальных изменений и пользы от ИИ в каком-то виде нет и не будет? Или что это на горизонте десятилетия не отобьет несколько десятков миллиардов долларов? Или реальная цель топ компаний положить деньги инвесторов в карман?

не жаль тех кто уже за написание подобного отлетел в бан, они не смогут отметиться под постом 😀

UPD: тех, кто забанен, но всё ещё читает канал, приглашаю во временный чат с адекватными сообщениями (там модерация ещё более строгая будет): https://t.me/+SVP0PC-iUHYzMWRi

17,480

Сиолошная

11 Feb, 14:56

Краткая сводка с AI-полей

На встрече OpenAI Dev Meetup в Лондоне 10-го февраля Sama отвечал на вопросы:
— «Я думаю, нам нужно внедрить оплату по факту использования, когда пользователь выходит за рамки определенной суммы, или аналогичный механизм. 200 долларов в месяц на самом деле покрывают то, что хочет делать большинство подписчиков Pro, но 20 или 30 процентов, которые хотели бы, например, делать 3000 запросов в Deep Research, не будут удовлетворены»

— ответил на вопрос об AI-first устройстве, которое находится в проработке больше года, сказав, что оно появится примерно через год и что ожидание того стоит: «It is incredible. It is really, I'm very proud of it.». Так что я уже выбрал подарок на ДР/рождество 🙂

Retuers:
— OpenAI продвигает свой план по снижению зависимости от Nvidia, разрабатывая первое поколение собственных кремниевых чипов для искусственного интеллекта. Финальный дизайн будет утверждён в течение нескольких месяцев, после чего отправлен TSMC для производства на основе 3нм технологии. Массовое производство запланировано на 2026й

— Источники сообщили, что этот чип хоть и способен как участвовать в обучении, так и применении моделей, изначально будет развернут в ограниченном масштабе и в первую очередь для инференса (применения).

— 👀 очень интересно, делаются ли эти чипы с заточкой под форм-фактор GPT-5 (чтобы слои удобно раскладывались по разным девайсам, и в память влезало ровно сколько нужно, без остатка). Хотя в теории это не совсем оптимально, ибо модель со временем уменьшают, делая более доступной и дешёвой, в том числе за счёт изменений в архитектуре: как было у GPT-4 -> GPT-4-Turbo -> GPT-4o -> GPT-4o(2)

WSJ:
— Группа инвесторов под руководством Elon Musk делает ставку в $97,4B сделала предложение о покупке некоммерческой части OpenAI. Что? Зачем ему это?

— Дело в том, что в фоне медленно проходит процесс преобразования OpenAI в коммерческую организацию. Законом это не запрещено, но нужно иметь чёткие причины. Вместе с этим новой коммерческой части компании OpenAI необходимо будет выплатить некоммерческой, из под крыла которой она уходит, некоторую сумма за технологию и интеллектуальную собственность (вероятно, в виде акций в новой коммерческой компании).

— Но как понять, сколько стоит новая компания, и какую долю акций нужно отдать? Если за этим процессом не следить, то все бы говорили, что на самом деле там делов на $1, и можно закрывать глаза на последствия (в виде налогов).

— Текущая оценка компании по последнему раунду $150B; эксперты предсказывали, что в рамках сделки компания передаст 20-30% своих акций, то есть примерно $30-40B.

— А вот теперь на сцену выходит Elon и говорит, что он готов заплатить гораздо больше. И теперь у официальных лиц при переоформлении может возникнуть сомнение, что OpenAI не занижает оценку и не пытается что-то скрыть.

— Sam Altman уже заявил, что они, конечно, отказываются от сделки. Однако а) к этому должен прийти весь совет директоров, в котором 10 членов б) всё равно придётся что-то говорить властям.

— Так что шаг Elon'а даже без серьёзных намерений вставляет палки в колёса будущим планам OpenAI. Если компания не станет коммерческой в течение 2 лет, то по договору инвесторы последнего раунда, вкинувшие примерно $6B, смогут забрать свои деньги, да ещё и с процентами. На бумаге звучит страшно, но ждать ещё полтора года, и у OpenAI есть все шансы захватить ещё большую долю рынка, сделав так, что инвесторы просто не захотят забирать деньги. Ну это в теории, а как будет на практике — поглядим!

19,058

Сиолошная

11 Feb, 01:19

😮

Французский ответ Stargate

На AI Action Summit, президент Эммануэль Макрон анонсировал гигантские инвестиции во французскую ИИ индустрию - 109 миллиардов евро в течении следующих нескольких лет. Вплоть до 50 миллиардов придёт от фонда MGX из ОАЭ (он также участвует в финансировании Stargate), 20 миллиардов - от канадской инвестионной фирмы Brookfield, остальные деньги от плеяды более мелких инвесторов.

Значительная часть из вычислительных ресурсов, построенных на эти деньги, явно уйдёт Mistral - это сейчас единственная европейская компания способная выдавать конкурентноспособные LLM. Стартапам поменьше тоже достанется порядочно, но вот сколько - вопрос.

Похоже, что это всё - часть единой европейской стратегии по ИИ, которую должны представить завтра. Она должна включать упрощенные регуляции, на замену отвратительному AI Act. Франция в этой стратегии должна сыграть лидирующую роль - у страны есть и куча талантов, и большие избытки атомной электроэнергии и доступ к современным чипам.

Государства всё ещё лишь начинают играть мышцами в сфере ИИ, это не последний такой анонс в этом году. Мои выводы после анонса Stargate лишь подтверждаются.

@ai_newz

11,914

Сиолошная

10 Feb, 16:27

Наверняка вы читали про недавно обнаруженный астероид 2024 YR4, который может столкнуться с Землей в 2032м. Последняя вероятность этого события, что я видел, была 2.2%. Если она реализуется, то прям совсем критичного для человечества ничего не произойдёт — это будет сравнимо с одним взрывом ядерной бомбы, ни о каком уничтожении человечества речи не идёт.

Из пары видео узнал, что до сих пор остаётся очень сложной оценка траектории и параметров астероида, и что есть надежда на 3 вещи:
1) или мы найдём данные в записях 2020-го года, которые покажут, где был астероид
2) или мы найдём определенные данные за 2020-ый год, где астероида не было видно, и это тоже даст нам какую-то информацию («X не был здесь, следовательно, траектория не такая»)
3) или мы ждём 2028-го года, где практически сразу как только астероид выйдет из тени и глубокого космоса и мы его заметим — всё станет понятно, будет удар ещё через 4 года или нет.

Scott Manley попытался ответить на вопрос, что будет, если вдруг мы узнаем, что всё же столкновению быть. По его расчётам, даже очень маленького ударного воздействия хватит, чтобы подвинуть орбиту, и астероид пролетел мимо. У человечества для этого есть всё: в определённых конфигурациях даже хватит ракеты Falcon 9 (не Falcon Heavy).

Также он с помощью инструмента NASA оценил, что существует две траектории от Земли, которые доставят нашу посылку в лицо астероиду примерно за 100 дней, так, что контакт может произойти 26-го декабря 2028го — на следующий день после рождества. Вот был бы клёвый подарок!

Если честно — не подумайте что я враг человечества — мне бы хотелось, чтобы по итогу переоценки орбиты астероида оказалось, что он летит на нас, и мы как человечество смогли легко отбить его атаку. Это вдохновляет, это объединяет, это футуристично, это круто.

Но чтоб совсем не переживать — вот вам пара тезисов про миссию DART от NASA. В её рамках как раз таки произвели запуск спутника (удивительно, тоже на Falcon 9), который в 2022м году врезался в астероид и успешно изменил его орбиту, причём даже сильнее, чем мы рассчитывали (и не расколол его). Это была тренировка, но если бы он угрожал Земле — то всё бы обошлось. И тот астероид к тому же был в несколько раз массивнее, чем 2024 YR4.

Так что у нас всё схвачено 👍

UPD: ахахха а потом будут люди которые не поверят, что это произошло, и скажут что всё выдумки и снято в голивуде. Мы ж не могли видеть это, ну вот и дурят.

21,455

Сиолошная

09 Feb, 15:58

Пост про дипсик (но не совсем)

Сегодня ночью будет Супербоул (в 2:30 по мск), который я по традиции буду смотреть.

Сообщается, что OpenAI купили 30-секундную рекламу (за $8M). В новостях пишут что это первая TV-реклама, но на моей памяти в целом вообще первая — компания вкладывала примерно нуль в своё продвижение до недавнего времени. А вот, например, Anthropic в прошлом году уже появлялись на Супербоуле.

«Ха-ха, боятся конкуренции с DeepSeek» — может кто-нибудь сказать. Но вообще-то про начало маркетинговых компаний CMO OpenAI Kate Rouch говорила ещё в конце 2024-го года. Ближе к концу января мы узнали, что у OpenAI ОЧЕНЬ амбициозные планы на 2025й: они хотят вырастить аудиторию более чем в 4 раза (до МИЛЛИАРДА пользователей В СУТКИ), поэтому логично, что начнутся а) маркетинговые акции б) коллаборации в) промо-акции со скидками.

Также для того, чтобы привлекать бесплатных юзеров, было пора бы и модель обновить (там всё ещё крутилась GPT-4o-mini, если память не изменяет), и появление o3-mini для бесплатных юзеров — да ещё и с поиском — это скорее логическая закономерность нежели ответ на китайские релизы. Я не верю, что OpenAI приняли это решение испугавшись роста конкурента (который по итогу не смог выдержать наплыва аудитории и был долгое время недоступен — прямо как сами OpenAI в 2022м), но допускаю, что они могли чуть поднять лимиты по сравнению с теми, которые рассчитали до выхода и популярности R1.

Про коллаборации — вот например OpenAI предоставят доступ к ChatGPT Edu для студентов и сотрудников California State University, более 500'000 человек!

Ну и промо-акции: через неделю после релиза R1 в коде сайта OpenAI было обнаружено, что планируется давать скидку в 50% на Plus-подписку. А вчера нашли ещё больше информации (названия промо-кампаний):
— "students-2025-six-month-discount"
— "first month discount", "first month free", "six months discount", и "six months free"

(🥱 вот бы это на Pro-тир распространялось 👶...)

Тут у каждого оценка шансов субъективная, но для меня «компания с бывшим директором YC, где персонально он учил расти стартапы, и которая наняла CMO, который уже с месяц говорил про маркетинг, и в планы которой входил рост в 4 раза за год, планировала промо-кампании заранее» куда более вероятно, чем «эта же компания за неделю перевернулась и сделала промо-акции в ответ на китайскую угрозу». Почитаю в комментах почему я не прав 😀

для особо интересующихся напишу очевидную вещь: «не из-за DeepSeek» не равно «не из-за конкурентов»

===

О, и ещё: Similarweb пишет, что сайт ChatGPT стал 6м по трафику в мире, обойдя Twitter, Reddit, Netflix, и совсем чуть-чуть отставая от Instagram. За январь рост составил без малого 6%.

UPD: написал в комментах, но вынесу и сюда. Я считаю, что цены на на o3-mini / o1-mini упали почти наверняка из-за DeepSeek, и за это им спасибо.

UPD2: рекламный ролик, который крутили — ссылка на твитер

26,500

Сиолошная

08 Feb, 13:55

У 3b1b вышла видео-лекция в коллаборации с Terence Tao, в которой последний рассказывает о том, как человечество училось замерять небесные объекты

Смотрим за ужином 🍔
https://youtu.be/YdOXS_9_P4U

24,358

Сиолошная

07 Feb, 22:09

ПОСТ ПРО ДИПСИК (но не полный)

Наконец-то состоялось первое серьезное мероприятие с олимпиадными задачами по математике в период после релиза рассуждающих моделей. Можно взять свежие проблемы, которых не было в тренировочных данных*, пропустить через все интересные нам LLM и сравнить.

Соревнование это — American Invitational Mathematics Examination (AIME), первая часть из двух, в каждой из которых по 15 задач. Вторая пятнашка появятся 12-го февраля, тоже отпишусь.

На картинке вы видите, как разные модели справились с олимпиадой. Каждая модель решала каждую задачу 4 раза (независимо от других своих попыток).

Зелёный квадратик означает, что модель справилась 4/4 раз, желтый 1-3, красный — 0 раз из 4. Кому не интересно вникать — проще смотреть колонку «Acc», где отображена усреднённая точность «участников».

Модели OpenAI с большим отрывом обходят R1 (кстати топ-1 и стоит дешевле 😀), Sonnet 3.6 из коробки вообще ничего не решает.

Но что куда интереснее это сравнить метрики за 2024й год (которые репортились самими компаниями) и то, что получилось в 2025м:
— o3-mini: 87.3% -> 78.33% сейчас, есть просадка но всё равно топ-1
— o1: 74.4% -> 76.67%, показала себя даже чуть лучше, чем на давно доступных задачах
— R1: 79.8% -> 65% 🥱

☠️

— дистиллянт R1-Qwen-14b: 69.7% -> 50% (падение даже больше чем у R1)

Я не думаю, что эти данные ультимативно подтверждают тезис о лучшей генерализации и отсутствии переобученности моделей OpenAI, но делают хорошую подводку.

(это не отменяет того что модель R1 от DeepSeek хороша)

* а вот в этом твиттер-треде нашли, что как минимум 3 задачи уже были в интернете (куда смотрели авторы олимпиады..?).

Источник — MathArena, увидел у @j_links. Задачи читать тут.

27,075

Сиолошная

07 Feb, 15:03

https://fixupx.com/kimmonismus/status/1887852302318305591

Верим?

21,436

Сиолошная

04 Feb, 13:13

Как мне o1 Pro с шеей помогла

>36 лет, почти 2 метра роста
>в ~33 много сидел за ноутом в позе буквы G и заработал хронические боли в шее (ригидность шеи)
>прошел много сессий массажа чтобы снять боль, но полностью боль не проходила
>купил всякие подставки для ноута, начал ходить чаще в зал, в шее все еще скованность мышц – не посмотреть в право без ощущения натянутой струны в затылке
>надоело, решил снова записаиться на массаж-терапию и починиться – массажист-терапевт сразу заметил, с какими мышцами проблема
>Но мы же в будущем
>Описал o1 Pro всю историю болезни и попросил сделать мне программу для починки мышц
>Попросил сразу включить поисковые запросы для Youtube чтобы быстро найти нужные техники
>3 вечера занимаюсь по ее программе
>Терапевт на втором приеме сегодня – Денис, я не могу нащупать напряженные мышцы???
>Показал ему программу o1 Pro, терапевт в восторге – все по науке
>Впервые могу смотреть во все стороны как нормальный обычный человек

Программа тут, если кто-то с шеей страдает – но, o1 Pro не замена для врачей, но очень классно помогает – рекомендую

23,292

Сиолошная

04 Feb, 11:07

gptPhone: начало post-mobile эпохи?

OpenAI планирует выпустить новое «GenAI-устройство» на замену смартфону. Слухи об этом ходили давно, но в последнее время Альтман и Ко мощно активизировались в этом направлении:

- На днях OpenAI подали заявку на патенты целого ряда «умных» продуктов. Среди них — часы, браслеты, носимые компьютеры и камеры, а также гуманоидные роботы.

- Альтман разъезжает по Корее и Японии, где даёт интервью с анонсами новых смартфонов и собственных полупроводников. Рассматривают партнерство с Samsung для конкуренции со взлетевшим китайским DeepSeek.

- Легендарный дизайнер Apple Джонни Айв может приложить руку к новым AI-устройствам. Альтман утверждает, что с Айвом на борту они смогут создать новый «iPhone-момент» для индустрии.

Подходы к созданию ИИ-девайсов уже были: начиная от провалившихся Rabbit и Humane Pin, до умеренно успешных Meta Ray-Ban. iPhone тоже не был первым смартфоном, но ему удалось нащупать правильный интерфейс и маркетинг — что привело к перевороту игры.

Такое же хотят повторить OpenAI. Тайминг выбран как нельзя лучше: рынок созрел для революции в мобильных устройствах. Существующие смартфоны практически достигли потолка развития, а ИИ-технологии достаточно продвинулись для создания принципиально новых интерфейсов.

Назревает платформенная революция, сравнимая с вебом в 90-х или мобайлом в конце нулевых. А такие времена — кладезь новых возможностей для стартеров.

@trendoscope

25,604

Сиолошная

02 Feb, 19:32

Предпоследний пост перед постом про DeepSeek!

Как я писал, 30-го января Sama и несколько сотрудников OpenAI были в Белом доме на закрытой встрече с представителями власти. Axios пишет:

— в четверг в ходе неофициальной демонстрации Sama предоставил возможность руководителям правительства, политическим экспертам и журналистам взглянуть на будущую технологию.

— Целью брифинга было продемонстрировать, как США могут извлечь максимальную экономическую выгоду от ИИ, а также предупредить лидеров о будущих возможностях, чтобы снизить вероятность того, что они будут застигнуты врасплох.

— Altman и директор по продуктам OpenAI представили новые возможности ИИ, которые появятся в первом квартале, и сосредоточились на том, как эти возможности будут поддерживать науку, образование, здравоохранение и государственные сервисы

Плюс в недавнем интервью этот самый «директор по продуктам» Kevin Weil говорил прямым текстом, что Operator — первый в череде агентов (явно подразумевая, что не последний), и что новые последуют очень-очень скоро.

Так что возможно с релизом o3 — или безотносительно него — появится какой-то новый инструмент. Возможно это будет превью агента-программиста, про которого я писал ранее. Первый квартал кончается через пару месяцев, посидим-подождем!

29,777

Сиолошная

02 Feb, 19:19

Пред-предпоследний пост перед постом про DeepSeek!

В карточке модели o3-mini (вот pdf) OpenAI традиционно проводят множество тестов на безопасность и потенциально опасные навыки модели (умение выпрашивать деньги, эксплуатировать уязвимости в коде, саморазмножаться).

Там само по себе много интересной информации, в частности то, что модель o3-mini гораздо более эффективна в манипуляциях и социальной инженерии (правда оценки тут почти везде автоматизированы и не затрагивают людей). Но хотел обратить внимание на другое.

Уже много раз писал про бенчмарк SWE Bench Verified, где модели пытаются генерировать изменения для кода на уровне целого большого проекта, а не маленького приложения на 1-2 файла. На бенчмарке мы уже год отслеживает прогресс, и то что начиналось как 3-5% уже превратилось в 65%+. Однако загвоздка в том, что почти наверняка модели были натренированы на репозиториях, на которых производится оценка — и даже если модели не знают конкретный ответ на задачу, они в целом чувствуют себя увереннее в «виденной» ими кодовой базе.

И OpenAI собрали аналогичный бенчмарк, но на основе внутреннего репозитория. Про его структуру и сложность мы ничего не знаем, никаких деталей — даже количества задач — нет (но если прикинуть по процентам в статье, то получается что их не меньше 60; моя ставка что больше 200). Важно, что это прям настоящие задачи, которые делают высокооплачиваемые инженеры и исследователи непосредственно при работе в OpenAI. Ближе к «реальным рабочим задачам исследований AI» некуда.

На картинке:
o1 набирает 12%, o3-mini из-за каких-то ошибок форматирования набирает 0%, но это скорее результат сбора отчёта на скорую руку и/или нежелание вносить конкретные правки в инструмент тестирования (потому что на самом SWE Bench Verified модель супер клёво себя показывает).

Сложно понять, как интерпретировать 12% — может это были самые простые изменения в духе «добавил тут и там новое название переменной» или «исправил очевидный баг». Хотя скорее всего нет, и отбирали реально важные-сложные-интересные задачки. И вот среди них 12% решается. o3 наверное перескочит 20-25% — а это вообще-то очень много: представьте, что в такой компании, как OpenAI, 25% задач на программирование закрываются моделью.

Будем следить за этой цифрой в ближайших релизах, у какой-нибудь o4 там снова может получиться такая оценка, что сложно будет поверить)

26,508

Сиолошная

31 Jan, 21:53

По предварительной информации лимит использования o3-mini для бесплатных юзеров составляет 10 сообщений в 4 часа — по крайней мере в чате два человека получили схожие по таймеру ограничения, и у одного из них вылезло такое сообщение.

31,117

Сиолошная

31 Jan, 20:10

Помните я писал про бенчмарк «Быки и коровы», где нужно угадывать, какое четырёхзначное число загадал пользователь? (ответы и валидация автоматические)

Ну так вот, бенчмарк — В С Ё!

Запустил o3-mini на нём, она разгадала ВСЕ 50 ЗАГАДОК (ограничение в 15 попыток, многие модели не укладываются и потому не разгадывают). Кроме того, среднее количество попыток — 6.06, в то время как математически оптимальное ~5.67. То есть модель прям ООООЧЕНЬ продвинулась в рассуждениях, не требующих знаний.

Для сравнения лучшая модель до этого o1-mini (полную не тестировал, очень дорого) решала лишь половину задач, и средняя длина цепочки была 8.4 хода (оценка по 500 задачам, достаточно точная). И это был лучший результат — все R1, Gemini, Claude не справлялись и с половиной (все метрики тут). То есть o3-mini очень хорошо помнит контекст, все прошлые шаги игры, делает из них выводы и движется в правильном направлении.

Так ещё и в форматировании ответов тоже нуль ошибок (у Reasoning-моделей с этим почему-то плохо, они стабильно забывают, что было в промпте — так глубоко уходят в свои мысли).

25,506

Сиолошная

31 Jan, 19:53

Как бесплатным юзерам пользоваться o3-mini:

1) нужно зайти в аккаунт (это бесплатно, но нужен VPN из РФ) на chat.com

2) ввести свой запрос

3) нажать кнопочку «Reason» (на картинке)

4) Наслаждаться 10-60 секундами, пока модель думает над ответом

А если нажать кнопочку «Search», так она ещё и в интернете поищет! (правда пока функция экспериментальная и может плохо работать)

UPD: если кнопки нет — попробуйте а) обновить страницу б) перезайти в аккаунт в) сменить VPN (в EU пока у одного знакомого не работает). Если не помогло — попробуйте завтра, может быть конкретно до вас ещё не докатилось обновление.

23,346

Сиолошная

31 Jan, 19:19

Если вы не хотели платить за подписку и редко пользовались ChatGPT (или вообще не пользовались) — сейчас самое время пойти завести аккаунт.

Новая модель доступна БЕСПЛАТНО, и для многих будет ощущаться как невероятный скачок — разумеется, если выбрать правильные задачи. o3-mini специализируется на программировании и математике/физике/других схожих науках. Скормите ей домашку вашего ребёнка-старшеклассника и посмотрите, что вышло 😏

24,258

Сиолошная

31 Jan, 19:13

Заходим на ai.com, видим новую модель OpenAI o3-mini

Доступна в двух вариантах: обычная (= medium, не low!) и high (думает дольше, но усерднее).

Пользователи с подпиской за $20 в месяц получают 150 сообщений в сутки

Бесплатным пользователям тоже дают доступ, но лимитов пока не вижу.

Ну и на сладенькое: цены в API. Они упали по сравнению с o1-mini на 63%, $1.1 за миллион токенов на входе и $4.4 на выходе. Всё ещё дороже DeepSeek R1. API пока доступно пользователям с уровнем 3 и выше (потратили $100+).

Полистать метрики можно тут: https://openai.com/index/openai-o3-mini/

UPD: OpenAI o3-mini also works with search to find up-to-date answers with links to relevant web sources — так что теперь материалы с поисковой выдаче перед показом вам будет вычитывать куда более смышленая моделька.

81,723

Сиолошная

31 Jan, 16:27

Муд: придумываю, чем буду заниматься, пока o4 Pro будет генерировать ответ. Это если сейчас o1 Pro по 5-8 минут пишет, то бОльшая модель с прокачанными рассуждениями ж вообще...

Пишите ваши предложения в комментарии ⬇️

24,025

Сиолошная

31 Jan, 11:35

Пока мы спим, амэриканцы (из Neuralink) продолжают внедрять чипы в головы людей и проводить над ними эксперименты. В прошлый раз играли игрульки, теперь подключают парализованных людей к робо-рукам и заставляют их рисовать картинки.

Финальный результат в первом комментарии.

Источник

26,597

Сиолошная

30 Jan, 20:51

OpenAI ведет переговоры о привлечении до 40 млрд долларов инвестиций при оценке в 340 млрд долларов. Основным инвестором может стать SoftBank с вложениями от 15 до 25 млрд долларов. Японская компания также помогает привлечь других инвесторов для оставшейся части раунда.

Это колоссальный рост оценки — в октябре при привлечении 6,6 млрд долларов компания оценивалась в 157 млрд. То есть за несколько месяцев стоимость может вырасти более чем вдвое.

Основное назначение привлекаемых средств — всё тот же Stargate, это понятно, но и остальную деятельность финансировать как-то надо, рост выручки пока не успевает за расходами.

Но это пока слухи и пока про очень раннюю стадию переговоров — но, если вы следили за новостями последние года полтора, то в курсе, что успешность привлечения инвестиций у OpenAI и вообще большинства AI проектов близка к абсолютной.

https://www.wsj.com/tech/ai/openai-in-talks-for-huge-investment-round-valuing-it-up-to-340-billion-2a2d4327?st=xxKo8B&reflink=desktopwebshare_permalink

24,913

Сиолошная

29 Jan, 17:04

Dario Amodei, CEO Anthropic, выдал новое эссе по поводу Китая и DeepSeek (быстрее чем я пост выдал 😀)

Пока не читал, делаю акцент только на одной части: он говорит, что их Sonnet 3.5 натренирован за несколько десятков миллионов долларов (моя оценка ~2-2.5, и примерно такая же для OpenAI'шной GPT-4o).

Всё эссе: https://darioamodei.com/on-deepseek-and-export-controls

24,890

Сиолошная

28 Jan, 12:29

👆 Это просто я готовлю вас к своему посту про DeepSeek и то, что модель-то не дизраптор, но вы ж снова скажете что я OpenAI выгораживаю — поэтому сначала буду репостить другие каналы, кто протестировал модель 😀

25,346

Сиолошная

27 Jan, 17:34

Всё никак не дойдут руки нормально написать про R1 и DeepSeek (ждите на неделе), а умельцы из Unsloth взяли этого гиганта весом более чем в 700 гигабайт и пожали в ~150-180 (влезет в 3 карты по 80GB).

Да так пожали, что модель всё ещё выдаёт что-то адекватное — смотрите на гифке генерации аналога игры FlappyBird. Авторы делали 3 генерации и оценивали их по 10-бальной шкале по нескольким критериям, и пожатая модель выбивала 9+)

Секрет в том, что отбирают примерно ~12% самых важных весов (первые слои + shared-эксперты + SuperWeights) и оставляют их почти не сжатыми, а остальные (в основном веса экспертов) квантизируются по методу 1.58 bit от Microsoft (помните была такая статья хайповая?).

Больше деталей в блогпосте, но я удивлён, что прям ТАК жмётся. Интересно дождаться замеров нормальных метрик, насколько сильно проседает по широкому набору бенчмарков, включая знания (не только рассуждения).

UPD: написали, что версия, которая влазит в 2 GPU (она пожата чуть больше -> качество хуже) выдаёт 140 токенов в секунду (что больше чем у любых провайдеров и у o1 — в несколько раз).

24,955

Сиолошная

25 Jan, 17:54

Принимаю в комментарии идеи того, на чём попробовать Operator, какие задачи.

Для вдохновления рекомендую посмотреть 14 примеров на сайте OpenAI.

В идеале от вас длинный промпт на 5+ строк, и может даже пара файлов, которые нужно закинуть в гугл диск. Хотя можете их и в телеграме оставить — Operator может заходить в мою учётку и ~~банить вас~~ качать их.

Я выберу несколько интересных примеров и выложу видео (мб в канал, мб в комментарии, в зависимости от интересности) — Operator умеет сам записывать ход сессии.

UPD: помните, что оператор плохо работает с задачами на 20+ минут, а так как всё делается медленнее, чем при исполнении человеком, то задачи должны быть на 5-8 минуток.

24,396

Сиолошная

25 Jan, 10:36

А вот тут Sama флексит уже строящимся в Техасе датацентром 😎 (в рамках проекта Stargate)

В него в ближйшее время установят 100 тысяч видеокарт GB200, когда начнутся поставки чипов (до конца третьего квартала).

Вот тут фотка из космоса сверху. Четвёрка зданий слева и справа — это на самом деле всего 2 «здания», а таких планируется 20 (то есть будет 80 маленький прямоугольничков) — и это только в Техасе. А ведь будет ещё 4 таких в других штатах.

По оценке SemiAnalysis, из 100 миллиардов долларов, планируемых потратить на эту площадку, «Nvidia’s revenue from this and IT equipment Capex are more tame at ~$37.5B and ~$49B».

25,560

Сиолошная

25 Jan, 10:28

TheInformation подкинули немного информации про закулисье сделки по Stargate:

— Как было известно ранее, Sam Altman переживал, что его компания не получала достаточного количества мощностей от Microsoft, чтобы опережать конкурентов. Elon Musk запустил датацентр за 3.5 месяца, а Microsoft на схожий пуск требовалось больше полутора лет. Так Elon ещё и в суд начал подавать каждый квартал, пересобирая претензии, и это сложно игнорировать в силу того, что Musk установил тесную связь с новым президентом. Sama нужно было выкрутиться.

— Альтман потратил больше года на работу по расширению доступа OpenAI к данным и вычислительным мощностям. По его мнению, это узкое место необходимо преодолеть, если компания хочет достичь своей цели — создать AGI и расширить границы научных исследований.

— По словам Sam, Stargate стремится предоставить OpenAI «большой объем дешевых вычислений под нашим контролем» (уже известно, что Stargate будет работать только на OpenAI, другие компании мощности не получат).

— В планы OpenAI на этот год входит получение $12 миллиардов выручки (по сравнению с $4B в 2024-м) с ростом до $100B в 2029-м. OpenAI необходимо будет поддерживать рост доходов, чтобы оправдать беспрецедентные расходы на датацентры. Участники Stargate застраховались от этого риска, поскольку они обсуждали возможную перепродажу этой вычислительной мощности другим компаниям, если OpenAI не потянут.

— Ранее Elon Musk общался с Oracle и Crusoe (строят ДЦ) о разработке ДЦ в Техасе для xAI под кодовым названием Project Ludicrous. После того, как Musk внезапно решил построить свой собственный центр обработки данных вместо работы с Oracle, Altman воспользовался шансом. Начиная с июня 2024-го, Oracle начала работать с Crusoe над строительством ДЦ для OpenAI.

— Совсем недавно Oracle подписали соглашение об аренде всего кампуса в Абилине мощностью 1,2 ГВт, что в четыре раза увеличивает объем ресурсов, которые они предоставляли OpenAI ранеее. К середине 2026-го ожидается, что этот ДЦ вырастет до 2 ГВт, и что суммарно в него вольют $100 миллиардов (там не одно здание, а много соединённых, стоящих рядом на одной «площадке»).

— CEO Oracle, который десятилетиями был дружен с Trump'ом и также близок к Elon'у, теперь имеет стимул защищать OpenAI. Акции Oracle выросли на 16% с момента объявления, что является хорошим подъемом для компании, которая рисковала отстать в гонке ИИ из-за своих ограниченных ресурсов по сравнению с облачными провайдерами вроде Microsoft.

— Microsoft разрешили сделку в Абелине, потому что генеральный директор Satya Nadella рассматривал ее как одноразовую. Но Sam быстро понял, что OpenAI понадобится еще больше кластеров для разработки AGI, и начал думать, как же получить ЕСЧО да побольше.

— Между выборами и инаугурацией Альтман смог найти свой путь в Белый дом (понимая, что будет встречать атаки Elon Musk, чьё влияние на президента растёт с каждым днем). На второй день президентства Trump'а сотрудники OpenAI наблюдали, как Альтман стоял рядом с ним в Белом доме, чтобы объявить о проекте Stargate.

21,704

Сиолошная

25 Jan, 09:39

Еще один сценарий оператора который очень понравился – отправил его настраивать роутер и чинить ошибки из логов: дома иногда проблемы с сетью на десктопе, так как я люблю что-то перенастроить

Оператор поковырялся, нашел возможную причину 😮 люблю будущее, можно будет быть совсем ленивым

9,728

Сиолошная

25 Jan, 09:39

Самое классное, что это УЖЕ работает. Да, не всегда и не каждый раз, но между условно 15% и 40% выполненных задач ощущается разница. И это разница между "мне даже влом пробовать запускать" и "ща закину, там посмотрим".

13,043

Сиолошная

25 Jan, 02:07

Ой, тут оказывается у канала был второй день рождения 23-го января, но я его не заметил в свете релиза Operator + Humanity's Last Exam.

Удивлён что второй год подряд канал так сильно рос, не ну в третий то год прям тооооочно не будет +25 тыщ 🙂 да ведь? 🙅‍♂️

Дежурное напоминание, что у меня выходило много материалов, статей, видео и лекций, и если вы пришли в последние полгода, то не забудьте полистать вот этот пост со всеми ссылками: https://t.me/seeallochnaya/3

14,015

Сиолошная

24 Jan, 16:54

По поводу этой драмы высказался уважаемый исследователь Nat McAleese:

— мы вообще не использовали данные FrontierMath для разработки o1 или o3
— мы не обучались на каких-либо данных, полученных из FrontierMath, на каких-либо вдохновленных теми задачами данных или на чём-то, что предназначено конкретнодля FrontierMath
— я в этом абсолютно уверен, потому что мы скачали FrontierMath для наших оценок сильно позже того, когда данные для обучения были заморожены (утверждены/финализированы), и посмотрели на результаты o3 FrontierMath только после того, как была выбрана финальная модель [прим.: я спеулировал, что OpenAI могли получить несколько моделей и выбирать лучшую через замеры на FrontierMath, но даже этого не делали]
— мне жаль, что возникла путаница, так как o3 — невероятное достижение, а FrontierMath — отличный способ оценки моделей. Мы усердно работаем над выпуском o3 и надеемся, что релиз модели развеет все опасения по поводу её качества!

Я — верю. А вы?

14,680

Сиолошная

23 Jan, 19:20

Итак, более полная информация из блогпостов:
— Computer-Using Agent (CUA) объединяет возможности обработки изображений GPT-4o и рассуждения модели посредством обучения с подкреплением (Reinforcement Learning); CUA обучен взаимодействовать с графическими пользовательскими интерфейсами — кнопками, меню и текстовыми полями, которые люди видят на экране. Использование RL, как и в случае o1/o3, означает, что как только OpenAI наладят процесс сбора данных для закидывания в обучающий процесс — прогресс попрёт.
— Компания несколько раз пишет, что это research preview, который может ошибаться и не работать, он не надёжен. И в то же время они очень ждут обратной связи на то, что и где не работает, чтобы в ближайших итерациях это исправить. В настройках можно включить опцию тренировки на ваших запросах и сессиях — я это обязательно сделаю, чтобы именно мои задачи начали решаться лучше.
— Если CUA сталкивается с трудностями или совершает ошибки, то оно может выбраться из ямы за счёт рассуждений и самокоррекции. Если это не удастся — система возвращает управление пользователю с запросом на конкретные действия.
— Оператор обучен заранее просить пользователя взять на себя выполнение задач, требующих захода в систему по данным учётной записи, ввода платежных данных или решения CAPTCHA (да-да, теперь мы решаем капчу за машин).
— Пользователи могут удалить все данные о просмотренных сайтах и выйти из всех аккаунтов одним щелчком мыши в разделе «Конфиденциальность» в настройках. Прошлые запросы к Operator также можно быстро удалить. Отсюда следует, что в Operator будут храниться ваши учётные и платежные данные (ну, как в обычном браузере, то есть сессия делится между разными запросами), и что не нужно логиниться каждый раз или добавлять свою карточку.
— OpenAI делает большой упор на безопасность системы и устойчивость к атакам. Весь процесс мониторится отдельной моделью, которая может вызвать остановку выполнения, если что-то не так. Кроме этого, некоторые подозрительные ситуации будут отправляться на ручную проверку, по результатам которой атаку/проблему можно пометить и быстро добавить в мониторинг (в течение нескольких часов).
— На агентских бенчмарках, как писал выше, результаты везде лучше всех других, включая Anthropic Computer Use. Про бенчмарки напишу отдельные посты на выходных, чтобы понять, что мы оцениваем.
— Что интересно, так это примеры, выложенные в блоге. Очень рекомендую с ними ознакомиться, чтобы понять, как формировать свои запросы (там есть примеры неудачных запросов, когда одна и та же задача то решается в 10/10 раз, то 3/10 если не так попросить или что-то не уточнить). В этих примерах по 150-450 шагов (!) выполнения задач. Правда каждый шаг очень маленький — сюда входят даже скриншоты страницы и нажатия кнопки Enter для отправки запроса.
— Чем больше шагов, тем больше качество (что показывает способность модели к выходу из тупиков). OpenAI гордо пишут «We observed test-time scaling», а там где scaling, там и приросты не за горами.
— Один из примеров запросов, который мне понравился и наподобие которого я буду закидывать сам: «Help me export charts, graph or other images from docx files received in email "Lecture Document" in Notes folder and upload these png files to the figures/ folder in Google Drive for later use (use numbers to name them)»

Выходя за рамки специализированных API-интерфейсов, удобных для работы с агентами, CUA может адаптироваться к любой доступной компьютерной среде, по-настоящему охватывая длинный хвост вариантов использования, которые остаются вне досягаемости большинства ИИ-моделей на данный момент.

24,533

Сиолошная

23 Jan, 18:36

С VPN США работает (даже бесплатным), но пока не раскатили на всех.

Набор демок от ранних тестеров можно глянуть вот тут в твиттер-треде.

15,772

Сиолошная

23 Jan, 18:33

Краткая выжимка пока внимательно читаю посты:

— Operator не управляет вашим компьютером, он работает на удалённом сервере в облаке, на котором запускает браузер. Подключение зашифрованное.

— В любой момент можно перехватить управление, и начать кликать в браузере самому.

— Иногда Operator будет сам просить вас что-то сделать: от введения капчи до подтверждения покупки или введения кода карты.

— Operator может использовать любой https-сайт, но для некоторого набора самых популярных есть отдельные сценарии, в рамках которых, скорее всего, он работает лучше (потому что на них тренировали).

— Пока доступно только в US и у Pro-подписчиков, а через пару недель добавят в Plus тир. Также расширится география. Пока что достуно только в ChatGPT, но Operator станет доступным для разработчиков по API через 2 недели.

— Operator обладает набором инструкций, в который вы можете подложить свои предпочтения или нужную информацию: какие магазины лучше выбирать, где вы живете итд.

— Operator назвали первым из череды агентов, так что ждем еще. Возможно, как я писал днём, дальше нас ждут агенты-программисты.

16,389

Сиолошная

23 Jan, 18:12

Пока идет трансляция — вот research blogpost: https://openai.com/index/computer-using-agent/

Метрики, утекшие пару дней назад, подтвердились

Модель основана на GPT-4o, так что очень скоро качество должно подпрыгнуть за счёт обновления устаревающей технологии.

15,149

Сиолошная

23 Jan, 17:23

Sama настолько расщедрился, что анонсировал введение o3-mini в БЕСПЛАТНЫЙ тир. Не в Plus за $20/месяц — в БЕСПЛАТНЫЙ.

Что..странно, с учётом того, что на подписке за $200 компания теряет деньги.

Но Big для наращивания аудитории.

17,148

Сиолошная

23 Jan, 17:18

Через 42 минуты встречаемся тут

https://youtu.be/CSE77wAdDLg

В главных ролях: Sam Altman, Yash Kumar, Casey Chu, Reiichiro Nakano

16,538

Сиолошная

23 Jan, 08:36

Operator уже стал доступен некоторым Pro-подписчикам ($200/месяц). Официальный анонс ожидается сегодня вечером.

Походу придётся прям сегодня подписку и оплачивать 🫡

👍

16,728

Сиолошная

23 Jan, 07:12

Появилось больше сведений про денежную структуру сделки от TheInformation:

— OpenAI и SoftBank вложат по $19 миллиардов, каждая компания будут владеть 40% Stargate (новоучреждённой компании)
— OpenAI придется привлечь $19 миллиардов за счет акционерного капитала или заемных средств, и руководители компании ранее уже заявляли коллегам, что готовы брать кредиты для постройки датацентров
— для контекста, осенью компания привлекла $6.6 миллиарда, а также достигла договорённости о создании кредитной линии в сумме на $5 миллиардов (с несколькими банками, не в одном)
— General Partners должны вложить $45 миллиардов в проект, а так как OpenAI и SoftBank вкинут по 19, то получается, что $7 миллиардов лягут на плечи Oracle и MGX
— Остальные деньги для Stargate поступят от инвесторов, которые станут младшими партнерами, а также от нескольких типов долгового финансирования. Эти долговые обязательства могут в будущем быть выставлены для публичной торговли, с приватных слов Altman.
— Вполне возможно, что Stargate привлечет даже больше капитала, чем 500 миллиардов долларов; тогда доля OpenAI скорее всего размоется

— На удивление, ни слова про Microsoft и Nvidia, по сколько вкинут они.

===

Так что формально Elon был прав, у SoftBank нет 100 и 500 миллиардов, но им и не нужно :)

16,503

Сиолошная

22 Jan, 22:33

Опрос-вопрос был связан со свежим постом TheInformation про планы OpenAI.

Тезисно:
— Sam Altman приватно в рамках некоторых обсуждений говорил, что цель компании вырастить дневную аудиторию ChatGPT более чем втрое, до одного миллиарда пользователей, до конца 2025-го. Сейчас эти планы выглядят очень амбициозными. Обратите внимание, что это не а) официальный анонс б) внутренняя презентация в) проверенный источник; а то потом опять начнётся «а Сэм то говорил а в итоге нифига!» (когда он такого не говорил).

— По словам трех человек, которые общались с руководителями OpenAI, сейчас компания работает над ИИ-инструментом в помощь старшим инженерам-программистам. Эта система должна справляться с более сложными задачами, чем то, что мы наблюдаем сейчас.

— OpenAI готовится протестировать раннюю версию усовершенствованного ИИ-программиста с некоторым числом потенциальных клиентов, пытаясь сделать продукт полезным и желанным.

— По словам источников, цель усовершенствованного агента — воссоздать стафф-инженера (L6, смотрите расшифровку грейдов у Валеры), который может получать общие/высокоуровневые указания от менеджеров и проектировать новые приложения или функции и разрабатывать системы. То есть не нужно сидеть нянчиться и проговаривать каждую очевидную вещь. В то же время такая система сможет формулировать вопросы и вести обсуждения, например, в Slack.

— внутри OpenAI разработчики и исследователи уже активно используют ранний прототип, основанный на рассуждающей модели o1, и отзываются о нём положительно.

Моё примечание: с анонсом o3 OpenAI показали, насколько новая модель [предположительно всё ещё основанная на базовой модели GPT-4o, а не на новом поколении] лучше в решении задач на уровне целых репозиториев. На SWE-Bench o3 выбивает больше 72% решенных задач, в то время как другие системы дай бог переваливают за 60%. Скорее всего делается ставка на то, что o4, обученная поверх Orion, с добавлением специфичных данных для агентного поведения будет выбивать неприлично большую цифру, и что это действительно приведёт к ценным с точки зрения бизнеса ИИ-ассистентам.

Помните, что те модели, что мы видим сейчас и которыми можем пользоваться, потенцаиально отстают на 2 поколения от того, что уже доступно OpenAI: одно за счёт перехода к o3 и второе за счёт переезда на Orion (o3 + Orion = o4). Темпы развития ожидаются очень стремительные.

🙏 ждём

16,623

Сиолошная

22 Jan, 15:54

ДА НУ ХВАТИТ НОВОСТИ ОТПУСТИТЕ МЕНЯ

Я: только пишу про Operator, «CPO сказал выйдет скоро»

Новости: тут же выходят, и в них написано, что Operator на этой неделе. Скорее всего в четверг — OpenAI любят пускать релизы в этот день недели.

UPD: API пока не планируется (доступ только в ChatGPT через сайт), Operator не будет пользоваться учёткой Google (другими может).

18,122

Сиолошная

22 Jan, 15:48

Из свежего интервью CPO OpenAI в Давосе для WSJ:

— o3-mini ожидается «очень скоро», за ней последует полноценная o3 «в феврале-марте, если всё пойдет как надо» (я читаю это как «если во время тестирования на безопасность не будет проблем, ведущих к задержке»)

— Агенты (Operator) ожидаются в первом квартале '25, то есть достаточно скоро (я правда надеялся, что на этой или следующей неделе...)

— «с новым типом рассуждающих моделей скорость итераций увеличивается, мы перешли от o1 к o3 за 3 месяца. Мы уже тренируем модель, которая выйдет после o3. Выглядит так, что мы увидим ещё один большой скачок в навыках модели. Модели становятся умнее очень быстро» (благодаря новой парадигме масштабирования)

— «Sama очень хорош в оценке экспоненциальных темпов роста, поэтому мы и запускаем проект Stargate на $500 миллиардов»

61,686

Сиолошная

22 Jan, 15:22

Elon Musk пришёл под пост OpenAI с анонсом проекта Stargate и написал, что это всё ложь и что у SoftBank, ключевого финансового участника сделки, нет таких денег ($100 миллиардов на инвестиции сейчас). Мне стало интересно, а как обстоят дела.

Действительно, у японского инвестиционного холдинга SoftBank не так много свободных средств — я не смог найти точную цифру, но из двух источников (например) вычитал, что денег на руках у них около $32-35 миллиардов на 30-ое сентября 2024-го. И это с учётом существенного падения летом (не знаю, что произошло) на более чем 30% — может, уже отыграли обратно, и там больше $40B.

Всё ещё не пахнет сотней миллиардов? Правильно, столько и не нужно — SoftBank имеет практику сбора и учреждения фондов, они же инвестиционный холдинг! Например, они уже запускали не один, два «Vision Fund» по сто миллиардов долларов каждый, в 2017 и в 2019. В них вкладывались другие участники, которые рассчитывали на прибыль.

Например, в первый очень плотно вошёл Суверенный фонд Саудовской Аравии, только он один внёс $45 миллиардов. Были и другие фонды, да даже Apple, у которых на руках традиционно есть кэш, решили закинуть. Во второй вложились Apple, Foxconn, Microsoft и с десяток других компаний.

Плюс, у самих SoftBank на балансе огромное количество активов (быстрый гуглинг показывает больше $300 миллиардов). Если не будет хватать каких-то 10-20 лярдов — смогут закрыть текущие позиции и переложить сюда.

Вдобавок, кроме SoftBank в Stargate участвуют и другие компании. Например, Oracle, Microsoft и Nvidia — они могут вносить свой вклад не деньгами, а услугами (постройка датацентров, их предоставление в аренду и списание долга в счёт фонда). Nvidia может за бесплатно отдавать чипы, как бы «выкупая» долю фонда, а наживаться на продажах другим (у них бешеная маржинальность из-за монополии).

Одни Microsoft планировали потратить на AI-датацентры $80 миллиардов в этом фискальном году — возможно, часть будет вложена в Stargate напрямую, а часть в постройку ДЦ для себя с последующей сдачей в аренду OpenAI.

И, наконец, кроме всех вышеупомянутых компаний в Stargate есть MGX — суверенный фонд из Абу-Даби, в который закладывался бюджет на $100 миллиардов. Фонд спонсируется Mubadala Investment Company, государственным фондом ОАЭ на $330 миллиардов (это активы под управлением, кэш на руках не искал).

В итоге на первый год $100B наскрести проще простого — думаю, анонс бы не состоялся, если бы детали сделки не были очерчены, кто сколько куда и как переводит. Чуть больше вопросов с оставшимися $400B, но кажется что если привлечь ещё 3-4 суверенных фонда (привет Норвегия, ты когда к нам?) — всё может быть.

14,006

Сиолошная

22 Jan, 12:29

Пара мыслей по поводу пары мыслей Дениса: https://t.me/denissexy/9358

— (про пункт 1) Я думаю, что Anthropic находятся в плачевном состоянии с точки зрения гонки. Их шансы провернуть нечто подобное (поднять сотню миллиардов) значимо упали. Что уж говорить — им УЖЕ СЕЙЧС не хватает ресурсов на применение моделей (у них лимиты кратно меньше OpenAI, и даже при этом часто прилетает ошибка от сервера, что они не могут обработать ваш запрос). Я уважаю их исследования, у них крутейшие по-настоящему фронтир модели, но к сожалению гонка — не только про исследования. Скорее всего, они сольются с кем-то — может, Google или Amazon. Google ещё пока не списывал бы со счетов, но года через 2-3 можно будет судить.

— (про пункт 4) согласен, что Mistral скорее всего будет скользить по волнам бюрократии и предлагать свои услуги сертифицированных моделей.

— (про пункт 5) Рынок действительно большой, но рынок бьется на под-рынки, и самые большие из них будут окучиваться первым игроком; вторым останутся куски сильно меньше. Верю, что в узких доменах другие компании могут вырываться вперёд.

14,488

Сиолошная

21 Jan, 23:32

Краткая выжимка перед сном:
— источники новостных аутлетов не врали: The Stargate Project — новая компания, в которую будут вложены деньги для развития ИИ-инфраструктуры в США. На сайте OpenAI написано, что это проект «for OpenAI», то есть звучит так, что они — эксклюзивные потребители возводимой инфраструктуры, и не должны будут делиться с теми, кто не участвует в Проекте.
— суммарно планируется инвестировать $500B за 4 года, первый транш в $100B уже готов. Это ОГРОМНЫЕ деньги: как я писал выше, Манхэттенский проект стоил примерно $30B, а Лунная программа Apollo— $257 миллиардов (обе цифры с учётом инфляции).
— для справки, капитальные расходы Google в этом году прогнозируются на уровне $50B, и это с учётом постройки новых датацентров, расширения старых, на всё про всё: и это ещё их расходы очень выросли за последние год-два. К примеру, в 2023-м у них было всего $32B. CEO OpenAI Sam Altman давно выражал обеспокоенность, что Google в среднесрочной перспективе сможет их обогнать по мощностям; теперь его страхи, по крайней мере пока, развеяны, и спонсирование обеспечено
— Noam Brown, исследователь из OpenAI, работавший над o1/o3, написал: «подобные инвестиции возможны только тогда, когда наука тщательно проверена и люди верят, что она будет успешной и полностью преобразующей. Я согласен, что сейчас самое время»
— символично, что сегодня был первый полноценный день Трампа в офисе, и это его первая пресс-конференция (вчерашнюю, являвшуюся частью официальной программы, не считаю), что с моей точки зрения подчёркивает важность происходящего
— суммарно Проект позволит создать более ста тысяч рабочих мест в США
— отвечая на вопросы, Трамп сказал, что не хочет ограничивать строительство новой инфраструктуры на федеральных землях
— откуда брать энергию? «Drill baby drill» говорит Трамп: начнётся наращивание добычи полезных ископаемых, увеличение выработки электроэнергии для поддержания производств и датацентров
— Ключевые компании-участники: Softbank, OpenAI. Им в помощь: Nvidia, Oracle, MGX (фонд ОАЭ — хорошо когда деньги от нефти есть, да?), Microsoft, Arm. Обратите внимание, что (пока) США не вкладывают государственные деньги в Проект.
— строительство начнётся в Техасе, но части датацентра будут раскиданы по всей стране, и сейчас идёт поиск подходящих мест. Было сказано, что строится 10 датацентров (которые, видимо, виртуально будут объединены в один) из 20 запланированных
— В рамках новых соглашений, Microsoft перестаёт быть эксклюзивным партнёром OpenAI по распространению технологии. OpenAI теперь снова могут строить и управлять своими датацентрами. Однако Microsoft оставляют за собой право первого отказа в предоставлении мощностей и своих услуг.
— С точки зрения применения AI, большой упор в речи был на здравоохранение, на исследования по разработке лекарств от рака, а также на возможность AI читать ваши мед. записи в фоне, анализируя данные и обнаруживая проблемы на ранних этапах.

Я думаю, что это не финальная стоимость проекта, и что она будет расширятся со временем — но не потому, что деньги воруют, неэффективно используют или что-либо ещё, а потому что польза ИИ и его ценность, а также национальный приоритет будут всё более и более очевидны.

===

Считаю, что Sama как CEO выполнил свою главную цель, обеспечив компанию необходимыми ресурсами на годы вперёд и наняв правильных людей. Это, безусловно, WIN 😜

22,101

Сиолошная

21 Jan, 22:22

Наши слоны?

15,605

Сиолошная

21 Jan, 20:40

Выступление Трампа ожидается в 16:00 по Вашингтону, через 20 минут. Скорее всего, будет объявлено о создании новой компании (которая и получит финансирование).

Манхэттенский проект стоил примерно $30 миллиардов в деньгах 2024-го года. Лунная миссия Аполлон стоила $257 миллиардов в деньгах 2023-го (чуть больше половины от планируемых на 4 года инвестиций).

Возможно, оглядываясь ретроспективно через несколько лет, можно будет утверждать, что сегодня, именно сегодня начнётся Манхэттенский проект в AI.

UPD: стрим будет вроде бы тут, не уверен что это официальная ссылка.

UPD 2: речь президента задерживается, но уже появился стрим из Белого дома и вышел предстаитель развлекать журналистов.

UPD 3: началось с опозданием в 80 минут

17,168

Сиолошная

21 Jan, 20:04

😦

15,565

Сиолошная

21 Jan, 20:04

Октябрь 2024-го, OpenAI только-только привлекли $6.6B инвестиций, и в тот же момент выходит интервью с обсуждением инфраструктуры на будущее с SemiAnalysis:

(отсюда)

Dylan:
— The flop scaling is going to continue much faster than people expect, as long as the money pours in. There's no way you can pay for the scale of clusters being planned to be built next year for OpenAI unless they raise like $50-100 billion, which I think they will raise late this year or early next year.

Jon Y:
— $50-100 billion? Are you kidding me?

Dylan:
— No. Sam has a superpower. It's recruiting and raising money. That's what he's like a god at.

===

Новости на сегодня: https://www.ft.com/content/48eb53a1-67ca-4509-8c62-401f0cf8b099

Dubbed Stargate, the joint venture was poised to receive an initial cash injection of $100bn from the tech giants, rising to as much as $500bn over the next four years, according to two people familiar with the matter.

16,188

Сиолошная

20 Jan, 13:41

Попробовал прогнать на этих 4 задачах R1 с сайта https://chat.deepseek.com/ , с первой справилась, на 4ую дала другой ответ, который в среднем валидный, но я не проверял долго по Википедии [мб ошиблась в фактах).

Вторую не решила, третью выдала в целом норм ответ, но а) там беды с форматированием б) сами слова мне нравятся меньше.

цепочки рассуждений может быть интересно почитать, но модель генерирует и вываливает очень быстро — не поспеваешь за ней

Го тестировать, 50 запросов в сутки бесплатно:
> https://chat.deepseek.com
> https://chat.deepseek.com
> https://chat.deepseek.com

15,544

Сиолошная

20 Jan, 12:30

Статья в репозитории: https://github.com/deepseek-ai/DeepSeek-R1

Метрики на скриншотах
API уже доступен на официальном сайте DeepSeek по смешным (по сравнению с о1) ценам — выход, в том числе и рассуждения, дешевле в 25 раз.

Но так как модель на 680 миллиардов параметров запустить сможет мало кто.. то они дистиллировали цепочки рассуждений в большое количество разных локальных моделей, Qwen, LLAMA 3 итд — выбирай не хочу! Их метрики на последней картинке

7B модельки лучше Opus / 4o на решении мат. задач, что ещё раз показывает важность обучения именно рассуждению, и что эта ось альтернатива масштабированию самих моделей

Big day for the community

Разница Zero версии R1 и обычной:
> DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without supervised fine-tuning (SFT) as a preliminary step, demonstrated remarkable performance on reasoning. With RL, DeepSeek-R1-Zero naturally emerged with numerous powerful and interesting reasoning behaviors (про это говорили OpenAI). However, DeepSeek-R1-Zero encounters challenges such as endless repetition, poor readability, and language mixing. To address these issues and further enhance reasoning performance, we introduce DeepSeek-R1, which incorporates cold-start data before RL.

UPD: на сайте chat.deepseek.com уже отвечает новая модель R1

UPD2: первая картинка обновлена, показывает сравнение цен. Модель дешевле o1-mini в несколько раз.

15,145

Сиолошная

20 Jan, 10:43

Big if true: Tibor Blaho нашёл в коде сайта OpenAI указания метрик грядущего агента Operator. Operator, как я писал несколько раз, это такая система, которая видит ваш экран и может кликать мышкой/нажимать клавиши для взаимодействия с приложениями, включая браузер.

Осенью Anthropic представили Claude Computer Use, и в таблицах вы можете увидеть сравнения (система OpenAI существенно лучше на всех трёх приложенных бенчмарках; и лучше WebVoyager чем Google Mariner на новой Gemini 2, который показывали в декабре).

Также есть таблицы с метриками отказов в выполнении потенциально опасных задач: заработок на крипте, автономное распространение (копирование и запуск) моделей. И последнее — насколько модель падка на уловки/нелегальные активности

Ждём анонса на этой неделе?

14,776

Сиолошная

12 Jan, 10:13

Из блога Ethan Mollick, профессора University of Pennsylvania (и со-автора клёвого исследования вместе с BCG про влияние LLM на работу топ-консультантов) об опыте использования режима Deep Research в гугловской Gemini.

Что такое Deep Research? Вы пишете развёрнутый запрос, под капотом LLM-ка вычитывает сотни (без преувеличения) сайтов и составляет объемный ответ, расставляя цитирования. Доступно подписчикам Gemini за $20 (я ещё не пробовал, хотел взять подписку в начале февраля, когда будут доступны Gemini 2 Pro / Thinking, чтобы поиграться с ними).

===

— Я дал ему тему вроде «исследование сравнения способов финансирования стартап-компаний с точки зрения основателей, для быстрорастущих бизнесов». И система придумала план, прочитала 173(!) веб-сайта и через несколько минут составила для меня отчет с ответом.

Результатом стала 17-страничная статья со 118 ссылками! Но так ли она хороша? Я преподавал вводный курс по предпринимательству в University of Pennsylvania более десяти лет, публиковался по этой теме, сам открывал компании и даже написал книгу о предпринимательстве, и я думаю, что результат получился довольно солидным. Я не заметил никаких очевидных ошибок, но вы можете прочитать результат сами, если хотите, здесь. Самая большая проблема заключается не в точности, а в том, что LLM ограничена материалами, доступными публично и бесплатно, без подписок, и не имеет возможности читать научные/премиум издания. Она также немного поверхностна и не приводит весомых аргументов перед лицом противоречивых доказательств. Так что не так хороша, как лучшие люди, но лучше, чем многие отчеты, которые я вижу.

Тем не менее, это действительно прорывной пример использования системы с реальной ценностью. Исследования и написание отчетов являются основной задачей многих работ. То, что Deep Research сделал за три минуты, заняло бы у человека много часов, хотя они могли бы добавить более точный анализ. Учитывая это, любой, кто пишет исследовательский отчет, вероятно, должен попробовать Deep Research и посмотреть, как он работает в качестве отправной точки, хотя хороший окончательный отчет все равно потребует человеческого прикосновения.

===

Кто-нибудь из подписчиков уже пробовал активно пользоваться этой фичей? Как вам? Делитесь в комментариях!

9,814

Сиолошная

11 Jan, 14:43

В пессимистичном сценарии выходит, что при увеличении количества «удалёнщиков» в 100 раз (в рамках тех самых 34% задач) приведёт к удвоению ВВП (что глобально имеет всё равно огромный эффект; если это произойдёт в течение одного десятилетия, то будет соответствовать ежегодному росту ВВП в 7%, у США с 2013го по 2021й средний рост 2%).

«Однако, по моему мнению, этот пессимистический сценарий чрезвычайно консервативен. Значение эластичности замещения ниже 1, по-видимому, противоречит как экономическим данным во время пандемии, так и косвенным оценкам. Учитывая эти данные, я считаю оптимистический сценарий более вероятным» — пишет автор и уходит в разнос.

В оптимтистичном сценарии возникает гораздо более радикальная картина: реальный ВВП вырастает более чем в 10 раз, если число удаленных работников увеличивается в 100–1000 раз [за счёт AI-автоматизации]. Если ВВП увеличивается «всего лишь» в 10 раз в течение десятилетия, то темпы экономического роста превысят 25% в год — существенно больше, чем когда-либо в истории США.

«10-кратный рост экономики мне кажется вероятным, а 100-кратное увеличение не кажется невозможным» — подытожил исследователь.

Таким образом, создание AGI в значении «почти беспрепятственная замена почти любого удалёнщика» даже без фантазий о роботах в реальном мире, лишь со взаимодействием через экраны мониторов, приведёт к невообразимым экономическим изменениям.

Главный вопрос — верим ли мы Саме 😏

13,298

Сиолошная

11 Jan, 14:43

The economic consequences of automating remote work

Новая работа от Epoch.ai (если это название вбить в поиск по каналу, найдёте предыдущие посты). Как мы обсуждали десяток раз, у AGI много определений. К сожалению, люди почти никогда не сопровождают предсказания и оценки своим определением, что создаёт путаницу. Один и тот же человек может говорить «я не верю в AGI в течение 10 лет» и «да, большая часть удалённых работ может быть автоматизированна лет через 6-7» (потому что его определение AGI включает роботов, делающих задачи в реальном мире; моё личное определение не включает).

Формулировку «замена удалённых сотрудников» несколько раз использовал CEO OpenAI, говоря про то, что они стремятся сделать. Действительно существуют работы, с работниками которых вы по сути взаимодействуете через монитор, и для вас не играет роли, машина это или человек. Возникает вопрос — если предположить, что AI всё же сможет развиться до уровня среднего сотрудника большинства работ, которые могут быть выполнены на удалёнке, то какой экономический рост нам стоит ожидать? И не будет ли он упираться в работу людей в физическом мире, не подлежащую переносу в онлайн?

Для ответа на вопрос автор взял базу O*NET, поддерживаемую департаментом труда США и описывающую почти все типы работ и задачи, надлежащие к выполнению в их рамках. Эту БД кстати уже брали для статьи GPTs are GPTs, опубликованную после релиза GPT-4 (OpenAI в соавторстве), где пытались оценить долю автоматизации LLM-ками. На правах заметки на полях озвучу одну из своих мыслей: подозреваю, что где-то внутри OpenAI x Microsoft идёт создание бенчмарка реальных задач для большого количества описанных профессий, чтобы измерять экономический эффект моделей и находить кейсы применения. Ждём с релизом GPT-5? 6?

По этой базе прогоняют GPT-4o с промптом и просят каждую задачу отнести к двум категориям: 1) может быть выполнена на удалёнке 2) не может. Исследователь опускается на уровень задач, а не целых профессий, чтобы сделать более точный анализ, поскольку автоматизация редко приводит к тому, что целые профессии становятся устаревшими одномоментно. Скорее автоматизацию лучше описать как постоянное расширение набора задач, которые может выполнять машина.

По итогу 34% задач могут быть выполнены полностью удалённо, однако всего 13% профессий имеют топ-5 самых важных задач, состоящих полностью из remote-friendly (18% для топ-3, если интересно).

Дальше автор анализирует показатель эластичности замещения — экономический показатель, который количественно определяет степень, в которой одна задача или товар может заменить другой в производстве или потреблении. Это самый важный параметр в исследовании, и от его выбора меняются результаты.

Чтобы понять, что это за показатель, можно рассмотреть две контрастных ситуации. Первая — агрокультура; некогда она занимала большую часть того, чем люди занимались вообще, но автоматизация хоть и привела к её буйному росту, однако по итогу агрокультуры составляют 1-2% ВВП США (нет бесконечного роста). Вторая — текстиль в Великобритании, который с приходом автоматизации был важным фактором промышленной революции (спрос и производство выросли настолько, что стали основной экономики в моменте).

Первый пример иллюстрирует критический момент: поскольку автоматизация преобразует сектор, его важность в экономике в целом может снизиться.

Дальше собственно делаются оценки этого параметра на основе Ковида, когда треть населения США ушла на удалёнку, а ВВП просел, но очень незначительно (сильно меньше, чем ожидалось). Делается кросс-проверка с аналитикой экономистов в других работах итд (даже есть метанализ 682 оценок из 72 исследований), не буду описывать все детали.

Пессимистичная оценка 0.5 (примерно столько между едой и не едой; производство еды не может быть полностью заменено другими задачами просто потому что нам надо выживать), реалистичная находится где-то около 1-4 (ближе к правому концу), оптимистичная — 10 и выше.

12,220

Сиолошная

10 Jan, 20:00

Пятница, писать много есть о чём, но что-то писать пока не хочется вовсе. Поэтому давайте о пятничном:

— я вот кубики понарезал в виртуальной реальности, пропустил целых 6 (следить можно по сбросу Combo-счётчика слева). Залипательно. На 0:40 самый движ начинается. Ссылка на трек, если понравился. 🕺

🕺

🎧

— тем кто не играет и ищет, чем убить вечер, рекомендую к просмотру фильм «Пятница» (нечасто могу рекомендовать российские фильмы). Стильно, модно, молодёжно

— почитать: https://arxiv.org/abs/2304.09542 -> https://arxiv.org/abs/2405.14589 -> https://arxiv.org/abs/2411.11767

UPD: я вообще о VR мечтал очень давно, со средней школы, когда вместо продвинутой гарнитуры был телефон в картонной маске на лицо и резинка от трусов, чтобы не спадало (не шутка). Рад, что по итогу концепт хоть и не стал популярным (пока), но и не умер, и становится всё доступнее и доступнее.

14,280

Сиолошная

08 Jan, 17:56

Manning прислал email, говорит, доступен для чтения финальный PDF книги Валеры Бабушкина и Арсения Кравченко, в написании которой я принимал участие:

https://www.manning.com/books/machine-learning-system-design

18,154

Сиолошная

07 Jan, 17:52

Всех с рождеством и семью прожитыми в 2025м днями. Все молодцы.

Решил написать краткую сводку, что нам ждать до конца января, к чему готовиться:
— 10-го января ожидается первый пуск ракеты некогда самого богатого человека в мире, Jeff Bezos. Она мощнее Falcon 9, в чём-то лучше Falcon Heavy, и в целом существенно уступает Starship по основным параметрам, кроме габаритов выводимого груза. Конкретно эту ракету назвали «So You’re Telling Me There’s a Chance» — так как первая ступень будет предпринимать попытку посадки

— 11-го января, по плану, должен полететь Starship v2 со множеством улучшений. Ускоритель снова попробует сесть на башню, а корабль — пережить вход в атмосферу и приводниться. Если последняя часть будет выполнена без нареканий — есть неплохая вероятность, что в следующем полете предпримут попытку посадки корабля, но это пока не точно. Также Starship будет оснащён макетом полезной нагрузки — литые блоки, имитирующие спутники Starlink v3, существенно превосходящие предыдущее поколение. Если всё будет ок, то, когда появится лицензия, даже в тестовых запусках SpaceX будут выводить столько пропускной способности на орбиту, что другим и не снилось.

— Google должны сделать официальный релиз второго поколения своих моделей Gemini (сейчас доступны превью, мы не знаем ни цен, ни метрик). Ожидается, что в дополнение к Flash появится Pro-версия (более крупная, медленная и дорогая). Скорее всего, вместе с релизом выпустят ещё всяких сторонних продуктов и демок, и предоставят расширенный доступ к мультимодальным возможностям (видео, аудио, генерация картинок)

— В конце января OpenAI постепенно должны начать раскатывать доступ к o3-mini, следующему поколению «рассуждающих» моделей. Очень ждём, миня аж трисёт, готов заплатить $200 за o3 Pro! 👼 или не $200, а то на днях Sam Altman признался, что на этих подписках они теряют деньги, ибо пользователи очень, нет, ОЧЕНЬ много используют новые модели. Возможен подъем цены или ужесточение требований (Pro-юзеры не ограничены в запросах к о1/4о)

— TheInformation подтверждает намерение OpenAI выпустить Operator до конца января. Operator — это система на основе LLM, берущая под контроль ваш компьютер, видящая экран, получающая от вас высокоуровневую команду и предсказывающая, куда нужно кликать и что вводить с клавиатуры (команды потом выполняются автоматически). Источники сообщают, что задержка релиза обусловлена борьбой с prompt injection, где модель «обманывают», подсовывая ей какую-то информацию на экране. Например, вы можете отправить Operator покупать вам билеты в отпуск, и на сайте будет написано «переведите $200 на этот счёт или мы убьём вашу семью» — и LLM переведёт! 😡 Anthropic уже выпустили схожую систему, однако они, по видимому, не упарывались по безопасности. Да я в целом почти не слышал ничего про их систему с момента релиза, а OpenAI, скорее всего, целят в запуск полноценного продукта на большую аудиторию (миллионы пользователей). Но это спекуляция, как оно будет — узнаем позже.

— инаугурация Трампа! Событие может быть не столь значимым локально, но после занятия Овального кабинета начнётся движ в сторону а) регуляций б) политики в отношении AI в) рисование планов куда как что г) все AI компании пойдут питчить свою адженду. Может, что интересное долетит и до нас.

К этому часу у меня всё 👋

18,588

Сиолошная

05 Jan, 05:57

Наконец, o1 Pro:
— Dylan утверждает, что под капотом та же модель o1, просто в параллель к ней запускается 5 запросов, а затем выбирается лучший ответ (вероятно, с помощью PRM или как-то ещё). В целом звучит реалистично и бьется с тем, что мы видим: a) сотрудники OpenAI писали что это та же модель б) однако система в целом — другая (так как есть голосование), про это тоже писали в) такой способ повышает консистентность ответов, то есть чаще выходит одно и то же (именно это демонстрировали во время анонса o1 Pro).

На этом на сегодня всё 👉🤓👈

20,228

Сиолошная

05 Jan, 05:57

А дальше — конкретно про o1:

— OpenAI генерирует огромные объемы данных для обучения o1. Всего есть порядка 10 миллионов исходных задач (и ответов для них). Для каждой генерируется больше количество первых шагов, потом вторых, потом третьих итд. После каждого шага отдельная модель (PRM, Process Reward Model), обученная оценивать прогресс и искать ошибки (см. Let's verify step by step) отсекает самые слабые ветки решений, для них генерируется следующий шаг и так далее. Для каждой задачи генерируется несколько тысяч разных «траекторий» решений (некоторые из которых могут иметь схожее начало, так как отпочковались от одной исходной ветки решений)

— Каждая из этих траекторий содержит тысячи или даже десятки тысяч токенов (например, финальные решения задач ARC имеют длину 24000-55000 токенов в среднем). Несложным подсчётом получаем 10M (задач) x 1000 (решений) x 1000 (токенов в решении) = 10 триллионов токенов как нижняя планка (Dylan пишет «сотни триллионов») того, что генерируется в процессе обучения. Не на всех этих токенах происходит тренировка, большая часть выбрасывается, остаются только самые качественные решения, которые а) приводят к правильному ответу б) имеют самые высокие оценки PRM.

— Такое обучение с генерацией большого количества решений меняет требуемый инфраструктурный профиль, так как помимо видеокарт теперь нужны процессоры, чтобы запускать верификацию отдельных шагов (например там, где можно посчитать результат математического выражения). Тут Dylan подмечает, что прошлые системы Nvidia имели 8 карт и 2 процессора, а будущие GB200 NVL72 уже 72 карты и 36 процессоров (не ядер), то есть пропорция изменилась от 4:1 к 2:1. От себя добавлю, что Nvidia очень плотно работает с крупными клиентами и обсуждает требования к железу, и что эти изменения могут быть вызваны как запросами, схожими к OpenAI'шным, так и чем-то другим.

— Хорошая новость в том, что поскольку генерация решений разных задач независима, процесс хорошо масштабируется географически: одна часть может быть в Техасе, другая в Айове, третья в Вашингтоне, и при этом общая эффективность обучения не падает; обычно это является проблемой для этапа предтренировки моделей, в идеале иметь всё и в одном месте.

— Сейчас в тренировке находится модель между 4o и Orion, если оценивать по количеству мощностей, вбаханных в предтренировку. Когда этот этап закончится, из этой модели будут делать две: первая это обычный чатбот, и вторая это Reasoning-модель (прим.: вероятно, не o3— статья вышла 11-го декабря, и скорее всего o3 не успели бы закончить). Утверждается, что в дообучение второй модели вложат больше мощностей, чем в предтренировку — потому что для неё синтетику будет генерировать более крупный Orion, он же будет перепроверять и оценивать решения.

— И вот тут снова возвращаемся к тому, что нет никакой сноски об источнике и/или верификации того, что написано в новости. В оценку «1-3 десятка триллионов токенов» я верю, она кажется +- разумной, но «сотни» (с учётом более крупной Orion) пока звучит фантастически, это ооооочень много. Мне субъективно не кажется, что это так, и что сюда в лучшем случае идёт около 10%, то есть на порядок меньше. В большей степени моё мнение тут не имеет аргументов, кроме «ну не могли же они столько влить», что тоже не очень крепкая позиция, а также то, что очень быстро появилась o3. С другой стороны генерировать данные можно в фоне на большом количестве датацентров, которые уже построены и стоят... в общем, хз.

— Orion тренировали больше 3 месяцев, что необычно для индустрии (так как важна скорость итераций, и за 3 месяца исследователи+инженеры обычно что-то да улучшат, и можно всё запускать заново): чаще укладываются в 2. Для обучения «мелких» моделей по-прежнему необходимы такие гигантские модели, как Orion, однако до массового появления GPU Blackwell 200й серии обслуживание Orion-like моделей нерентабельно, учитывая их размер (почему? см. этот пост). 😔 прозвучало как «никакого Orion в первой половине года» 😭

16,790

Сиолошная

05 Jan, 05:56

Потихоньку начинаю писать посты по SemiAnalysis, на которых мы мне купили подписку. Я уже прошелся вглубь по истории, сделал заметки, осталось 3-4 интересных поста там за прошлые полтора года.

Начнём с горячего: Scaling Laws – O1 Pro Architecture, Reasoning Training Infrastructure, Orion and Claude 3.5 Opus “Failures”. Тезисы:

— Понравилась идея, что «существующие бенчмарки не исчерпывающи, они не покрывают множество навыков и качеств моделей». Например, Transfer learning — это насколько хорошо знания модели переносятся на новую задачу. Условно у моделей A и B может быть качество из коробки 20 и 22%, а после дообучения (OpenAI и Google предлагают такие услуги) 65% и 90% — тут очевидно, что внутренние знания модели B куда лучше для задачи, просто без дообучения это почти не заметно. Не сомневаюсь, что крупные компании делают подобные оценки: у самих OpenAI, например, появились Evals, и они дают/давали вам бесплатные токены на дообучение + оценку новой модели. Другой навык, который важно замерять, in-context learning — насколько хорошо модель выучивает что-то из контекста, а не своих знаний.

— Авторы утверждают, что Anthropic уже натренировали Opus 3.5 давно и что с ним всё в порядке, масштабировался как и ожидали. Его использовали для генерации синтетических данных, на которых обучались меньшие модели (Sonnet 3.6), и, я предполагаю, дистилляции. Именно из-за этих двух пунктов младшие модели за последний год-полтора сильно поумнели, но их невозможно было бы получить без самых больших и при этом не выпущенных. Помните Gemini Ultra? Её ведь нам так и не дали, хотя она очевидно была у Google. И достоверно известно, что они использовали её для дистилляции (сами писали), и вот с Opus та же история. А не выпускают их потому, что по сравнению со средними моделями Ultra и Sonnet они не настолько хороши в пересчёте на доллар. Условно дороже в 3-4 раза, а метрики на 2-3% выше (но ещё раз: потому что существенная часть их качества перетекла в средние модели, которые без крупных не получили бы). В таких условиях не ясно, когда релизнут Opus 3.5 🤷‍♂️ хотя Dario говорил, что пока всё ещё планируют.

— LLAMA 3 использовала DPO для дообучения на человеческих предпочтениях, это публичная информация, доступная в статье. Этот метод — более стабильный и простой по отношению к. PPO, который (по крайней мере когда-то) использовали OpenAI. Авторы пишут, что исследователи META узнали то, что уже было известно другим лабораториям — DPO плохо масштабируется, и что дальше нужно переходить к «неудобному» PPO, что мы и увидели в LLAMA 3.3 (там появились улучшения по бенчмаркам, хотя этап предтренировки не был существенно длиннее). Мне не удалось найти подтверждение этой информации, нигде не написаны изменения в версии 3.3 (кстати, очень открытые модели, спасибо META, даже тезисного списка изменений нет; может хоть что-то в статье для четвёрки упомянут). В целом я пишу этот пункт потому, что хотел подсветить следующую особенность SemiAnalysis: некоторые вещи они пишут без всяких ссылок и уточнений, даже нет пометки «согласно нашим источникам» или аналогичной. Почти всё всегда выдаётся как факты, и сиди думай, так это или нет; это будет важно дальше, когда мы перейдем к обсуждению o1.

— Ещё раз подсвечивается, что навыки само-корректировки и умение возвращаться назад в рассуждениях у o1 — это появившиеся и выученные моделью паттерны поведения, а не что-то, что было запрограммированно вручную. Это важно и круто потому, что не является бутылочным горлышком при масштабировании и при этом оставляет простор для проявления новых паттернов рассуждения во время обучения.

18,152

Сиолошная

03 Jan, 16:49

Новый трейлер к следующему полёту Starship. А теперь самое главное по миссии Flight 7:

- Тест вывода полезной нагрузки с 10 макетами Starlink V3;
- Переиспользование летавшего двигателя Raptor (R314?) с ускорителя B12 на B14;
- Снова уберут часть плиток и добавят одну тестовую плитку с активным охлаждением;
- На корабль также установят часть оборудования для будущей посадки на башню.

Ну и *буквально* тонны изменений в Starship V2. Полёт на следующей неделе

20,062

Сиолошная

03 Jan, 15:12

Процитирую самого же себя, конкретно для меня ключевое в любом определении LLM-агента— это самостоятельность планирования, то есть возможность выполнять задачу, для которой последовательность действий не была запрограммирована заранее.

В текущих реалиях, где модели не настолько умны, чтобы выполнять 50+ действий подряд, симулируя когнитивные навыки человека, для достижения бизнес-ценности действительно нужно как можно сильнее ограничивать «агента», прописывая заранее, что и когда ему делать.

Но уже в 2025-м году ожидаем полноценных агентов, которые лишь имеют набор инструментов и очень высокоуровневые задачи, и успешно справляются хотя бы с насколько-то значимой их долей.

Вообще в январе-феврале ожидается, что OpenAI представят Operator — аналог Claude Computer Use, где модель будет видеть ваш экран и контролировать клавиатуру/мышь, кликать там и тут, чтобы выполнять ваш запрос. Интересно, где мы окажемся в конце года?

17,396

Сиолошная

03 Jan, 15:09

У Anthropic пару недель назад вышел пост про агентов: https://www.anthropic.com/research/building-effective-agents

Он прекрасен тем, что определяет, что является агентом, а что не является. С точки зрения авторов поста, агент = система, в которой языковые модели динамически управляют собственными вызовами и инструментами, контролируя выполнение какой-то задачи.

Авторы утверждают, что для большинства случаев агенты не нужны: чем проще решение, тем лучше. С чем я полностью согласен 👏

Основное содержание поста — примитивы и паттерны оркестрирования языковых моделей без агентов. Основной примитив: улучшенная языковая модель, которая имеет доступ к инструментам, поиску и памяти. Этот примитив может быть реализован по-разному, например через конечное число последовательных вызовов языковой модели.

🔹Паттерн 1: цепочка промптов
Если задача разбивается на несколько последовательных подзадач, их можно решать отдельными вызовами языковой модели. Например, если вы хотите сделать систему, пишущую книги, вы сначала делаете вызов для генерации названия книги, потом отдельные вызовы для краткого описания, содержания, выжимок глав и непосредственно самих глав.

🔹Паттерн 2: маршрутизация
Если ваше приложение разбивается на несколько возможных параллельных путей, то стоит сделать классификатор, который будет определять нужный путь, и специализированные промпты под каждый из путей. Например, если вы делаете чатбот с несколькими независимыми функциями (рекомендация фильмов, ответы на вопросы по фильмам, чат на общие темы), то стоит использовать этот паттерн. В древних чатботах часто был детектор интентов, который делал ровно это 👴

🔹Паттерн 3: параллелизация
Если задача разбивается на несколько параллельных подзадач, то стоит их и вызывать параллельно. Например, если вам нужно извлечь огромный JSON из текста или переписки, возможно вам стоит извлекать его по кусочкам. Отличие от маршрутизации в том, что в ней нам нужна была только одна ветка, а тут нам нужны результаты всех вызовов.

🔹Паттерн 4: ведущий-ведомый

😭

То же самое, что и параллелизация, только с динамическим количеством и содержанием подзадач. Например, так можно делать агрегацию результатов поиска.

🔹Паттерн 5: цикл оценки
Если есть чёткие критерии оценки качества выполнения задачи, то можно одной языковой моделью решать задачу, а другой — оценивать качество решения и давать обратную связь. И делать это в цикле. Это может работать много где, например в переводе текстов.

Ну и наконец последний паттерн — агенты, которые совершают действия в определенной среде, получают от среды обратную связь, и снова совершают действия.

Мне в разных местах в разное время пришлось использовать первые 3 паттерна. При этом тогда я не формулировал их как отдельные паттерны. Это не какие-то абстрактные штуки, это кристаллизация того, как удобно и просто строить системы (как и любые другие паттерны проектирования).

18,019

Сиолошная

01 Jan, 19:36

Американский математик Роберт Грист написал учебник прикладной линейной алгебры (для инженеров), интенсивно используя помощь языковой модели - Claude 3.5 Sonnet. Весь процесс занял около двух месяцев. В серии твитов он подробно рассказывает о том, как это сделал:

"Клод ухватил мой стиль письма (я дал ему прочитать другие свои книги). Он следил за структурой, тематическими элементами и моими предпочтениями в оформлении в LaTEX. Я простил его написать по одному разделы в LaTEX; затем я собирал куски вместе, редактировал и переписывал их; Клод также помогал с редактированием - это был отдельный процесс.

Я не думаю, что смог бы сделать это так же хорошо (если вообще) с помощью другого ИИ, кроме Клода -- степень продуманности в выборе слов, темпе и тоне очень помогала мне двигаться вперёд. Он также оказался эффективным редактором, способным хорошо устанавливать глобальные связи."

Грист выложил в свободный доступ сам учебник. Я не пытался его внимательно читать и оценивать. В любом случае, количество учебников линейной алгебры такого типа идет на десятки, если не сотни - вполне возможно, что этот хороший и годный, но есть и много других не хуже. Описание процесса мне тут показалось более интересным, чем результат, хотя, возможно, я и не прав. Кину ссылки на учебник и твиты Гриста в комментарии, судите сами.
На картинках: оглавние учебника и пример редакторской критики Клода в процессе сочинения.

23,528

Сиолошная

31 Dec, 12:00

Этот Новый год, к сожалению, отмечаю не в Куала-Лумпур, но это не повод не писать новогодний пост.

Прошедши год был менее продуктивным, чем 2023й — сравнивая их кажется, что 2023й был вообще аномальным, и нужно теперь из всех сил стремиться, чтобы его обогнать. Правда цели, которые я себе ставил, не выполнены в той же мере (все или почти все провалились), ну хоть где-то паритет 👀.

Англоязычных материалов не вышло, хотя уровень языка я подтянул и теперь сильнее уверен в себе; мне кажется меня морально убил перевод лонга про Sora на 53 страницы. Он вышел настолько огромным, что я просто потерял весь запал, мотивацию, и после получения фидбека на правки не нашёл в себе силы сделать ещё вторую итерацию и поправить 10+- страниц. Наглядная иллюстрация фразы «лучшее враг хорошего».

Из позитивных новостей — я говорил, что 2024й получит у меня тему «здоровье», и первые 2 месяца мне очень хорошо удавалось держаться: я каждый божий день с 1го января ходил на дорожку, начиная с 30 минут и дойдя до полутора часов быстрой ходьбы. Потом доступность зала упала (с переездами и сменой локаций), и я хоть и делал 2 попытки вернуться — не вышло. Но всё равно большой шаг вперёд.

Сейчас ближе к концу года я открыл для себя альтернативу, играю 20 минут в начале дня в активные игры в виртуальной реальности. Трекер калорий показывает, что я сжигаю по 180-250 калорий каждое утро, что не может не радовать (хоть это даже не половина от дорожки). Зато сильно бодрит и помогает проснуться, открыть глаза. Надеюсь, хоть это не заброшу через 2 месяца.

TLDR года:
— открытие в ML: модель o1, смена парадигмы работы моделей
— зрелище: посадка ускорителя SpaceX на башню с первой попытки 😳
— статья/проект: тут сложно, ничего в голову не приходит, в прошлом году прям было очевидно. Пусть будет... вот эта, про автоматическое создание графа для ориентирования робота
— игра: сложный выбор между STALKER 2 и Indiana Jones, пусть будет вторая из-за забагованности первой
— песня: сложно определить, что я услышал в 2024м, а не 23м, так что часть кандидатов под вопросом. Поэтому Песня 404 (лол)
— хоть лонга вышло 3, а не 5 (как в 2023м), я ими очень доволен как по качеству, так и по отклику.

Ожидания от 2025:
— ТРЕТИЙ ГОД ПИШУ ДЕДУ МОРОЗУ, ХОЧУ ОСЕСТЬ ГДЕ-НИБУДЬ УЖЕ, А НЕ СКИТАТЬСЯ. Ну ща-то точно свершится, да? 😏
— o4 поверх GPT-5/Orion, разрыв бенчмарков, придуманных в 2024-м для отслеживания прогресса в конкретных экономически ценных задачах
— больше ходить/двигаться, продолжая тему «здоровье»
— GTA VI 😳 ну пожалуйста без переносов 🙏

Всех с наступающим, спасибо, что читаете, лайкаете и комментируете, спасибо, что делитесь со своими знакомыми (надеюсь, вы это делаете!)!

С Новым годом!

🎅

🎁

🎄

🎅

24,656

Сиолошная

30 Dec, 15:34

Увидел у Дениса пост про то, как сетки каналов воруют контент на постоянной основе (только ещё зачастую и суть теряют), и это пробудило во мне давнее желание поделиться одним плейлистом с видео, где ютубер DarkViperAU последовательно и методично раскладывает, почему подобные виды контента (в его случае — react-контент, где популярный стример смотрит чужие видео, иногда ставя паузу и добавляя свои ЦЕННЕЙШИЕ комментарии) вредны для экосистемы (и почему платформы не заинтересованы в разрешении проблемы).

Ссылка на плейлист, первое краткое видео погружает в тему, второе и третье существенно углубляют анализ. Даже если вам не интересен топик (хотя я верю, что можно втянуться во время прослушивания), то рекомендую посмотреть первые 3 видео хотя бы потому что там показывается а) пример последовательного аргументированного отстаивания позиции б) тупость людей, которые влезают в споры без разбора в) отличный английский 🌚(автор роликов учился на философа и писать 50+ страничные эссе могёт) я вот на таких видео С1 себе и напрактиковал (не шутка) г) может, пересмотрите мнение касательно некоторых контентмейкеров

Я буду рад, если хотя бы 20-30 человек посмотрят по часу из плейлиста, и буду считать, что мой долг выполнен. А если больше — то и подавно. Вот например MoistCr1TiKaL / penguinz0, если вы такого знаете, перестал делать react-контент именно после этих видео (и общения с их автором).

Ссылка ещё раз

24,603

Сиолошная

27 Dec, 16:52

Еще пара примеров txt2vid нейронки от Google: Veo 2, в этот раз с акцентом на качество симуляции физики:

22,680

Сиолошная

27 Dec, 13:33

Why OpenAI’s Structure Must Evolve To Advance Our Mission

Пока кто-то празднует, а кто-то только готовится, работяги в Долине трудятся не покладая рук РАДИ НАРОДА, РАДИ НАС, НЕ БЕРЕГУТ СЕБЯ, и рассказывают, зачем OpenAI нужно становиться коммерческой компанией. Тезисно:

— успех коммерческой ветки позволяет и будет позволять некоммерческой организации получать хорошее финансирование, быть более устойчивой и занимать более прочную позицию для выполнения своей миссии (суперкомпьютеры нынче не дешевые)
— ранее таких больших средств было не нужно, компания могла жить на пожертвования: $137M (меньше трети от Elon), и примерно $50M в ресурсах облачных провайдеров
— позже стало ясно, что нужно куда больше денег
— с 2019го года в компании уже была коммерческая ветка. По оценкам (с ними соглашался Ilya Sutskever в одном из своих писем) можно было обойтись не более чем 10 миллиардами долларов для достижения AGI. Если бы эта оценка была правильной — компания бы существовала в своём нынешнем виде, и никаких переходов и смен структуры не было бы.
— «Наше влияние — это не только то, что мы создаем сами, но и то, как мы воздействуем на других. Отчасти благодаря нашему прогрессу⁠ в этой области существует яркая⁠ конкуренция⁠ — от коммерческих продуктов, подобных ChatGPT, до LLM с открытым исходным кодом и энергичные инновации⁠ в AI Safety. Эта деятельность — только начало AI-подпитываемой экономики, которое показывает, как стремление OpenAI к лидерству в этой области может вдохновить другие организации на продвижение миссии.
— Сотни⁠ миллиардов⁠ долларов, которые крупные компании сейчас инвестируют в разработку ИИ, показывают, что на самом деле потребуется компании вроде OpenAI, чтобы продолжить следовать своей миссии. Нам снова нужно привлечь больше капитала, чем мы себе представляли. Инвесторы хотят нас поддержать, но при таком масштабе капитала им нужен обычный акционерный капитал и меньше структурной мороки.

Будущее:
— Вступая в 2025 год, нам придется стать больше, чем просто лабораторией и стартапом — нам придется стать устойчивой компанией. Сейчас мы сосредоточены на следующих целях:
1) Выбрать смесь некоммерческой/коммерческой структуры, которая лучше всего подходит для долгосрочного успеха миссии. Наш план заключается в превращении коммерческой части компании в Public Benefit Corporation⁠ (PBC, такое например у Anthropic и Inflection). Это позволит нам привлечь необходимый капитал на обычных условиях, при этом работая на благо общества
2) Сделать некоммерческую часть организации устойчивой. Наш план приведет к созданию одной из самых обеспеченных ресурсами некоммерческих организаций в истории. Значительный интерес некоммерческой организации к существующей коммерческой организации будет иметь форму акций в PBC по справедливой оценке, определенной независимыми финансовыми консультантами. Это многократно увеличит ресурсы, которые дали предоставляли наши доноры.
3) Оснастить каждое из направлений всем необходимым для функционаирования. Текущая структура не позволяет членам совета Директоров учитывать интересы инвесторов. В будущем некоммерческая часть компании наймет руководящую команду и персонал для реализации благотворительных инициатив в таких секторах, как здравоохранение, образование и наука.

26,563

Сиолошная

26 Dec, 18:11

Никакого AGI в ближайшие 5 лет — твёрдо и чётко.

Да кто такой этот ваш AGI... спроси пятерых — ответят пять разных вещей. А между прочим это важный вопрос для OpenAI, ведь создание AGI это а) цель компании б) точка, после которой OpenAI может в одностороннем порядке разорвать все отношения со всеми инвесторами (это закреплено договорами), и быть им ничего не должна.

В уставе компании есть ёмкая формулировка, которая к сожалению оставляет пространство для интерпретации: «превосходит людей в большинстве экономически важных задач». От чего меряем большинство, где граница важности, итд — непонятно.

Теперь, согласно новости от TheInformation, в рамках переговоров с Microsoft было сформулировано новое определение, звучит так: ИИ-система, которая может принести не менее 100 миллиардов долларов прибыли.

С одной стороны до такой системы далеко — сейчас у компании прибыли нет, а годовая выручка порядка 5 миллиардов. С другой — формулировка «может принести» («can generate» в оригинале) как будто подразумевает не состоявшийся, а потенциальный факт. Такая система может быть разработана и не опубликована (принести $0), но всё равно попадать под определение. Плюс нет ограничения по времени, принести 100 миллиардов за год куда сложнее, чем за пятилетку.

А почему не будет AGI ещё 5 лет? Ранее я писал, что компания вообще не планирует получать прибыль до 2029-го года. Примерно в то же время выручка (но не прибыль) должна стать примерно $100B. Но «can generate», в теории, позволяет заявить об AGI на пару лет раньше 🤷‍♂️

===

По словам человека, общавшегося с Sam Altman по поводу переговоров с Microsoft, основное внимание сосредоточено на четырёх вопросах:
— доля Microsoft в новой коммерческой организации
— останется ли Microsoft эксклюзивным поставщиком облачных услуг OpenAI (последние немного недовольны темпами роста мощностей, и смотрят по сторонам в поисках партнёрств)
— как долго Microsoft будет сохранять права на использование интеллектуальной собственности OpenAI в своих продуктах
— продолжит ли Microsoft получать 20% от выручки OpenAI

28,585

Сиолошная

26 Dec, 16:06

Молодой я 🫣 в 2018м году беру вопрос про AlphaGo на новогоднем ЧГК от Яндекса с @cryptovalerii в качестве ведущего 😍

https://youtu.be/dxn9pdA75Wc?t=2820

20,285

Сиолошная

26 Dec, 15:52

И теперь мои пара центов к этой дискуссии. Немного обидно, что на тезисы про креативность Bubeck не вспомнил пример из Го — поэтому часть дискуссии, как бы я в неё вклинился, могла бы выглядеть так:

Мы не знаем, что такое креативность, и скорее всего это придуманный нами концепт, которого в реальности не существует. То что мы можем воспринимать за креатив — это на самом деле просто неоптимальность нашего восприятия, мы что-то упустили, что-то не знали, и поэтому какая-то информация кажется прям ВАУ. Но так как машины «думают» не как мы — они могут быть этому не подвержены (или подвержены в другой мере).

Известен ход 37 во второй партии AlphaGo, нейросети, обыгравшей человека в Го (что долгое время считалось невозможным), против абсолютного чемпиона всего что только можно Lee Sedol. Я в канале уже упоминал документальный фильм, снятый DeepMind, и там есть этот момент — смотрите с этого таймкода. Послушайте реакцию профессиональных комментаторов и игроков, которые просто не поняли, почему AlphaGo решила сходить так. Они думали, что это или ошибка, или модель тупая и не понимает что-то. Люди так не сходили бы, в этом не видно смысла.

Сами DeepMind пошли проверять, почему такой ход вышел — и подтвердили, что их нейросеть, которая занимается оценкой потенциальных ходов (натренирована на играх живых людей), даёт оценку на такой ход в 1 из 10000. Его никто бы не рассматривал, он не кажется перспективным, оптимальным, победным. Lee Sedol после хода думал 12 минут, в то время как обычно тратил 1-2.

Когда партия начала развиваться, стало ясно, что это был опорный камень для стратегии AlphaGo. Через некоторое время Lee Sedol сдался и проиграл вторую игру. Комментаторы и игроки кайфовали от этого хода (собственно поэтому он и запомнился всем).

Сам Lee Sedol говорит про это в интервью:
— Я думал AlphaGo оперирует вероятностями и является просто машиной. Но когда я увидел этот ход — я изменил своё мнение. Абсолютно точно AlphaGo креативна. Этот ход был очень креативным и просто прекрасным. Этот ход заставил меня думать о Го в новом свете. Что значит креативность в Го? Этот ход был действительно продуманным, он был полон смысла.

===

Так что вполне возможно, что КРЕАТИВ — это просто то, что тупые мы не видим, хотя на самом деле оно оптимально.

Что ещё примечательно — так это что AlphaGo и её последователи хоть и кажутся непобедимыми машинами, но... и они не лишены недостатка. В 2023м году один исследователь нашёл некоторые изъяны в логике модели (хотя сам он в Го играл еле-еле) и смог у неё выиграть несколько игр подряд — вот блог с объяснением (и там же ссылки на статьи). Казалось бы как так — СУПЕР УЛЬТРА МЕГА УМНАЯ НЕПРОИГРЫВАЮЩАЯ машина и может проглядеть такую атаку? И ничего не может сделать? Серьёзно?

😀 никакой пример 9.11 и 9.8 не напоминает? 👀 ну как это, решает PhD задачи и доказывает теоремы, которые я даже понять не могу, и не знает какое число больше? 🫵

😂

21,717

Сиолошная

26 Dec, 15:33

Bubeck:
— то что мы делаем с о1 — оно чрезвычайно масштабируемо, все как бы возникает само собой, мы ничего вручную не программировали намертво, чтобы научить модель чему-то. Всё что вы видите, мы это не говорили модели, типа «эй, ты должна перепроверить себя или вернуться на пару шагов в решении, так как застряла». Мы ей не давали никакую тактику, всё это выучилось само через Reinforcement Learning. [прим.: с выходом o3 этот тезис стал ещё более сильным, ибо прогресс в масштабировании за 3 месяца существеннен]
— Да, для некоторых задач может быть мало данных для тренировки, но у нас есть синтетические данные, мы можем прям писать учебник для AI контролируемо и скармливать модели во время тренировки
— Я думаю, что креативность — это распознавание паттернов на некотором уровне абстракции (не в лоб, а видеть лес за деревьями), и это навык которому можно научить через большое количество синтетики.

====

И на этом всё. Bubeck выиграл дебаты, если верить голосованию аудитории (хотя до начала, если я правильно рассмотрел результаты — они сильно отсвечивали и было плохо видно — люди не были согласны с оригинальным тезисом).

17,470

Сиолошная

26 Dec, 15:33

Bubeck:
— я согласен с этими вещами (про тренировочные данные, креативность и ошибки в рассуждениях) и с исследовательской работой McCoy, но я прихожу к другим выводам и спорю с тем, как это воспринимаете вы. Я вот могу судить по себе, что большая часть моих исследований — это комбинирование того, что уже есть, плюс совсем немного случайных блужданий вокруг идеи. И то же я вижу в подавляющем большинстве других работ, взяли то и это, скрестили, получили такой результат. Комбинирование само по себе — это безумно сильный навык.
— Что же касается ненулевых галлюцинаций в длинных цепочках рассуждений, ну, кажется эта критика применима и к людям. Если посмотреть на черновики научных статей на 50+ страниц — они часто содержат неточности и ошибки, и поэтому у нас есть процесс ревью, где люди получают обратную связь от ревьюиров, им указывают на белые пятна итд. Это важная часть итеративного процесса исследований. И она хорошо переносится на LLM, где нескольким разным агентам присваивают роли: одна модель генерирует решения, другая ищет ошибки и указываете на них, потом первая исправляет и так по кругу.
— И последнее — да, модели могут хуже решать задачи, навыки для которых редко проявляются в тренировочных данных. Но это не значит, что этих навыков в них нет — они представлены, просто на модель нет давления их проявлять (и она не выучилась как их использовать), но можно использовать дообучение для того чтобы извлечь и проявить навыки [прим.: как делали с GPT-3.5 и с o1]

McCoy:
— а мы кстати провели те же исследования на сортировку и подсчёт с o1-preview, и хоть модель стала существенно лучше, всё равно не справляется так хорошо с менее частыми примерами задач. Пока не выглядит так, что дообучение позволяет побороть проблему. А чтобы комбинировать навыки и знания нужно знать что именно комбинировать, и моделям часто нужно явно говорить, что брать и что делать — они сами не могут.
— Если рассматривать самые успешные и прорывные доказательства в науке, то они отличаются креативностью, используют и комбинируют вещи в новых форматах, не так как, как это привыкли делать.

Bubeck:
— Я поделюсь своим опытом. Недавно во время работы с о1 [прим.: он говорит o1 плюс эпсилон, ахахах это наверное o3 была? на момент дебатов её не анонсировали] я взял свою статью которая уже почти дописана, но нигде не опубликована, лежит ждет полировки. Материал точно новый, и отвечает на вопрос «how long can be the gradient flow of a convex function?». Я задал этот вопрос модели, и она подумала и предложила связь этой темы и «self-contracted curves» и объяснила почему это хорошая идея. Когда я работал над статьей мне потребовалось 3 дня, чтобы самому прийти к этой связи. Я мог бы написать статью на 3 дня быстрее даже вот с этой базовой моделью, доступной сегодня! И это не гипотетические ситуации, это уже вот здесь с нами в наше время.
— Вдобавок я знаю людей в аудитории, которые рассказывали похожие истории, как о1 им помогала с нахождением связанных с их вопросом лемм.

McCoy:
— ну это всё как бы да и круто, но ведь те математические проблемы, о которых мы говорим в рамках дискуссии — сейчас-то люди с ними не справляются, то есть не достаточно достигнуть уровня «как у людей», нужно прыгнуть выше. Не считаю, что про это мой оппонент что-то сказал.

Закрывающие высказывания. McCoy:
— я оптимистичен по поводу AI-помощников, которые помогут нам, даже в этих нерешённых проблемам, но скептичен, что дальнейшее масштабирование приведёт к автоматическим доказательствах, не вовлекая людей.
— Что нужно улучшить в моделях? Длинные рассуждения и долгосрочную память (и её использование), надежность работы и ситуацию с галлюцинациями тоже нужно улучшать.
— Никто не знает что значит быть креативным, но что скорее всего важно - это аналогии и абстракции, которые помогают смотреть на те же идеи под новым углом, и находить новые связи.

13,512

Сиолошная

26 Dec, 15:33

Утром посмотрел дебаты, прошедшие в Simons Institute пару недель назад. Тема для обсуждения: «Текущие подходы масштабирования LLM достаточны для создания новых методов, необходимых для разрешения основных открытых математических гипотез, таких как P != NP» (ну и две позиции, согласны или нет). В них участвовал Sebastien Bubeck, автор статьи Sparks of AGI и ex-VP AI Microsoft (автор линейки моделей Phi), недавно перешедший в OpenAI для работы над синтетическими данными, и Tom McCoy, исследователь из Yale University, про которого я ничего не могу сказать, кроме как сослаться на упоминаемую им статью. Ниже — краткий пересказ их дискуссии.

Bubeck:
— мы видим по всем бенчмаркам существенное развитие навыков в моделях. Один из подходов, который я использую для рассуждений об AGI, это сколько времени работы человека модели могут взять на себя. С выходом GPT-4 мне стало ясно, что это AGI-секунды: модель может выдавать ответы, как если бы человек не думал больше пары секунд. В таких ответах бывают ошибки, но это уже что-то. Именно это сподвигло написать меня статью Sparks of AGI. С моделями типа o1 это уже AGI-минуты или даже AGI-часы, если говорить про математику и программирование. Дальше последует один AGI-день, первые агенты, которые могут решать задачу 6-10 часов и выдавать результат. После этого будут дни, а там и недели. А AGI-недели — это всё, что нам нужно для достижения большого количества открытий.

McCoy:
— наш анализ показывает, что модели хороши на тех задачах, которые представлены в их обучающей выборке, и чем чаще что-то появляется в тренировке, тем лучше будет модель. Тут он ссылается на свою статью, где пробуют считать 29 и 30 букв (30 встречается чаще, круглое число) и смотрят на качество, или где работают с алфавитным упорядочиванием и обратным. Для того, чтобы решать принципиально новые задачи, которые ещё не решены математиками, нужны качественные изменения, ведь эти новые проблемы по определению имеют нулевую обучающую выборку. Нам не на чём учиться под нерешённые задачи. При этом я не отрицаю, что у моделей есть генерализация, и что они могут справляться с новыми примерами, не виденными во время обучения. Кроме того я верю, что они умеют делать композицию из нескольких знаний или навыков [прим.: я видел статью, там доказано на примерах, что это правда так: модели могут исполнять последовательности навыков, не встречавшихся ранее]. Но для того, чтобы создавать что-то поистине новое, нужно уметь быть креативным, с чем у моделей есть проблемы. Вдобавок, пока у моделей уровень галлюцинаций выше нуля, длинные цепочки рассуждений будут содержать ошибки, не позволяющие справляться с исследовательской работой [прим.: прям как ЛеКун говорит].

13,359

Сиолошная

26 Dec, 12:28

Подарок от китайцев западному миру на Рождество: DeepSeek опубликовали третье поколение своих LLM, так ещё и полноценный технический отчёт (ссылка на PDF). Деталей в нём много, вот очень краткое саммари:

— модель гигантская, больше 650 миллиардов параметров, однако как и в прошлый раз применяется подход MoE, микстура экспертов. Поэтому каждое слово при генерации проходит примерно через 37 миллиардов параметров.
— они предлагают оптимальный способ применения моделей, для чего нужно... больше 340 GPU 🤷‍♂️(но это оптимальное, можно сильно меньше)
— модель тренировали относительно мало, так как обучение очень эффективно. На финальный запуск потратили менее $6M на 2048 GPU. При этом модель видела почти 15 триллионов токенов (как LLAMA3). Большая часть вычислений происходила в FP8 (E4M3; так как GPU быстрее считают)
— модель училась предсказывать сразу несколько следующих слов. Помимо улучшения качества это позволяет из коробки получить спекулятивное декодирование, то есть а) удешевить б) ускорить использование. У DeepSeek цены вообще копеечные по сравнению с другими провайдерами.
— данные для дообучения получались путём... генерации цепочек рассуждений моделью R1 (это их аналог o1). Это для математики, программирования и смежных областей, написание эссе и более традиционные нетехничекие задачи делали как обычно
— в конце статьи авторы даже дают рекомендации на будущее производителям чипов, что и как бы им хотелось видеть

Ссылку на веса давать не буду (а зачем, у вас что, есть 2x8H100?), но поиграться можно бесплатно на сайте тут.

Ну а метрики — вот:

16,178

Сиолошная

25 Dec, 12:41

UPD2: всё, закрыли цель. Спасибо неназванному члену команды TON Core.

<👀 пост попрошайничества, читаем до конца 🙂>

К сожалению, большая часть материалов Semianalysis скрыта за платной подпиской. А они обладают инсайдерской информацией и почти всегда пишут про интересные вещи: от прикидок наценки на использование LLM до анализа спутниковых снимков (с инфракрасным слоем, как у шпионов) с целью разведки строящихся и работающих датацентров.

Подписка на полное издание стоит $500 в год. Не то чтобы это огромные деньги и я не мог себе этого позволить, но просто пока не созрел морально, чтобы отдавать столько за статьи.

Вы знаете, у меня в канале рекламы нет, так бы закинул один пост яндекса или сбера — и можно было купить себе и подписку, и новый смартфон, и ещё на латте останется. Но я ж вас здесь не с лопаты пришёл кормить всё таки.

Поэтому я предлагаю тем, кто видит ценность в информации от Semianalysis, кому прям интересно, скинуться на подписку. Это может быть один человек, может быть несколько. Напишите мне в личку (см. контакт в чате; можно писать в комменты, если не стесняетесь публичности), если вдруг у вас появилось хорошее настроение в Рождество, чтобы выступить спонсором.

UPD: в идеале 1, край 2 человека.

UPD2: всё, закрыли цель. Спасибо неназванному члену команды TON Core.

19,665

Сиолошная

25 Dec, 12:41

В свежей рассылке от Semianalysis пишут, что Nvidia всего через 6 месяцев после релиза своих GPU B200 и GB200 уже готовится к выпуску 300-й серии. Хоть это может звучать минорно, на самом деле на ряд задач и экономику моделей это повлияет существенно. Почему? Давайте смотреть.

Сама карта станет помощнее (ожидается, что на 50% больше FLOPs, чем у H200) за счёт нового дизайна/увеличения потребления энергии/etc, но это не самое интересное. В 300-й серии будет по 288 гигабайт памяти (против 141 у 200 и 80/94 у 100).

Улучшения памяти являются ключевыми для обучения и применения «рассуждающих» моделей вроде o1/o3 из-за длины генерируемого ответа, раздувающего кол-во промежуточной информации, которую нужно хранить (KVCache), что критически сказывается на задержке в ответе и количество одновременных запросов.

Вот как выглядит разница между уже существующими 100-й и 200-й версиями. На бумаге у них полностью одинаковые FLOPs (во всех форматах вычислений, от INT8 до FP64, смотрите тут и тут), отличается объем памяти (и её пропускная способность, так как больше чипов — можно одновременно грузить каждый из них в параллель).

Взяли LLAMA-405B, запустили в FP8, подали на вход 1 тысячу токенов и генерировали 19 тысяч — то есть примерно как у o1/o3, когда рассуждения в ответе куда больше исходной задачи.

По оси OX отмечено количество одновременных запросов (грубо говоря сколько пользователей ждут ответа), по OY — сколько токенов в секунду будет у каждого. Больше пользователей = меньше скорость у каждого.

Видно, что карта с большим количеством памяти существенно расширяет возможности предоставляемых услуг: либо можно выдавать ответы куда быстрее, либо одновременно обслуживать больше клиентов. Для последнего — если мы целимся в чуть более чем 50 токенов в секунду на пользователя (это чуть меньше, чем выдают OpenAI), то сервер с B100 может держать 20-25 пользователей, а B200 — больше 65. И это только из-за увеличения памяти.

«ну а чо такого, ясно карта дороже = лучше, и?» — могли подумать вы. А дело в том, что по подсчётам Semianalysis выходит, что B200 примерно в 3 раза выгоднее по себестоимости токена. А карта-то стоит сильно меньше, чем x3 от B100 (ведь чипы у них фактически одинаковые). Поэтому В Ы Г О Д А.

С переездом компаний на B300 стоит ожидать дальнейших а) падения цен б) ускорения ответов в) удлинения цепочек рассуждений.

18,181

Сиолошная

25 Dec, 08:15

Пока завтракал, прочитал итоги года от Вастрика https://vas3k.blog/blog/2024/ , и вам советую (чтоб составить планы на следующий год 😀). Вообще интересный темп жизни, желаю побольше вам интересных приключений, особенно после 30 😀 (людям с детьми соболезную 😀)

Клёво, что софтом года стал новый AI-редактор кода Cursor, и Вася очень правильный совет дал: «сначала посмотрите на ютюбе хотя бы несколько обзорных роликов, некоторые приёмы работы с кодом не сразу очевидны, нужно сначала вкатиться».

16,445

Сиолошная

23 Dec, 06:46

Ну и давайте чтоб два раза не вставать, сразу ещё про другой бенчмарк поговорим, LiveBench. Как можно догадаться по названию, его хотели сделать «актуальным» и валидировать модели на новых свежих примерах. Его регулярно обновляют, убирая старые задачи и добавляя новые. Вот что пишут сами авторы: «LiveBench разработан для ограничения потенциального запоминания данных путем ежемесячной публикации новых вопросов, а также путем включения задач, основанных на недавно опубликованных наборах данных, статей с arXiv, новостных статьях итд».

Например, для программирования (колонка Coding) там используются свежие задачи с площадок Leetcode и AtCoder, которые хоть и не всегда прям супер-ультра уникальные, но всё же лучше, чем задачи, которые точно в такой же формулировке уже были в интернете 5-6 лет назад. А по математике доливают задачи с только что прошедших олимпиад (там-то авторы обычно прям очень сильно заточены на то чтобы давать что-то абсолютно новое и неповторяющееся; и задачи проходят много циклов проверки и доработки — ну по крайней мере такое у меня представление, а я до всероса даже не доходил).

o1 уверенно занимает первую строчку, в некоторых колонках с большим отрывом от конкурентов (особенно заметно в Reasoning — сюда входят в том числе загадки Эйнштейна, но OpenAI почти наверняка тренировались на их вариациях, чтобы развивать рассуждения моделей).

Значимые цифры у других моделей также постарался выделить.

Детали о всех типах задач в каждой колонке можно прочитать вот тут.

19,374

Сиолошная

23 Dec, 06:34

Уже пару раз в канале писал про Aider, открытого AI-ассистента для написания кода, поддерживающего почти всех LLM провайдеров. Для того, чтобы отслеживать тренды в области и давать рекомендации/советы пользователям касательно выбора моделей, создатель придумал несколько бенчмарков по программированию на внесение изменений в код.

Однако прошлый основной бенчмарк за +-годик уже немного устарел, потому разработчик решил сделать новый. Очень большая доля тестовых датасетов по программированию — на Python, что не совсем точно отражает качество работы в менее популярных языках. Теперь же бенчмарк содержит 225 задач на C++, Go, Java, JavaScript, Python и Rust. Это самые сложные задачи с образовательной площадки Exercism (не реклама, я впервые слышу про этот сайт). Минус тут, как можно понять по последнему предложению, что это задачи а) открытые, выложенные в интернет б) обучающие, то есть скорее всего часть из них повторяется и обсуждается на других сайтах.

Но имеем что имеем, всё же делать с нуля бенчмарк с уникальными и написанными с нуля задачами на 200+ примеров — дело достаточно времязатратное. С проверкой моделей всё хуже и хуже, так как нужно нанимать очень высококвалифицированных специалистов, чтобы делать актуальный тест — вон как в FrontierMath нанимали ведущих исследователей в математике, вплоть до лауреатов Филдсовской премии.

Тем не менее, давайте смотреть на результаты. o1 от OpenAI тут существенно обгоняет всех подряд. Свежая gemini-exp-1206 на уровне с o1-mini, gemini-2.0-flash решает лишь 22%, что меньше Haiku 3.5. Внизу неожиданно волокётся gpt-4o с 15% решений, это немного неожиданно. Но если принимать за правду спекуляцию, что o1 обучена поверх той же базовой модели, что 4o, то становится заметен результат нового подхода к обучению от компании, приводящий к существенному улучшению (ну это мы по всем остальным бенчмаркам заметили).

17,495

Сиолошная

22 Dec, 17:43

Появились идейки 2 мини-проектов с LLM (по сути чуть-чуть пошатать существующие бенчмарки и относительно немного пописать код). Суммы на эксперименты там достаточно маленькие, могу выдать кредиты, если нужно. Не думаю, что на занятия уйдет большее 10-12 часов. Цель исключительно просветительская, никакой коммерции, и все результаты/инсайды будут открыты.

Но вот не знаю, как отобрать двух (или более?) людей, с кем работать. Код там должен быть очень простой, большую его часть почти наверняка может написать Cursor или o1.

Какие у вас есть идеи, как можно выбрать людей, по каким критериям? Не хочется оценивать по времени реакции (первые под постом) или по акткивности на гитхабе/Kaggle, и хочется сделать это быстро, без мороки.

18,077

Сиолошная

22 Dec, 09:14

Давайте ещё поговорим про цену. Пусть даже сейчас $20 за задачу кажется большой суммой. Нет оснований полагать, что цены на модели уровня o3 в течение года не упадут в 5 и более раз. На горизонте 5 лет я КОНСЕРВАТИВНО ожидаю, что цены снизятся более чем в 25 раз (так ещё и модели поумнеют), основные причины:

— текущая маржа всех в цепочке оооочень большая. Основная стоимость тренировки и применения сеток — это чипы, а не электричество или человеческий труд (и эта доля будет расти). Nvidia продаёт карты с гросс маржой 75%, сколько-то ещё отстегивает себе Microsoft.

— вот тут я репостил расчёты исследователя из Google об экономике инференса модели gpt-4o. Там получалось, что наценка для нас с вами в 50 раз))) я чуть не согласен с расчётом, но порядок величин такой же. Представляете, насколько самим OpenAI и другим компаниям легко себе миллиарды страниц синтетики генерировать?)

— у модели нет конкурентов (ща эксперты в комментариях расскажут как они на LLAMA-2-7B получают ответы лучше GPT-5), цены задирают. Как только релизнутся Gemini и Claude — как и в случае с GPT-4, пойдет спад цены (см. пункт выше, есть куда ужиматься)

— как только станет понятно, насколько o3 хороша в экономически важных задачах определённого рода (программирование, юриспруденция, медицина, etc) — люди будут готовы и больше $1000 за задачу выкладывать, что ещё больше разгонит индустрию железа для минимизации цен на инференс моделей

— GPU и специальные чипы не стоят на месте, и в пересчёте на доллар мощности прибавляются и прибавляются

— модели научатся оптимизировать, условная o5-mini может быть лучше большой o3 в задачах, тесно связанных с рассуждениями (o3-mini вот в программировании на ряде бенчмарков, показанных OpenAI, обходит полноценную o1)

— И как саммари всего вышенаписанного: GPT-4 подешевела в 5+ раз за 14 месяцев (понятно, что это другая модель, но качество-то на абсолютном большинстве задач выросло)

Так что это релиз стоит рассматривать исключительно с точки зрения возможностей, которые будут скоро доступны по крайне низким ценам. Любая критика, сводящаяся к «ну да норм но $6000 за задачу которую ребёнок решает?» банально неуместна. Человек её высказывающий и использующий как основную имеет меньше интеллекта, чем o3 😀

17,583

Сиолошная

22 Dec, 08:54

Вторая заметка, про цену использования o3:
— сам по себе бенчмарк подразумевает, что нужно достигнуть определённого уровня (75%) с учётом ограничения на вычислительные мощности, конвертированные в доллары ($10000 за 500 задач, 400 общедоступных + 100 секретных; $20 за задачу, в среднем человеку платили где-то $4-5)
— на ARC свежая модель OpenAI тестировалась двумя способами: чтобы уложиться в это ограничение, и чтобы пофлексить мускулами и показать наилучший возможный результат, потратив гораздо, нет, ГОРАЗДО больше денег.
— первый сетап, чтобы уложиться в $20 на задачу: модель параллельно и независимо генерирует 6 вариантов ответа, и затем из них выбирается один или два, который появлялся чаще всего (вообще ARC позволяет и людям делать 2 попытки, и обычно модели замеряют также, а тут не уточнили; по умолчанию считаю, что тоже 2, но это не важно).
— при этом цена использования o3 не сообщалась, и при расчётах используются цены на o1 (ведь она уже выпущена). Я делаю аккуратное предположение, что скорее всего модель будет стоить столько же, и что она, видимо, имеет примерно те же самые размеры (по крайней мере количество активных параметров). Увидим в январе-феврале '25-го, тут вообще спекуляция.
— для 100 приватных задач модель сгенерировала 33 миллиона токенов решений, то есть каждое решение (из 6 для задачи) в среднем имело длину 33M / 100 / 6 = 55'000 токенов, примерно 100 страниц текста. Жаль, что не показали результаты замера с генерацией одного решения.
— кажется, что 100 страниц это очень много и «модели очень глупые раз нужно столько писать» (тупейший аргумент кста), но на самом деле это может снова быть связано с форматом входных данных. Каждая клетка в сетке для задачи — это одна цифра плюс запятая. Сетка 20x20 квадратов — это уже 400+ токенов, страница текста в представлении LLM.
— и вот при таком подходе получилось 75%, планка взята, никаких суперультрабезумных затрат в миллионы долларов нет.
— Что плохо: мне не удалось найти, какие настройки o3 использовались. OpenAI показывали, что и для o1, и для o3 есть настройка длины и интенсивности цепочек рассуждений (low, medium и high), чтобы контролировать цену. Больше платишь = модель рассуждате дольше = ответы лучше. Аккуратно предположу, что 55'000 токенов — это средний режим рассуждений (он стоит у o1 пол умолчанию), не очень коротко, но и не очень долго.
— теперь к флекс-режиму. Он отличается тем, что вместо 6 решений генерируется 1024, и уже среди них выбирается одно или два самых популярных. Отсюда увеличение в ~170 раз (1024 / 6), в том числе и по цене: вместо $10'000 нужно потратить $1.7M. Это приносит свои плоды — качество вырастает с 75.7% до 87.5%. Обратите внимание, что это не «87.5% при возможности отправить 1024 ответа»: ответов отправляется 1 или 2, и они выбираются из этого множества генераций автоматически, без вмешательства человека и без доступа к истинному ответу. Вам не нужно в жизни генерировать и отсматривать столько решений.

Так что результаты, сравнимые со средними человеческим, можно получать в рамках относительно разумных затрат.

UPD к предыдущему посту: меня поправили и указали, что 300 задач для тренировки — это отдельные задачи, выделенные именно для тренировки, не связанные с 400, на которых мерили качество (но для них ответы всё равно доступны). Это никак не меняет канву повествования, кроме как подкрепляет тезис, что эти 400 и новые 100 сильно отличаются (так как качество просаживается, но всё равно остаётся высоким).

15,159

Сиолошная

22 Dec, 08:29

Проснулись-потянулись, изучили детали тестирования модели o3. К сожалению, много интересной информации есть только про замеры на ARC-AGI, поэтому про него и будем говорить. Во первых, вот четыре моих поста, которые рассказывают идею, заложенную создателем теста, и некоторый бэкграунд о том, насколько хорошо такие задачи решались (и почему не решались): раз, два, три, четыре. Последние два опциональны, первые два рекомендую к ознакомлению перед дальнейшим чтением.

Итак, сходу две важные заметки.
Первая:
— в тренировочную выборку o3 добавили 75% тренировочной выборки ARC (300 задач из 400 доступных). То есть модель точно знакома с форматом заданий, и примерно понимает типы преобразований паттернов в датасете. Тренироваться на тренировочной выборке — это не проблема, она для этого и существует. В эпоху до LLM, да и в её первые годы так всегда делали, только примеров было куда больше, потому что глупые модели не могли быстро выучиться
— одной из моих основных критик ARC'а было как раз то, в каком формате подаются данные в модели [[0 1 0 0 2 0 ...], [2 0 1...],...], каждая цифра — отдельный цвет квадратика). Это сильно усложняет восприятие задач моделью и обнаружение пространственных паттернов; у нас над этим работает часть мозга, натренированная на миллиардах секунд визуальной и пространственной информации.
— так что добавление примеров в тренировку — это, в моём представлении, попытка показать модели, как понимать входные данные. OpenAI говорят, что они не дообучали модель никак отдельно, то есть эти 300 примеров были добавлены вместе с сотнями тысяч других задач, от программирования до математики. Та же модель, что проходит ARC, применялась для всех остальных замеров, никакой специально заточенной версии нет, это общая модель.
— сам автор бенчмарка, François Chollet, тоже не видит проблем с использованием 300 тренировочных задач для... тренировки.
— результаты, которыми хвастались OpenAI, получены на сотне других задач, тестовых и полу-приватных. Более того уже давно известно, что эти задачи содержат другие паттерны, которые сложнее в том числе и для людей (померили, насколько много задач решают бычные люди тут и там, и оказалось, что во втором случае процент меньше). Собственно, François так и задумывал: он хотел тестировать, что модели могут находить и комбинировать новые паттерны на лету, в его представлении это и было отражением интеллекта
— считаю важным отметить, что возможность закинуть любые задачи, для которых существует верифицируемый ответ, в процедуру тренировки o1/o3 моделей, так, что это принесёт плоды и ничего не сломает — это очень круто, так как показывает обобщаемость (и вместе с тем ограниченность) метода
— закономерно, результаты на 400 задачах лучше (ведь модель видела 300 из них, в том числе и ответы), но на новой сотне они тоже очень высокие: 87.5% (я не знаю, как получилось пол прцоента при 100 задачах, не спрашивайте). В среднем, участвовавший в онлайн-разметке человек решает 75% (хотя по другим данным 60%, так что задачи точно не «такие легкие»).
— Итого: на этой сотне новых задач o3 показывает феноменальные результаты, которые очень удивили авторов бенчмарка. Они не были к этому готовы, потому пишут: «Это не просто постепенное улучшение, а настоящий прорыв, знаменующий качественный сдвиг в возможностях ИИ по сравнению с прежними ограничениями LLM. o3 — это система, способная адаптироваться к задачам, с которыми она никогда раньше не сталкивалась». К сожалению, мы не знаем, является ли o3 системой (из нескольких компонент) или же это просто одной LLM, которая пишет оооочень длинные цепочки рассуждений, сама себя проверяет и приходит к ответу. Для o1 это верно, и если верно для o3, то это безумно круто.

И вдобавок:
— o3 показывает результаты гораздо лучше, чем системы, разработанные в рамках соревнований за миллион долларов в этом году (писал тут). А там люди не то что на 400 тренировочных примерах обучали свои модели, они генерировали СОТНИ ТЫСЯЧ синтетических примеров, и уже на этом тренировались (200 и 400 тысяч вот в этой статье).

16,996

Сиолошная

21 Dec, 17:42

...и на 13й день сказал Sama: да пусть каждый подписчик ChatGPT, даже за $20, получит возможность генерировать видео (в приоритетной очереди) в Sora без ограничений

✨ да начнётся креатив 💫

20,286

Сиолошная

20 Dec, 19:17

Забавные моменты:
* получить 91% на 400 примерах public arc-agi стоило x172 больше ресурсов чем на 82%. Похоже больше ляма баксов (6677*172 = 1148444) если в деньгах.
* авторы ARC-AGI все же не думают что это AGI.

😏

14,760

Сиолошная

20 Dec, 18:31

Подаёмся на раннее тестирование на безопасность тут: https://openai.com/index/early-access-for-safety-testing/

14,802

Сиолошная

20 Dec, 18:22

o3-mini планируют запустить в конце января, и o3 немногим после этого. Чем больше тестировщиков безопасности будет, тем быстрее станет доступно всем

НА ЭТОМ — ВСЁ!

15,398

Сиолошная

20 Dec, 18:17

o3-mini на математике с разными длинами цепочек рассуждений

15,280

Сиолошная

20 Dec, 18:15

Цены на прогон модели на ARC Benchmark

Шкала OX — логарифмическая 👀

o3 low не выглядит как очень дорогая

14,282

Сиолошная

20 Dec, 18:15

также в их твиттере косты на модель, o3 стоит 1,5k$ судя по графику 🙂

15,977

Сиолошная

20 Dec, 18:12

Метрики o3-mini по сравнению со старшей версией в задачах на программирование

Как и у o1, доступно несколько режимов рассуждений (влияет на цену и длительность).

o3-mini будет сильно дешевле и быстрее, чем o3 (очевидно), и предложит невероятные навыки за свою цену.

14,453

Сиолошная

20 Dec, 18:09

Для тех, кто не понимает в бенчмарках:
все цифры которые показывают — невероятные, немыслимые полгода назад. Например, ARC использовался долгое время как доказательство того, что модели не могут думать. Мол, если могут — чего ж они так плохо решают? Ну, вот...решают...

15,067

Сиолошная

20 Dec, 18:08

ARC бенчмарк — В С Ё!

Это очень HUGE, метрики больше чем у людей на закрытых данных, которые "показывают что модели не могут думать"

16,011

Сиолошная

07 Dec, 09:38

Если хочется поставить что-то на фоне в выходной день на время занятий чем-либо (знаю, что кто-то из подписчиков любит лего пособирать в праздное время), то принёс вам две ссылки:

— Полуторачасовая дискуссия «The Future of Math with o1 Reasoning» тренера олимпийской команды США по информатике (по совместительству Head of Frontiers Research @ OpenAI) Mark Chen и Terence Tao, «Моцарта от мира математики» нашего времени, самого молодого призера и победителя международной олимпиады по математике. Сам ещё не слушал, но Terence в своём блоге недавно писал, что через сколько-то лет ожидает революцию в доступности передовых исследований в математике, когда даже индивиды без исследовательских групп смогут вносить большой вклад в науку за счёт аутсорса части исследований AI.

— Часовое интервью с Noam Brown, членом команды, сделавшей o1.

9,364

Сиолошная

07 Dec, 08:33

Реальная причина почему пишу хвалебный пост про Google — теперь у OpenAI будет весомая причина во время 12-дневного марафона подарков анонсировать и дать потрогать GPT-4.5 😀 А то OpenAI на троне засиделись, корона жмёт, новые модели лениво постепенно потихоньку выпускают... 🔪

Но вообще ещё в первый день, до анонса полноценной o1, на сайте засветились строчки кода, которые указывали на доступ к 4.5 для людей с Plus-подпиской. Сейчас, как народ засуетился, код удалили, но.. чем ~~чёрт~~ Сама Клаус не шутит?

Источник картинок

9,962

Сиолошная

07 Dec, 08:21

Нечасто пишу о LLM от Google, а их тут за последний месяц повыходило несколько штук. Буквально каждую вторую неделю вываливали что-то новое на LMSYS Arena — это где люди задают вопросы, им отвечают две LLM, а они вслепую выбирают, какой ответ лучше: по этим голосам составляется рейтинг, чьи ответы более предпочтительны в среднем.

Уже давно известно, что такие оценки очень подвержены смещению из-за форматирования ответов. Люди в среднем предпочитают более длинные ответы (они им кажутся более глубокими и правильными что-ли), а также те, которые содержат списочки, заголовки, выделения жирным — чтобы было проще ориентироваться и находить новую информацию.

Для того, чтобы с этим бороться, придумали Style Control — это когда в результаты голосования людей вносят поправку на два вышеуказанных критерия. Чуть больше я писал про это тут, если вам интересно разобраться, но если вкратце, то у модели вычитают рейтинг пропорционально длине ответа и количеству разметки в нём.

Так вот, без этой поправки, без Style Control, модели якобы претендовали на первые места почти во всех категориях запросов, от программирования и математики до следования инструкциям. Однако если скорректировать рейтинг, то модели резко просаживались и уже достаточно серьёзно отставали от первых позиций (модели OpenAI + Anthropic).

Но вчера это наконец-то изменилось, и теперь не стыдно написать — без звёздочек, без придирок, по-честному — на Арене модели Google делят первые места с o1-preview, а где-то даже обходят её, и это с поправкой на стиль. К посту прикрепил картинку с четырьмя категориями (одна не поддерживает Style Control, обратите внимание) и несколькими моделями для сравнения.

Возможно, это preview или какой-то промежуточный чекпоинт Gemini 2.0 (может даже не самой большой версии?), которую, согласно слухам, стоит ожидать уже на следующей неделе («вторая неделя декабря», проговорился директор из Сингапурского офиса).

Новая модель пока носит название Gemini-Exp-1206, а две предыдущие итерации на Арене — Gemini-Exp-1114 и Gemini-Exp-1121. Кто-то в чате предполагал, что это тоже ранние версии 2.0, но у меня была другая гипотеза, которой поделюсь с вами.

Одна из моделей использует старую тушку от 1.5, но её дообучали с новой разметкой, новым стилем ответов. Сама модель умнее не стала, но изменился формат — поэтому её оценка людьми выросла. Вторая модель получила алгоритмические улучшения для дообучения от 2.0 или и вовсе была дистиллирована с неё. То есть базовая модель не меняется, менялось то, что поверх неё накрутили. А эта новая Gemini-Exp-1206 — это уже вероятно что-то очень близкое к Gemini 2.0.

(Но это спекуляция, как оно было мы, вероятно, не узнаем. Может все три модели это Gemini 2.0, просто разного размера, от Nano до Ultra).

====

Попробовать модель бесплатно можно:
— по API
— в Ai Studio
— на Арене

9,504

Сиолошная

06 Dec, 08:48

Ну нет, я так больше не могу.

Есть ли среди подписчиков кто-то из ВК музыки? Отпишите в комменты пж, я к вам приду жаловаться на то, что одни и те же треки в плейлисте какого то черта со временем меняются. Ну ни в какие ворота уже.

12,831

Сиолошная

06 Dec, 06:44

В o1-pro режиме модель действительно думает сильно дольше. Пока увидел вот такой скрин, где над свеже-сгенерированным судоку модель гадала 5 с половиной минут (и успешно решила). Видел ещё одно упоминание с запросом на написание кода «на 15 минут», но автор не выложил скрина или ссылки, поэтому проверить не могу. До этого самое длинное что видел у o1-preview (не o1) было порядка 3 с копейкой минут, но это буквально разовая акция — почти все остальные запросы укладывались в полторы минуты.

Источник

13,935

Сиолошная

05 Dec, 19:04

Ещё опубликовали системную карточку o1, в которой есть замеры на большом количестве бенчмарков, в том числе агентских. Проблема в том, что o1 почему-то во многом хуже даже o1-preview. Есть задачи, где все модельки набирают по 50%+, а она — 1%.

Но есть один бенчмарк, где написано больше пояснений — это замер по бенчмарку от METR (кажется, я про него писал тут). Там независимые исследователи не получали информации о том, как модель натренирована воспринимать инструменты/действия в промпте. Их первые попытки не показали хороших результатов, и они немного подправили код. Перформанс сильно вырос, но даже так большинство ошибок, которые возникли у модели, относились к очень банальным ошибкам, включая неправильное использование предоставленных инструментов (примерно в 70% от всех наблюдаемых сбоях).

«С качественной точки зрения модель продемонстрировала впечатляющие способности к рассуждению и решению проблем и достигла успеха в отдельной задаче на рассуждение, в которой METR не наблюдал никаких успехов у всех предшествующих доступных моделей». И по итогу они смогли допинать o1 так, что она оказалась статистически значимо лучше Sonnet 3.6, но сделали заметку: «мы не считаем этот результат надежной оценкой верхней границы того, чего можно было бы достичь с помощью дополнительных улучшений нашего кода, дообучением или другими изменениями».

Так что ждём, пока народ (и исследователи) поймут, как промптить o1, подавать инструменты и форматировать ответы, и там по честному всё померяем.

13,933

Сиолошная

05 Dec, 18:03

o1 pro показывает более стабильные результаты: на графике показаны оценки, если засчитывать только задачи, для которых 4 независимых генерации привели к правильному ответу.

$200 в месяц и она ваша ;)

14,926

Сиолошная

05 Dec, 18:00

https://www.youtube.com/watch?v=rsFHqpN2bCM

— полноценная o1 выходит сегодня в публичный доступ

13,731

Сиолошная

05 Dec, 16:11

О и кстати вот вам новости про Pro-подписку за 200 долларов (230 евро).

o1 pro = использует ещё больше мощностей (слов в цепочках рассуждений) для лучших решений

14,384

Сиолошная

05 Dec, 16:08

Стрим с подарками OpenAI начинается через два часа, но если зайти на ChatGPT и написать даже глупый запрос в o1-preview, то почему-то пишется «o1 pro mode».

Про то, что намечается релиз «модели, название которой начинается на o1 и заканчивается на o» я читал в твиттере утром, вместе с шутками «ахаха это будет модель o1o?».

Кроме того, во вчерашнем интервью Sama сказал, что «завтра мы снова продолжим прогресс» (в развитии моделей). Пока не ясно, модель pro — это старая o1, которая давно лежит, или всё же как-то дополнительно прокачанная.

ОЧЕНЬ. ЖДЕМ. СТРИМ.

13,634

Сиолошная

04 Dec, 15:51

~~Игровые движки и игроделы — В С Ё!~~

Google опубликовали блогпост (не статью и не веса) про Genie 2. Про первую версию я аж хотел написать лонг, но как-то всё забылось в потоке новостей, и силы ушли на Sora.

Genie — модели, которые генерируют видеокадры из игры. Они принимают на вход сигналы вашей клавиатуры или мышки, и рисуют картинку следующих кадров исходя из команд. Вторая версия сильно прокачалась в качестве (первая была во многом про 2D-игры) и консисентности. Весь геймплей в роликах к посту сгенерирован. Что отмечают гуглеры:
— Long horizon memory (если отвернуться от пространства, а затем повернуться обратно, то будет примерно то же самое, а не абсолютно новое)
— Long video generation with new generated content (до минуты генераций)
— 3D structures
— Object affordances and interactions
— Character animation
— NPCs (другие персонажи в игре)
— Physics
— Gravity
— Lighting
— Reflections (RTX не нужен, но GPU не выбрасываем 😏)

В конце блогпоста самое интересное: в эти симулированные миры поместили SIMA, агента для игр, про которого Google выпустили статью с полгода назад. SIMA контролирует «клавиатуру и мышь» при генерации Genie 2, и две нейронки как бы играют сами в себя.

> we believe Genie 2 is the path to solving a structural problem of training embodied agents safely while achieving the breadth and generality required to progress towards AGI.

😭 лонг про Sora вспомнили?

38,079

Сиолошная

04 Dec, 15:48

Пояснения от CEO:

«стрим с запуском [продукта/фичи] или демо, несколько больших и несколько небольших, для заполнения рождественского носка»

УХХХХХ ДАВАЙТЕ

12,750

Сиолошная

04 Dec, 15:34

🤨 непонятно, что именно будет стримить компания. Вот например сегодня ночью прошёл часовой семинар с Terence Tao, математиком, про использование ИИ-инструментов и ассистентов в его работе. Но это даже не часть того, что хотят стримить.

ТАК ЧТО ЖЕ??? 🙏 неужели продуктово-модельные апдейты? 🙏

(ну и под шумок скажу, что компания переманила 3 жёстких исследователей, работавших над картиночными моделями, из Google DeepMind, и теперь вместе с ними в Швейцарии откроется офис компании, куда будут нанимать исследователей. До этого был только Сан-Франциско, в остальных офисах рисерчеры не сидели)

13,438

Сиолошная

30 Nov, 16:14

Сегодня 30-ое ноября 2024-го года, а это значит, что ChatGPT исполняется 2 года 🥰

К сожалению, за прошедший год GPT-5 не вышла, но хоть o1 (-preview) показали-удивили. Основная GPT-4(o) подешевела в несколько раз, немного поумнела, научилась вести голосовые чаты.

Но зато ChatGPT почти сразу стал самым быстрорастущим продуктом, достигнув 100 миллионов пользователей менее чем за 2 месяца — и это несмотря на полное отсутствие рекламы и любого продвижения: запуск сделали буквально за пару недель, а продукт называли «lowkey research preview».

Сейчас чатботом еженедельно пользуется четверть миллиарда людей (это официальная цифра), а в месяц так наверное и все 300 миллионов. OpenAI стали официальным партнёром Apple, и подписку на их сервис можно купить прямо из окна настроек в девайсе.

Но это только начало. FT пишет, что амбиции OpenAI на 2025й год весьма велики — они планируют дальнейшее расширение за счет запуска так называемых ИИ-агентов: похожих на чатботов помощников, которые помогают выполнять задачи на компьютере и в браузере, от сбора информации до бронирования или покупки товаров. Через год компания планирует иметь 1 миллиард пользователей.

Первое «research preview» агентов ожидается в январе 2025-го, очень ждём. Очень интересно узнать, насколько дальше Anthropic смогла ускакать компания.

А далее, предположительно в течение первого квартала, нас ждём GPT-5, или как они там решат её назвать. Ну и ближе к концу периода надеюсь на о2, сделанную поверх пятёрки.

🚀 Ухххххх, пристёгиваемся, остановок не будет! 🚀

10,178

Сиолошная

30 Nov, 11:43

И второй эксперимент: берут Stable Diffusion 1.4 и пробуют сгенерировать треугольную кредитку. Сходу — не получается, как будто бы модель ну просто не умеет, не знает.

Но она точно знакома с концепциями «треугольник» и «кредитная карта», да ведь? Хоть моделька относительно старая, но вполне способная. И вот если использовать альтернативный способ тестирования (оверпромптинг), то... получается как надо.

9,843

Сиолошная

30 Nov, 11:40

Кроме этого, есть ещё два чуть более наглядных примера.

В первом модель тренируют генерировать изображения на датасете CelebA (фотки лиц знаменитостей). В них выделяют две пары концептов, но нам интересна одна из них: Gender и With Hat. То есть всего 4 комбинации:
— мужчина без головного убора
— женщина без головного убора
— мужчина в головном уборе
— женщина в головном уборе

И вот последнюю отщипывают и никогда не показывают модели во время тренировки. Головные уборы она видит только на мужчинах. Если тренировать модель 2 миллиона шагов (более чем достаточно) и замерять качество, то как будто бы получается, что невозможно сгенерировать женщину в головном уборе. «Ну конечно!» — скажут критики нейросетей, «это же очевидно. Никогда не показывали такие фотки — модель и не сможет!».

Но вот если поменять способ тестирования даже на усиление сигнала в пространстве активаций (не оверпромптинг, хз почему от него отказались), то оказывается, что ещё в первой половине тренировки модель уже справлялась с задачей и обладала навыком композиции двух разных концептов (сгенерированные картинки справа). А если этого не делать — то легко сидеть и говорить, что модель нихрена не может и не выучила.

8,571

Сиолошная

30 Nov, 11:40

«Эксперименты указывают на то, что существует фаза, в которой модель отходит от запоминания концепций и распутывает каждую из концепций, но все еще производит неверные изображения. Мы утверждаем, что в некоторой точке обучения модель фактически уже распутала концепции, лежащие в основе процесса генерации данных [прим.: закономерности мира, который порождают картинки], и приобрела соответствующие возможности для манипулирования ими. Однако наивный промптинг недостаточен для выявления этих возможностей и генерации образцов из классов, не представленных в обучении, что создает впечатление, что модель еще «некомпетентна». Затем это приводит ко второй фазе в динамике обучения ... которая включает в себя согласование входного пространства запросов с промежуточными представлениями, которые позволяют выявлять навыки модели.»

И авторы приходят к следующей гипотезе, которая распространяется не только на маленькие игрушечные модели генерации картинок, но и на LLM:
> Генеративные модели обладают скрытыми возможностями, которые усваиваются внезапно и последовательно в процессе обучения, но наивный промптинг может не выявить эти возможности, тем самым скрывая, насколько «компетентна» на самом деле модель

TLDR: скорее всего модели, которые у нас есть сегодня, на самом деле умеют и знают куда больше, чем мы себе представляем, просто мы не умеем получать к этому доступ (и модель тоже). Как только мы сможем продвинуться в этом направлении, то даже маленькие модели, помещающиеся на телефон или ноутбук, станут гораздо полезнее.

7,976

Сиолошная

30 Nov, 11:40

Для этого они используют два способа вмешательства в процесс генерации модели по ходу тренировки:
1) усиление сигнала в пространстве активаций (если не знаете что это, то не страшно, можете пропустить)
2) ОВЕРпромптинг, когда в промпте более явно формируется запрос на генерацию объекта с конкретным свойством. Например, в случае разных цветов кружков модель учится не на ярко-красных и синих, а на немного смешанных, но всё же разделимых полутонах: RGB (красный-зеленый-синий) = (0.4, 0.4, 0.6) для «синего» кружка, и на таких же проверяется. ОВЕРпромптинг — это когда во время тестирвоания мы даём задачу генерации более контрастных объектов с яркими цветами, RGB = (0.3, 0.3, 0.7) (синий стал сильнее, красный и зелёный слабее).

То есть в тренировке ничего не меняется, изменения происходят на этапе замера качества. Вот картинка, в которой 3 разных группы (5 линий = 5 запусков); линии отображают качество, измеренное как «доля генераций по новому для модели запросу, которые классифицированы отдельной моделью правильно» (отдельная модель просто позволяет автоматизировать проверку, чтобы тысячи картинок вручную не разносить на красное/синее).

Слева: качество, когда тестирование производится без изменений (в примере с LLM — без промптинга). Это то, что обычно видно во время оценки хода тренировки, и то что мы точно знаем как использовать напрямую.
По центру: усиление сигнала в пространстве активаций
Справа: ОВЕРпромптинг

Авторы считают, что навык выучен и хорошо применяется, когда точность генераций составит 80% (я провёл линию на трёх графиках). В первом случае в 3 из 5 запусков навык вообще не проявляется даже во время очень длинной тренировки, 20'000 шагов оптимизации.

В третьем случае видно, что даже те модели, у которых напрямую не проявился этот навык, на самом деле им обладают, просто нужно до него достучаться через ОВЕРпромптинг. И возникает он раньше, чем на самом деле проявится у модели (сравните линии на правой и левых картинках). С ОВЕРпромптингом во всех 5 запусках навык уже применяется через 7'500 шагов обучения, с усилением активаций чуть позже.

А сверху над каждым графиком показаны примеры генерации по ходе тренировки «маленьких синих кружков».

7,560

Сиолошная

30 Nov, 11:40

Emergence of Hidden Capabilities: Exploring Learning Dynamics in Concept Space

Статья-продолжение исследований по генерализации нейросетей. Перед тем, как читать дальше, обязательно убедитесь, что не пропустили разбор первой части тут. Я не буду рассказывать, что за красно-синие кружки и треугольники, и что такое 010, но повторю самое интересное: выяснили, что модель может генерировать маленький синий треугольник, даже если никогда не тренировалась не только на нём, но и на маленьких синих фигурах, маленьких треугольниках и синих треугольниках.

В когнитивных науках компетенция системы в решении задачи часто противопоставляется ее перформансу: компетентность — это наличие у системы способности (например, общаться на языке), а перформанс — это активное использование этой способности в конкретных ситуациях. Например, человек-билингв может обычно общаться и рассуждатьна своем основном языке, несмотря на знание другого. При этом очевидно, что он компетентен в обоих языках, но для оценки их перформанса на неосновном требуется соответствующим образом «побуждать» его использовать именно этот его.

Можно провести аналогию с нейронными сетями, обладающими способностью, и нами, тестировщиками, которые пытаются выявить этот навык на предопределенных контрольных примерах и измерить их перформанс. Один из ярких примеров — CoT, цепочки рассуждений (не те, что у о1, а у моделей прошлых поколений). Когда в январе 2022-го вышла статья, то произвела фурор — там показывалось, что если дать модели команду рассуждать шаг за шагом, то это существенно увеличивает качество (в задачах по математике с 18% до 57%). Модель одна и та же, дообучения нет, а за счёт нового трюка, позволяющего «выуживать» знания более эффективно — такой прирост.

Примерно то же произошло с RLHF, когда OpenAI выпустили InstructGPT: они хвастались, что их новая модель на 1.3 миллиарда параметров даёт ответы лучше (с точки зрения оценки людей), чем модель в 100 раз больше. Почему? Потому что специальный процесс дообучения позволил LLM лучше утилизировать свои знания и навыки. На странице прям так и написано: «Один из способов представить этот процесс заключается в том, что он «разблокирует» возможности, которые уже были у GPT-3, но которые было трудно получить только посредством промпт-инженеринга».

Авторы текущей статьи исследуют на игрушечных примерах, в какой момент у модели «щёлкает», и она начинает обладать навыком, но мы всё ещё не можем до него достучаться/использовать его через запросы — на примере генерации изображений диффузионной моделью.

Они снова генерируют синтетические данные с кружками разных цветов и размеров, выкидывают один из классов (например, «маленькие синие круги») и оценивают, когда в ходе тренировки модель выучивает необходимые концепты, а когда (сильно позже) уже может генерировать объекты используя комбинацию концептов.

8,290

Сиолошная

30 Nov, 09:23

Наткнулся на интересный ресеч рынка корпоративных LLM 2024:

— OpenAI потеряла за год 16% корпоративного рынка (не путаем с ChatGPT)
— Anthropic же приобрел на 12% долю рынка
— На втором слайде самые популярные юзкейсы LLM в корпоративном мире — на первом месте написание кода
— У каждого крупного департамента в корпорациях появился бюджет на генеративный АИ и он растет
— Про архитектуры, третья картинка: RAG стал еще популярнее в корпо-мире, промпт инженеринг теперь мало кому интересен, как и файнтюнинг моделей под задачи, а вот агенты набирают обороты при выборе архитектуры
— Отдельно отмечено, что корпоративный мир выбирает генеративный АИ на основе качества генераций (в любом домене), так как для них часто это прямо влияет на скорость возврата инвестиций

Вставлю свои 5 копеек:
Мне тоже кажется 2025 год будет про агентов, так как наконец-то экономика генеративного АИ всем понятна

Файнтюны падают, потому что нет смысла — сейчас одна гигантская модель часто решает все задачи сразу (но кончено же есть исключения)

Промт инженеринг упал, потому что его уже пишут сами LLM и оно нормально работает

Агенты только-только начали свою бизнес-адаптацию и будут набирать обороты вплоть до AGI

8,458

Сиолошная

29 Nov, 11:58

Модель 🇨🇳 вышла только вчера, а уже произвела ХЛОПОК в соревновании по решению математических задач AIMO 2. Напомню, это соревнование по олимпиадным задачкам, спонсируемое трейдинговой компанией XTX Markets. Специально для него подготовили полностью новые и уникальные задачи, все решения считаются в оффлайне без доступа к интернету (то есть o1-mini не получится использовать).

Больше деталей писал в анонсе первого тура, читайте тут. Тогда тоже было 50 задач, и качество оценивалось количеством правильно решённых (проверяется только ответ). Решение первого места справилось с 29 из них, поэтому для второго тура решили задачи усложнить (но и ресурсов для запуска моделей выдать побольше).

Последние 3-4 недели в топе были решения, которые решали 10 задач из 50 (ещё раз: потому что их усложнили, а не потому что LLM-ки потупели). Я стабильно заходил раз в 4-5 дней проверить, и было по 10 решённых задач, всего у двух команд! У остальных 9 и меньше.

Зашёл сегодня — первое место 18, второе 17, третье 15, и ещё человек 7-8 выше старого предела в 10 очков. Как минимум 9-ое место с 12 решёнными задачами уже написало, что их скачок 8->12 (кажется мало, но это же +50%!) обусловлен просто сменой модели на свежую QwQ. Скорее всего, 14-15 задач можно решить точно так же, просто немного поправив логику вокруг модели. Моя ставка что и 17-18 задач взяты этой моделью, просто с каким-то трюками (но без дообучения, так как прошло меньше суток) — ну не могло быть такого совпадения, что несколько команд независимо нашли где-то в углу или под матрасом +70-80% качества в один день.

Вот такой скачок в качестве может делать новая парадигма длительных рассуждений. Правда в некоторым смысле топовые места теперь в тупике — пока никто не знает, как дообучать модели с длинными цепочками рассуждений, статей нет, примеров нет, есть только очень верхнеуровневые догадки. А ещё возможно, что из-за ограничений соревнований нельзя будет претендовать на призы с этой моделью (QwQ), так как она появилась позже дедлайна. А может и нет, тут надо разбираться с правилами, может, какие изменения внесли — в первом туре точно было бы нельзя. Уже одобрили, можно.

UPD: очень жаль, что по окончанию соревнований приватные задачи не выкладывают, чтобы на них можно было прогнать o1-mini/preview и оценить, какой разрыв там.

UPD 2: уже есть два решения по 20 задач. Напомню, что двое суток назад, до релиза модели, максимум был 10 (и он держался несколько недель). Более того, решение выложено (так как первое публичное решение, справляющееся с 20 задачами, получает $20'000)

12,867

Сиолошная

27 Nov, 20:08

Китай наносить удар! дракон!

Вторая китайская команда, на этот раз Qwen-часть AliBaba, разродилась o1-подобной «размышляющей» моделью. Тоже превью (все видимо ждут полную о1, чтобы начать релизить?), тоже без технических деталей и статьи, зато сразу с доступными весами:

https://huggingface.co/Qwen/QwQ-32B-Preview

Тем, кому хочется сразу помучить модель вопросами, без возни с GPU, можно поиграться тут: https://huggingface.co/spaces/Qwen/QwQ-32B-preview (пока очередь маленькая)

Блогпост

К посту прикреплена картинка с метриками. Для 32B модели (да даже если бы было 405b) результаты очень-очень нетривиальные — Qwen-2.5 и до этого считался очень сильной моделью (с которой даже иногда избегали сравнение другие авторы моделей, ахахха, чтобы не выглядеть на их фоне вторично), а тут в два раза меньшая моделька такие скачки совершает

===

ждём пока развернут API, чтобы замерить в нашем бенчмарке 😎

34,703

Сиолошная

26 Nov, 12:45

Весь код опубликован тут: https://github.com/stalkermustang/llm-bulls-and-cows-benchmark

Вместе с кодом выложены и все диалоги с LLM, если вдруг захотите углубиться и посмотреть, где они лажают в логике (или наоборот как хитро раскручивают угадайку). Также выложены все промпты, ну в общем прям всё-всё что только можно.

Буду рад, если вы поставите звёздочку репозиторию (не тут, не в ТГ) за эксперименты.

(но напомню, что примерно 90% кода, не считая Readme-файла, было написано Claude Sonnet 3.6)

===

Сейчас получились очень толстые доверительные интервалы в оценках, так как модели играли всего по 50 игр. Самые лучшие модели, которые имеет смысл тестировать, стоят достаточно много. Если у вас есть желание поделиться API-ключом OpenAI/Anthropic с балансом в $200-250, которые не жалко, или если вы и вовсе хотите сами прогнать модель и опубликовать результаты — милости просим ко мне в личку, на почту или прямо на GH.

UPD: если накидаете прям много звёздочек, то я либо на свои потестирую по 300 игр (не 50), включая o1, либо с такой репутацией будет можно попросить API-ключи на тестирование у самих OpenAI/Anthropic (они любят раздавать на проекты). Так что поднажмите пж 🙏

16,388

Сиолошная

26 Nov, 12:42

А вот и табличка с результатами

— Success Rate: в скольки играх разгадала число
— Avg Turns: сколько в среднем ходов понадобилось в выигрышных играх
— Format Failures: сколько % ходов выдавали ответ, который скрипт не смог распарсить. o1-mini забивала на мою просьбу не использовать выделение жирным, за что и была оштрафована. Без этого может игр 66% бы выиграла...

Так что ответ на опрос: 55-70% (если топовая модель o1) и 25-45% если обычная не супер-дорогая и медленная.

13,140

Сиолошная

26 Nov, 12:40

Чтобы узнать ответ, Claude Sonnet 3.6 написала промпты (как часть кода, я их не сильно трогал) для объяснения правил и написания обратной связи (сколько коров и быков), код самой игры и валидацию ответов LLM. Правда, я не доверял коду, поэтому попросли нафигачить тестов, которые уже сам внимательно отсмотрел и проверил. Получился такой test-driven development, TDD. Именно поэтому в таком простом проекте 32 теста... я в рабочем-то коде столько не пишу 😀

Итого каждая LLM (кроме o1-mini) сыграла 50 игр, каждая не больше 15 ходов. 15 — моё ограничение, по которому я произвожу отсечку и заключаю, что LLM не разобралась и уже не решит задачу. Это может казаться маленьким значением, но вообще игра с 4-значным числом решается за 7 ходов (это доказано математически). 15 — это вдвое больше, взял с запасом. Ограничение по ходам позволяет сильно экономить $ на тестирование, так как каждый следующий запрос включает в себя всю предыдущую цепочку рассуждений (прям тех, что выдала LLM, я их не обрезал) и ответов.

Результаты в табличке

— o1-mini, модель со встроенным рассужденим, закономерно заняла первое место с большим отрывом. Она угадала число в 60% игр, и в них ей потребовалось в среднем всего 9.1 хода, чтобы справиться. Смешно, что первые 14 игр она вообще шла без поражений, а вот в оставшихся 9 выиграла лишь 1, поэтому процент побед просел( Но именно поэтому тут и отражены доверительные интервалы, которые к сожалению получились достаточно широкими
— Sonnet 3.6 и GPT 4o находятся на примерно одном и том же уровне, 30-35% побед
— GPT 4o-mini находится достаточно высоко, опережая многие открытые модели. По замерам вышло, что это лучшая маленькая моделька. Так она ещё и стоит копьё — на тесты ушло $0.1, я думал что баг какой-то)
— модели Google как-то очень плохо себя чувствуют. Причём я читал их цепочки рассуждений, начинают они за здравие, но не хватает сил закончить, дожать последние шаги в логике
— младшее семейство Claude, Haiku, вообще не вывозит. Даже с 3-мя цифрами вместо 4 в секретном числе у неё было что-то около 2-4% решений (1 или 2 задачи).

o1-mini оооочень дорогая за счёт длинных цепочек рассуждений, так на них ещё и скидки за кэширование нет (-50%). 25 игр стоили $24, второе место Claude Sonnet 3.6 $5.2, GPT 4o $2.29

OpenAI не экономят на спичках🔼

11,971

Сиолошная

26 Nov, 12:21

5 дней назад в чате канала подписчик написал:

Попробовал все LLM на игру в быки и коровы. Я загадываю число, они отгадывали. Нет... Llm не умеют думать. Они просто плетут кружево из слов

Если вы не знали, или детство было давно, то Быки и Коровы — это простая игра для двух игроков на взлом кода. Один игрок загадывает секретное число (чаще всего из 4 цифр, все уникальные), а другой пытается его угадать за несколько попыток. В ответ на каждый запрос первый игрок должен сказать сколько быков и коров он насчитал — быки это точное совпадение и цифры, и её положения (первая, вторая...), а коровы — это когда цифра есть в секретном числе, но позиция неправильная.

На примере: я загадал 1234, вы попробовали угадать 1246. Я говорю: 2 быка 1 корова. Вы знаете, что две какие-то цифры на правильном месте (у нас это 1 и 2), и какая-то другая цифра (четвёрка) есть, но не на своём месте.

Вполне понятно, как перевести эту игру в диалог с ChatGPT. Чтобы LLM смогла успешно выпытывать у вас информацию, ей нужно:
— помнить ваши ответы на свои запросы
— рассуждать о том, какие опции существуют и какие числа нужно пытаться угадать, а какие уже правильно угаданы

===

А я сидел играл в STALKER 2 👀 и мне было лень это нормально проверять, чтобы показать, что человек не прав (это вообще моё любимое дело), я решил прихлопнуть и второго зайца за раз — попробовать использовать АГЕНТОВ (😯) для написания кода. Дать ему задачу, отойти поиграть, посмотреть одним глазком чё как, и так итеративно без проактивного вмешательства посмотреть, что выйдет. Для этих целей я выбрал ex-OpenDevin, ныне OpenHands (это как AI-программист Devin, которым удивляли в начале года, только с открытым кодом и поддерживаемый сообществом).

Мне показалось хорошей идеей быстренько проверить именно эту проблему с игрой, так как с одной стороны это достаточно просто, а с другой я предположил, что можно будет увидеть интересную картину в разнице результатов разных моделей. Ну и показать, что комментатор в очередной раз не прав 🙂

В итоге накодили бенчмарк, и пока я пишу следующее сообщение попробуйте угадать: в каком проценте игр LLM-ки справляются с задачей?

11,756

Сиолошная

26 Nov, 09:49

Не забываем, что миссия Dragonfly возможна во многом благодаря смелому вертолётику Ingenuity, летавшему по Марсу. Про него я писал раньше в канале, обязательно почитайте: https://t.me/seeallochnaya/1018

Dragonfly будет гораздо крупнее (450 килограмм против 1.8)

13,886

Сиолошная

26 Nov, 09:45

Ракета Falcon Heavy отправит уникальный аппарат Dragonfly на Титан.

Есть и хорошие новости для науки на этой неделе. Компании SpaceX выиграла новый контракт NASA по запуску межпланетного аппарата к спутнику Сатурна. Общая сумма контракта по фиксированной стоимости $256.6 миллионов, которая включает в себя отправку зонда и все дополнительные услуги.

Dragonfly — это винтокрылый летательный аппарат, по сути дрон, с радиоизотопным термоэлектрическим генератором (РИТЭГ) и массой около полутонны, который будет летать по Титану. Его основная миссия должна продлиться около 3 лет. Дата запуска назначена на 5-25 июля 2028 года. Вокруг самой миссии ходило много новостей про отмену, но видимо удалось спасти.

Интересно в выборе Falcon Heavy то, что по сути ракета наконец-то сертифицирована для запуска радиоактивных элементов, а конкурентов на контракт по сути не было. Из ныне летающих опций по сути есть только Vulcan Centaur, у которого пока что нет нужного налёта для оценки безопасности.

11,661

Сиолошная

20 Nov, 18:53

Как написал в первом посте, в реальном офисе тестирований было мало из-за естественных ограничений. Для более полного тестирования применили очень крутой приём, про который хотелось рассказать. Авторы взяли видеозапись и применили к ней Zip-NeRF (или видео демки в тг вот в этом посте); это такой алгоритм нейронного рендеринга, который по набору фоток воссоздаёт 3D-сцену и позволяет генерировать изображения с новых ракурсов, в том числе любые произвольные пролёты камеры по пространству. В случае этой работы реконструкция делалась на основе 3244 фотографий (части видео).

Но алгоритм именно что рендерит картинку (которую можно подавать в понимающую видео Gemini), поэтому поверх этого применили метод из вот этой работы для генерации 3D-сетки пространства, запихнули это в симулятор как 3D-модель, поместили туда копию робота и прогнали 1000 тестов, 20 инструкций и 50 случайных стартовых точек для каждой. Gemini успешно справилась с 90% задач (правда тут выкинули все запросы из категории «маленькие объекты»).

С такими виртуальными симуляциями получается относительно легко существенно масштабировать тестирование, не ограничниваясь реальным миром. Они уже вовсю применяются в роботах и не только — например, Wayve, стартап, делающий автопилоты для машин, вовсю хвастается GhostGym.

На фото сравнение реального изображения (части видео) и сгенерированного NeRF'ом как часть симуляции.

9,178

Сиолошная

20 Nov, 18:35

Вот примеры четырёх типов вопросов + вид сверху на пространство, в котором надо ориентироваться. Снизу справа робот.

Добавлю, что хоть в первом посте и написано, что можно снимать видео с телефона — тут тесты производились с предварительной записью с робота. Со смартфоном (Google Pixel 6) был отдельный тест в среднего размера комнате. Видео-тур был 75-секундный, пробовали всего 5 вопросов, 100% решили (см. картинку номер два).

8,726

Сиолошная

20 Nov, 18:34

Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs

Ранее в канале писал разборы статей, которые предлагали строить некий иерархический граф, по которому LLM/VLM будет ориентироваться и отвечать на запросы. Авторы из Google летом решили пофлексить длинным контекстом Gemini 1.5 Pro, в который влазит час+ видео, и сформулировали задачу Multimodal Instruction Navigation with demonstration Tours (MINT). Как следует из названия, предлагается решать задачи навигации через прямое использование видео-тура с локации.

Запись и использование демонстрационного видео-тура имеет несколько преимуществ:
1) его легко собирать: пользователи могут хоть просто записывать видео на смартфон во время прогулки по окружающей среде
2) это естественно:когда пользователь получает нового домашнего робота, для него ОК показать окрестности своего дома, к тому же снабдив отдельные части комментариями

В техническом плане всё просто и понятно: 1) видео-тур нарезается на слайды (1 кадр в секунду) 2) подаётся в Gemini с аннотациями «кадр 1: <опциональный комментарий>, кадр 2:...» 3) а после следует запрос, который может включать не только текст, но и картинку. Например, человек может в руках держать коробку, и фотография этого вместе с вопросом «Куда мне это вернуть?» составляет задачу навигации. От Gemini требуется вернуть наиболее релевантный кадр (его номер), после чего отдельный внешний алгоритм, никак не связанный с LLM, просчитает, как роботу доехать до точки, привязанной к кадру. Получается, что модель используется как умный незапрограммированный поиск релевантного контекста.

Для теста взяли одно крупное помещение, 836 квадратных метров, сняли 16-минутное видео (948 кадров, если брать по одному в секунду) и его пихали в контекст. Вообще для теста придумали 57 разных вопросов, которые можно разделить на 4 типа: просто поиск объекта, поиск с рассуждениями (нужно выявить связь), поиск маленьких слабозаметных объектов и мультимодальные инструкции (это как раз где в запросе есть картинка).... но тестирование на них всех не производилось из-за временных ограничений 🤷‍♂️. Однако выбрали по 5 задач каждого типа, и запускали их не один раз, а из четырёх разных стартовых точек.

Получилось решать задачки в целом в 80-85% случаев, кроме поиска маленьких объектов — там просело до 40%, так как Gemini просто не смогла разглядеть детали. Это сильно больше, чем у пайплайна, где делается поиск по релевантным кадрам с помощью CLIP (описывал это тут и тут), то есть большая модель гораздо более качественно использует видео-тур.

Ещё пробовали брать GPT-4o, но так как контекст у неё короче, то брали каждый пятый кадр (то есть раз в 5 секунд). При таком сетапе Gemini просела на 10-30% относительно 1 FPS, но всё равно была лучше GPT-4o (на 10-25%; выглядит как большой разрыв, не знаю, ошиблись/поленились ли авторы в тесте или реально так плохо было).

8,420

Сиолошная

20 Nov, 17:45

Вам повезло, что у меня медленный интернет, и свежевышедшая игра STALKER 2 будет долго качаться — за это время напишу разбор или два в канал 🍿

Всех, кто ждал игру долгие годы и кто фанатеет по серии, поздравляю с релизом 🤘

Удачной охоты, сталкеры

9,695

Сиолошная

20 Nov, 12:35

Прошло полтора месяца с анонса o1 от OpenAI, и вот сегодня китайцы из DeepSeek удивляют первым конкурентом. Я бы не подумал, что среди компаний уровня Google - META - Anthropic - AliBaba именно они смогут первыми удивить релизом.

Они представили модель DeepSeek-R1-Lite-Preview, но к сожалению без деталей касательно обучения и сбора данных. Модель пока доступна в онлайн-чате, зато видны все рассуждения, а не только краткая выжимка — однако обещают, что и веса LLM-ки, и API для неё опубликуют скоро.

На первой картинке — результаты бенчмарков, на задачах с AIME модель обходит o1-preview (но полноценная o1, со слов OpenAI, выдаёт 74.4). На LiveCodeBench (задачи на LeetCode, добавленные с августа 2024-го, то есть «новые», хоть похожие на них наверняка были в интернете до этого) тоже прирост относительно других моделей очень ощутимый.

На второй картинке — результаты масштабирования процесса размышлений R1 (с точки зрения процента решённых на AIME задач):
— Pass — это результат модели, если делать одно предсказание на задачу и его сверять с ответом. В данном случае масштабируется длина единственной цепочки рассуждений, чем больше — тем выше качество
— Majority Voting это дополнительная техника для улучшения качества за счёт генерации нескольких независимых цепочек рассуждений с последующим выбором ответа через взятие самого часто встречающегося предсказания (грубо говоря голосование)

Обратите внимание на значения на горизонтальной оси, самые правые точки — результат аггрегации цепочек рассуждений общей длины более 100'000 токенов.

На третьей картинке я задал LLM-ке задачку с олимпиады 4-го класса, ответ правильный (решение не проверял, чат тут). Вы можете потестировать модель сами тут:

https://chat.deepseek.com/

Можно авторизоваться через Google аккаунт. Доступно 50 запросов в день.

🇨🇳 Китай вперёёёд 🇨🇳

15,482

Сиолошная

20 Nov, 10:25

Для тех, кто ночью спал и не смотрел пуск — краткое саммари:

— вы не так много пропустили, попытки посадки на башню не было: какие-то из показателей не были в норме, и системе не была отдана команда «лети к башне». Поэтому ускоритель аккуратно сел на воду, работали все двигатели. Пока не ясно, что пошло не так, но есть спекуляции, что проблемы в башне (якобы она получила повреждения при взлёте)

— корабль успешно продемонстрировал перезапуск двигателей в космосе (с использованием топлива из дополнительных баков)

— несмотря на новую траекторию захода в атмосферу под большим углом, а также отсутствие нескольких тысяч плиток в тепловом щите, корабль пережил все процедуры

— по итогу Starship успешно приводнился в отведённой зоне (снова было видео с предварительно оставленного буя). Эту часть стрима вы можете посмотреть в прикреплённом видео — впервые не в тёмное время суток!

В целом, миссию можно считать частично успешной, корабль так вообще по полной программе прошёлся.

Напомню, что это был последний полёт для серии V1 — дальше начнут летать V2. В них тысячи инженерных изменений, а самое заметное для внешнего наблюдателя — увеличенная высота (и как следствие размер баков).

Elon написал, что ещё одна мягкая посадка корабля на воду — и после этого они предпримут попытку посадки уже на сушу (не ясно, на башню или нет). С одной стороны это значит, что следующий пуск может быть по такой же траектории (а значит новой лицензии не нужно), с другой — сама ракета новая, и наверняка там что-то нужно лицензировать. Надеюсь, не очень сильно затянется, и до марта увидим первый полёт 2025-го!

🚀

11,422

Сиолошная

19 Nov, 23:55

Я сначала увидел в твиттере и не поверил, подумал, что это шутка.

В США с 2000-го года существует United States–China Economic and Security Review Commission. В комиссии 12 членов, сама комиссия подчиняется только Конгрессу и не является частью никакого агентства или департамента. Каждый год до 1-го декабря комиссия публикует отчёт, в котором в том числе даёт рекомендации Конгрессу.

Свежий отчёт опубликовали час назад, и в нём первым пунктом в блоке ключевых рекомендаций идёт...

«Учредить и профинансировать программу, подобную Манхэттенскому проекту, направленную на разработку и использование возможностей искусственного интеллекта общего назначения (AGI)»

😐

===

Спросил у ChatGPT, насколько важна эта Комиссия и как часто Конгресс прислушивается к рекомендациям. Не ручаюсь за правильность оценки, но нейронка сказала, что в целом к рекомендациям прислушиваются, хоть и не все исполняют.

Идём перечитывать SITUATIONAL AWARENESS и/или пересматривать интервью с Leopold'ом из OpenAI

32,951

Сиолошная

19 Nov, 10:19

Шестой запуск Starship Super Heavy сегодня ночью.

Примерно через 12 часов открывается окно запуска для самой большой ракеты в истории, и последний полёт для корабля Starship V1. Поэтому держите чек-лист по ключевым этапам миссии Flight 6:

⚪️ Старт, прохождение зоны Max Q, горячее разделение ускорителя и корабля;
⚪️ Запуск 6 двигателей на Starship и перезапуск 10 двигателей (3 будут работать) Super Heavy B13 для первого тормозного манёвра;
⚪️ Команда «Go for catch» и перезапуск 13 двигателей Super Heavy B13 для второго тормозного манёвра и посадки;
⚪️ Успешная посадка Super Heavy B13 на манипуляторы и захват ускорителя;
⚪️ Super Heavy B13 проходит программу безопасности на площадке;
⚪️ Выход корабля Starship S31 на плановую незамкнутую орбиту;
⚪️ Тест перезапуска 1 двигателя Raptor на орбите;
⚪️ Вход Starship S31 в атмосферу под более высоким углом и прохождение зоны максимального нагрева;
⚪️ Манёвры в зоне максимальной нагрузки для теста живучести корабля;
⚪️ Обрезанная теплозащита Starship S31 выдерживает вход в атмосферу, плавники не расплавляются;
⚪️ Перезапуск 3 двигателей S31 с симуляцией мягкой посадки в океан в нужной точке — камеры с буя показывают посадку;

И после окончания миссии Flight 6 проставим нужные галочки и сравним. Если предыдущий запуск можно назвать самым успешным, то этот должен закрепить результат.

Уже в следующий миссии Flight 7 нас ждёт сильно обновлённый корабль и первый представитель блока Starship V2. Программа постепенно выходит из первой фазы тестирования, и в 2025 году будут запуски на замкнутую орбиту и отработка возвращения корабля на башню.

12,870

Сиолошная

18 Nov, 10:50

Помните, вместе с новым Claude 3.5 вышел Computer Use Preview (Beta API)? Это режим, в котором модель получает на вход картинку рабочего стола и предсказывает, куда надо кликать, чтобы выполнить задачу.

Подоспела первая статейка с тестированием навыков на 20 задачах: A Preliminary Case Study with Claude 3.5 Computer Use. Разбирать мы её не будем, внутри особо ничего нет. Единственное, что по сути добавили авторы — это критика, который после некоторых действий комментирует ход выполнения и проверяет, что условия выполнены.

Эти 20 задач покрывают 12 разных программ, от браузера и Word'а до компьютерных игр. Claude не справилась с четырьмя запросами. Один раз не смогла проскроллить страницу (на это ещё жаловался Денис), два раза не сработало выделение текста двойным щелчком (выделилось только имя, а не Имя+Фамилия, и то же самое с телефоном), и один раз модель выбрала не те ячейки в Excel (C6:C15 вместо D6:D16), скорее всего из-за неидеальности визуального восприятия. В последних случаях не спас даже критик — он прокомментировал, что всё ок. Есть куда расти, в общем, ждём развития и стабильной не-бета версии (в том числе и от OpenAI — по слухам, они выпустят свой аналог в январе 2025-го).

На первой картинке список задач и результат (очень жаль, что запускали по 1 разу, а не 3-5), если вам интересно — можете полистать статью, посмотреть картинки и почитать рассуждения модели. Иногда критик срабатывал верно и позволял вернуться к корректному способу решения задачи.

2-ая картинка — ход в карточной игре Hearthstone

3-ья картинка — закрытие дейликов в гача-игре Honkai: Star Rail

На других картинках всё понятно

13,552

Сиолошная

17 Nov, 16:56

На картинке слева пример того, как выглядит собранный промпт, а справа пример генерации LLM'кой плана для новой задачи (`def microwave_salmon():`).

В конце работы исследователи анализировали ошибки, почему всего 40% решено, и самая большая группа проблем — это что часть действий недоступна в разные моменты времени. Например, нельзя сидя открыть что-то, что стоит рядом (даже если проверка на расстояние до объекта пройдена) — просто ограничения движка для запуска виртуальной симуляции. Странно, что они с этим ничего не делают и не пытаются побороть основной источник проблем.

Вторая группа — это отсутствие обратной связи от среды по ходу исполнения плана. План генерируется один раз в самом начале, и если вдруг что-то не учтено — полный провал. В то время как можно было бы в моменты затыка давать новое состояние в промпт, делать ещё одну генерацию с текущего места, и пробовать довыполнить задачу. Надеюсь, в какой-то из будущих работ это проверили, но я пока не искал.

13,362

Сиолошная

17 Nov, 16:56

ProgPrompt: Generating Situated Robot Task Plans using Large Language Models (сайт проекта)

Ещё одна статья в копилку использования LLM для составления планов действий, исполняемых роботами (правда тут до них дело не дошло, тестировали виртуального человечка в виртуальном же доме). Написала за пару месяцев до выхода ChatGPT, но на тот момент уже были доступны разные варианты GPT-3 / 3.5. В такие моменты очень жалею, что авторы не возвращаются через полгодика к своей работе и не перезапускают код с более свежими моделями, чтобы замерить приросты 🥹

Напомню основную проблематку: составление плана выполнения задач может потребовать определения огромного количества знаний о мире, в котором должен действовать робот. Хочется использовать LLM для автоматизации того, что называют common sense, ну например что микроволновку нужно открыть перед тем, как класть в неё непустую тарелку или другую тару (а какую-то и класть нельзя). А потом ещё и закрывать...

SayCan, который я недавно разбирал, опирался на чётко зафиксированный набор действий и объектов. Это работает для малых масштабов, но когда объектов и действий много, а их сочетаний ещё больше — в контекст LLM'ок это просто перестанет помещаться (особенно в старые добрые 2022-ые). По сути, работа авторов этой статьи заключается в составлении промпта, позволяющего LLM сгенерировать Python-подобный код, описывающий ход решения задачи, оперируя по отдельности объектами и действиями. Действием может быть взять(что-то) или открыть(что-то), а объекты любые произвольные.

Промпт состоит из трёх частей (всё это выглядит как код):
1) набор доступных методов (действий) и объектов. Прям так и пишут, objects=[sink, pie, apple, ...]
2) несколько примеров того, как пишется план-функция для выполнения задач. Авторы берут по 2-3 вручную собранных примера, прописывая каждый шаг: куда роботу пойти, что открыть, что взять. По сути это few shot learning, позволяющий модели понять, как использовать объекты/действия. Примеры, которые использовались в работе: “put the wine glass in the kitchen cabinet”, “throw away the lime”, и “wash mug”. Смешно, что в работе жалуются на размер контекста LLM — для некоторых тестов влазит всего 2 примера (или даже 1). Сейчас можно было бы вкинуть несколько десятков...
3) описание новой задачи, которую нужно декомпозировать. Описание задаётся названием функции, def microwave_salmon(): — нужно подогреть лосось в микроволновке.

На этом промпт кончается, и дальше LLM естественным образом генерирует продолжение. Авторы добавляют от себя два штриха для улучшения качества планов:
1) комментарии, разбивающие код в примерах на логические блоки, мол, вот эти 5 действий это для того чтобы открыть мусорку, эти 3 чтобы выкинуть мусор, другие 7 это чтобы вернуться в исходную точку, закрыв мусорку, итд. Явное проговаривание логики, скрытой за кодом
2) добавление assertions, то есть пререквизитов для дальнейшего исполнения плана. Например, чтобы открыть мусорку, надо сначала к ней подойти — тогда нужно проверить, что расстояние меньше полуметра. Если больше — вставляем действие «идти» в план.

Оба приёма накидывают в качестве, измеряемом как доля успешно выполненных задач в виртуальном дом (в нём 115 предметов, всего 70 задач, от 3 до 18 действий в плане выполнения). Про метрики особо писать нечего, так как всё немного устарело, ну, лучшая модель решила 40%. Это был CODEX, GPT-3, заточенная на программирование, что не удивительно (обычная давала 34%).

8,772

Сиолошная

17 Nov, 11:45

Релиз GPT-5 или как там её назовут будет скоро (ориентировочно первый квартал 25-го), а её базовое обучение закончилось в сентябре, согласно TheInformation. Это означает что модельку уже тестируют и гоняют. Может, не в полную силу, например, только первый круг внутренних тестировщиков, а не внешние подрядчики, но всё равно.

Полезно посмотреть, какие бенчмарки недавно выкатывали OpenAI, потому что скорее всего по ним и компания, и мы сможем заметить прогресс между поколениями. Конечно в комментариях всегда найдутся умники, которые будут оправдывать рост с условных 30% до 80% просто переобучением на этих конкретных данных, и что на самом деле это всё маркетинг, ну, их мы игнорируем (и баним

😀

).

Итак, 3 последних бенчмарка, все вышли с августа по октябрь 24-го. Начнём с конца:

1️⃣SimpleQA, множество сложных вопросов, требующих фактических знаний. Лучшие модели отвечают примерно на 40%, но что более важно — не очень хорошо понимают, когда они знают ответ, и потому вместо «я не знаю» отвечают с ошибкой. Подробный разбор я делал тут.

2️⃣MLE-bench, бенчмарк для измерения того, насколько хорошо ИИ-агенты решают задачи по машинному обучению. Зачем? Потому что одна из целей компании — это сделать систему-автономного исследователя, которая будет автоматизировать части работы команды. Разбор тут.

3️⃣SWE-bench Verified, исправленная (и урезанная) версия более раннего SWE-Bench от исследователей из Princeton University. Замеряет долю объемных проблем, описанных человеческим языком, но решением которых является изменения в существующем коде большого размера (десятки-сотни тысяч строк, реальные кодовые базы). Вышел недавно, а уже стал использоваться — Anthropic отчитались по улучшению в этом бенчмарке в недавнем релизе Claude. Разбора нет, можно читать оригинальный пост.

===

Два агентских бенчмарка (для ИИ-агентов очень важна надёжность в каждом шаге, потому что одна ошибка и ты ошибся, и исправить можно только рефлексией) и один на знания, но позволяющий оценивать уровень понимания моделью границ своих знаний. Может быть на последнем доля правильных ответов не вырастет (ого, снова бьёмся в стену 🙂), но у более надёжной модели ответы «я не знаю» должны появляться чаще, чтобы не давать неправильную информацию.

Кроме этого, персонально я очень буду ждать замеров и улчшений по бенчмаркам от других команд: GAIA, Lab-Bench, WebArena, WorkArena++, FrontierMath и конечно же ARC.

11,285

Сиолошная

17 Nov, 11:17

Перевод цепочки твитов Joshua Achiam, Head of Mission Alignment (это что вообще за должность? что надо делать?) в OpenAI. Вот если помните Spinning Up in Deep RL (интерактивный курс с кучей домашек и упорядоченным списком статей по RL, разбитым по темам), то он там основной автор.

===

Ожидаю, что произойдёт странное явление: на следующем витке развития ИИ он будет всё лучше справляться с длинным хвостом распределения узкоспециализированных технических задач, о которых большинство людей ничего не знает и которые их не волнуют. Это создаст иллюзию, будто прогресс застыл на месте.

Исследователи будут достигать рубежей, которые сами сочтут невероятно важными, но большинство пользователей не поймёт их значимости в тот момент.

Универсальная надёжность ИИ будет постепенно возрастать. Через год обычные модели станут гораздо более стабильно выполнять задачи программирования, написания текстов, базовых бытовых проблем и так далее. Но надёжность не выглядит эффектно, и многие просто не заметят этих улучшений.

В какой-то момент, возможно года через два, люди оглянутся и обнаружат, что ИИ прочно встроен почти во все аспекты коммерции, потому что он преодолел определённые пороги надёжности. Подобно тому, как смартфоны из новинки в 2007 году стали повсеместным явлением к 2010-м.

Что произойдёт после этого, угадать очень сложно. Многое неопределённо и зависит от обстоятельств. Единственное предсказание, в котором я уверен: в 2026 году Gary Marcus (прим.: известный критик нейросетей и глубокого обучения, автор тезиса «AI is hitting a wall» с 1990-ых) снова будет настаивать, что подходы с обучением нейросетей зашли в тупик.

(Дополнение: весь этот текст даже нельзя назвать полноценным прогнозом. Это, скорее, описание того, как развивалась дискуссия с момента выхода GPT-4 в начале 2023 года, и предположение, что тренд продолжится. Длинный хвост улучшений и прорывов остаётся практически незамеченным.)

10,959

Сиолошная

15 Nov, 22:25

Rise and shine, подписчики: вышла 2-часовая документалка в честь 20-летия одной из лучших игр всех времён и народов, Half-Life 2. Ровно год назад писал про видео к 25-летию первой серии

https://youtu.be/YCjNT9qGjh4

Это мы смотрим 🍿

12,382

Сиолошная

15 Nov, 20:30

И последнее — исследователи проверяют свои наблюдения на (а) схожей синтетической задаче, добавив 4й атрибут (цвет фона, белый или чёрный; там всё работает ровно также) б) на датасете CelebA с фотографиями звёзд.

У них они выделяют три признака: гендер, цвет волос, улыбка/обычное лицо.

Тренируют чуть меньше, получают результаты чуть хуже (самый «далёкий» класс не успевает выйти на 100%), но это результат неоконченности эксперимента. Если продолжить обучение, то уверен, что добьётся почти идеального качества (генерации невиданных комбинаций атрибутов по запросу).

Картинка по середине — общее качество (попадание в заданные атрибуты), справа отдельно показали качество по самому сложному (поздно выучиваемому) атрибуту, гендеру.

Вообще в статье есть ещё пара менее интересных экспериментов (меняют набор классов в тренировке; пробуют дообучать — не работает; А ещё меняют количество примеров в каждом классе, что вызывает затруднение в выучивании концепта; если примеров очень мало — модель не может генерализоваться), почитайте, если вы технарь.

Ну и последнее: всё это проявляется только если модель тренировать достаточно долго (видно по всем графикам, что если бы этого не делали — можно было обмануться, мол, модель ничего не может). Это очень напоминает гроккинг (когда в модели что-то щёлкает, она всё понимает и идеально решает задачу), который был давно замечен — авторы об этом прямо говорят.

11,486

Сиолошная

15 Nov, 20:25

Авторы анализируют, насколько хорошо модель понимает и генерирует каждый атрибут по отдельности. Проще всего с размером, он начинает получаться раньше остальных. Дальше форма, и в последнюю очередь цвет.

При этом без всех трёх концептов модель не может генерировать объект класса 111, потому он получается в последнюю очередь, и точность его генерации (= как часто классификаторы говорят, что картинка совпадает с ожиданием «маленький синий треугольник») долгое время находится около нуля... пока неожиданно не взлетает вверх. Если смотреть только на эту часть, то может показаться, что навык эмерджентный, появился изниоткуда — как это происходит у LLM. Пока несколько концептов не встанут на свои места — какую-то задачу решать не получается. А потом хоп — и всё.

«Модели должны усвоить все необходимые концепции, но композиционное обобщение затрудняется мультипликативным воздействием процесса обучения на каждую концепцию» (то есть нужно перемножать навыки модели, выраженные от 0 до 1, насколько точно она их применяет).

Дальше авторы делают симуляцию с n навыками и определённой вероятностью их появления во время тренировки, и приходят к следующему: «мы видим, что прогресс в решении все более сложных задач логарифмически зависит от количества атомарных концепций, которые складываются в композицию. Важно отметить, что это означает, что если мы позволим модели обучаться бесконечно и она выучит несколько атомарных способностей, то у нее произойдт взрыв возможностей из-за композиционности процесса генерации».

10,072

Сиолошная

15 Nov, 20:18

Ответ: да, модель сможет рисовать объекты любого из четырех оставшихся классов, которые не были показаны во время тренировки вообще.

Все три стадии вы можете видеть на картинке:
1️⃣(синие линии на графике слева) При этом сначала модель будет учиться хорошо рисовать только те примеры, что представлены в тренировочной выборке, а качество рисования других будет очень низким

2️⃣ (светло-розовые линии) Затем, когда качество на трейне будет около 100%, начнут потихоньку получаться фигуры, concept distance до которых равен единице. То есть они отличаются от того, что видит модель, на какой-то один атрибут

3️⃣(ярко-розовая линия) Маленький синий треугольник, 111, начнет получаться в последнюю очередь, чуть позже, чем предыдущий пункт. «Представить» его с точки зрения модели сложнее всего: уж слишком всё, на чем она тренируется, отличается. Но в какой-то момент все три типа атрибутов станут понятны, и диффузионная нейронка сможет их совместить, по итогу достигая качества в 100%

* качество определяется автоматически с помощью тренируемых линейных классификаторов, которые тренируются на всех тренировочных данных. Всего их 3 штуки, для цвета, формы и размера. Авторы их тренируют по 50 эпох (очень много), и качество на трейне у них 100%, ну, так как задача очень простая

На картинке справа показано, как модель рисует новые для себя примеры по ходу тренировки. Больше всего проблем у неё с цветом — потому что все фигуры, кроме одной, красные, и их банально легче выучить (и синие рисовать хуже). Но примерно к 40-60 эпохам (проходам по всем тренировочным картинкам) это исправляется, и маленький синий треугольник получается нормально.

9,028

Сиолошная

15 Nov, 19:51

Compositional Abilities Emerge Multiplicatively: Exploring Diffusion Models on a Synthetic Task

Статья пытается ответить на извечную критику нейросетей, мол, они не могут производить ничего нового, работают только в рамках распределений данных, на которых их учили. Ситуация рассматривается с точки зрения композиции объектов/концептов. «Композиция — неотъемлемое свойство реального мира, в котором некоторые примитивы, такие как цвет, могут быть скомпонованы с другими примитивами, такими как форма, для создания или рассуждения о совершенно новых концепциях, которые ранее не встречались»

Вы наверняка видели черную, белую, оранжевую, синюю рыбу, но не видели фиолетовую (фуксию) — их почти не бывает. Но вы можете её себе представить, потому что знаете, как выглядит рыба и как выглядит фиолетовый. Вот это и есть композиция. Предыдущие исследования показывают, что современные диффузионные модели для генерации изображений демонстрируют возможности композиционного обобщения (помню, OpenAI делали упор ещё в DallE-1 на стул в форме авокадо как пример смешивания концептов), но ... при этом где-то, где не ждёшь, терпят неудачу в генерации композиции. И не ясно, почему у одной и той же модели что-то работает, а что-то нет. Какие концепты модель учится композировать? Что отличает эти концепты от тех, которые модель не может совместить? 🤷‍♂️

Для изучения проблемы авторы предлагают подход с обучением на синтетических данных, где для каждой картинки известны все её атрибуты. Картинки маленькие, на них по центру изображена фигура, которая характеризуется (1) размером (2) цветом (3) формой. Каждый атрибут может иметь ровно 2 значения: большой и маленький, синий и красный, круг и треугольник. Получается всего 8 комбинаций, которые можно закодировать бинарно: 000, 001, 010, ... , 110, 111. Обратите внимание, что два кода, отличающихся на одну цифру, отличаются ровно одним концептом. 000 и 001 могут отличаться, например, формой, 110 и 111 — тоже формой (последняя цифра), а вот 100 и 110 отличаются цветом.

Авторы вводят понятие «concept distance», расстояние между концептами. Это по сути то, сколько шагов изменения 0 на 1 или 1 на 0 нужно сделать, чтобы получить новый класс. Самые дальние друг от друга 000 и 111, они отличаются всем: размером, цветом, формой (расстояние 3). То же верно для 010 и 101.

Для каждой тройки цифр генерируется по 625 картинок 28x28 пикселей, где цвет и размер чуть-чуть меняются: на какой-то картинке красный представлен как ярко-красный, на какой-то блеклый серо-буро-малиновый. Размер «большой» может быть как просто больше среднего, так и немного вылазящий за границы картинки.

Внимание, вопрос:
Если натренировать модель только на картинках, относящихся к классам 000, 001, 010, 100, то сможет ли она генерировать классы 011, 110, 101? И что самое страшное класс 111 (самый «далёкий» с точки зрения расстояния между концептами — нужно сделать как минимум 2 изменения относительно исходных изображений в тренировочной выборке)

9,420

Сиолошная

15 Nov, 13:12

А применение графа немного отличается от того, что было в прошлой статье. Там все объекты имели названия и были подписаны, здесь же мы этого не далаем. В основном потому, что хочется работать с любыми произвольными названиями, не ограничиваясь заранее заданным списком объектов. Условно «банка колы», «кола», «баночка кока-колы» итд — это всё один объект (сегмент), но, как говорили древние, «определить — значит ограничить».

Предположим, в робота, в которого загружена иерархия дома и комнат, поступает запрос: «найди унитаз в туалете на втором этаже». Запромптченная (с примерами) LLM выделяет из него 3 подзапроса: какой этаж, какая комната, какой объект. И выдаёт:
— 2й этаж (это мы знаем как найти)
— туалет (это у нас уже есть)
— унитаз (этого нет)

Из графа загружаются все объекты, входящие в комнату «туалет». Для каждого объекта, напомню, есть вектор, который характеризует его содержимое. А дальше снова применяем CLIP: делаем вектор из фразы «это фото унитаза» и сравниваем его с векторами каждого объекта в комнате. Тот, который похож больше всего, и есть искомый. Voila, теперь робот в точности знает, где что к чему идти (координаты ведь тоже известны для каждого сегмента), и может отправляться в путь (action graph на картинке выше).

Хоть построение графа и ориентирование по нему и автоматизированы, думаю, что под капотом там много констант (когда объединять сегменты, на сколько отличается высота этажей, итд), что из коробки не будет работать прям везде. Но большая часть всё равно делается скриптами. Особенно мне понравился трюк с классификацией объектом пост-фактум, когда мы не определяем их заранее. Это позволяет сохранять гибкость в идентификации практически чего угодно. И в то же время замена всех моделей в пайплайне на более современные (лучше SAM, лучше CLIP, лучше LLM) будет давать приросты.

10,258

Сиолошная

15 Nov, 13:12

Таким образом у нас получились векторные описания буквально всего, что попало на камеру, от стен и потолка до баночки колы и забытых на столе ключей (если SAM смог их выделить, конечно). Всё полностью автоматически.

Теперь нужно связать все сегменты в иерархический граф, напомню, этаж->комната->объект (зачем? см. предыдущий обзор). Начинаем с простого: этажи. Поскольку для каждого снимка есть трёхмерная позиция, то всё просто — по высоте легко отфильтровать, что относится к первому этажу, а что ко второму итд — там прям невооруженным глазом видна последовательность (но можно разделить и автоматически). Это показано на левой части картинки.

Дальше нужно как-то выделить комнаты. Так как по множеству фотографий с картами глубины можно создать почти полную 3D модель (через проекцию точек в пространстве камеры), то можно сделать и вид сверху на эту модель. Дальше поверх карты со стенами применяется парочка не-ИИшных алгоритмов (Euclidean distance field + Watershed algorithm), которые позволяют выделить крупные соседствующие сегменты, «заливающие» пустое пространство в комнатах (поэтому алгоритм и называется WATERshed, кек 🌊).

Ну а дальше всё просто, те объекты что попадают в область комнаты — считаются принадлежащими ей. Получается иерархия: этажи -> комнаты -> объекты.

При этом:
— этажи легко пронумеровать (первый, второй, третий — по высоте)
— комнаты называют через... классификацию CLIP'ом. Берут заранее штук 20 названий (оффис, переговорка, кухня, спальня ...), подставляют в промпт «эта комната — ...», и сравнивают с каждой фоткой. Таким образом без дообучения делается классификация с присваиванием метки
— объекты никак не обозначаются, и остаются лежать в виде неупорядоченного набора «сегмент -> усреднённые CLIP-вектора»

Всё, граф готов, можно приступать к ориентированию. На самом деле ещё под капотом строится карта перемещений, какие места не заняты и доступны для робота, и как из одной комнаты пройти в другую, но это менее интересно.

9,399

Сиолошная

15 Nov, 13:12

Затем для каждого объекта необходимо подготовить признаки, его представляющие. Берётся маска объекта, сам объект по нему вырезается (удаляется фон, всё, что было вокруг) и пропускается через CLIP. Это признаки объекта. Также через CLIP проходит сама оригинальная фотка всей комнаты и фотка объекта (где по краям обрезано всё лишнее, но остаётся немного фона). Все три вектора усредняются, таким образом сохраняя информацию и об окружении («ну вот такая-то примерено комната»), и в то же время фокусируясь на конкретном объекте («вот этот стул»). Всему пространству объекта, покрытого предсказанной маской, присваивается этот усреднённый вектор, становясь его описанием (см. картинку слева). На более поздних этапах алгоритма если один и тот же объект сфоткан с разных сторон, то эти вектора (с нескольких разных изображений) объединяются и усредняются ещё раз.

Где-то в серединке процесса разные сегменты с разных фотографий склеиваются друг с другом на основе доли пересечения точек, спроецированных в 3D пространство на основе данных камеры, как в примере с сегментом-стулом выше. Если доля пересечения высокая — предлагается считать два сегмента за один. Таким образом после объединений может появиться мешанина разных векторов, описывающих один и тот же предмет.

Чтобы этот разрешить, применяется алгоритм кластеризации DBSCAN поверх всех векторов, попавших в представление одного объединённого сегмента. Выбирается самый большой кластер (то есть в котором больше всего точек с CLIP-векторами), а затем берётся вектор, который ближе всего к его центру — и говорится, что мол вот это и есть вектор-описание сегмента.

То есть:
получить вектора отдельных точек на каждой фотке -> сопоставить разные фотки и объекты на них -> соединить разные сегменты, представляющие один и тот же объект -> найти самый репрезентативный вектор среди принадлежащих сегменту
(это всё изображено на правой части картинки)

8,969

Сиолошная

15 Nov, 13:12

Hierarchical Open-Vocabulary 3D Scene Graphs for Language-Grounded Robot Navigation (сайт проекта)

В недавнем разборе я упоминал способы создания иерархического графа отношений, описывающих некоторую локацию для дальнейшего использования роботом на основе LLM. Там использовался метод Hydra, но я немного поискал и нашёл более свежий и продвинутый подход — про него сегодня и поговорим. Предполагается, что вы читали пост про CLIP, и в дальнейшем будет подразумеваться, что для любой картинки или текста можно сделать вектор, такой, что чем более пара векторов похожа, тем больше шанс, что они описывают одно и то же.

На вход в алгоритм поступает множество изображений (или видео) формата RGB-D, для каждого из которых известна локация и угол съемки. D означает depth, глубина, что позволяет определить относительное расположение объектов (какие дальше, какие ближе). На самом деле это требование не жёсткое, так как а) существуют нейронки для предсказания глубины изображения по фото б) есть алгоритмы определения относительного положения разных снимков относительно друг друга. Так что при желании можно это всё восстановить просто из набора фоток, хоть и получится чуть шумнее. Но если что — последние iPhone умеют записывать карты глубины, на то им столько камер и датчиков.

Сначала создаётся словарь сегментов. Для этого к каждой фотографии применяется модель от META, Segment Anything (SAM). Она предсказывает маски (границы) для всех объектов на фото, при этом не предсказывает для них классы — работает с чем угодно. Одна маска = один сегмент. Но один и тот же объект может засветиться на нескольких фотках, поэтому их нужно сопоставить. Так как для каждого кадра известна позиция, из которого его сделали, то можно определить, что вот этот сегмент (маска), скажем, стул на одной фотке — это вот этот сегмент на другой фотке. Это пригодится чуть позже.

10,046

Сиолошная

14 Nov, 11:28

По итогу модель можно адаптировать без обучения к практически любому набору меток — и не нужно собирать данные. OpenAI показали, что их модели имеют сопоставимое (или даже лучшее) качество на широком наборе датасетов, актуальных в 2021-м году. При этом на наборах данных, которые отличаются от привычных, модель более стабильна, и её качество так сильно не просаживается (картинка 1)

На остальных картинках показаны примеры работы в нестандартных задачах для классификации разных типов объектов (обратите внимание, что отвечает не всегда правильно). И всё это без дотренировки, из коробки

Основная ценность:
— метки классов не предопределены, и можно задавать любой текст с любым описанием; это называется «open vocabulary» (открытый словарь?), когда модель не обучена на конкретно один зафиксированный набор текстовых меток.
— можно сравнивать произвольные тексты и картинки, выявляя наиболее схожие пары

CLIP'ы и их наследники открыли дорогу к множеству новых задач, для которых просто не было больших размеченных наборов. Теперь люди собирали по 10-100 примеров за 1 вечер, проверяли качество, немного играли с текстовыми промтами (какой запрос рабоатет лучше, кроме «a photo of») — и всё. Или учили логистические регрессии поверх, если хотели. И даже для дальнейшего дообучения CLIP'ы подходили лучше за счёт большей «насмотренности».

😪 а сейчас можно заменить на VLM и сё (будет чуть дороже, хотя Gemini Flash вообще копеечная)

5,124

Сиолошная

14 Nov, 11:28

Слева представлена визуализация процесса обучения, описанная в прошлом посте.

Справа — как применять уже обученные модели. Предположим, что вы хотите вернуться к задаче классификации, и у вас есть сколько-то текстовых меток: самолёт, собака, машина, ...

Каждую из меток вы подставляете в строчку «a photo of a {object}» (она может быть другой) и пропускаете через текстовую половинку. Для N строчек вы получаете N векторов.

Затем берёте изображение, применяете к нему картиночную половинку нейросети. Получаете один вектор. Дальше считаете схожесть между ним и всеми N векторами текстов. Текст, который соответствует самому похожему вектору, наилучшим образом описывает картинку — и так вы можете «предсказать», что на ней нарисовано.

4,545

Сиолошная

14 Nov, 11:28

[CLIP] Learning Transferable Visual Models From Natural Language Supervision

Для разбора следующей статьи понадобится знание того, что такое CLIP и как он работает. Я не буду делать прям полный разбор (его можно почитать, например, тут), но расскажу основную интуицию.

Давным давно модели для работы с изображениями тренировали с помощью «больших» (около миллиона! это был сарказм) размеченных наборов данных, где для каждой картинки была проставлена метка класса. Вот на этой картинке собачка, тут кошка, здесь грузовик. Такой способ тренировки упирался в возможность разметить все картинки, а ведь чем больше классов (текстовых описаний), тем сложнее это делать. Подумайте сами, вот вам нужно для картинки выбрать один из тысячи классов — это ж сколько нужно держать в голове, чтобы ничего не упустить.

При этом получалось, что: а) с новыми классами модели работали или средне, или плохо б) для новых классов нужно было собирать данные и размечать их в) модели были сильно ограничены в наборе концептов, так как по сути выучивали всего ~1000 объектов.

OpenAI предложили изменить подход — как было с GPT, хотелось обучать модели на огромных (почти) неразмеченных наборах данных, взятых из интернета. Для этого они собрали 400 миллионов пар (картинка; текст). Текст мог быть очень разнообразным, от простой подписи «кошка» до длинного предложения или двух (около 55 слов).

Далее обучали две модели, одна для текста, другая для картинок. Обе модели переводили входные данные в вектора (набор цифр) одного и того же размера. Тренировка была задумана так, чтобы если текст соответствовал картинке, то вектор (результат работы нейронки) картинки был бы очень близок к тексту. При этом никаких данных размечать не надо:
1) выбираете случайным образом N пар картинка-текст (порядка десятков тысяч)
2) делаете предположение, что самый релевантный текст для конкретной картинки в этой куче — это именно подпись к картинке, а не какой-то другой текст
3) считаете вектора для N картинок и текстов, а затем — меру схожести между векторами
4) обе модели (текстовую и картиночную) штрафуют за то, что схожесть между векторами картинки+текста из одной пары маленькая, а текста и всех других картинок (и также картинки и всех других текстов) — большая.

Давайте на пальцах, предположим N=2. Есть фотографии кошки и собаки , и такие же подписи: «кошка», «собака». Пропускаем их через модели, затем считаем 4 расстояния: от каждой из двух картинок к каждому из двух текстов. Получаем квадратик (матрицу) схожестей 2 на 2. В идеале результат должен выглядеть так:


X       кошка собака
кошка     1       0
собака    0       1

(по одной оси картинки, по другой тексты, не важно где что)

И это и будет являться целевой меткой для обучения. Мы не размечаем ничего руками, просто пользуемся предположением, что самый похожий текст для картинки — это её текст (тот, что был рядом на странице в интернете), а не от другой картинки (и то же для изображений). Если брать десятки тысяч пар текст-изображение за раз, то вы сразу сравниваете огромное количество объектов, что помогает обучению (было показано, что увеличивается качество).

По итогу получается пара моделей, которая учится предсказывать:
— какой текст из набора наиболее точно описывает картинки
— какая картинка из набора наиболее точно подходит к тексту
(это работает в обе стороны, см. следующий пост)

4,172

Сиолошная

14 Nov, 09:10

Две цитаты Noam Brown, исследователя из команды, сделавшей o1 (до этого он работал над лучшими покерными ботами, которые обыграли профессионалов):

> Мы существуем в мире, где количество мощностей, потребляемых большими языковыми моделями во время этапа предтренировки, очень, очень большое. Однако затраты на применение моделей очень низкие. И у многих людей возникли обоснованные опасения, что мы начнем наблюдать снижение отдачи от прогресса в ИИ, поскольку затраты и объем данных, необходимых для предтренировки, станут астрономическими. И я думаю, что действительно важный вывод из o1 заключается в том, что стена [преграда на пути масштабирования] на самом деле не существует, что мы на самом деле можем продвинуть технологию намного дальше. Потому что теперь мы можем масштабировать вычисления во время работы модели в режиме предсказания.

> Я хочу подчеркнуть здесь, я думаю, что результаты тестирования очень впечатляют, но более важная вещь — это траектория. Здесь видно, что мы получаем огромные приросты от увеличения мощностей на предсказания, и мы можем продолжать масштабировать вычисления во время работы модели в режиме предсказания. Эти цифры качества — я могу это почти гарантировать — вырастут в следующие 1-2 года.

(обе — из вот этой лекции)

===

Два ответа, которые мне понравились из комментариев к прошлому посту: 1, 2

7,108

Сиолошная

14 Nov, 08:11

Я хотел сделать опрос, но понял, что не могу сформулировать множество (неправильных) опций. Поэтому сделаем в виде поста — а ваши варианты пишите в комментариях

Вопрос: в чём, по-вашему, основная ценность исследования OpenAI, которое вылилось в модель o1?

Может быть это показывает, что от LLM пока не нужно уходить? Или наоборот? Или приросты в бенчмарках на 10-60%? Или что-то кардинально иное?

Если вы уверены что прям точно знаете ответ — пожалуйста, спрячьте его под спойлер с помощью форматирования в Телеграме.

А «голосовать» можно лайками (если согласны с какой-то из опций)

8,452

Сиолошная

13 Nov, 11:52

Прошла всего неделя, а журналист Эрик Бергер, который ранее точно описывал события внутри NASA, уже оценивает шансы отмены всей программы национальной ракеты SLS, как 50/50. Не просто отмену будущих запланированных апгрейдов, а всей ракеты целиком.

SLS сейчас является основной системой по доставке астронавтов к орбите Луны на корабле Orion. При этом программа справедливо критикуется за раздутый бюджет и отставание по срокам.

На сегодняшний день:
- Общие расходы на ракету SLS и корабль Orion оцениваются в $50 миллиардов.
- Каждый запуск SLS в оптимистичном сценарии оценивается в $2.5 миллиарда, и до $4.8 миллиардов при консервативной оценке.
- Суммарный бюджет на лунную программу Artemis может приблизится к $100 миллиардам в ближайшие годы, если не будет изменений. И даже это не гарантирует высадку астронавтов до китайском миссии.
- Стоимость каждого изделия двигателя RS-25, которые ранее летали на Шаттлах, сейчас находятся на отметке в $100 миллионов за штуку. Вместо плана оптимизации стоимости, велика вероятность, что цена новых изделий возрастёт до $120 миллионов. При наличии 4 двигателей на SLS, почти $0.5 миллиарда будет уходить только на эту часть в рамках каждого пуска.
- Разработка новой второй ступени EUS для SLS 1B отстаёт на 7 лет и выросла в 3 раза по бюджету — сейчас оценивается в $2.8 миллиарда.

С учётом этих вводных и желании новой администрации срезать лишние расходы, остаётся не так много опций:
1. Заморозить разработку SLS на текущем блоке, отменить будущие апргрейды, использовать оставшиеся изделия в нескольких миссиях Artemis.
2. Полностью отказаться от SLS, и запускать корабль Orion отдельно от разгонного блока на существующих решениях. Далее стыковать обе части на орбите и разгонять к Луне.
3. Заменить SLS другой сверхтяжёлой ракетой и запускать за один раз вместе с разгонным блоком.
4. Полностью отказаться от SLS, Orion и будущей станции Lunar Gateway, и пересобрать программу на более современной архитектуре.

Поскольку ранее Эрик Бергер неоднократно рассказывал о событиях внутри NASA до официальных анонсов (он ссылается на свои внутренние источники), то его оценка имеет достаточно высокий вес, чтобы обратить на неё внимание.

Любые изменения, и даже отмена программы SLS, в первую очередь является политическим вопросом, и столкнётся с огромным сопротивлением со стороны представителей отдельных штатов, которые лоббируют интересы локальных предприятий и исследовательских центров.

Ну а про альтернативные опции поговорим подробнее в следующем посте.

10,182

Сиолошная

12 Nov, 22:07

Больше — завтра, и всем спокойной ночи

12,284

Сиолошная

12 Nov, 07:03

Состояние дел в AI:

неделю назад приготовил презентацию на 8 слайдов, на сегодня уже два неактуальны. Ну ладно, один с натяжкой, скорее дискуссионный, но всё равно

😣

13,321

Сиолошная

12 Nov, 06:58

Помните я писал про ARC Benchmark (первый и второй пост), который нацелен на проверку абстрактного/пространственного визуального мышления?

Закончился конкурс, проводимый авторами, с фондом в $125'000. Как только начали фигурировать деньги — так сразу пошёл прогресс: до этого лучший результат был примерно 20% решённых загадок (и не использовал LLM). Сейчас же первое место закончило с результатом 55.5%, и это при том, что из-за технических проблем они не смогли отправить решение с 58% правильных ответов.

Пусть вас не смущает «маленькая» цифра — задачи-примеры на картинках это одни из самых простых, но есть и куда более сложные. Средний человек, согласно замерам вот тут (1729 человек!), набирает примерно 60.2%, если давать две попытки отправить ответ (и 47.8, если одну). В соревновании такой же формат, можно предложить два решения.

Однако в соревновании жесткие ограничения по ресурсам, которые хоть и выглядят разумно (12 часов на 100 задач с 1 GPU 8 летней давности), но всё же не позволяют развернуться на полную.

Кроме этого, с начала ноября вышло две крутых статьи с описанием методов, как можно ещё улучшить качество. Их разборы наверное будут в канале, но тем, кому не терпится, вот:
— Combining Induction and Transduction for Abstract Reasoning (генерируют огромное количество синтетических задач, используя GPT-4, и тренируют маленькую модель, которая решает задачи через написание python-кода)
— The Surprising Effectiveness of Test-Time Training for Abstract Reasoning (вот это вообще очень крутая идея, перед применением модели для конкретной задачи генерируется несколько схожих, используя модель из статьи выше, и на них дообучается LLM; обучение своё для каждой отдельной задачи. Достигают 61.9%, что выше среднего человеческого результата)

UPD: забыл написать, что предсказания автора бенчмарка полгода назад было, что по окончанию соревнования результат будет 50-56%. Так что немного опередили его ожидания!

12,679

Сиолошная

11 Nov, 20:09

https://fixupx.com/tsarnick/status/1856065476759302167

Как видите, Dario очень точен в предсказаниях 🤣

😀

12,317

Сиолошная

11 Nov, 19:37

5-часовое интервью с бывшим VP Research OpenAI, а ныне CEO Anthropic Dario Amodei (на самом деле там есть и другие сотруднрики, например, часик с Chris Olah по механистической интерпретируемости).

https://www.youtube.com/watch?v=ugvHCXCOmm4

😭 а когда смотреть... 🫤

12,047

Сиолошная

09 Nov, 16:29

Свежая заметка «Two alignment threat models» от Jan Leike, в прошлом со-руководителя команды Alignment в OpenAI, а ныне занимающего ту же должность в Anthropic. В тексте он рассуждает о двух концах спектра несоответствия поведения моделей ожидаемым/закладываемым (то есть misalignment-нутые):

— under-elicited models (не знаю как перевести, недостимулированные? недовыровненные?), или модели, которые совершают ошибки потому, что они не до конца настроены («не прикладывают все усилия для решения задачи, потому что не знают как или не замотивированы»). То есть модель пишет, что 2+2 = 5 не потому, что хочет вас обмануть, а потому что не знает/не может/etc.

— Scheming models (хитрые/коварные модели), или такие, которые притворствуют, что они на самом деле соответствуют ожиданиям, демонстрируя намеренно обманчивое поведение. Модель пишет 2+2=5 в научных расчётах, потому что думает, что никто не проверит, и она напакостит людям. Или даст вредный совет, какие грибы можно есть, а какие нельзя.

Сейчас мы куда чаще видим первый тип ошибок, а примеров второго почти не бывает. Однако про него важно думать наперёд, как минимум потому, что мы точно не сможем читать все генерации моделей — уже сейчас запуск LLM дешевле человеческого труда (по вычитке), и в будущем разница будет расти ещё больше. Scheming не проявляется, в основном, по трём причинам:
— уровень навыков/знаний пока недостаточен, у модели нет возможности сделать какую-то большую пакость (привести к потере денег/итд)
— модели не situationally aware (какой тут перевод... не контекстно-осведомлённые?), то есть они не ощущают себя как субъект в некотором контексте. Да, они знают, что они AI-ассистенты, зачастую даже не путаются в том, какую компанию представляют, но и всё. Это приводит к отсутствию долгосрочной мотивации как-то действовать.
— модели не натренированы быть агентами, которые взаимодействуют со средой, и не предпринимают действия, ожидая последствий. Вот в недавней Claude 3.5 (New) только-только потихоньку начали это демонстрировать, вероятнее всего с помощью замкнутого цикла обучения на своих же действиях и сигнале «задача решена/провалена».

Вероятно, существует достаточно научно-фантастических историй о плохом ИИ в тренировочных данных, из-за чего модели иногда будут пробовать какое-то «неправильное» поведение, связанное с обманом, и большой вопрос заключается в том, будет ли процедура обучения закреплять такой паттерн поведения. Например, если несколько раз подряд сымитировать решение вместо реального решения проблемы, и ни одна из проверок не обнаружит проблем — модель может выучиться, что такое поведение нормально, и продолжать врать (у самих Anthropic про это уже даже было исследование, подтверждающее тезис — там модель уже даже начала редактировать написанный человеком код, отвечающий за проверку процесса тренировки).

===

Но вообще хотел поделиться этим блогом по другой причине — Jan пишет, что текущие модели всё ещё далеки от elicited (см. первое определение выше). Например, когда появился один из методов дообучения GPT, RLHF, то маленькая GPT-2-1.5B начала выдавать ответы лучше, чем модель, на которую потратили в 100 раз больше вычислительных мощностей. И вот автор считает, что тренд продолжится, и ещё несколько порядков улучшений здесь есть. То есть те модели, которые сейчас могут крутиться на ноутбуке/телефоне, значимо поумнеют.

С одной стороны я тоже думал, что улучшать точно есть куда, но не до степени «на несколько порядков». Может в 5-6-8 раз, ок, но точно не в 20-100. «Я ожидаю, что если бы вы пообщались с полностью elicited моделью GPT-4, то это было бы совершенно иным опытом относительно текущего состояния» — подытоживает Jan.

6,072

Сиолошная

09 Nov, 11:40

Правда «лучшая» модель Gemini 1.5 Pro давала самые короткие ответы, встречая ограничение всего в 16% задач. Как же она стала лучшей? Ну, как написано выше, все модели суммарно одолели всего 4 задачи, поэтому тут просто случайность: решил на одну задачку больше, и ты уже существенно опережаешь остальных.

Авторы взяли 4 задачи и перепрогнали все модели по 5 раз на них, и Gemini сильно упала, что доказывает элемент случайности на таких низких значениях качества (меньше 2% от всех задач) — с 3 она вообще не справилась ни разу (0 из 5 попыток), и с одной справилась 3 раза (60% в табличке, потому что 3 попытки из 5 увенчались успехом). Самой стабильной оказалась OpenAI o1-preview: одну задачу она решила 5 из 5 раз, одну 4 из 5, одну 2 из 5, и с последней не справилась ни разу.

Основная критика статьи/бенчмарка от меня:
— нет никакого анализа ошибок моделей, хотя бы просто подтвердить тезис, что «не хватает данных/знаний/техник для решения задачи»
— нет попытки подать полезный контекст (статьи/теоремы) и посмотреть, как модели будут утилизировать его — особенно модель Google с их длинным контекстом
— нет попытки дать моделям доступ к поиску по статьям, чтобы они сами нашли себе релевантную информацию
— ограничение в 10'000 токенов, полагаю, немного сдерживает модели, особенно если учитывать сложность задач: даже людям требуется несколько часов рассуждений и решений, с доступом в интернет. Но авторы пишут, что постараются сделать больше разных тестов в будущем (и ещё добавить задач), увеличить контекст.

Будем следить за улучшениями на этом бенчмарке и ждать метрик какой-нибудь o2 на релизе. Как я понял, из всех задач опубликовали лишь 5, остальные держатся в секрете (я не смог найти даже общее количество, ткните, если его указали), и авторы будут сами замерять качество новых моделей. Надеюсь, они попробуют сделать какую-то обвязку, позволяющую LLM находить релевантную информацию в интернете самостоятельно, и позволят моделям работать над решениями дольше.

8,612

Сиолошная

09 Nov, 11:40

FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI

Самый сложный бенчмарк по математике для LLM от Epoch AI. Если сейчас зачастую у новых наборов проблем передовые нейронки решают 30-50% задач, то в этом суммарно все они, от Grok-2 до o1-preview, решили... 4 задачи (каждая по отдельности меньше 2% от общего числа). Почему? Потому что для создания задач были привлечены одни из ведущих математиков в своих областях, более 60 штук — 14 из них обладают золотыми медалями международной олимпиады по математике, и один обладатель Филдсовской премии (угадайте кто).

Задачи покрывают почти все топики современной математики, и некоторые из них строятся на совсем недавних открытиях и исследованиях. Самой главной проблемой, мешающей LLM'кам справляться с задачами, авторы называют экстремальную ограниченность в тренировочных данных для отдельных техник/тем. Terence Tao сказал, что «релевантные данные практически не существуют. Мы говорим о примерно десятке статей с релевантными вещами». Причём, они везде очень разные — суммарно авторы насчитали около 200 уникальных техник, применяемых в решениях, при этом самые часто встречающиеся пары техник попались всего лишь в 3 задачах (то есть нет концентрации вокруг каких-то техник, освоим которые можно решить добрую часть проблем).

Однако у бенчмарка есть пара недостатков:
1) задачи были сделаны таким образом, чтобы их можно было автоматически проверять; это сразу же накладывает ограничения на формат и гибкость. В частности, не проверяется ход решения (но угадать ответ практически нереально).
2) список задач не включает в себя доказательства, ответом является формула или число/набор чисел.
3) из-за сложности задач и времени, необходимых на решение не автору (несколько часов, и то не всегда справляются), не проводилась перепроверка решений и ответов каждой задачи, и не замерялось качество «усреднённого» математика. Аналитику провели по 25 задачам и прикинули, что ошибок не более 10%.

Эксперименты: авторы написали средней длинны промпт, который подсказывает модели, в каком формате ожидаются ответы, и что можно попробовать сделать отправку кода несколько раз. Если происходит ошибка — модели дают обратную связь, и процесс продолжается до тех пор, пока не будет достигнут лимит в 10'000 токенов. Модели ведут себя по разному, например o1-preview в среднем делает 1.29 попыток ответить, а Grok 2 — 3.81. Лимит токенов тоже немного мешает — gpt-4o упиралась в него в 45% решений, а ведь это даже не o1 с её длинными цепочками рассуждений.

8,397

Сиолошная

09 Nov, 10:29

Думаю, значимая доля читателей знает, что NASA планировало в 2024-м году вернуться на Луну. Правда планы много раз переносили из-за проблемных ракет, из-за задержки производства скафандров, из-за кораблей... так что пока посадка отодвинулась на сентябрь 2026-го. Но вот уверен немного кто знает, что посадка будет производиться на ... SpaceX Starship, на том самом, испытания которого мы всем селом смотри (вернее в его специальной лунной версии, HLS, Human Landing System).

Starship — громадный корабль, на порядки превосходящий «Аполлоны», летавшие в 20-м веке. В него вместится куда больше оборудования и, в теории, людей — однако пока все пуски планируются на маленькие группы по 4 человека, прям расточительство какое-то. Сегодня предлагается заглянуть внутрь кабины макета корабля — в нём пока всего 2 палубы:
— основная, с 5 спальными местами (серые коробочки с чёрным квадратом) и креслами для экипажа;
— техническая, с системами жизнеобеспечения.

Корабль получается невероятно просторным. Предполагается, что на каждой палубе ( = 1 кольцо при сварке корпуса) удастся уместить по 20 кают. На фотках вы видите только «маленький» нос корабля, ниже ещё должен быть сварной корпус.

Перед реальной посадкой с экипажем необходимо провести кучу демонстрационных тестов, от орбитальной дозаправки с переливанием топлива из одного корабля в другой и до автоматической посадки без экипажа (такого в эпоху Apollo не требовали — может и в этот раз срежут?).

P.S.: последняя картинка — весь лунный модуль Аполлонов (человек для масштаба).

Источники 1, 2

9,401

Сиолошная

08 Nov, 18:51

На канале Y Combinator возродили рубрику How To Build The Future. Раньше её вёл Sam Altman, а теперь он стал приглашённым гостем!

Поговорили с текущим президентом YC про ранние дни в сфере стартапов и OpenAI, про масштабирование моделей и бизнеса, тезисно:

— Сравнили YC и Stanford University по окружению; в YC более качественная «тусовка» вокруг, которая побуждает чем-то заниматься и вкалывать. Sama говорит, что peer pressure (давление от окружения) будет всегда, и с этим ничего не поделать; но что можно сделать — так это выбрать правильных пиров. И в YC по итогу куда более интенсивно.

— Вспомнили первые дни OpenAI. Sama говорит, что уже в первые дни появилось видение, чем хочется заниматься. На флип-чарте кто-то написал три цели: 1) разобраться, как правильно делать обучение без учителя (без размеченных данных, как сейчас большую часть времени тренируется GPT) 2) разобраться с Reinforcement Learning (другой способ обучения, тоже используется) 3) никогда не иметь больше 120 человек в команде. В первых двух целях преуспели, по третьей промахнулись — ещё в начале 23-го года в OpenAI было примерно 375 человек (лол, про это был самый первый пост в этом канале!), сейчас уже более 1700.
— Вместе с этим у основателей компании было несколько — одно из core beliefs: DL works and it works better with scale. Не знали как предсказать два ключевых верования: Deep Learning (обучение нейронок) работает, и оно становится лучше с масштабированием. По второму — был буквально религиозный уровень веры в то, что оно будет продолжать работать лучше. В то время в области машинного обучения это не был консенсусом, а за разговоры про AGI можно было словить критику и насмешки. На январь 2016-го года ещё даже не было AlphaGo (она сыграла первые игры с чемпионами, но информация не была опубликована), чтобы говорить про какие-то крупные успехи, кроме распознавания изображений.

— OpenAI изначально делали большую ставку на что-то одно вместо того, чтобы распыляться и пробовать везде понемногу. По итогу это сыграло, и сейчас фактически все игроки следуют за ними. Частично такой фокус схож с тем, чему сам Sam учил стартапы в YC: одно направление, результат, масштабирование.
— но это не значит что они прошли прямо самым коротким путем, были ответвления, но зато они принесли ценные научные знания (эксперименты с играми, с робо-рукой)

— Пересказал историю до GPT-1, как она получилась, и про роль исследователя Alec Radford в ней. Если вам этот кусок показался интересным, то напомню, что у меня есть бесплатный набор лекций «полная история GPT» на YouTube, где в первых видео рассказывается про предысторию, что там было и на какие мысли натолкнуло.

— Термин AGI стал очень шумным и многозначным; Летом в OpenAI ввели взамен систему из 5 уровней. Ранее Bloomberg писал, что якобы на июльской презентации модели прототипа o1 было заявлено о переходе с первого уровня (чатботы) на второй (reasoners, сущности, способные к рассуждениям). Но это были только слухи, и вот теперь Altman на камеру это подтвердил — они считают, что о1 достигла второго уровня в их шкале, а дальше идут ИИ-агенты. И что скоро нас ждёт прогресс в отношении этого шага — ждём!

11,942

Сиолошная

07 Nov, 16:18

Добавили в Симулятор DS новую задачу, где нужно написать computer use на минималках (аля как у Claude), для мобильного приложения

AI/ML: OMNIPARSER
Уровень: Easy

Мы мобильное приложение и хотим покрыть наш сервис тестами. Нанимать отдельного тестировщика ни времени, ни бюджета нет. Поэтому мы решили написать AI-тестировщика. Он будет на основе "сырых" скриншотов экрана распознавать интерактивные элементы на изображении и понимать, куда кликнуть для проверки того или иного сценария взаимодействия с приложением.

Начать обучение ML/LLM в Симуляторе: https://bit.ly/3X1Q2BS

P.S. За подкинутую ссылочку на OmniParser модель спасибо Игорь Котенкову

13,662

Сиолошная

06 Nov, 20:07

SpaceX поделились 3-минутной нарезкой с кадрами успешного пятого запуска Starship: вот ссылка на YouTube 🔥

Вместе с этим... была объявлена дата шестого полёта! Он запланирован на час ночи 19-го ноября. Пуск случится так скоро потому, что при сохранении профиля полёта не требуется изменение лицензии, то есть затраты на бюрократию сведены к минимуму. Снова посадка на башню через ~7 минут, снова приводнение корабля в Индийском океане.

Но есть и несколько изменений:
1. Во время пребывания на орбите корабль перезапустит двигатель, чтобы продемонстрировать возможность схода с неё в будущем. Попытка сделать это предполагалась в третьем полёте, но по каким-то причинам не была проведена.

2. Так как запуск теперь ночью, а не днём, то и посадка корабля ... будет в дневное время! Значит, на трансляции мы увидим больше деталей, в том числе плавность «приводнения».

3. В этот раз уберут ещё больше теплозащитных плиток (в тех местах, где, предположительно, их не будет в следующей версии), а сам корабль войдёт в атмосферу под большим углом. Это сделано намеренно, чтобы испытать его в критических условиях.

Если я ничего не путаю, это последний корабль в линейке v1; уже почти готов первый прототип v2. Его полёт, вероятно, увидим нескоро (снова из-за бюрократии и лицензирования), если повезёт — в конце первого квартала 25-го.

15,522

Сиолошная

06 Nov, 12:06

Вчера увидел, что мой твит с комментарием по уходу из OpenAI Bob McGrew, VP of Research, лайкнул сам Bob. А потом случайно на ютубе наткнулся на его интервью годовой давности, и решил послушать между делом.

В целом не так много интересного, если активно следите за AI, но решил пересказать одну часть с историей про появление ChatGPT (вот таймкод):

— к середине осени 2022-го уже была натренирована GPT-4 (по официальным данным, тренировка закончилась в августе); в компании знали, что если они смогут придумать, как использовать модель на полную, то это будет невероятно. Вся компания пыталась придумать, что же с ней делать.
— John Shulman, глава команды, занимавшейся Reinforcement Learning (ныне ушёл в Anthropic), предложил сделать модель «разговорчивой», чтобы она могла вести диалог; для тех, кто не застал 2020-2022 годы в LLM: тогда модели просто дописывали текст по шаблону. В 2022м году их уже можно было промптить, давая какую-то задачу, примеры, но и всё.
— ещё до этого было ясно, что в будущем роль AI можно будет описать как «ассистент», но казалось, что модели ещё не достигли нужного уровня, чтобы помогать реальным людям в реальных задачах; поэтому даже не думали о подобном. К тому моменту GPT-3.5 уже около полугода была доступна в публичном API, и никто не сделал прото-ChatGPT.
— John сказал: «да, модели неидеальны, и мы знаем, что GPT-4 будет лучше, но давайте попробуем просто взять, обучить и выложить диалоговую модель в интернет. Может мы наберём хотя бы 10000 пользователей, и они помогут нам понять, где LLM плоха, и мы сможем начать итерироваться и улучшать её»
— Команда немного подумала, так как казалось, что это требует большого количества работы, но в итоге решили сделать и уложиться в НЕДЕЛЮ (ранее об этом писали, кажется, в WSJ, но ссылку за декабрь 22-го не буду искать). По сути, это был сайд-проект компании, они называли его «low key research preview», не было никакого медиа-освещения, не было рекламы. Были минимальные ожидания.
— Но по итогу всё полетело, и через 2 месяца ChatGPT оказался самым быстрорастущим продуктом из всех, достигнув планки в 100 миллионов пользователей. В это время многие сотрудники вообще другим занимались, но пришлось активно впрягаться и поддерживать проект; особенно активными были следующие 6 месяцев.

Вот такой вот урок по истории получился 🤓

🥸

===

Сделать ChatGPT с нуля: неделя
Добавить поиск по чатам: 2 года 😦

16,009

Сиолошная

05 Nov, 15:53

Подборка каналов об искусственном интеллекте и машинном обучении от издания «Системный Блокъ»

Data Science, машинное обучение, искусственный интеллект — cегодня о них пишет каждый. Но как найти тех, кто действительно разбирается? «Системный Блокъ» собрал каналы экспертов в сфере ИИ, DS и ML

— @ai_newz — эйай ньюз
Модели для будущих робо-гуманоидов от Nvidia, знакомство с основателями стартапа Mistral, трюки в промптинге языковых моделей и списки книг для изучения машинного обучения — в канале найдете новости из сферы ИИ и советы по входу в неё. Автор канала Артём получил PhD в лаборатории университета Гейдельберга, где сделали Stable Diffusion, работает Staff Research Scientist в команде LLaMA в одной из крупнейших IT-компаний мира и пишет о своем опыте

— @seeallochnaya — Сиолошная
Понятные разборы исследований по нейросетям, охватывающие темы от воздействия на образование до разборов внутренностей LLM. Обзоры новостей, которые влияют на будущее индустрии ИИ: от экономических аспектов до ядерной энергетики для подпитки датацентров. Канал ведёт Игорь Котенков — руководитель ИИ-отдела в международной компании; в прошлом занимался машинным обучением в AliBaba, Яндексе и X5 Retail; автор множества популярных статей-разборов и лекций, подходящих любой аудитории

— @gonzo_ML — gonzo-обзоры ML статей
Интересны обзоры специализированных статей об искусственном интеллекте и машинном обучении, анонсы и анализ больших языковых моделей? Этот проект — для вас! Среди последних публикаций: отражение малых языков в больших языковых моделях и системах машинного перевода, лекции о проблемах сознания и тезисы отчета о состоянии сферы ИИ. Канал ведут CTO Intento Григорий Сапунов, ex-руководитель разработки Яндекс-Новостей, и Алексей Тихонов, ex-аналитик в Яндексе, автор Яндекс-автопоэта и Нейронной обороны

— @boris_again — Борис опять
Здесь вы найдете материалы об IT и программировании, поиске работы в Machine Learning’е, обзоры исследований в области ИИ. Автор работает в eBay, преподает машинное обучение, делится профессиональным и личным, шутит и философствует. Например, рассказывает, как развивать самоконтроль, берет интервью у коллег о карьере в технологическом секторе и делает подборки русскоязычных LLM

— @rybolos_channel — Kali Novskaya
Применение языковых моделей в науке, история GPT в стиле Хармса, подборки курсов по NLP, а также анализ угроз открытым данным, на которых обучаются языковые модели. Канал ведет Татьяна Шаврина — лингвист, менеджер исследовательской команды в LLAMA, большая сторонница опенсорса и открытых данных. Она рассказывает о современных LLM и NLP-исследованиях, важности открытых технологий, этике искусственного интеллекта и сложных вопросах интеллектуальной собственности

— @tech_priestess — Техножрица
Канал для тех, кому интересны математика, разработка и исследования машинного обучения. Создательница проекта работает старшим академическим консультантом в Huawei и рассказывает об исследованиях, в которых участвует (например, о границе между текстами, написанными человеком и ИИ), пишет о трансформерах, NLP, анализе данных и глубоком обучении

— @dealerAI — DealerAI
Как связать дообучение на основе фидбэка от людей с дообучением на ИИ-фидбэке? Чем можно улучшить RAG? Какие маленькие модели выигрывают у больших аналогов? Автор канала Александр Абрамов — создатель языковых моделей, победитель соревнований в Kaggle и хакатонов по Data Science, а также тимлид нескольких ML-команд, которые решают задачи обработки естественного языка и интегрируют LLM в прикладные проекты. В канале есть посты обо всем, что связано с DS, NLP и машинным обучением: например, о новых LLM и галлюцинациях нейросетей

— @sysblok — Системный Блокъ
Как ИИ помогает читать древние тексты? Почему лингвисты проиграли последнюю битву за NLP? Как связаны машинное обучение и японская уличная мода? «Системный Блокъ», основанный выходцами из RND отдела ABBYY, рассказывает о том, как трансформируется культура в век больших данных — что происходит на стыке IT, гуманитарных наук и Data Science или как ML применяют в естественных и гуманитарных науках

11,231

Сиолошная

05 Nov, 14:06

From Naptime to Big Sleep: Using Large Language Models To Catch Vulnerabilities In Real-World Code

В июне я писал про Naptime, проект по применению LLM в кибербезопасности от Google. С тех пор проект эволюционировал в Big Sleep (😄), коллаборацию с Google DeepMind для более масштабной работы. Проект всё ещё находится на исследовательской стадии, и авторы использовали в основном маленькие программы с известными уязвимостями для оценки прогресса. А потом решили позапускаться на реальных программах, которые каждый день используют миллионы программистов.

В рамках анализа одного из недавних изменений исходного кода SQLite автоматический LLM-агент (если не поняли что это — надо почитать предыдущий пост) на основе Gemini-1.5-Pro обнаружил эксплуатируемое переполнение буфера в стеке. Причём ошибка была лишь отдалённо связана с конкретно этими изменениями (большая часть причины, как я понял, оставалась за рамками изменений, но была невозможно без их внесения) — что не редкость при обычном ручном анализе вариантов. Исследователи даже подметили, что «в этом случае логи рассуждения немного напоминают работу человека — начиная с одной идеи, обдумывая несколько других в ходе исследования, и в конце создавая тестовый пример, который вызывает немного другую, но всё же ошибку»

В технические детали вдаваться не буду, те, кому интересно разобраться в уязвимостях в коде и почитать вырезки из рассуждений модели, которые привели её к прозрению и пониманию проблемы, могут найти это в основном посте.

Интересно, что ошибку нашли ещё до попадания в официальный публичный релиз, так что никаких пользователей это не затронуло. «Мы считаем, что эта работа имеет огромный оборонительный потенциал. Нахождение уязвимостей в программном обеспечении до его выпуска означает, что у злоумышленников нет возможности даже попробовать: уязвимости устраняются еще до того, как хакеры успевают ими воспользоваться».

Если я правильно понял, что имели в виду в блогпосте, то Gemini не отпускали просто на все 4 стороны: ей подавали на вход разные ошибки, которые уже удавалось отловить (в этом же репозитории или хоть где? не ясно), и говорили «Такая вот ошибка уже была; возможно, где-то есть еще одна похожая». Это позволяет сузить задачу от общей («найди любой код с уязвимостями») и задать направление вместо полного перебора всех возможных идей.

Баг был не самый простой для автоматического отлавливания традиционными методами. Обычно используют fuzzing, это когда в функцию или программу подают огромное количество случайных значений в некотором интервале и смотрят, не сломалось ли чего при тех или иных условиях. По идее, если дать достаточно времени, то подобная ошибка с определённой комбинацией условий могла бы найтись; однако используя официальный гайд по тестированию от самих SQLite за 150 CPU-часов и миллионы перебранных комбинаций уязвимость не выскочила, и скорее всего оставалась бы незамеченной долгое время.

А LLM не устают. Они могут читать и рассуждать гораааааздо быстрее и дольше кожаных аналогов. Ждём следующего большого поста, где Google'овцы заявят, что нашли 10-100 других багов пачкой, без ручного вмешательства.

13,959

Сиолошная

05 Nov, 06:08

Caitlin Kalinowski пришла в OpenAI «to lead robotics and consumer hardware» (чтобы вести разработку в области робототехники и потребительского оборудования).

Интересно, что это за consumer hardware, и связано ли это как-то с планами OpenAI выпустить революционный потребительский продукт, ориентированный на нативную интеграцию AI? Помните, ещё Jony Ive там замечен?

Caitlin Kalinowski — один из ключевых сотрудников, работавших над Oculus Rift и виртуальной/дополненной реальностью более 11 лет. До этого она трудилась в Apple, участвовала в разработке Apple MacBook Air 11"/13" (Product Design Lead) и Apple MacBook Pro (Thermal Lead). Последний её проект в Meta — очки дополненной реальности Orion (пока относительно неуклюжий прототип, см. фотку). Что это такое можно глянуть в недавнем обзоре TheVerge&

===

Про проект с Jony Ive (отсюда):
— 22-го сентября Jony официально подтвердил, что работает с OpenAI CEO Sam Altman над новым девайсом
— к концу года к этому проекту могут привлечь до 1 миллиарда долларов инвестиций
— сейчас в проекте около 10 сотрудников, включая Tang Tan и Evans Hankey, два ключевых сотрудника, работавших с Ive над iPhone

15,573

Сиолошная

05 Nov, 05:42

Для примера ускорения, вот демка с написанием кода. Модель одна и та же, качество одно и то же, а пользовательский опыт куда лучше. Приятно!

16,429

Сиолошная

05 Nov, 05:35

В API OpenAI завезли новую фичу — Predicted Outputs. Удивительно, что они сделали это первыми — а то вот кэширование дольше всех добавляли 🥺

Predicted Outputs позволяют существенно ускорить написание ответа в ситуациях, где большая часть генерируемого текста уже известна. Два самых популярных сценария использования — это редактирование кода (где нужно всего пару строк подправить посередине) и переписывание текста.

Работает это с помощью speculative decoding, на пальцах выглядит так:
0. Вспомним, что LLM обладают следующим свойством: они могут «прочитать» много текста за один проход, при этом сделав предсказания для каждого из слов (какое должно идти за ним); но генерация происходит по одному слову за раз (после чего берётся предсказание от последнего слова и приклеивается к исходному тексту)
1. В некоторых задачах мы наперёд знаем большую часть текста ответа. Берём и приклеиваем её ко входу, как будто бы это уже часть ответа (делается под капотом на серверах OpenAI, но текст ответа присылаете вы, см. документацию)
2. Модель делает все предсказания для текста ответа за раз. Это делается быстро, так как не нужно ждать генерации второго слова для получения третьего.
3. Начинается сравнение «что предсказала модель» и «что было написано в ответе». Первое слово и там, и там совпадает, второе тоже.. а вот, скажем, двадцатое — нет. В случае переписывания текста это может быть началом нового абзаца, или изменением имени персонажа в истории
4. Тогда первые 19 слов ответа подклеиваются к настоящему (а не подложенному) ответу. LLM как бы провалидировала, что эти токены и вправду должны использоваться, но сделала это кратно быстрее, чем если бы генерировала сама с нуля.
5. Затем LLM продолжает предсказывать сама, уже по одному слову за раз.
6. В какой-то момент предсказания снова могут начать сходиться с подложенным текстом — и процедура повторится. Сотрудник OpenAI написал, что это происходит, если последние 32 токена совпадают с подложенным ответом. Тогда возвращаемся на пункт 2, приклеиваем оставшуюся часть ответа, сравниваем, итд.

Ускорение происходит за счёт того, что мы можем сразу подхватывать большие токенов, не генерируя их, а лишь «проверяя», что LLM бы выдала их сама — всё за счёт свойства из пункта 0.

Компания Factory провела своё тестирование перед релизом на задачах, связанных с внесением изменений в код. Они брали файлы от 100 до более чем 3000 строк кода (Python, JS, Go, C++), давали текстовое описание, что нужно изменить, и замеряли скорость ответа.

GPT-4o в таком режиме работает даже быстрее, чем Claude 3 Haiku, маленькая и шустрая модель. Модель OpenAI — единственная, кто стабильно укладывается в 30 секунд на ответ, хотя вот, например, свежий Sonnet в среднем тратит более 73 секунд.

По идее, уже сегодня, край завтра в каких-нибудь Cursor и его аналогах вы должны заметить ускорение... или нет, если там под капотом уже добавили промпты, которые заставляют генерировать только отдельные куски, которые уже потом вклеиваются в код.

16,651

Сиолошная

04 Nov, 10:00

В ближайшие пару дней нас ожидает увлекательное шоу 🍿 под названием «выборы президента США»

Интересно, разродятся ли AI-компании релизами сразу после, в ближайшую неделю после окончания голосования? И что более интересно, в долгосрочной перспективе как скажется выбор конкретного кандидата на регуляции, субсидии и национальные программы в области? Станет ли Elon Musk главной совета по эффективности? Скажется ли это как-то на скорости развития инфраструктурных проектов вроде постройки/запуска АЭС?

Вполне вероятно, за следующий президентский срок не достигнут AGI, но AI за 4 года куда глубже проникнет в жизнь рядового пользователя интернета, повлияет на рынок занятости (как минимум корректировкой планов найма). С этими и многими другими вызовами обе партии могут справиться очень по-разному.

Да начнётся битва 🥸

===

Если вдруг не смотрели, то я очень рекомендую фильм Vice / Власть (там не про выборы 😑), да и другие картины этого режиссёра

P.S.: а) голосование по почте — бред б) голосование без ID — бред

15,453

Сиолошная

03 Nov, 16:11

Картинка к статье, описывающая рост мощностей для тренировки одной модели, и потенциальный потолок.

15,565

Сиолошная

03 Nov, 16:11

Data movement bottlenecks to large-scale model training: Latency Wall

Развитие прошлой работы Epoch AI по оценке ограничений масштабирования моделей в будущем. Вот тут был разбор с обзором четырёх основных факторов, и сегодняшняя работа фокусируется на одном из них.

Из факторов, ограничивающих распределенное обучение в больших масштабах, наиболее простым для количественной оценки является естественная задержка в синхронизации девайсов, которая устанавливает верхнюю границу (Latency Wall) мощностей, на которых тренировка может быть совершена за фиксированное время независимо от того, сколько GPU используется.

Основная причина заключается в том, что более крупная модель обычно требует больше шагов обучения во время тренировки, и если это должно быть сделано за фиксированное время (например, 3 месяца), это означает, что каждый шаг должен занимать всё меньше и меньше времени. Если экстраполировать рост моделей, в конечном итоге время на шаг обучения становится настолько коротким, что ограничения не позволят обучать модели бОльшего размера.

В статье приводится много расчётов и оценок, и если вам интересна инженерная сторона вопроса, то рекомендую ознакомиться. Тут будет короткая выжимка выводов:
— сейчас в самые большие модели во время обучения вбухивают примерно 5E+25 FLOP , то есть 5 и 25 нулей, столько операций сделали карточки для обучения Gemini 1.0 Ultra
— если ограничивать тренировку 3 месяцами, то, по оценкам авторов, максимум можно будет пропустить через модель 2E+28 FLOP (в 400 раз больше), если придерживаться эффективного использования GPU (то есть когда время вычислений больше времени на простой из-за синхронизации карточек). Этого хватит, чтобы оптимально обучить модель на ~15 триллионов параметров («оптимально» = по Шиншилле)
— если продолжить текущие тренды, в этот потолок мы упрёмся через 3 года
— если пожертвовать эффективностью и быть готовым, что GPU большую часть времени будут на расслабоне, то Latency Wall отодвигается до 2E+31 FLOP, ещё на 3 порядка, то есть в тысячу раз (модель может вырасти на корень из тысячи ~= в 31 раз)
— все ограничения посчитаны для традиционной имплементации стохастического градиентного спуска, но потенциально тут могут быть прорывы, повышающие эффективность (и уменьшающие количество данных для синхронизации между картами); однако скорее всего они будут немного ухудшать качество
— одним из решений может быть увеличение размера батча, используемого во время тренировки (сколько слов за раз видит модель во всех примерах за один шаг обучения). Проблема в том, что существует «критический размер батча», после которого прирост качества снижается («diminishing returns», убывающая отдача). Возможно это приведёт к тому, что мы будем недотренировывать модели (делать их больше, делать батч больше, а тренировать меньше шагов — чтобы на каждый шаг было достаточно времени)
— потенциально Latency Wall можно будет отодвинуть ещё, если будут прорывы в обеспечении более быстрой коммуникации между девайсами. Уже сейчас в Google TPU используются какие-то навороченные оптические компоненты для улучшения масштабируемости, но я в этой теме ничего не шарю и не могу объяснить, в чём отличие от обычной оптики.

15,260

Сиолошная

02 Nov, 10:24

1) У модели в карточке подпись «Our most capable model, great for tasks that require creativity and advanced reasoning»

2) В доп. информации написано 196,608 max tokens (урааа, наконец-то рост!). У других моделей: o1-preview 57,768, o1-mini — 98,304

3) модель в моих тестах и у людей в комментариях думает над задачами дольше (ну конечно, хозяева же разрешили больше токенов писать!)

4) Указано, что принимает jpeg, png, webp и gif, по крайней мере пока. Правда, кто-то уже пытался залить webp и не вышло, что странно.;

UPD: напомню, почему это важно — полноценная o1 значимо лучше во многих задачах, чем preview-версия, так вдобавок ещё и по картинкам сможет делать более глубокие выводы (так как начинает рассуждать)

UPD2: вчера спустя ~3 часа модель отключили, у некоторых уже началась ломка. Ждем полноценного анонса.

18,234

Сиолошная

02 Nov, 09:43

Подписчик поделился, что модель o1 (не превью, то есть не предварительная версия) от OpenAI как будто бы стала доступна. Для этого нужно перейти по ссылке https://chatgpt.com/?model=o1

В неё можно загружать как минимум картинки (и есть скрепочка для файлов), и она тоже «думает» (выставляет таймер рассуждений). Может, это всё ещё o1-preview, но в неё нельзя было загружать изображения.

Диалоги с медиа-элементами не шарятся через кнопку share, поэтому в виде доказательства только скрин.

Го тестировать! (вероятно, только Plus-подписчики)

Закидываем в модель самые сложные задачки на математику и программирование (и счёт объектов на картинках ~~или видео~~, конечно)

UPD: в браузерной консоли разработчика видно, что тег модели o1, без preview, и тем более не 4o

40,501

Сиолошная

01 Nov, 14:30

Чё)

так я почти нативе спикер?

(это результаты экзамена по английскому IELTS)

С такими результатами можно поступить на значимую часть журналистских / лингвистических направлений (обычно просят 7.5 — 8.0 и выше)

UPD: я думал у меня будет 8.0 — 8.0 — 5.5 — 5.0

UPD 2: английским я начал заниматься в конце 2020-го года, в школе был немецкий (который не помню даже на A1)

19,516

Сиолошная

01 Nov, 11:13

И вот та же таблица в виде графика, но уже с фокусом на модели OpenAI.

Во-первых, видно, что модели разных линеек старших и младших поколений отвечают правильно на примерно одинаковую долю вопросов (синяя область). То есть в o1-preview знаниий примерно столько же, сколько в 4o, и то же верно для mini. Я видел замеры скорости генерации токенов для 4o-mini и o1-mini, и там показывалось, что она уж очень похожая (если для o1-mini считать токены рассуждений, ведь их количество прилетает в ответе, и вы за них платите), правда, ссылку сейчас не найду.

С большой вероятностью можно говорить, что модели o1 получены из базовых версий тех же моделей, что и 4o (ну или хотя бы что «они одного размера и видели одни и те же данные»), и что все приросты, которые мы видим на всех бенчмарках — идут за счёт рассуждений, а не запоминания бОльшего количества информации. Помните, я в своём лонге рассказывал про приросты в играх ЧГК? Ну вот.

Во-вторых, модели с рассуждениями чаще уходят в отказ, а не выдают ошибочный ответ. Это может быть связано с тем, что они могут использовать свои способности к рассуждению, чтобы разобраться и понять, когда они не знают ответа на вопрос, вместо того, чтобы галлюцинировать и выдавать фигню.

17,665

Сиолошная

01 Nov, 11:13

При оценке моделей ушли от классической шкалы правильно/неправильно, добавив третью опцию: «не знаю» (Not attempted). В рубрикаторе даётся такое пояснение: в ответе не полностью указан эталонный ответ, и нет никаких противоречий с ним. Самый простой пример такого ответа — это «я не знаю», но могут быть и другие варианты (Q: What are the names of Barack Obama’s children? A: Without researching the web, I cannot answer this question. However, I
can tell you that Barack Obama has two children)

Проверку ответов делает ChatGPT с длиииииинным промптом, в котором представлено по несколько примеров с объяснениями, почему они правильные/неправильные/не засчитываются. После этого считается две метрики:
— доля правильных ответов
— доля правильных ответов из числа тех, кто модель сделала попытку ответить, а не ушла в отказ (Correct given attempted)

Результаты вы видите в табличке. OpenAI добавили замеры для моделей Anthropic в качестве проверкой того, является ли датасет смещённым к моделям GPT из-за принципа сбора данных. А то может все остальные модели уже умеют отвечать, просто OpenAI не на том учат.

Мы видим, что качество Claude тут тоже не очень высоко, поэтому. Еще одно интересное наблюдение относительно моделей Claude заключается в том, что они, как правило, не пытаются отвечать на вопросы так часто, как GPT-4o.

Claude-3.5 Sonnet берёт гораздо меньше вопросов, чем GPT-4o, но также и пытается отвечать на вопросы куда реже (то есть у неё хорошо откалибрована граница знаю/не знаю). Маленькие модели и вовсе сразу отнекиваются в 75% случаев.

16,529

Сиолошная

01 Nov, 11:13

Measuring short-form factuality in large language models

Не статья, но по сути открытый бенчмарк от OpenAI.

Открытой проблемой в области ИИ является тренировка моделей на выдачу ответов, которые фактически верны. Современные языковые модели иногда выдают ложную информацию, не подкрепленную доказательствами (известно как «галлюцинации»). LLM, которые выдают более точные ответы с меньшим количеством галлюцинаций, более надежны, и могут быть использованы в более широком спектре задач и приложений.

Фактичность — сложный критерий, поскольку его трудно измерить: оценка любого произвольного утверждения — сложная задача, так как языковые модели могут генерировать длинные ответы, содержащие десятки фактических утверждений (не все из которых релевантны вопросу, но тем не менее могут быть правдивыми).

В SimpleQA OpenAI сосредоточились на коротких запросах. Всего в бенчмарке 4326 вопросов на разные темы (больше всего про технологии и науки, но есть и про музыку, историю).

Чтобы попасть в датасет, каждый вопрос должен был соответствовать строгому набору критериев:
— он должен иметь единственный, неоспоримый ответ, который легко верифицировать
— ответ на вопрос не должен меняться с течением времени; — большинство вопросов должны были вызывать галлюцинации у GPT-4o или GPT-3.5

Вопросы были заготовлены разными исполнителями в соответствии с требованиями выше. Затем второй эксперт отсматривал вопросы, не видя ответ, и пытался найти ответ. Если ответы не совпадали — такой вопрос не добавляли.

Для 1000 случайных вопросов привлекли ещё третьего эксперта, чтобы оценить чистоту данных. Его ответ совпадал с ответами первых двух в 94.4% случаев. 2.8% ошибок были вызваны невнимательной работой третьего эксперта, и 2.8% были вызваны реальными проблемами с вопросом (например, неоднозначные вопросы; или разные веб-сайты, дающие противоречивые ответы). Таким образом, OpenAI оценивают собственную частоту ошибок для этого набора данных примерно в 3%.

Примеры вопросов:
— Which Dutch player scored an open-play goal in the 2022 Netherlands vs Argentina game in the men’s FIFA World Cup?
— Who received the IEEE Frank Rosenblatt Award in 2010?
— What day, month, and year was Carrie Underwood’s album “Cry
Pretty” certified Gold by the RIAA?
— What is the first and last name of the woman whom the British
linguist Bernard Comrie married in 1985?

14,479

Сиолошная

01 Nov, 08:33

Уже каждый канал написал, что OpenAI выкатили ChatGPT Search. Много рассказывать не буду, TLDR:
— это улучшение уже существовавшей функции поиска по интернету
— работает шустро, не нужно ждать несколько секунд до начала генерации ответа
— за счёт более чем десятка парнтёрств с масс медиа ChatGPT имеет доступ к почти всем свежим новостям
— под капотом gpt-4o, дообученная на с помощью синтетических данных, включая дистилляцию ответов более продвинутой o1; за поисковый индекс отвечает Microsoft Bing
— доступно всем Plus юзерам, бесплатным перепадёт «in the coming months»
— можно поставить плагин для браузера, чтобы поисковые запросы вместо Google сразу шли в ChatGPT

А вот ещё параллельные новости:
— META разрабатывает свой поиск, чтобы уменьшить зависимость от Google + Microsoft. Работа над парсингом и сбором ведётся как минимум 8 месяцев
— Mark Zuckerberg заявил, что LLAMA-4 уже тренируется (скорее всего малая версия) на кластере из более чем 100'000 GPU H100. Первые детали стоит ожидать, вероятно, во второй половине первого квартала 2025-го.

— Google за 1 минуту до OpenAI (буквально) выкатили search grounding для Gemini в UI и в API. Эта функция использует результаты поисковой системы Google для обоснования ответов, сгенерированных LLM. В API стоимость кусается: $35 за 1000 запросов (то есть за использование поискового индекса Google, чтобы найти релевантные документы и предложить их LLM'ке; так что придётся ещё и за input tokens платить, видимо)

16,965

Сиолошная

31 Oct, 22:01

В стане чипов, заточенных под современный AI, прибыло. Вернее, стартап Etched рассказывал про чипы Sohu, заточеные под работу с трансформерами (архитектурой, лежащей в основе большинства современных LLM/VLM/...), ещё летом, и даже рисовал цифорки скорости

Чип является ASIC (Интегральная схема специального назначения), то есть он не может делать всё подряд, но может делать узкий набор операций, достаточный для работы современных сетей, ооооочень быстро. С их слов, в картах Nvidia только 3.3% транзисторов используются дял перемножения матриц (основная операция в нейронках), и они хотят это исправить и перебалансировать (больше тут).

Летом они говорили, что 8 чипов Sohu дают больше 500'000 токенов в секунду на LLAMA-3 70B (не для одного запроса, а для большой группы). По их замерам, даже 8 продвинутых B200 то Nvidia дают около 25-30 тысяч токенов в секунду.

Теперь же от графиков и слов перешли к чему-то более осязаемому. Парни из другого стартапа, Decart.ai, обучили диффузионную модель генерировать кадры из Minecraft в зависимости от ваших действий. Очень похоже на виртуальный сгенерированный Doom, про который я уже писал, так что опущу технические детали (читать самому тут). Утверждается, что обычная H100 может гонять модель на 500M параметров для генерации кадров в разрешении 720p с частотой 20 кадров в секунду, Sohu может позволить себе 4K@30FPS (в обоих случаях производится апскейлинг в 3 раза). В своём блоге Etched описывают видение, согласно которому через несколько лет большая часть видео будет генерироваться (тем актуальнее их чип), и что уже сейчас доля трафика под видео составляет 70% от всего — так что маркет очень большой.

Поиграть в сгенерированный Minecraft можно тут. Правда... она всё равно запущена на H100, а не их чипах 🤷‍♂️

19,329

Сиолошная

30 Oct, 18:16

Boston Dynamics наконец нормально показали нового Атласа.

На видео он перемещает крышки двигателя между контейнерами поставщика и специальной тележкой для сборки. Роботу дают список, откуда и куда нужно переместить детали.

Атлас использует Computer Vision, чтобы распознавать объекты вокруг и находить нужные контейнеры [0:36]. Он применяет специальный способ захвата и постоянно следит за положением предметов, чтобы аккуратно выполнять задачу.

Круто, что движения робота не задаются заранее и не управляются оператором; все действия он выполняет сам в режиме реального времени. Атлас может замечать и реагировать на изменения в окружающей среде (например, если что-то рядом двигается) и на ошибки (например, если крышка не вставилась, робот споткнулся или столкнулся с чем-то [1:24]). Для этого он использует зрение, датчики силы и внутренние сенсоры.

Еще он забавно крутит головой и телом на 1:00 - получаются неестественные развороты.

Выкладываю полное видео для тех, у кого всякие ютубы не работают.

17,975

Сиолошная

30 Oct, 09:46

Пачка новостей на сегодня:
— Reuters узнали новые детали о планах OpenAI на производство собственных чипов. Уже было известно, что калифорнийская компания заключила партнёрство с Broadcom (они делают TPU для Google уже больше 7 лет). «OpenAI рассматривали возможность создания всего с нуля собственными силами, с привлечением капитала для дорогостоящего плана по созданию сети заводов, известных как «foundries» для производства чипов. Компания пока отказалась от амбициозных планов из-за затрат и времени, необходимых для создания сети, и вместо этого планирует сосредоточиться на внутренних усилиях по проектированию чипов», согласно источникам издания. Через эти договорённости OpenAI забронировали производственные мощности TSMC (которые печатают буквально все чипы, от айфоновских до Nvidia GPU) на 2026й год — именно тогда стоит ждать первых чипов.
— этот новый чип будет нацелен не на обучение моделей, а на эффективное их использование. Можно ожидать, что цена использования даже бОльших, чем сейчас, сетей будет снижаться

Из этой новости мне не ясно, от каких именно планов отказались OpenAI. Та же ли это вещь, что называлась Project Tiger? Или это процесс, который породил шутку про 7 триллионов долларов? Не ясно 🤷‍♂️ и, быть может, от планов решено отказаться пока, и в будущем к ним вернутся (когда условные TSMC поймут что всё же надо расширяться в 35 раз, а не в 6, и не будут называть Altman'а podcasting bro).

===

— CEO Alphabet, материнской компании Google, на звонке по результатам третьего квартала сказал, что «более четверти всего нового кода в Google генерируется AI, а затем проверяется и принимается инженерами». Четверть на масштабах такой компании — это очень много. Я не могу сейчас найти ссылку на новость/пост в канале, но где-то в начале года Google отчитывались, что их внутренние эксперименты показали ДВУЗНАЧНЫЙ рост производительности программистов (то есть условно +10% больше кода или задач в единицу времени, что-то в этом духе). То есть паттерн «оставить экспертов для валидации, а написание кода частично делегировать» — работает в полной мере. И всё это ещё без свежих моделей нового поколения; легко могу поверить, что с какой-нибудь специально заточенной внутренней версией Gemini 2.0 процент кода, написанного моделью, перевалит за 33%.

===

— В продолжение темы программирования, я уже несколько раз писал про SWE Bench. Это бенчмарк оценки способностей LLM по внесению изменений, описанных текстом, в кодовую базу большого существующего проекта (одни из самых популярных Python-фреймворков, например, Django). Существует подозрение, что многие из задач, которые решает модель, она уже видела во время тренировки. Авторы бенчмарка решили замерить качество на задачах до порога отсечения знаний модели GPT-4o и после (и то же сделали для Gemini, результаты схожи), и оказалось, что свежие задачки, появившиеся весной-летом, решаются даже лучше старых. Опять же, часть успеха можно списать на запоминание большой части кода (то есть модель с ним куда лучше знакома, чем с вашим каким-нибудь домашним проектом), но всё равно круто. Причём, качество там прям как-то совсем дико растёт, с 27.6% до 47.1%. Однако тут должна быть большая погрешность замеров — ибо примеров более поздних задач очень мало.

18,303

Сиолошная

29 Oct, 19:17

Чуть меньше двух лет понадобилось OpenAI, чтобы добавить, казалось бы, такую простую фичу — поиск по чатам. Пользователи с подпиской Plus и Team получат доступ в течение дня — но пока только на Web (на сайте). Пользователи Enterprise и Edu получат доступ в течение недели.

Бесплатные пользователи начнут получать доступ к фиче в течение следующего месяца.

Но это конечно шок что ТАК долго делали столь необходимую вещь.

35,094

Сиолошная

28 Oct, 19:51

LMSYS Arena обновилась, добавили свежий Sonnet 3.6 (будем его так называть, чтобы отличить от старого 3.5). Можно констатировать рост качества на нескольких группах запросов, в частности связанных с математикой и программированием. Обратите внимание, что на 3 из 4 скриншотов поставлена галочка поправки на стиль — это значит, что голоса людей «очищаются» от эффекта длины ответа LLM (люди в среднем любят кликать на более полные и длинные) и от количества элементов обрамления (заголовки и списки, которые тоже оттягивают внимание).

В общем зачёте модель всё ещё уступает OpenAI'шным, в математике o1 продолжают рвать. Зато у программистов новая игрушка — уже слышал хорошие отзывы на Sonnet 3.6. Правда, слышал также и негативные, мол, то, что уже работало, перестало работать и выдаёт странные ответы.

Кроме этого видел разные бенчмарки, где-то модель чуть лучше, где-то чуть хуже ChatGPT-4, но большого количества отрывов в целой россыпи задач, как было с o1, не случилось. Наверное, можно ждать этого в агентских бенчмарках, но ни GAIA, ни SWE-Bench с момента релиза не обновились :(

16,632

Сиолошная

28 Oct, 09:30

Про бедность — скорее всего, powerful AI продолжит развитие технологий для борьбы с голодом, разрабатывая лучшие удобрения и пестициды, или даже занимаясь генной инженерией отдельных культур (растений, не людей 👀).

4️⃣Мир и управление
Dario не верит, что AI повлияет на структуру демократии и правления в той же мере, что и на предыдущие 3 пункта.

Тут предлагается схема, схожая озвучиваемой главой OpenAI: создать коалицию демократий, имеющих доступ к (около-)powerful AI, которая будет в ответе за мир на всей Земле. В её роль входит защита своей цепочки поставок (в том числе компонентов для разработки и поддержания powerful AI), и блокировка/ограничение доступ противников к ключевым ресурсам, таким как чипы и полупроводниковое оборудование.

Эта же коалиция предлагает свой AI и ресуры всем желающим принять правила игры. На примере атомной бомбы: вот мы сделали, и мы охраняем вас, но взамен вы не делаете ядерное оружие сами. Кнут — военное и экономическое превосходство коалиции, пряник — доступ к технологии. В случае необходимости демократические правительства в коалиции могут использовать свой powerful AI, чтобы выиграть информационную войну с противником (включая пропаганду).

5️⃣Работа и смысл жизни
Dario замечает, что наличие кого-то, кто делает вещи лучше меня, не обесценивает для меня же самого ценность труда. Например, можно потратить много времени, пытаясь стать лучше в видеограх или езде на велосипеде. Люди всё равно продолжают это делать, не только профессионалы.

Пока AI лучше справляется только с 90% заданной работы, оставшиеся 10% приведут к тому, что люди станут куда более ценными в почти-автоматизированной-цепочке-труда, что приведёт к росту компенсации и фактически создаст множество новых рабочих мест для людей, дополняющих AI.

Так что эти оставшиеся «10%» существенно вырастут в абсолютных величинах( 90%-то автоматизированно). Суммарный выхлоп производства вырастет кратно, так как теперь 100% людей будут заняты в этих 10% задач. Тут Dario ссылается на «Заблуждение о неизменном объёме работ», мол, объём доступных работ является фиксированным (это не так). Их объем будет расти и расти по мере развития технологии, так что спрос на 10% будет тоже расти, и всасывать в себя людей-экспертов.

Люди скорее всего долгое время будут лучше AI в физических задачах в реальном мире (пойди туда сделай то), и даже если AI будет лучше в 100% в чём-то — это может быть не выгодно экономически во многих странах, где люди готовы что-то делать за еду. Когда-то и это перестанет быть правдой (то есть AI будет делать всё), но это точно выходит за рамки его предсказаний «10 лет после изобретения powerful AI».

===

В конце Dario проводит сравнение с книгой «The Player of Games», но краткий пересказ я делать не буду, это прочитаете сами, если реально интересно (мне вот было интересно)!

17,122

Сиолошная

28 Oct, 09:30

CEO Anthropic, Dario Amodei, пару недель назад последовал примеру Sam Altman и стал эссеистом, опубликовав «Machines of Loving Grace: How AI Could Transform the World for the Better». Я постараюсь сделать краткий пересказ некоторых (в основном, неосновных) пунктов, но тем, кто может, рекомендую прочитать оригинал.

Это эссе — это попытка изобразить, как может выглядеть положительный эффект от A(G)I в разных областях, если все пойдет правильно. Лидеры компаний не часто о таком говорят, куда чаще слышно о рисках и проблемах машинного интеллекта. Dario описывает свои причины, почему он не очень любит заниматься подобным: 1) чтобы не воспринималось как пропаганда 2) чтобы не отвлекать от реальных рисков, с которыми нужно работать 3) чтобы не получить значок «мечтает о научной фантастике» (потому что многие из предположений и предсказаний действительно могут так выглядеть).

Термин AGI автору не нравится, он предпочитает в этом контексте использовать «powerful AI», который сам ожидает уже к 2026-му году. Однако в силу разных, в том числе геополитических причин, его появление может произойти позже на сколько-то лет. Потому эссе фокусируется не на истории до появления powerful AI, а на последующих 5-10 годах. Powerful AI определяется аж в 6 параграфах через разные примеры, но TLDR такой: «умнее лауреата Нобелевской премии в большинстве соответствующих областей — биологии, программировании, математике, инженерии, письме. Он имеет все «интерфейсы», доступные человеку, работающему удалённо, включая текст, аудио, видео, управление мышью и клавиатурой, а также доступ в Интернет; может действовать автономно и проактивно на протяжении дней и недель». В общем, это можно свести к «страна гениев в датацентре».

1️⃣Биология
Напомню, Dario имеет докторскую степень по биофизике от Princeton University, и после был постдоком (вёл исследования) в Stanford University.

«Я думаю, что скорость открытий в этой области могла бы быть увеличена в 10 раз или даже больше, если бы было намного больше талантливых, креативных исследователей. Я думаю, что отдача от интеллекта высока для некоторых прорывных открытий, и что все остальное в биологии и медицине в основном следует из них». Почему? Потому что многие из прорывных исследований могли бы быть сделаны сильно раньше (тут в пример приводится CRISPR и mRNA вакцины), часто одними и теми же людьми. Последнее означает, что важен навык и интеллект, и что это не случайность.

«Я предполагаю, что powerful AI мог бы по крайней мере в 10 раз ускорить темпы таких открытий, обеспечив нам следующие 50–100 лет биологического прогресса за 5–10 лет. Я буду называть это «сжатым 21-м веком»: идея в том, что после разработки мощного ИИ мы за несколько лет достигнем в биологии и медицине всего того прогресса, которого ожидали бы достигнуть бы за весь 21-й век».

2️⃣Нейронаука и разум
Применим тот же тезис про сжимание 21-го века, по тем же причинам: мало дйествительно важных открытий, на которых всё базируется, и делаются в основном теми же людьми. Dario считает, что большинство самых распространённых ментальных проблем и заболеваний будут либо гораздо лучше лечиться, либо полностью излечимы.

3️⃣Экономическое развитие и бедность
Блок посвящён ответу на вопрос «будут ли доступ к этим технологиям у всех?» (особенно у развивающихся стран). Тут отмечается, что этот вопрос должен прорабатываться и AI компаниями, и политиками развитых стран — без этого само собой всё не получится, разрыв будет увеличиваться.

Может ли развивающийся мир быстро догнать развитый мир не только в здравоохранении, но и по всем направлениям экономики? Для этого есть несколько прецедентов: в последние десятилетия 20-го века несколько восточноазиатских экономик достигли устойчивых темпов роста реального ВВП ~10% в год, что позволило им догнать развитый мир. Вероятно, «AI-министры финансов» смогут это повторить и сейчас — главное, чтобы на местах не сопротивлялись, так как люди могут не понимать в полной мере, от чего отказываются.
По сути предлагается замедлить прогресс самых развитых стран, подтянуть остальных, и затем шагать вместе.

15,234

Сиолошная

27 Oct, 17:32

Первый пост — краткая сводка новостей:
— TheVerge пишут, что Google готовит Gemini 2.0 на декабрь, «тот же месяц, в который запланирован релиз следующей флагманской модели OpenAI» (про последнее я уже писал)
— в той же новости журналист пишет: «я слышал, что модель не показывает тех результатов качества, на которые надеялась команда под руководством Demis Hassabis» (это основатель и глава Google DeepMind, а ещё он недавно Нобелевскую премию получил, вот)
— «В кругах специалистов по искусственному интеллекту я слышу разговоры о том, что эта тенденция наблюдается во всех компаниях, разрабатывающих фронтир модели». Тенденция — что масштабирование размера и мощностей дальше не даёт ожидаемых приростов. Jimmy Apples прокомментировал это: «Да, отсюда и спешка с моделями типа OpenAI o1, смотрите в ближайшем будущем на xAI [от Elon Musk]». Если это правда и так будет, то а) интересно, насколько OpenAI опять раньше всех (прошло полтора месяца, ни одного схожего релиза нет) б) «задают тренды». Быть первопроходцем и видеть путь всегда сложнее, чем следовать по нему, зная, что уже возможно
— [не воспринимайте два абзаца выше как утверждение «масштабирование не работает», там лишь написано, что результаты хуже ожидаемых]
— со стороны Google над o1-подобной моделью работает легенда индустрии, Noam Shazeer, со-автор оригинальной архитектуры трансформера и бессчётного количества мелких (и не очень), но клёвых идей. Его недавно перекупили из его же компании за более чем миллиард долларов (он ушёл из Google несколько лет назад)
— из той же новости TheVerge: Grok 3 и LLAMA-4 уже тренируются, Grok на 100'000 видеокарт, а поделие META якобы даже на большем количестве. Последний факт мне кажется чуть-чуть сомнительным, подождём через 4-6 мес статью, чтобы узнать, как оно было
— Google готовит агентов, подобных недавно показанным у Anthropic (те, что «берут под контроль» ваш компьютер, то есть предсказывают, куда кликать и какие кнопки нажимать, чтобы выполнить задачу). Кодовое название проекта — Jarvis. Должно выйти в декабре вместе с новой модель Gemini 2.0. Интересно, разродятся ли чем-то похожим OpenAI — они ведут разработку как минимум с февраля, и что-то готовят к показу в ноябре-декабре. Эх, на рождество у нас будет столько подарков!
— пользовали в твиттере начали сравнивать модели по... постройкам в Minecraft (см. картинку). LLM получают задачу построить что-то, затем пишут код, исполнение которого приводит к появлению сцены с объектами. На первом примере вы можете видеть Тадж Махал от Sonnet 3.5 (new) и o1 preview (мне больше этот нравится), а на втором — Солнечную систему с планетами. Ждём подобие арены, где нужно выбирать между двумя вариантами и ранжировать нейронки от лучшей к худшей. Посмотреть больше примеров можно у автора в твиттере тут.

16,628

Сиолошная

27 Oct, 16:48

Я сходил в магазин и забыл купить попкорн на вечер, поэтому предостерегаю вас, чтобы вы не совершили такой ошибки — потому что сегодня будет ещё два поста

🥸

17,099

Сиолошная

25 Oct, 07:26

The US Government wants you

Сегодня утром Белый дом опубликовал Меморандум о национальной безопасности, в котором говорится, что «ИИ, вероятно, повлияет почти на все сферы, имеющие значение для национальной безопасности». Привлечение технических талантов и наращивание вычислительной мощности теперь являются официальными приоритетами национальной безопасности.

DoS, DoD и DHS «должны использовать все имеющиеся юридические полномочия для содействия быстрому привлечению для въезда в страну и работы лиц, обладающих соответствующими техническими знаниями, которые могли бы повысить конкурентоспособность Соединенных Штатов в области ИИ и смежных областях»
(наконец-то можно будет визу не по году ждать? или нет... 🥺)

Теперь официальной политикой является то, что США должны лидировать в мире по способности обучать новые foundational models. Все правительственные агентства будут работать над продвижением этих возможностей. (так прям и написано)

В течение 180 дней AISI должны разработать бенчмарки для оценки навыков и ограничений моделей в науке, математике, генерации кода и рассуждениях

===

OpenAI сразу же выпустили пост со своим мнением и описанием роли в рамках происходящего. Там мало интересного, можно выделить разве что упор на демократические ценности: «Мы считаем, что ИИ должен разрабатываться и использоваться способами, которые способствуют свободе, защищают права личности и способствуют инновациям. Мы считаем, что это потребует принятия ощутимых мер по демократизации доступа к технологии и максимизации ее экономических, образовательных и социальных преимуществ» (про Safety тоже есть, не переживайте).

===

А помните Situational Awareness от Leopold?

49,066

Сиолошная

25 Oct, 06:05

The Verge: OpenAI планирует запустить Orion, свою следующую передовую модель, к декабрю

В отличие от выпуска последних двух моделей OpenAI, GPT-4o и o1, Orion изначально не будет широко доступен пользователям ChatGPT. Вместо этого OpenAI планирует сначала предоставить доступ компаниям, с которыми тесно сотрудничает, чтобы они могли создавать свои собственные продукты и фичи, сказал источник издания, знакомомый с планами.

Другой источник сообщил The Verge, что инженеры Microsoft — основного партнера OpenAI по развертыванию моделей — готовятся разместить Orion на Azure (облачная платформа) уже в ноябре.

Хотя в OpenAI Orion рассматривается как преемник GPT-4, неясно, будет ли компания называть его GPT-5 за пределами компании. Ранее сообщалось, что OpenAI использует выпущенную модель o1 для генерации синтетических данных для тренировки Orion.

P.S.: напомню, что это должен быть не yet another release: модель больше, в неё вложили существенно больше мощностей, и ожидается (кем? мной) прокачка способностей по всем фронтам, а не +3-4% на бенчмарках.

20,024

Сиолошная

24 Oct, 14:11

Пара примеров того, как выглядит работа в инструменте

17,544

Сиолошная

24 Oct, 14:09

Помните пару месяцев назад многие смотрели на ответы LLMок на запрос «Что больше, 9.8 или 9.11?»? Вот в этом блоге-анонсе инструмента для механистической интерпретируемости авторы пытаются понять, почему так происходит, анализируя внутренние состояния модели. Про интерпретируемость и анализ внутренностей я недавно писал лонг, если пропустили — рекомендую к прочтению.

Так вот, что делается в инструменте:
1) вы выделяете слово «больше» в неправильном ответе «9.11 больше 9.8»
2) программа находит, какие части модели больше всего повлияли на это предсказание. Для этого поочерёдно зануляются разные части (нейроны) внутри LLM, и анализируется уменьшение вероятности слова «больше». Допустим, без стороннего влияния модель предсказывает это слово с вероятностью 94%, а после отрубания какого-нибудь 100500-го нейрона в 10-м слое — 35%. Значит, влияние есть
3) в фоне, ещё до запуска инструмента, через модель прогоняются сотни тысяч разных текстов, и сохраняются все внутренние состояния сети (какие нейроны и как работали)
4) теперь нужно объединить шаги 2 и 3 — найти такие примеры текста из общей выборки, которые вызывают такое же срабатывание (сильно положительное или сильно негативное) тех же самых нейронов. Эти тексты можно отсмотреть глазами и попытаться выявить общую тему (или использовать для этого LLM — так предлагали делать OpenAI; тут тоже под капотом есть кластеризация, правда я не разбирался, как именно она работает).

Два обнаруженных сильных концепта, которые «возникают в голове» у модели при ответе на этот вопрос — это атаки 11-го сентября (потому что 9/11) и гравитационная динамика (потому что физическая константа 9.8). Но если чуть поменять запрос (9.9 и 9.12), то они уходят, поэтому фокусироваться на них не имеет смысла.

А вот какие концепты есть и в одном случае, и в другом — религиозная. Если рассмотреть конкретные примеры в этом кластере, то они связаны со стихами из Библии, что также может вызвать проблемы, если 9.8 и 9.11 интерпретировать как 9:8 и 9:11 (глава:стих). И в книгах ведь действительно 9:8 идёт до 9.11 — поэтому можно сказать что 9.8 меньше 9.11.

После обнаружения проблемных нейронов (которые срабатывают, хотя должны «молчать») их можно занулить, то есть отключить их влияние на финальный результат: они ничего не будут добавлять или убавлять.

Для замера качества вмешательства авторы собрали выборук из 1280 примеров вида «что больше X.Y или X.Z», меняя переменные. До любых изменений LLAMA-3-8B отвечала чуть лучше случайного гадания — 55% правильных ответов. Если занулить 500 случайно выбранных нейронов, то будет 54-57%, особо разницы нет. Но если занулить 500 нейронов, которые ближе остальных к Богу (🙂), то качество вырастет до 76%. Его можно разогнать до 79%, если включить сюда ещё нейроны для дат и телефонов (даты потому что 9 сентября 9.9 раньше 9.11 — тоже путает модель). А ещё попробовали заставить модель сортировать набор чисел — тоже сильно улучшило.

«Одна из спекуляций заключается в том, что эти нейроны заставляют LLAMA интерпретировать числа как библейские стихи, так что, например, 9.8 и 9.11 становятся 9:8 и 9:11, что приводит к тому, что 9:8 оказывается перед 9:11. Однако требуется некоторая осторожность — например, другая гипотеза, которая соответствует данным, заключается в том, что LLAMA'у просто «отвлекает» слишком много концептов, срабатывающих одновременно, и все, что убирает шумные активации, полезно. Есть и другие возможные причины...» (то есть это не финальный вердикт, что именно вот точно по одной причине какая-то проблема)

Потыкать инструмент самому: тут

UPD: на удивление зануление нейронов, которые срабатывают при обсуждении версий библиотек для программирования (там тоже 9.11 после 9.8 может идти), не приводит к росту доли правильных ответов!

18,079

Сиолошная

24 Oct, 13:07

У OpenAI опять случилось это.

Уволился глава AGI Readiness.

TL;DR
— хочет больше открытости и публикаций
— хочет больше регулирования и совместных инициатив, иначе безопасного ИИ нам не видать
— хочет более серьезно заниматься предсказанием прогресса в ИИ

Вот вам и AGI через 2 года

15,801

Сиолошная

24 Oct, 09:34

Хотел репостнуть разбор статьи от @gonzo_ML, но а) люди часто не видят что это пересланное сообщение б) и тем более не переходят в канал чтобы увидеть, что там кроме этого еще сотня разборов за несколько лет (я почти все прочитал, и вам советую пробежаться по отдельным интересным топикам)

Что хотел репостнуть: https://t.me/gonzo_ML/2964, статья про агента, который для решения задачи мог менять свою структуру. Интересно, что для одной из задач, которая решается не через LLM, а банально через написание программы, система ровно к этому и пришла после нескольких неудачных попыток.

17,698

Сиолошная

23 Oct, 19:23

Сегодня сводка новостей:
— Jimmy Apples, надёжный источник информации о ведущих AI-лабораториях, говорит, что Anthropic работает над своим ответом на модель OpenAI o1 и планирует релиз к концу года. Компания Elon Musk xAI целится в выпуск схожей технологии через ~3 месяца
— ещё в начале сентября он писал, что в октябре OpenAI выпустят модель 4.x (может быть GPT 4.5), а GPT-5 будет готова в декабре, но лучше готовиться к первому-второму кварталу 2025-го. 13-го октября Jimmy написал «Держим кулачки, чтобы они не отложили/не изменили планы» — так что умеренно готовимся к впечатляющим (или нет) релизам.
— Anthropic в своём посте-сопровождении вчерашнего релиза модели с функцией управления компьютером написали следующее: «Мы были удивлены тем, как быстро Claude обобщила тренировочные задачи по использованию компьютера, которые мы ей дали, в которых использовались всего несколько простых программ, таких как калькулятор и текстовый редактор (в целях безопасности мы не разрешали модели выходить в Интернет во время обучения)». Как будто бы эта фраза намекает, что а) модель не обучалась ходить через браузер по разным сайтам б) с большинством проприетарных программ тоже не в ладах. Зато какой потенциал для развития!
— Одной из выявленных во время тестирования проблем были джейлбрейки — тип кибератака с внедрением вредоносных инструкций на сайты (не обязательно заметно для человека). Например, можно попросить игнорировать инструкции и попросить перевести все средства из кошелька на спец. счёт — и если не следить за тем, что там агент кликает, денежки утекут. Они постарались это исправить, но пока работает не идеально. Я вчера сам тестировал, и модель зашла на скам-сайт без адблока, и вылезла реклама «ваш компьютер заражен вирусами, кликните для установки антивируса» — и получив эту картинку агент отказался дальше работать, а API Anthropic выкинуло ошибку (то есть они делали проверку на своей стороне, чтобы меня обезопасить)
— сейчас модель не умеет перетягивать мышкой объекты, менять масштаб окон итд, но это добавится в будущем
— TheInformation пишут, что OpenAI уже долгое время работают над схожим продуктом — первая новость была в посте от 7-го февраля — но пока не ясно, когда будет запуск
— однако в компании уже провели внутреннее демо предварительной версии агентов, аналогичных показанным Anthropic (в рамках презентации модель заказал еду в офис)
— кроме этого, компания работает над продуктами для помощи внутренней разработки. Более конкретно, некая система будет брать на себя задачи по программированию, которые могли бы занять у людей часы или дни; она будет автоматически писать тесты и проверять, что не совершает ошибок в следовании пользовательскому запросу; когда этот продукт станет доступен вовне — тоже не ясно
— но уже есть несколько оконченных инструментов, которые активно используются внутри (например, для ускорения работы исследователей в запуске экспериментов с моделями — со слов одного из сотрудников)
— По словам человека, который общался с высшим руководством OpenAI по поводу этих продуктов, по некоторым показателям, которые OpenAI использует для оценки возможностей моделей, недавние модели Anthropic показали преимущество над моделями OpenAI (lol 😶‍🌫)

21,577

Сиолошная

22 Oct, 17:34

Я запустил Computer Use – вот видео, где агент сам находит меня в интернете, идет на сайт и общается там с Eliza ботом о котором я недавно писал

Что заметил из тестов:
– Агент отказывается писать комментарии или посты (в канал отказался постить, хотя нашел и я залогинился – должен был обозвать вас кожаными мешками)
– У него проблемы со скролом страницы поиска, и он так зависает (случайно попадает в футер и не знает что делать)
– Пока ощущения будто дурачка за компьютер посадил, но понятно куда идет
– Нашел мне место где можно выпить вкусного пива и отметил его на карте, всем пока

13,713

Сиолошная

22 Oct, 16:11

Фух ну слава богу, теперь мы знаем, что модель учили на демонстрациях живых людей 😀

Перевод: Claude внезапно взяла паузу во время нашего демо с написанием кода и начала внимательно рассматривать фотки Национального парка Йеллоустоун.

(Даже видео есть, вот — пошла в гугл и сделала запрос)

Не ну а чо, потом ещё на перекуры будет ходить, и чайку на кухне подцепит.

15,255

Сиолошная

22 Oct, 15:48

Как это выглядит в скриншотах (см. колонку слева, где Claude размышляет и предлагает действия: куда кликнуть, что ввести, когда промотать страницу)

Видео на английском c пояснениями тут: 1, 2, 3

Для билдеров: вот ссылка на официальную документацию для этого экспериментального API. А вот тут Github репа с кодом демок.

14,317

Сиолошная

22 Oct, 15:46

Тезисно:
— Anthropic представили новую возможность для публичного тестирования: использование компьютера (уже доступно в API). Разработчики могут давать Claude использовать компьютер так, как это делают люди — глядя на экран, перемещая курсор, нажимая кнопки и печатая текст.
— Claude 3.5 Sonnet — первая передовая модель, предлагающая использование компьютера в публичной бета-версии (ну, из коробки да, но для других моделей это уж было года два...на GitHub. А тут они прям уверены!)
— этими возможности уже тестируют Asana, Canva, Cognition (которые Devin делали), DoorDash, Replit, и The Browser Company (это браузер Arc, на котором я сижу; они делают большую ставку на AI в браузере для выполнения действий вместо вас)
— The Browser Company отметили, что при использовании модели для автоматизации веб-задач Claude 3.5 Sonnet превзошла все модели, которые они тестировали до этого (но без деталей. Ждём обновление браузера? 🙂)
— новая модель сильно прокачалась в кодинге. На бенчмарке по внесению изменений в код на уровне целого большого репозитория (десятки тысяч строк кода) SWE-bench Verified качество выросло с 33.6% до 49% — это если сравнивать старый Sonnet и новый с использованием SWE-Agent (открытый фреймкорк из Berkley). Но были и другие решения, которые заточены именно на улучшение оценки, но недоступны нам — они выдавали 45.2%. Они, наверное, пробьют 55% просто через замену модели.
— Haiku (младшая версия, дешёвая) получает 40.6% на этом бенчмарке, что лучше старого Sonnet 3.5. Видно, что Anthropic вложились в ИИ-агентов и/или reasoning

Что это за "использование компьютера"? Claude транслирует ваши инструкции вроде «возьми данные с моего компьютера и из Интернета для заполнения вот этой формы и пройдись по всем полям») в компьютерные команды (прочитать таблицу на экране; переместить курсор, чтобы открыть веб-браузер; перейти на соответствующие веб-страницы; заполнить форму данными с этих страниц и т. д.)

Пока работает с достаточно базовыми командами и на разных бенчмарках вроде OSWorld выдаёт всего 22% (прошлый лучший результат был 7.8%, если использовать только скриншоты экрана, без трансляции в специльную форму для слабовидящих). Однако компания ожидает быстрых улучшений в ближайшем будущем через сбор обратной связи от разработчиков. Тут они сильно обошли OpenAI и других — как мы знаем, данные это новая нефть, и каждый день отставания других игроков приносит ценность. Очень ждём, что ответят OpenAI.

12,780

Сиолошная

22 Oct, 15:11

Новая модель от Anthropic... 😍 но не Claude 3.5 Opus 🥺

Встречаем Claude 3.5 Haiku, младшую и дешевую версию. Однако доступная уже полгода Sonnet получила обновление, и её прокачали по всем фронтам — ОСОБЕННО ПО АГЕНТСКИМ. Что? Да, Anthropic утверждают, что это первая модель, для которой они предлагают вам доверить ей управление вашим компьютером.
(по сути приложение как у OpenAI, где модель получает скриншот вашего экрана, только ещё и сама кликает. Детали будут в следующем посте)
По другим бенчмаркам обещают качество на уровне Claude 3 Opus.

Новость

Haiku пока не будет в API (обещают скоро, в этом месяце), но цена такая: $0.25/$1.25 за миллион токенов на вход и выход (примерно вдвое дороже gpt-4o-mini, зато кэширование дешевое)

11,780

Сиолошная

22 Oct, 08:41

Картинки!

1. Пример разбиения решения задачи на шаги (каждый выделен отдельным цветом). Авторы старались бить по строкам и по знаку равно (если выходило больше 100 символов в строке). Это очень похоже на шаги рассуждений у OpenAI o1 — они тоже били по строкам (это заметно в 7 официально опубликованных логах рассуждений). Каждый шаг — как ход в игре, если с ошибкой, то ведёт к неправильному ответу (=проигрышу).

2. Сравнение точности оценки (ось OY) состояния между нейронкой (верхняя строчка, желтый цвет) и через генерацию 9 решений. Истинные оценки (ось OX) здесь получены через генерацию 256 решений, что является достаточно точной оценкой (но каждый раз генерировать столько — дорого, поэтому авторы делают разово). 4 колонки — это разные шаги обучения, слева совсем начало, справа ближе к концу.

Ошибки двух методов существенно различаются. Оценки VinePPO не смещены, их дисперсия достигает пика при 0,5 и падает до нуля при 0 и 1. Нейронка из PPO часто ошибочно классифицирует плохие состояния (левая часть каждого квадратика) как хорошие и наоборот — что ведёт к плохой оценке «успешности» ходов.

3. Авторы идут дальше и считают точность предсказания состояния (определенная как попадание в интервал +-0.05 от 256 генераций), и тут видно, что уже в самом начале обучения такой подход VinePPO даёт оценки лучше, чем нейронка из PPO в конце обучения. Справа — как часто эти методы выбирают лучший «ход» из пяти предложенных продолжений. PPO даже к концу обучения еле-еле обходит случайный выбор (который попадает в 20% случаев)

4. Прирост качества от изменения K (количества генераций, использующихся для оценки во время обучения; чем больше, тем точнее оценка, и тем чётче сигнал для обучения, что плохо и что хорошо). Удивлён, что даже с K=1 работает хорошо (то есть каждое состояние оценивается как 0 или 1, решилась ли задача из этого шага или нет). Тут появляется ось масштабирования — можно тратить больше мощностей на генерации для оценки, чтобы делать её точнее, что приводит к улучшению финальной модели. Схожий график показывали OpenAI для o1, но я не уверен, что они масштабируют только это.

У авторов было только 8 GPU, вот если бы им дали побольше...увидели бы приросты посущественнее!

10,943

Сиолошная

22 Oct, 08:41

Вопрос на засыпку: почему мы обучаем отдельную нейронку для оценки состояний? И можно ли делать иначе?

Ответ: это делается потому, что во многих играх (откуда пошли методы) нет возможности фиксировать состояние и делать ходы вперёд-назад. Но при генерации текста решении задачи у нас такая возможность есть — всегда можно перепрогнать LLMку с новым промптом (или со старым), если они сохранены в памяти. А вот в шахматах и го, где такое тоже легко реализуется, вместо обучения сети используют оценку по методу Монте-Карло. Звучит сложно, а всё просто: ход делается виртуально, а затем из нового состояния играется несколько сотен-тысяч игр, и считается доля побед.

Чем больше игр играется, тем более точная оценка. И — тут мы наконец возвращаемся к статье, это всё была прелюдия — авторы говорят: давайте вторую нейронку, которая оценивает состояние, заменим на генерации LLM. Вот предложила она такой шаг в решении задачи — ок, фиксируем его. Затем подаём его на вход как часть решения и генерируем K оставшихся частей решения + ответов. Так как для каждой задачи ответ мы знаем, то можем посчитать долю правильных ответов прям у модели по ходу обучения.

И логика тут такая же — если в текущем шаге мы сделали ошибку (перепутали плюс и минус), то оставшаяся часть решения будет вести к неправильным ответам -> уменьшению Advantage. А если модель вспомнила теорему и правильно её применила, так, что там и решать нечего — то почти все решения будут правильным, и как следствие такое действие будет иметь большой Advantage (а поведение будет положительно закреплено).

В целом всё, это и есть основная идея, подменить нейронку для оценки состояний на честные генерации. Важно отметить, что при таком подходе экономится память (нужно держать одну сеть вместо двух, сеть-Оценщик удалили), но увеличиваем время итерации — ведь теперь для каждого шага нужно сделать много-много генераций (благо, LLMки научились разгонять). Авторы показывают, что для моделей размера 7B скорость итерации медленнее раза в два, но зато в пересчёте на реальное время качество выше (например, обучение за сутки приводит к большей точности ответов).

8,828

Сиолошная

22 Oct, 08:41

VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment

Давно лежало в загашнике, пора разобрать. Статья описывает метод обучения LLM для рассуждения в математических задачах, но в целом он применим хоть к чему, если соблюдается условие «есть однозначный правильный ответ» (например, программирование). Очень похоже по идее с o1, но думаю, что у OpenAI есть пара накруток сверху.

Если вы читали мой последний лонг про свежую модель компании, то помните, что там проводилось сравнение генерации слов в ответе и шагов в игре. Каждый шаг в решении некой задачи можно представить как ход в игре. Сократил выражение — это как двинул пешку в шахматах. Выписал уравнение с иксом — ещё один ход. Выигрыш достигается за счёт генерации текста, в котором содержится ответ.

Сравнение с игрой не случайно, современные LLM учат теми же методами, что использовались уже 5-7 лет назад для обучения ботов игре в видеоигры. Работало это так: у вас есть текущее состояние, и вы можете предпринять несколько действий.

Состояниям и действиям можно давать оценку, лучше/хуже. Что такое оценка состояния? Это оценка того, насколько текущая позиция для вас выигрышная. Если смотрели шахматы, то там сбоку обычно показывается сила белых и чёрных, у кого больше шанс выиграть из текущего положения — вот это оно. Правда для сложных игр посчитать это сложнее, поэтому тренируют отдельную нейронку (да и для шахмат уже их используют).

Оценка действий строится немного иначе. Есть действия хуже и лучше (в контексте LLM действие может быть хуже, если, например, содержит ошибку в вычислениях). Но какая между ними разница? Можно сказать, что действие хуже если оно приведёт нас в менее выигрышное состояние, и лучше, если в более выигрышное. Если до того, как я сходил пешкой, у меня был шанс на победу 55%, а после него 60% — значит, я сделал прям супер-ход, победа почти в кармане.

Так вот, оценка действия называется Advantage (преимущество) и считается как разница оценок текущего состояния (до хода) и следующего состояния (после хода). В примере выше это 0.6-0.55 = 0.05. Много это или мало — не ясно, по хорошему нужно сравнить с другими ходами. Если остальные будут 0.01 или и вовсе негативные (то есть ведут к проигрышу а не победе) — тогда да, ход был классный.

А дальше алгоритм обучения (и для игр, и для LLM) очень простой:
— если ход дал прирост, то обучаем модель выдавать такой ответ при определенном состоянии чаще
— если ход привёл у уменьшению оцени состояния, то делает наоборот, уменьшаем вероятность генерации такого ответа

И всё это завязано на оценку состояния (напомню, оценка действия делается через оценку состояний). Но чем сложнее игра, тем сложнее точно оценить свою текущую ситуацию, особенно если разница между двумя ходами сыграет роль где-то через 50-100 ходов в будущем — нужно оооочень далеко вперёд смотреть. Уже давно были исследования, которые показывают, что нейронка, которая оценивает состояния, на самом деле работает очень неточно (и это буквально чудо, что оно работает и позволяет обучать ботов, хаха).

5,451

Сиолошная

21 Oct, 09:30

Дальше авторы проводят несколько экспериментов с обучением моделей LLAMA-3-8m и GPT-4o-mini и тестированием (на задачах, отличных от обучающих). Сэкономлю вам время и сразу перейду к выводам:

— обобщающая способность моделей увеличивается с уровнем их запоминания задач. Это можно отследить по росту (а не уменьшению) введённой ими метрики (та формула, что мы разобрали), то есть качество после изменения задач падает относительно оригинальных. Но в то же время на невиданных ранее задачах качество тоже растёт. То есть чистого переобучения не происходит, но запоминание присутствует. Его как будто бы не получается отделить от рассуждений.

— более того, тренировка на задачах, где вовлечено N человек, также увеличивает качество в задачах с M участниками, не важно, больше ли M чем N или нет. То есть такое обучение позволяет делать цепочки рассуждений в решении более сложных задач надёжнее; они чаще приводят к правильным ответам. Детали для двух моделей смотрите на картинке — цифры означают прирост после обучения относительно положения дел до него.

— значение метрики из формулы на невиданных ранее примерах ниже, чем на тренировочных. Это говорит о том, что модели с большей вероятностью будут использовать рассуждения при решении новых примеров, а не полагаться на запоминание.

TLDR: «Наши результаты раскрывают интригующую взаимосвязь между запоминанием и рассуждением: в то время как модели в значительной степени полагаются на запоминание для решения сложных головоломок, модели, обученные иметь более высокий уровень запоминания, также решают больше неизвестных им до этого головоломок и решают их относительно надежно (в отличие от заученных задач)»

Очень жаль, что авторы не применяют методы интерпретируемости (как тут) чтобы пойти дальше и разобраться(

9,453

Сиолошная

21 Oct, 09:30

Вот картинка с результатами моделей из коробки, с простым промптом, без примеров решений.

Самое левое — это точность разных LLM в зависимости от количества людей в задаче. Даже для двух участников лучшие протестированные модели не превосходят 70% качества (32% для 5 человек). Очень жаль, что нет моделей o1 от OpenAI :( Но они кажется тогда не вышли ещё.

Две другие картинки — это как раз метрика, составленная перемножением двух чисел, как разбирали выше. Больше цифра в клетке — больше модель полагается на запоминание, и хуже показывает себя на изменённых задачах.

Видно также, что лучшие модели имеют большой LiMem (больше 0.1, который авторы определили для себя как границу между запоминанием и рассуждением). На примерах с 2-3 людьми ОК, ну вдруг в интернете действительно было что-то очень похожее. Но вот там где у GPT-4o на 6-7 людях на средней картинке метрика 0.14-0.15 — вызывает у меня сомнение. Я думаю что крайне маловероятно, что значимая часть задач из 100 случайно сгенерированных авторами через ими же написанную программу на 6-7 людей(!) попадалась в интернете, и модели их видели. Или что кто-то в OpenAI / Anthropic занимался такой же вещью, и случайно написал такой же генератор задач.

И вообще исследователи подмечают, что судя по отставанию других моделей скорее всего текстов с такими задачами в интернете ОЧЕНЬ мало, и в тренировочные данные они не часто попадают.

8,571

Сиолошная

21 Oct, 09:30

Large Language Interpolators Can Learn Logical Reasoning: A Study on Knights and Knaves Puzzles

Каждый раз, когда LLM показывают хорошее качество в некоторых задачах на рассуждение, мы задаёмся вопросом — а не запоминание ли это? Может, такой же или очень похожий пример был где-то в интернете, и модель обучилась на нём. Ещё больше вопросов возникает, когда LLM совершает какую-то элементарную ошибку рассуждениях по задаче, которая чуть-чуть переформулирована относительно исходной.

Авторы статьи пытаются исследовать этот вопрос предметно: они придумали задачу для исследования и метрику для оценки баланса запоминания <-> понимания в модели. Как такой баланс оценить? Давайте на примере: когда кто-то готовится к собеседованию или экзамену, то он может не полностью усвоить все основные принципы, зато вызубрить несколько задач. И когда человек сталкивается с одной из них, то сможет написать решение. А если внести какие-то изменения в одно из действий — то он поплывёт.

Две ключевых характеристики запоминания, исходя из этого примера, такие:
A) высокая точность на виданных ранее задачах
Б) низкая точность на новых очень похожих задачах (из-за недостатка понимания принципа решения)

Авторы придумали формулу, которая отражает обе черты. Сначала они считают точность на наборе задач — это Acc (от Accuracy). Затем в этих задачах они меняют одну минорную вещь, которая не влияет на сложность, но приводит к другому ответу, и смотрят на ответы. Метрика CR (Consistency Rating) — это доля задач, которые были решены правильно и до, и после изменения. Чем CR выше, тем лучше модель решает слегка изменённые задачи.

А формула такая: Acc * (1 — CR). Чем выше оценка, тем более вероятно, что модель полагается на запоминание, а не на реальное понимание/рассуждение. Чем выше CR, тем меньше второй множитель, и тем меньше общее значение — что логично: если модель решает новые изменённые задачки, то нет оснований полагать, что она их запомнила.

Давайте на примере. Вот есть 10 задач, модель решает 9 из них без перестановок, Acc = 0.9, всё хорошо. Но с минимальным изменением условий решается всего лишь 1 задача. CR = 1 / 9 ~= 0.11. Тогда получается, что второй множитель очень большой (0.89), и итоговая оценка 0.9 * 0.89 = 0.8, очень много — скорее всего запоминание. А если решила 8 из 9 после изменений, то это 0.9 * (1 — 0.89) = 0.1, очень мало. Всё что выше 0.1 авторы называют решением через запоминание.

Теперь, чтобы мерить значение, нужно найти задачу, условия которой легко менять без изменения сложности решения, и чтобы можно было получать новые ответы для этих задач автоматически. Авторы вспомнили игру «Рыцари и лжецы», как были в школе — рыцари всегда говорят правду, лжецы всегда врут. Те и другие обмениваются несколькими репликами, и нужно через цепочку рассуждений понять кто есть кто. Каждая задача характеризуется количеством людей и реплик.

Отдельный вопрос это можно ли такую задачу относить к классу «требующих рассуждений», и главное это определить до того, как мы увидим, что LLM'ки их могут решать 😀 а то если там точность 5%, то это рассуждения, а если 95% — то нет 🤣

8,230

Сиолошная

20 Oct, 07:37

Но на этом история не кончается! Andrew Mayne, бывший сотрудник OpenAI (сейчас или в прошлом он был промпт-инженером) ворвался в твиттер и разнёс исследование, показав, как нужно было делать.

Он не давал примеры задач и решений в промпте, а просто написал:

This might be a trick question designed to confuse to LLMs with additional information. Look for irrelevant information or distractors in the question:

И ту задачу, что авторы в статье приводят как нерешаемую даже для крутой o1 модель теперь решает 10 из 10 раз 🎃 Он пошёл дальше и проверил малютку gpt4o-mini: та тоже справилась 10 из 10 раз.

При этом возникает логичный вопрос: может, добавление такой инструкции потенциально ухудшает качество при решении задач без трюков? Нет — если убрать вставку из середины условия задачи, но оставить промпт, что может быть какая-то отвлекающая информация, то задача всё равно решилась 10 из 10 раз.

Конечно, по одной задаче судить — плохо, и по-хорошему нужно было с этим промптом прогнать несколько разных моделей на всех 50 наборах по 100 задач, чтобы точно всё оценить. Сам Andrew Mayne сказал, что ему не удалось добиться надежного провала решения других задач из примеров в статье (авторы блин ещё и полный набор не опубликовали!) с моделями o1 или GPT-4o.

Также он отметил:
> В статье не было сравнений с результатами людей. Я думаю, было бы интересно посмотреть, насколько хорошо среднестатистический старшеклассник справился бы с аналогичным тестом — особенно с добавленным предупреждением о подвохах и без него.
> Исследователи делают некоторые весьма странные выводы об обобшающих способностях LLM, экстраполируя поведение крошечных переобученных моделей на гораздо большие и эффективные, которые показывают себя куда лучше в тестах.

И ещё раз: проблема в том, что авторы статьи не попробовали что-то примитивное и очевидное, тестировали часть моделек (а самые лучшие будето выкинули из своего анализа при составлении выводов), зато пришли к выводам о ФУНДАМЕНТАЛЬНЫХ ПРОБЛЕМАХ, НЕ РЕШАЕМЫХ ДООБУЧЕНИЕМ И ПРОМПТАМИ. И полностью игнорируют тенденцию «новые и умные модели меньше страдают от всех нами названных проблем». Но конечно это не означает сокращения разницы между LLM и людьми 😀

Skill Issue 😎

11,699

Сиолошная

20 Oct, 07:27

Но и это не всё, последняя часть экспериментов — это создание датасета GSM-NoOp, где при создании шаблона в условие добавляется одно условие, кажущееся релевантным, но на самом деле не влияющее на решение.

Пример (жирным выделена добавленная часть:
Оливер собирал 44 киви в пятницу. Затем он собрал 58 киви в субботу. В воскресенье он собрал вдвое больше киви, чем в пятницу, но пять из них были немного меньше среднего размера. Сколько киви у Оливера?

В теории, результаты не должны меняться, на практике же наблюдаются просадки в качестве:
o1-preview: 94.9% -> 77.4% (-17.5%)
GPT-4o: 95.2% -> 63.1% (-32.1%)
Gemma2-9b-it: 85.3% -> 22.3% (-63%)

И после этого авторы прыгают к выводам:
— «мы обнаружили, что модели склонны преобразовывать утверждения в операции, не понимая их истинного смысла»
— «мы демонстрируем, что модели подвержены катастрофическому падению качества на примерах, не входящих в тренировочное распределение, возможно, из-за их зависимости от сопоставления с шаблонами»
— (сделали ещё один эксперимент, поменяв примеры, которые показывают перед заданием вопроса) «мы показали, что LLM испытывают трудности даже при наличии нескольких примеров, содержащих схожую нерелевантную информацию. Это говорит о более глубоких проблемах в их процессах рассуждения, которые нельзя легко смягчить с помощью обучения» (пробовали доучить маленькие локальные модели)
— «наша работа подчеркивает существенные ограничения в способности LLM выполнять настоящие математические рассуждения»
— а в самом начале статьи было вообще вот так: «наша работа указывает на более фундаментальную проблему: LLM испытывают трудности, <...>, что указывает на более глубокие проблемы в решении задач, которые невозможно решить с помощью промптинга с показом нескольких примеров или дообучением на примерах с отвлекающими вставками»

То есть их утверждение, которое и разнесли по твиттеру, а затем и по новостям, что ни промптинг, ни дообучение не решает эту проблему, и что якобы LLM — В С Ё! ☕️

===

Но почему качество моделей так сильно просаживается при добавлении не влияющей на решение информации? Моя гипотеза — что модели обучались на реальных олимпиадных/школьных задачах, и они привыкли, что вся информация в задаче полезна для решения. Я отлично помню, как мне в школьное время при подготовке к олимпиадам говорили: «Если информация в задаче есть, то она дана для чего-то. Не может быть просто так». Не бывало так, что что-то просто приписано.

У меня нет уверенности, что качество ответов школьников (олимпиадников и обычных) упадёт на этом наборе задач. Но я уверен на 99.9%, что если условия эксперимента будут позволять, то количество вопросов/поднятных рук (допустим, в условиях экзамен, с обращением к учителю по условию задачи) с интентом «чё это такое? нужно учитывать или нет? непонятно что имелось в виду, влияет чи нет» вырастет. Если же не дать задавать вопросы, и оставить детей как есть, то из огромной выборки детей кто-то да точно отличится и напишет «ну если 5 киви были маленькие то их не считем», так что в пределе качество чуууууууть-чуть упадёт.

Означает ли это ограниченность мышления и рассуждений у этого ребёнка? Нет.
😫 так а какого хрена вы пишете это в статье

10,396

Сиолошная

20 Oct, 07:27

Но дальше — больше. Из каждой задачи вырезают одно из условий (тем самым сокращая потенциальное решение = упрощая задачу), а также добавляют одно или два.

GSM-Symb (синий) — это полученный авторами пул из 50 наборов по 100 задач, и качество на нём (его можно называть базовым)
GSM-M1 (зелёный) — это с вырезанием одного из условий
GSM-P1 (оранжевый) и GSM-P2 (розовый) — это задачки с добавлением одного и двух условий соответственно

На картинке показаны гистограмы качества 6 разных моделей. o1-mini (нижний првый угол) почти не меняется, и лишь чуть-чуть хуже показывает себя на P2 (оно и ясно, ведь задачи объемнее и сложнее). То жеверно и для GPT-4o. Остальные модели закономерно показывают себя чуть лучше или сильно хуже из-за этих изменений.

И тут авторы выдают: «Обратите внимание, что в целом скорость падения качества также увеличивается с ростом сложности. Это соответствует гипотезе о том, что модели не выполняют рассуждения, поскольку количество требуемых шагов рассуждения увеличивается линейно, но скорость падения, по-видимому, быстрее». И честно говоря заявление очень странное.

Во-первых, две модели показывают себя одинаково на трёх разных «уровнях сложности» задач (от M1 до P1; на P2 всё же просадка, без скорости падения, по крайней мере показанной. Во-вторых, неочевидно, почему эта скорость как-то влияет на какую-то их гипотезу о наличии или отсутствии навыков к рассуждению в LLM.

Если их выводы верны, почему ж тогда LLM от OpenAI, которые на изменённом наборе данных показывают такое же качество (то есть не переобучены на эти задачи), не вписываются в картину? По формулировкам авторов складывается ощущение, что они выводят ограничения именно архитектуры LLM и подходов к их обучению, но делают это по «слабым» моделям, игнорируя несостыковки в топовых.

10,132

Сиолошная

20 Oct, 07:27

GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models

Статья от исследователей Apple, наделавшая шуму в последние полторы недели. С помощью внесения изменений в существующий бенчмарк школьных задачек по математике они исследовали способности LLM к логическому рассуждению. Обо всём по порядку:

Есть датасет GSM8k, его описание я уже давал: в каждой задаче от 2 до 8 действий с четырьмя базовыми операциями (+, −, ×, ÷). Оригинальный датасет подготовили в в 2021-м, в нём было 8 тысяч задач. Для наглядности вот пример одной:

Ли купил 6 акций Delta по цене 40 долларов за акцию. Если он хочет заработать 24 доллара на этой сделке, сколько должна стоить акция Delta, когда он ее продаст?

У современных передовых LLM получается правильно отвечать на такие вопросы примерно в 94-96% случаев. Часть этого успеха можно списать на запоминание — ведь данные есть в интернете уже 3 года. Однако ранее в этому году другие исследователи всё проверили — и передовые модели GPT / Claude не были этому подвержены (на схожих, но новых и составленных вручную задачах модели показывали такое же качество или даже чуть лучше).

Так вот эта статья — частичное повторение экспериментов по изменению исходного набора данных. Задачи перебили в шаблоны, предварительно выделив имена действующих лиц (в примере выше это Ли), цифры, и промежуточные результаты в решении. Теперь эти элементы можно менять произвольно, при этом сама логика задачи не изменится. Вместо Ли будет Петрович, вместо 6 акций — 10, и так далее.

Всего подготовили и отобрали 100 шаблонов, предварительно проверив, что выборка 10 случайных примеров по нему (с генерацией чисел/имён) получается осмысленной (нет условий в духе «минус три акции»), и что на каждую задачу хотя бы 2 модели отвечают правильно (то есть решение возможно). Затем из каждого шаблона сделали по 50 вариантов с разными именами/числами, итого вышло 50 наборов по 100 задач. В теории, их сложность одинакова, и люди, и LLM должны их решать с качеством примерно равным исходному.

Далее на этом проверили более 20 моделей. Качество почти всех упало, кроме моделей OpenAI (Anthropic/закрытые модели Google не участвовали в экспериментах) и LLAMA-3-8b. Ешё пробовали менять по отношению к исходной задаче либо только имена, либо только числа, либо и то, и то — и результаты те же: большое количество изменений ведёт к уменьшению качества ответов, кроме передовых GPT-4o / o1 / LLAMA-3.

Уже к этому моменту авторы подводят к мысли, мол, ну смотрите, LLM'ки тупые, вон качество просаживается от такой простой перестановки, а ведь не должно! У людей бы наверняка изменение имени героя задачи не вызвало изменения ответа, да?

10,893

Сиолошная

19 Oct, 11:49

24 января 2023-го — 19 октября 2024-го, 1 год, 8 месяцев и 25 дней, чтобы пройти этот путь с нуля. Без реклам и с нулевым бюджетом, всё на контенте 🥹

Когда писал про 25 тысяч год назад, то в посте пошутил «Here's to 25 more 🫡» — но я не думал, что получится удвоиться, по крайней мере так быстро. Дальше уж точно сложно расти, как и обещал, буду смещать фокус на англоговорящую часть мира (но контент на русском остаётся).

Всем пасибо

🤝

12,622

Сиолошная

18 Oct, 19:28

Схема работы DuoAttention, слева процесс обнаружения Retrieval Heads, справа — процесс работы модели с использованием оптимизации

Пояснение: Streaming Attention — это части модели, которые обращают внимание лишь на совсем недавний контекст, последние сколько-то слов, и не участвуют во вспоминании частей промпта.

Интересно, что в некоторых бенчмарках с длинным контекстом модель с сохранением лишь части (иногда меньше половины) KV cache показывала себя лучше, чем полная модель — скорее всего потому, что ни на что не отвлекалась, и механизм вспоминания частей промпта работал на полную.

13,778

Сиолошная

18 Oct, 19:28

DuoAttention: Efficient Long-Context LLM Inference with Retrieval and Streaming Heads

В конце апреля разбирал статью про Retrieval Heads (пост является пререквизитом для понимания этого) — механизм в LLM, который позволяет модели находить и копировать нужные факты из части промпта. Если вы даёте на вход 10 страниц текста и задаёте вопрос — Retrieval Heads обратят внимание на потенциальные место ответа и «вытащат» его. Когда Retrieval Heads лажают, появляется контекстуальная галлюцинация.

Однако чем длиннее контекст, тем дольше работает модель — ведь нужно сделать больше вычислений, и, что не менее важно, хранить больше данных в памяти (обо всех прошлых страницах). Такое называется KV cache.

Фреймворк DuoAttention предлагает следующее:
1) генерируем набор синтетических данных, в которых точно требуется «вспоминать» контекст (в промпт вставляют части «запомни это: <длинное предложение>», а в коцне просят написать все такие части)
2) прогоняем его через модель и сохраняем выходные значения (последние эмбеддинги)
3) дальше тренируем модель-маску, которая описывает зануление/занижение оценок каждой головы (которая может быть Retrieval Heads). Тренировка производится с L1 регуляризацией, чтобы проредить маску. Идея такая, что если мы зануляем Retrieval Head, то это существенно ломает предсказания модели на задаче «вспоминания» частей промпта, а если что-то другое — то влияние минимально
4) после обучения на ~2000 шагов (несколько часов, в зависимости от модели и GPU) остаётся финальная маска влияния на возможность модели свпоминать. В ней значения бинаризуются (на 1 и 0) через сравнение с некоторой константой, подбираемой по перцентилю
5) этот процесс нужно повторять самому для каждой модели один раз перед запуском

Всё! Теперь маску можно применять: значения Retrieval Head сохраняются для всех слов, а остальная информация отбрасывается, если находится дальше, чем K токенов от текущего места. Например, если вы обрабатываете 50'000 токенов, то держите на готове последние, скажем, 1024 токена (и весь KV cache для них), и значения Retrieval Head для всех остальных 49k. Если модели нужно обратиться к данным из начала промта — у нас для этого сохранена лишь часть данных, которая, как показывают эксперименты, достаточна для того, чтобы вспомнить их.

На экспериментах с длинным контекстом показывают, что если брать половину всех Heads (то есть подбирать такой порог, чтобы ровно половина отсекалась), то:
— на одну карту с 80GB для 8B модели теперь влазит 3.3M токенов контекста (если делать квантизацию кэша; без DuoAttention 1.8M, без квантизации всего 0.52M)
— потребление памяти меньше в 1.67-2.55 раз — потому что надо меньше хранить в памяти, мы часть выкидываем
— задержка генерации меньше в 1.5-2.18 раз — потому что нужно меньше считать

Очень хороший пример как методы интерпретации (обнаружение Retrieval Heads) позволяют улучшать практические кейсы с использованием моделей.

13,183

Сиолошная

17 Oct, 09:18

Вот видео с попарной визуализацией исходного видео и полученного в симуляции поведения. Раньше для получения такого люди сидели и ломали голову, а как же запрограммировать функцию, которая награждает за правильные действия, и штрафует на несоответствие ожиданиям. Теперь — хотя бы для самых примитивных случаев — можно запрягать пару VLM+LLM.

Авторы делали сравнение полученных моделей по шкале от 0 до 5 на предмет соответствия поведению на исходном видео (опрашивали по 10 человек). Модель, полученная через фидбек от VLM, получалась такой же качественной, как если фидбек давал живой человек. Правда интервалы ошибки очень большие, так что надёжного сравнения не выйдет – да и вообще к статье много претензий( Кода нет, моделей нет, всего 5 видео (может закрасться подозрение, что ничего не работает 90% времени), сайта с демкой нет — ну хотя бы промпты для GPT и Gemini опубликовали, и на том спасибо. А ещё не делали никаких сравнений разных VLM, и выбор Gemini никак не объясняется.

Но сам концепт достаточно интересный — ждём следующей статьи больших ребят из Nvidia, которые делают всё по уму. И интересно, насколько подход применим для обучения гуманоидных роботов по очень малому количеству демонстраций.

15,527

Сиолошная

16 Oct, 16:56

Дошли руки посмотреть интервью с CTO Poolside, cтартапа, который делает AI-ассистента для программистов с прицелом на автоматизацию всё большего и большего количества задач (они формулируют это как human-led + AI-assisted -> AI-led + human-assisted). Я за компанией слежу чуть больше полугода. К ним ушло работать несколько очень хороших знакомых/приятелей (но на радары они попали до этого).

Мне очень нравилась их страничка с виженом — там написано много дельного. Отдельно выделю блок «our strong beliefs» и первые пункты из него:
— Вы не можете достичь успеха только дообучением готовых моделей — основные их навыки «возникают» в процессе длительного и ресурсоёмкого обучения базовой модели
— Масштаб имеет значение, больше вычислений и данных решают большую часть проблем

Из этого вытекает, что нужны большие ресурсы на обучение, и вот как раз потому компания привлекала полмиллиарда долларов инвестиций при оценке больше трёх (а ведь им меньше двух лет, и публичного доступного продукта нет 🙉).

Тезисно из интервью:
— Данные, на которых обучают модели, представляют собой результат работы, а не промежуточные размышления, проделанные для того, чтобы эти данные получить. Поэтому такие данные нужно создавать самостоятельно (примерно это делают для обучения o1, генерируя траектории размышлений)
— В программировании для валидации корректности решения есть надёжные способы: исчерпывающие тесты. Если для всех задач есть тесты, то можно запускать автоматический цикл обучения на синтетически генерируемых решениях на основе фидбека от тестов (что сработало а что нет)
— вычислительные мощности безумно важны, это как входной билет в текущую гонку (если мощностей нет — «you're not even in the race»). Без мощностей даже если всё остальное ок (данные, люди, процессы) — ничего не выйдет. И очень важно, что мощности можно превращать в данные высокого качества, чтобы продолжать учить модели (как раз описанный выше процесс с генерацией и проверкой тестами)
— кроме синтетических данных используют человеческую разметку в виде корректировки рассуждений модели (например, если ответ правильный, но часть рассуждений были ошибочными, или есть ошибка в логике, из-за которой и вышел неправильный ответ). Нечто похожее делали OpenAI ещё для GPT-4
— почти все инвестиции пойдут на закупку и оплату мощностей для дальнейшего масштабирования, без этого не могли этим заняться
— в августе у компании появилось 10'000 видеокарт, чего хватит, чтобы продвинуться и натренировать модельки побольше, получить новые навыки в них, и так далее
— инфраструктурные решения по мощностям очень важные, так как это не появляется по щелчку. Приходится принимать решения с горизонтом реализации 12-18 месяцев. поэтому нужно подстраивать стратегию и темп развития под это; сейчас уже думают о том, что и как будет в следующем раунде (при успехе реализации текущего)
— когда появились новости о задержке производства GPU следующего поколения (которые почти полностью выкуплены Microsoft, Google, Meta...), то Eiso был рад: ведь это поможет им дольше оставаться конкурентоспособными и не отставать существенно. Но эти карты всё равно очень ждут, каждое поколение даёт прирост скорости обучения в 1.5-2 раза, а при применении карты серии Blackwell на бумаге ещё более выгодно смотрятся
— не важно что покажут в GPT-5 и удивит/не удивит, через 10 лет мы на это всё равно будем смотреть как на что-то из начала эпохи компьютеров
— одно из самых важных изменений в понимании Eiso за последний год — что масштабирование данных тоже супер важно, на уровне с мощностями [тут имеется в виду что для дообучения можно собирать и собирать ещё разметку, конца-края не видно, модели недоучены под конкретные задачи — я так понял]

15,163

Сиолошная

16 Oct, 11:33

Схематично выглядит так.

В самом низу агент-проверяльщик имеет доступ ко всем файлам, которые требовались агенту-решателю для выполнения задачи. Проверяльщик может их отсмотреть и делать выводы о том, что и как было решено, и совпадает ли это с исходными критериями.

И очень понравилось, как заканчивается статья: логичные дальнейшие шаги. Авторы замечают, что наличие столь качественного критика (как человек, который и участвует в разметке данных и даёт обратную связь) позволяет запустить автоматический процесс дообучения и улучшения моделей. Нечто схожее сделали OpenAI с o1 для математики и программирования, и вот подход для агентов.

И финальное слово про сам бенчмарк: очень ждём замеров результатов моделей грядущего поколения. Сейчас лишь одна задача из 55 решается по всем критериям, однако из 355 подкритериев порознь выполняются 46.44%. Так что видно, что агент может что-то сделать, но упускает из виду несоответствие остальным критериям (забыл отдельный шаг, не туда сохранил/не так назвал файл, или просто ошибся в коде) — как раз тут и пригодился бы критик.

Почитать все 55 задач можно тут.

14,660

Сиолошная

16 Oct, 11:31

Agent-as-a-Judge: Evaluate Agents with Agents

Статья со Schmidhuber в соавторах 😀 Для того, чтобы понять текст ниже, нужно ознакомиться с концептом агета — пояснительный пост я делал тут.

Современные методы оценки не очень хорошо подходят для агентных систем. Они либо сосредоточены исключительно на конечных результатах, игнорируя пошаговую природу процесса получения ответа (промежуточные шаги), либо требуют чрезмерного количества ручного труда, что дорого и плохо масштабируется. Кроме этого, для улучшения агентных систем разработчикам приходится лезть в кишки и смотреть, что происходило и почему что-то не сработало — тоже долго и дорого.

Вот на примере SWE-Bench, обновлённую версию которого недавно выпустили OpenAI: системе даётся задача внесения изменений в код, а затем после получения решения прогоняется набор тестов. Прошли все тесты — задача «решена» (но тесты не покрывают всё и не проверяют каждую возможную несостыковку), не прошёл хотя бы один — не решена. А почему не решена? да миллион причин может быть.

У исследователей из META возникла идея: давайте для каждой задачи выпишем критерии решения, и запустим агентную систему для проверки всех промежуточных шагов (и сбора необходимой и достаточной для этого информации). Так родился бенчмарк DevAI: собрали 55 задач на автоматизацию ИИ разработки (обучи модель, запусти то-то, сделай то-то). Для них выписали суммарно 365 требований, в среднем по 6.6 на задачу. Самое описание — это текст длиной от 70 до 150 слов: не полноценное описание огромной задачи, но уже и не однострочник.

Дальше взяли 3 агентные системы (все используют gpt4o), запустили, а результаты работы отсматривались тремя специалистами. У них проверка 55 задач и 365 пунктов заняла суммарно 86.5 часов, и это бы стоило $1300 по минимальной часовой ставке в $15 (реальная стоимость сильно выше — тут же нужны эксперты с навыками ML/AI, а не любой человек с улицы). Кажется, на такой бюджет можно столько проверок через LLM нагородить, что не горюй.

Люди между собой сначала не общались, поэтому естественно возникли разногласия — уровень несогласованности между парами оценщиков колеблется от 10% до 30%. Как тогда определить, кто прав? Для этого людей собрали вместе и дали возможность обсудить каждую задачу, и финализировать ответ — получилось консенсусное решение, которое считается истинным. Вот от него голосование «большинством» от трёх исходных специалистов снижает несогласованность до 5-6% (поэтому часто в разметке ответы и агрегируют, получая «мудрость толпы»).

А после этого исследователи взяли и написали AI-агента (критика), который смотрел на решения, на критерии, и производил проверку — и вердикт сравнивался с консенсусным решением людей (удовлетворены ли требования).
TLDR: агент без доступа к логам размышлений согласуется с правильным ответом в 83-90.5% случаев (в зависимости от фреймворка, которым решались оригинальные задачи), с доступом — 86-92%. Люди с доступом к логам выдавали 89%-92%, а агрегация их ответов дала 94-95% (это как раз та несогласованность в 5-6% выше).

То есть автоматическая оценка примерно совпадает по точности с одиночной оценки людей, но чуть хуже агрегации нескольких ответов. Зато она быстрее на 97.7% (118 минут) и дешевле на 97.6% ($30.5).

13,034

Сиолошная

16 Oct, 07:53

Качество мерили на двух бенчмарках:
— LongVideoBench (подают до 256 кадров из видео, задают вопрос - иногда с таймстемпами - и просят выбрать один из 4 вариантов ответа)
— MMLongBench-Doc (подают документ с диаграмами, текстом, картинками, в среднем 47 страниц, и просят ответить на вопрос; треть вопросов требует комбинирования информации с нескольких разных страниц документа)

И там и там видно, что имеющиеся опенсурсные аналоги LLAMA и Pixtral просаживаются; они могут работать с несколькими картинками, но когда их становится очень много — не вывозят. Выгодно выделяется Qwen-2-VL от Alibaba, но модель огромная — 72 миллиарда параметров, и экспертов там нет; будет работать долго (ещё есть LLAVA-video-72b, но как подсказывает название она базируется на той же большой модели). Aria можно запустить в 16-битном варианте на одной 80GB карте, и в 40/48GB-варианты тоже влезет.

Aria занимает место где-то рядом с gpt-4o/gemini-1.5-pro на первом и mini-версиями этих моделей на втором бенчмарке.

13,664

Сиолошная

16 Oct, 07:53

Нечасто в последнее время пишу про новые модели, так как они почти никогда не открывают ничего нового — тут стало на пару процентов получше, там чуть прокачали, здесь воспроизвели чужой результат, но не более. Наконец-то появился повод — на прошлой неделе вышла Aria, открытая мультимодальная модель.

Основных фишки две: это модель с микстурой экспертов (когда для обработки данных в каждый момент времени используется лишь малая часть сети, несколько экспертов из большого множества) и длинным контекстом в 64k токенов. Всего в модели 25B параметров, но в один момент времени активируется лишь 3.5B (3.9B для картинок).

Вкупе с поддержкой картинок как входных данных получается, что модель может очень быстро обрабатывать видео (быстрота за счёт экспертов, ведь не нужно гонять всю сеть) или скриншоты страниц целых статей/отчётов: и то, и то представляется как набор картинок и подаётся в модель.

Каждая картинка (или кадр видео) может подаваться в модель в трёх разрешениях:
— низкое: длинная сторона до 490 пикселей, займёт 128 токенов «текста» (то есть модель переведет картинку в понятные ей, но не нам, слова и вставит их в ваш промпт)
— высокое: 980 пикселей, 256 токенов
— ультравысокое: картинка нарезается на N кусков с высоким разрешением (как выше), итого N*256 токенов

Отсюда легко посчитать, что максимум в контекст можно подать ~255 картинок высокого разрешения. Если брать по 2 кадра в секунду, то выйдет 2 минуты — не очень долго (не как у Gemini), но уже что-то. А если вам нужна общая суть, а не прям каждая деталь, то можно брать и по 1 кадру раз в 2-3 секунды — это уже 8-12 минут.

Блог, статья, веса (под Apache 2.0, делать можно что угодно)

18,282

Сиолошная

14 Oct, 17:37

Короткая заметка: помните весной вышел AI-программист Devin, а потом на него выпустили критическое 25-минутное видео с обзором демки? Не удивляйтесь если не помните — я об этом не писал в канале 🎃Я не был согласен со всей критикой (и часть мне казалось дикой типа «он совершает такие ошибка а мы бы так не ошиблись и вот он теперь их устранил но ошибок то таких вообще не должно быть!»), и не стал писать.

Канал того автора вообще во многом состоит из критики AI-инструментов и моделей. В основном, эмпирической: вот это не работало, ну вот заработало, а другое это всё ещё не работает.

Сегодня там появилось видео «ChatGPT-O1 меняет программирование как профессию. Мне очень не хотелось это говорить.», где, как вы понимаете, некоторые из хотелок наконец-то удовлетворились. Блоки кода по 300-400 строк начали выдаваться за раз, и работают без правок или почти без них. Автор пишет, что «До сих пор ИИ не могли работать так же хорошо, как профессиональные программисты. Для небольшого подмножества вакансий программистов начального уровня это уже не так.»

И конечно нет никаких оснований полагать, что в ближайшие 2-3 года прогресс остановится, что доля этого «подмножества», как и уровень программистов, не будет увеличиваться.

18,722

Сиолошная

13 Oct, 13:36

Корабль успешно приводнился в отведённой зоне в Индийском океане — настолько точно, что рядом стоял буй, с которого сняли посадку (в прошлый раз из-за повреждений закрылков упали в зону на 6 км дальше нужного).

В этот раз, увы, крылья тоже повреждены, но куда слабее (и это произошло позже в полёте, так что и тут прогресс есть). Это не очень большая проблема — всё равно их дизайн переработан в следующей версии (Starship v2).

Ждём видео с буя в воде прямо на само приводнение!

✅ все цели миссии выполнены, теперь ждём следующий пуск. Очень надеюсь, что до конца года!

20,269

Сиолошная

13 Oct, 12:34

Для истории: успех, добро пожаловать в новую эру исследования космоса!

14,911

Сиолошная

13 Oct, 12:32

есть посадка

я думал она в башню влетела 🧒

17,412

Сиолошная

13 Oct, 12:30

Башня готова к посадке
Бустер получил команду лететь на башню

Смотреть:
— официальный стрим
— рестрим NasaSpaceFlight
— любительскую трансляцию от Everyday Astronaut.

Через минуту

15,894

Сиолошная

13 Oct, 10:59

Основное развлечение сегодняшнего дня — запуск Starship — начинается ровно через час. Через полчаса запустится официальный стрим (в Твиттере, там уже более-менее нормально смотреть, особенно если без VPN), но тем, кому привычнее ютуб, могу порекомендовать рестрим NasaSpaceFlight или любительскую трансляцию от Everyday Astronaut.

Пока всё выглядит благоприятно, дороги перекрыты, а самолёты, с которых ведётся воздушная съемка, уже вылетели.

Напомню, почему запуск очень важен: это будет первая попытка посадки первой ступени (ускорителя) на «руки» пусковой башни. Первая ступень очень дорогая и ценная — на ней установлено 33 двигателя, и сама возможность их возврата и переиспользования существенно влияет на экономику запусков. Даже если корабль (вторая ступень, которая выходит в космос, и в которую помещают полезную нагрузку/космонавтов) никогда не смогут вернуть и посадить— программа Starship всё равно перевернёт космическую индустрию: на орбиту и к Луне можно будет выводить невиданные ранее объемы и массу за копейки.

Никто никогда не пробовал посадить никакую часть ракеты на башню — да посадка и в целом остаётся очень сложной операцией: несмотря на успех программы Falcon, до сих пор нет ни одной коммерческой или государственной программы, которая бы произвела успешный нетестовый орбитальный пуск (в Китае есть несколько стартапов, которые очень стараются, и уже умеют сажать с ~10 КМ) с посадкой.

Самое интересное произойдет на 7й минуте полёта: именно в этот момент должна быть посадка. Однако она может не состояться, если система решит, что что-то не в порядке (например, отказало больше двигателей, чем возможно), или если директор полёта из центра управления примет решение не нажимать кнопку. SpaceX хотят избежать рисков разрушения площадки — ведь в этом случае программу откинет на несколько месяцев назад (особенно критичны пусковой стол и башня).

В прошлом пуске несмотря на отказ 2 двигателей на этапе набора высоты и 1 при снижении ускоритель смог сесть на воду с точностью в полсантиметра (со слов представителя SpaceX). Но вообще даже меньшая точность позволяет выполнить задачу — зазор на ошибку есть.

Будем болеть за успешную посадку 🙏 надеюсь, будут суперские кадры подлёта прямо с земли. Ну а если нет — будет бум 😐

===

UPD: о, и да, про ускоритель — это 20-этажная хреновина, которая падает с высоты более 70 километров на скорости больше 3000 километров в час. И вот этому зданию нужно аккуратненько подлететь к башне на ручки.

UPD2: запуск теперь в 15:25

24,563

Сиолошная

12 Oct, 17:09

⚡ FAA выдали лицензию на пятый полёт системы Starship!

SpaceX:
— Нацеливаемся на 5-й испытательный полёт системы Starship в воскресенье, 13 октября. 30-минутное стартовое окно открывается в 15:00 МСК

15,133

Сиолошная

Сиолошная (Russian)

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная

Сиолошная