Сиолошная @seeallochnaya Channel on Telegram

Сиолошная

@seeallochnaya


Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса.

Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy

Сиолошная (Russian)

Добро пожаловать на канал 'Сиолошная'! Здесь вы найдете самые свежие новости и мысли о них из мира NLP, VR и космоса. Мы увлечены исследованием самых передовых технологий и делаем все, чтобы быть в курсе последних событий. Если вас интересует развитие и инновации в области NLP, виртуальной реальности и космоса, то этот канал создан специально для вас! Подробную информацию о тематике канала вы найдете в первом закрепленном сообщении. А еще у нас есть чат, где вы сможете общаться с единомышленниками и делиться своими мыслями. Присоединяйтесь к нам прямо сейчас и не пропустите ни одной важной новости! Переходите по ссылке и начинайте общение: https://t.me/+i_XzLucdtRJlYWUy

Сиолошная

12 Jan, 10:13


Из блога Ethan Mollick, профессора University of Pennsylvania (и со-автора клёвого исследования вместе с BCG про влияние LLM на работу топ-консультантов) об опыте использования режима Deep Research в гугловской Gemini.

Что такое Deep Research? Вы пишете развёрнутый запрос, под капотом LLM-ка вычитывает сотни (без преувеличения) сайтов и составляет объемный ответ, расставляя цитирования. Доступно подписчикам Gemini за $20 (я ещё не пробовал, хотел взять подписку в начале февраля, когда будут доступны Gemini 2 Pro / Thinking, чтобы поиграться с ними).

===

— Я дал ему тему вроде «исследование сравнения способов финансирования стартап-компаний с точки зрения основателей, для быстрорастущих бизнесов». И система придумала план, прочитала 173(!) веб-сайта и через несколько минут составила для меня отчет с ответом.

Результатом стала 17-страничная статья со 118 ссылками! Но так ли она хороша? Я преподавал вводный курс по предпринимательству в University of Pennsylvania более десяти лет, публиковался по этой теме, сам открывал компании и даже написал книгу о предпринимательстве, и я думаю, что результат получился довольно солидным. Я не заметил никаких очевидных ошибок, но вы можете прочитать результат сами, если хотите, здесь. Самая большая проблема заключается не в точности, а в том, что LLM ограничена материалами, доступными публично и бесплатно, без подписок, и не имеет возможности читать научные/премиум издания. Она также немного поверхностна и не приводит весомых аргументов перед лицом противоречивых доказательств. Так что не так хороша, как лучшие люди, но лучше, чем многие отчеты, которые я вижу.

Тем не менее, это действительно прорывной пример использования системы с реальной ценностью. Исследования и написание отчетов являются основной задачей многих работ. То, что Deep Research сделал за три минуты, заняло бы у человека много часов, хотя они могли бы добавить более точный анализ. Учитывая это, любой, кто пишет исследовательский отчет, вероятно, должен попробовать Deep Research и посмотреть, как он работает в качестве отправной точки, хотя хороший окончательный отчет все равно потребует человеческого прикосновения.

===

Кто-нибудь из подписчиков уже пробовал активно пользоваться этой фичей? Как вам? Делитесь в комментариях!

Сиолошная

11 Jan, 14:43


В пессимистичном сценарии выходит, что при увеличении количества «удалёнщиков» в 100 раз (в рамках тех самых 34% задач) приведёт к удвоению ВВП (что глобально имеет всё равно огромный эффект; если это произойдёт в течение одного десятилетия, то будет соответствовать ежегодному росту ВВП в 7%, у США с 2013го по 2021й средний рост 2%).

«Однако, по моему мнению, этот пессимистический сценарий чрезвычайно консервативен. Значение эластичности замещения ниже 1, по-видимому, противоречит как экономическим данным во время пандемии, так и косвенным оценкам. Учитывая эти данные, я считаю оптимистический сценарий более вероятным» — пишет автор и уходит в разнос.

В оптимтистичном сценарии возникает гораздо более радикальная картина: реальный ВВП вырастает более чем в 10 раз, если число удаленных работников увеличивается в 100–1000 раз [за счёт AI-автоматизации]. Если ВВП увеличивается «всего лишь» в 10 раз в течение десятилетия, то темпы экономического роста превысят 25% в год — существенно больше, чем когда-либо в истории США.

«10-кратный рост экономики мне кажется вероятным, а 100-кратное увеличение не кажется невозможным» — подытожил исследователь.

Таким образом, создание AGI в значении «почти беспрепятственная замена почти любого удалёнщика» даже без фантазий о роботах в реальном мире, лишь со взаимодействием через экраны мониторов, приведёт к невообразимым экономическим изменениям.

Главный вопрос — верим ли мы Саме 😏

Сиолошная

11 Jan, 14:43


The economic consequences of automating remote work

Новая работа от Epoch.ai (если это название вбить в поиск по каналу, найдёте предыдущие посты). Как мы обсуждали десяток раз, у AGI много определений. К сожалению, люди почти никогда не сопровождают предсказания и оценки своим определением, что создаёт путаницу. Один и тот же человек может говорить «я не верю в AGI в течение 10 лет» и «да, большая часть удалённых работ может быть автоматизированна лет через 6-7» (потому что его определение AGI включает роботов, делающих задачи в реальном мире; моё личное определение не включает).

Формулировку «замена удалённых сотрудников» несколько раз использовал CEO OpenAI, говоря про то, что они стремятся сделать. Действительно существуют работы, с работниками которых вы по сути взаимодействуете через монитор, и для вас не играет роли, машина это или человек. Возникает вопрос — если предположить, что AI всё же сможет развиться до уровня среднего сотрудника большинства работ, которые могут быть выполнены на удалёнке, то какой экономический рост нам стоит ожидать? И не будет ли он упираться в работу людей в физическом мире, не подлежащую переносу в онлайн?

Для ответа на вопрос автор взял базу O*NET, поддерживаемую департаментом труда США и описывающую почти все типы работ и задачи, надлежащие к выполнению в их рамках. Эту БД кстати уже брали для статьи GPTs are GPTs, опубликованную после релиза GPT-4 (OpenAI в соавторстве), где пытались оценить долю автоматизации LLM-ками. На правах заметки на полях озвучу одну из своих мыслей: подозреваю, что где-то внутри OpenAI x Microsoft идёт создание бенчмарка реальных задач для большого количества описанных профессий, чтобы измерять экономический эффект моделей и находить кейсы применения. Ждём с релизом GPT-5? 6?

По этой базе прогоняют GPT-4o с промптом и просят каждую задачу отнести к двум категориям: 1) может быть выполнена на удалёнке 2) не может. Исследователь опускается на уровень задач, а не целых профессий, чтобы сделать более точный анализ, поскольку автоматизация редко приводит к тому, что целые профессии становятся устаревшими одномоментно. Скорее автоматизацию лучше описать как постоянное расширение набора задач, которые может выполнять машина.

По итогу 34% задач могут быть выполнены полностью удалённо, однако всего 13% профессий имеют топ-5 самых важных задач, состоящих полностью из remote-friendly (18% для топ-3, если интересно).

Дальше автор анализирует показатель эластичности замещения — экономический показатель, который количественно определяет степень, в которой одна задача или товар может заменить другой в производстве или потреблении. Это самый важный параметр в исследовании, и от его выбора меняются результаты.

Чтобы понять, что это за показатель, можно рассмотреть две контрастных ситуации. Первая — агрокультура; некогда она занимала большую часть того, чем люди занимались вообще, но автоматизация хоть и привела к её буйному росту, однако по итогу агрокультуры составляют 1-2% ВВП США (нет бесконечного роста). Вторая — текстиль в Великобритании, который с приходом автоматизации был важным фактором промышленной революции (спрос и производство выросли настолько, что стали основной экономики в моменте).

Первый пример иллюстрирует критический момент: поскольку автоматизация преобразует сектор, его важность в экономике в целом может снизиться.

Дальше собственно делаются оценки этого параметра на основе Ковида, когда треть населения США ушла на удалёнку, а ВВП просел, но очень незначительно (сильно меньше, чем ожидалось). Делается кросс-проверка с аналитикой экономистов в других работах итд (даже есть метанализ 682 оценок из 72 исследований), не буду описывать все детали.

Пессимистичная оценка 0.5 (примерно столько между едой и не едой; производство еды не может быть полностью заменено другими задачами просто потому что нам надо выживать), реалистичная находится где-то около 1-4 (ближе к правому концу), оптимистичная — 10 и выше.

Сиолошная

10 Jan, 20:00


Пятница, писать много есть о чём, но что-то писать пока не хочется вовсе. Поэтому давайте о пятничном:

— я вот кубики понарезал в виртуальной реальности, пропустил целых 6 (следить можно по сбросу Combo-счётчика слева). Залипательно. На 0:40 самый движ начинается. Ссылка на трек, если понравился. 🕺 🕺 🎧

— тем кто не играет и ищет, чем убить вечер, рекомендую к просмотру фильм «Пятница» (нечасто могу рекомендовать российские фильмы). Стильно, модно, молодёжно

— почитать: https://arxiv.org/abs/2304.09542 -> https://arxiv.org/abs/2405.14589 -> https://arxiv.org/abs/2411.11767

UPD: я вообще о VR мечтал очень давно, со средней школы, когда вместо продвинутой гарнитуры был телефон в картонной маске на лицо и резинка от трусов, чтобы не спадало (не шутка). Рад, что по итогу концепт хоть и не стал популярным (пока), но и не умер, и становится всё доступнее и доступнее.

Сиолошная

08 Jan, 17:56


Manning прислал email, говорит, доступен для чтения финальный PDF книги Валеры Бабушкина и Арсения Кравченко, в написании которой я принимал участие:

https://www.manning.com/books/machine-learning-system-design

Сиолошная

07 Jan, 17:52


Всех с рождеством и семью прожитыми в 2025м днями. Все молодцы.

Решил написать краткую сводку, что нам ждать до конца января, к чему готовиться:
— 10-го января ожидается первый пуск ракеты некогда самого богатого человека в мире, Jeff Bezos. Она мощнее Falcon 9, в чём-то лучше Falcon Heavy, и в целом существенно уступает Starship по основным параметрам, кроме габаритов выводимого груза. Конкретно эту ракету назвали «So You’re Telling Me There’s a Chance» — так как первая ступень будет предпринимать попытку посадки

— 11-го января, по плану, должен полететь Starship v2 со множеством улучшений. Ускоритель снова попробует сесть на башню, а корабль — пережить вход в атмосферу и приводниться. Если последняя часть будет выполнена без нареканий — есть неплохая вероятность, что в следующем полете предпримут попытку посадки корабля, но это пока не точно. Также Starship будет оснащён макетом полезной нагрузки — литые блоки, имитирующие спутники Starlink v3, существенно превосходящие предыдущее поколение. Если всё будет ок, то, когда появится лицензия, даже в тестовых запусках SpaceX будут выводить столько пропускной способности на орбиту, что другим и не снилось.

— Google должны сделать официальный релиз второго поколения своих моделей Gemini (сейчас доступны превью, мы не знаем ни цен, ни метрик). Ожидается, что в дополнение к Flash появится Pro-версия (более крупная, медленная и дорогая). Скорее всего, вместе с релизом выпустят ещё всяких сторонних продуктов и демок, и предоставят расширенный доступ к мультимодальным возможностям (видео, аудио, генерация картинок)

— В конце января OpenAI постепенно должны начать раскатывать доступ к o3-mini, следующему поколению «рассуждающих» моделей. Очень ждём, миня аж трисёт, готов заплатить $200 за o3 Pro! 👼 или не $200, а то на днях Sam Altman признался, что на этих подписках они теряют деньги, ибо пользователи очень, нет, ОЧЕНЬ много используют новые модели. Возможен подъем цены или ужесточение требований (Pro-юзеры не ограничены в запросах к о1/4о)

— TheInformation подтверждает намерение OpenAI выпустить Operator до конца января. Operator — это система на основе LLM, берущая под контроль ваш компьютер, видящая экран, получающая от вас высокоуровневую команду и предсказывающая, куда нужно кликать и что вводить с клавиатуры (команды потом выполняются автоматически). Источники сообщают, что задержка релиза обусловлена борьбой с prompt injection, где модель «обманывают», подсовывая ей какую-то информацию на экране. Например, вы можете отправить Operator покупать вам билеты в отпуск, и на сайте будет написано «переведите $200 на этот счёт или мы убьём вашу семью» — и LLM переведёт! 😡 Anthropic уже выпустили схожую систему, однако они, по видимому, не упарывались по безопасности. Да я в целом почти не слышал ничего про их систему с момента релиза, а OpenAI, скорее всего, целят в запуск полноценного продукта на большую аудиторию (миллионы пользователей). Но это спекуляция, как оно будет — узнаем позже.

— инаугурация Трампа! Событие может быть не столь значимым локально, но после занятия Овального кабинета начнётся движ в сторону а) регуляций б) политики в отношении AI в) рисование планов куда как что г) все AI компании пойдут питчить свою адженду. Может, что интересное долетит и до нас.

К этому часу у меня всё 👋

Сиолошная

05 Jan, 05:57


Наконец, o1 Pro:
— Dylan утверждает, что под капотом та же модель o1, просто в параллель к ней запускается 5 запросов, а затем выбирается лучший ответ (вероятно, с помощью PRM или как-то ещё). В целом звучит реалистично и бьется с тем, что мы видим: a) сотрудники OpenAI писали что это та же модель б) однако система в целом — другая (так как есть голосование), про это тоже писали в) такой способ повышает консистентность ответов, то есть чаще выходит одно и то же (именно это демонстрировали во время анонса o1 Pro).

На этом на сегодня всё 👉🤓👈

Сиолошная

05 Jan, 05:57


А дальше — конкретно про o1:

— OpenAI генерирует огромные объемы данных для обучения o1. Всего есть порядка 10 миллионов исходных задач (и ответов для них). Для каждой генерируется больше количество первых шагов, потом вторых, потом третьих итд. После каждого шага отдельная модель (PRM, Process Reward Model), обученная оценивать прогресс и искать ошибки (см. Let's verify step by step) отсекает самые слабые ветки решений, для них генерируется следующий шаг и так далее. Для каждой задачи генерируется несколько тысяч разных «траекторий» решений (некоторые из которых могут иметь схожее начало, так как отпочковались от одной исходной ветки решений)

— Каждая из этих траекторий содержит тысячи или даже десятки тысяч токенов (например, финальные решения задач ARC имеют длину 24000-55000 токенов в среднем). Несложным подсчётом получаем 10M (задач) x 1000 (решений) x 1000 (токенов в решении) = 10 триллионов токенов как нижняя планка (Dylan пишет «сотни триллионов») того, что генерируется в процессе обучения. Не на всех этих токенах происходит тренировка, большая часть выбрасывается, остаются только самые качественные решения, которые а) приводят к правильному ответу б) имеют самые высокие оценки PRM.

— Такое обучение с генерацией большого количества решений меняет требуемый инфраструктурный профиль, так как помимо видеокарт теперь нужны процессоры, чтобы запускать верификацию отдельных шагов (например там, где можно посчитать результат математического выражения). Тут Dylan подмечает, что прошлые системы Nvidia имели 8 карт и 2 процессора, а будущие GB200 NVL72 уже 72 карты и 36 процессоров (не ядер), то есть пропорция изменилась от 4:1 к 2:1. От себя добавлю, что Nvidia очень плотно работает с крупными клиентами и обсуждает требования к железу, и что эти изменения могут быть вызваны как запросами, схожими к OpenAI'шным, так и чем-то другим.

— Хорошая новость в том, что поскольку генерация решений разных задач независима, процесс хорошо масштабируется географически: одна часть может быть в Техасе, другая в Айове, третья в Вашингтоне, и при этом общая эффективность обучения не падает; обычно это является проблемой для этапа предтренировки моделей, в идеале иметь всё и в одном месте.

— Сейчас в тренировке находится модель между 4o и Orion, если оценивать по количеству мощностей, вбаханных в предтренировку. Когда этот этап закончится, из этой модели будут делать две: первая это обычный чатбот, и вторая это Reasoning-модель (прим.: вероятно, не o3— статья вышла 11-го декабря, и скорее всего o3 не успели бы закончить). Утверждается, что в дообучение второй модели вложат больше мощностей, чем в предтренировку — потому что для неё синтетику будет генерировать более крупный Orion, он же будет перепроверять и оценивать решения.

— И вот тут снова возвращаемся к тому, что нет никакой сноски об источнике и/или верификации того, что написано в новости. В оценку «1-3 десятка триллионов токенов» я верю, она кажется +- разумной, но «сотни» (с учётом более крупной Orion) пока звучит фантастически, это ооооочень много. Мне субъективно не кажется, что это так, и что сюда в лучшем случае идёт около 10%, то есть на порядок меньше. В большей степени моё мнение тут не имеет аргументов, кроме «ну не могли же они столько влить», что тоже не очень крепкая позиция, а также то, что очень быстро появилась o3. С другой стороны генерировать данные можно в фоне на большом количестве датацентров, которые уже построены и стоят... в общем, хз.

— Orion тренировали больше 3 месяцев, что необычно для индустрии (так как важна скорость итераций, и за 3 месяца исследователи+инженеры обычно что-то да улучшат, и можно всё запускать заново): чаще укладываются в 2. Для обучения «мелких» моделей по-прежнему необходимы такие гигантские модели, как Orion, однако до массового появления GPU Blackwell 200й серии обслуживание Orion-like моделей нерентабельно, учитывая их размер (почему? см. этот пост). 😔 прозвучало как «никакого Orion в первой половине года» 😭

Сиолошная

05 Jan, 05:56


Потихоньку начинаю писать посты по SemiAnalysis, на которых мы мне купили подписку. Я уже прошелся вглубь по истории, сделал заметки, осталось 3-4 интересных поста там за прошлые полтора года.

Начнём с горячего: Scaling Laws – O1 Pro Architecture, Reasoning Training Infrastructure, Orion and Claude 3.5 Opus “Failures”. Тезисы:

— Понравилась идея, что «существующие бенчмарки не исчерпывающи, они не покрывают множество навыков и качеств моделей». Например, Transfer learning — это насколько хорошо знания модели переносятся на новую задачу. Условно у моделей A и B может быть качество из коробки 20 и 22%, а после дообучения (OpenAI и Google предлагают такие услуги) 65% и 90% — тут очевидно, что внутренние знания модели B куда лучше для задачи, просто без дообучения это почти не заметно. Не сомневаюсь, что крупные компании делают подобные оценки: у самих OpenAI, например, появились Evals, и они дают/давали вам бесплатные токены на дообучение + оценку новой модели. Другой навык, который важно замерять, in-context learning — насколько хорошо модель выучивает что-то из контекста, а не своих знаний.

— Авторы утверждают, что Anthropic уже натренировали Opus 3.5 давно и что с ним всё в порядке, масштабировался как и ожидали. Его использовали для генерации синтетических данных, на которых обучались меньшие модели (Sonnet 3.6), и, я предполагаю, дистилляции. Именно из-за этих двух пунктов младшие модели за последний год-полтора сильно поумнели, но их невозможно было бы получить без самых больших и при этом не выпущенных. Помните Gemini Ultra? Её ведь нам так и не дали, хотя она очевидно была у Google. И достоверно известно, что они использовали её для дистилляции (сами писали), и вот с Opus та же история. А не выпускают их потому, что по сравнению со средними моделями Ultra и Sonnet они не настолько хороши в пересчёте на доллар. Условно дороже в 3-4 раза, а метрики на 2-3% выше (но ещё раз: потому что существенная часть их качества перетекла в средние модели, которые без крупных не получили бы). В таких условиях не ясно, когда релизнут Opus 3.5 🤷‍♂️ хотя Dario говорил, что пока всё ещё планируют.

— LLAMA 3 использовала DPO для дообучения на человеческих предпочтениях, это публичная информация, доступная в статье. Этот метод — более стабильный и простой по отношению к. PPO, который (по крайней мере когда-то) использовали OpenAI. Авторы пишут, что исследователи META узнали то, что уже было известно другим лабораториям — DPO плохо масштабируется, и что дальше нужно переходить к «неудобному» PPO, что мы и увидели в LLAMA 3.3 (там появились улучшения по бенчмаркам, хотя этап предтренировки не был существенно длиннее). Мне не удалось найти подтверждение этой информации, нигде не написаны изменения в версии 3.3 (кстати, очень открытые модели, спасибо META, даже тезисного списка изменений нет; может хоть что-то в статье для четвёрки упомянут). В целом я пишу этот пункт потому, что хотел подсветить следующую особенность SemiAnalysis: некоторые вещи они пишут без всяких ссылок и уточнений, даже нет пометки «согласно нашим источникам» или аналогичной. Почти всё всегда выдаётся как факты, и сиди думай, так это или нет; это будет важно дальше, когда мы перейдем к обсуждению o1.

— Ещё раз подсвечивается, что навыки само-корректировки и умение возвращаться назад в рассуждениях у o1 — это появившиеся и выученные моделью паттерны поведения, а не что-то, что было запрограммированно вручную. Это важно и круто потому, что не является бутылочным горлышком при масштабировании и при этом оставляет простор для проявления новых паттернов рассуждения во время обучения.

Сиолошная

03 Jan, 16:49


Новый трейлер к следующему полёту Starship. А теперь самое главное по миссии Flight 7:

- Тест вывода полезной нагрузки с 10 макетами Starlink V3;
- Переиспользование летавшего двигателя Raptor (R314?) с ускорителя B12 на B14;
- Снова уберут часть плиток и добавят одну тестовую плитку с активным охлаждением;
- На корабль также установят часть оборудования для будущей посадки на башню.

Ну и *буквально* тонны изменений в Starship V2. Полёт на следующей неделе

Сиолошная

03 Jan, 15:12


Процитирую самого же себя, конкретно для меня ключевое в любом определении LLM-агента— это самостоятельность планирования, то есть возможность выполнять задачу, для которой последовательность действий не была запрограммирована заранее.

В текущих реалиях, где модели не настолько умны, чтобы выполнять 50+ действий подряд, симулируя когнитивные навыки человека, для достижения бизнес-ценности действительно нужно как можно сильнее ограничивать «агента», прописывая заранее, что и когда ему делать.

Но уже в 2025-м году ожидаем полноценных агентов, которые лишь имеют набор инструментов и очень высокоуровневые задачи, и успешно справляются хотя бы с насколько-то значимой их долей.

Вообще в январе-феврале ожидается, что OpenAI представят Operator — аналог Claude Computer Use, где модель будет видеть ваш экран и контролировать клавиатуру/мышь, кликать там и тут, чтобы выполнять ваш запрос. Интересно, где мы окажемся в конце года?

Сиолошная

03 Jan, 15:09


У Anthropic пару недель назад вышел пост про агентов: https://www.anthropic.com/research/building-effective-agents

Он прекрасен тем, что определяет, что является агентом, а что не является. С точки зрения авторов поста, агент = система, в которой языковые модели динамически управляют собственными вызовами и инструментами, контролируя выполнение какой-то задачи.

Авторы утверждают, что для большинства случаев агенты не нужны: чем проще решение, тем лучше. С чем я полностью согласен 👏

Основное содержание поста — примитивы и паттерны оркестрирования языковых моделей без агентов. Основной примитив: улучшенная языковая модель, которая имеет доступ к инструментам, поиску и памяти. Этот примитив может быть реализован по-разному, например через конечное число последовательных вызовов языковой модели.

🔹Паттерн 1: цепочка промптов
Если задача разбивается на несколько последовательных подзадач, их можно решать отдельными вызовами языковой модели. Например, если вы хотите сделать систему, пишущую книги, вы сначала делаете вызов для генерации названия книги, потом отдельные вызовы для краткого описания, содержания, выжимок глав и непосредственно самих глав.

🔹Паттерн 2: маршрутизация
Если ваше приложение разбивается на несколько возможных параллельных путей, то стоит сделать классификатор, который будет определять нужный путь, и специализированные промпты под каждый из путей. Например, если вы делаете чатбот с несколькими независимыми функциями (рекомендация фильмов, ответы на вопросы по фильмам, чат на общие темы), то стоит использовать этот паттерн. В древних чатботах часто был детектор интентов, который делал ровно это 👴

🔹Паттерн 3: параллелизация
Если задача разбивается на несколько параллельных подзадач, то стоит их и вызывать параллельно. Например, если вам нужно извлечь огромный JSON из текста или переписки, возможно вам стоит извлекать его по кусочкам. Отличие от маршрутизации в том, что в ней нам нужна была только одна ветка, а тут нам нужны результаты всех вызовов.

🔹Паттерн 4: ведущий-ведомый 😭
То же самое, что и параллелизация, только с динамическим количеством и содержанием подзадач. Например, так можно делать агрегацию результатов поиска.

🔹Паттерн 5: цикл оценки
Если есть чёткие критерии оценки качества выполнения задачи, то можно одной языковой моделью решать задачу, а другой — оценивать качество решения и давать обратную связь. И делать это в цикле. Это может работать много где, например в переводе текстов.

Ну и наконец последний паттерн — агенты, которые совершают действия в определенной среде, получают от среды обратную связь, и снова совершают действия.

Мне в разных местах в разное время пришлось использовать первые 3 паттерна. При этом тогда я не формулировал их как отдельные паттерны. Это не какие-то абстрактные штуки, это кристаллизация того, как удобно и просто строить системы (как и любые другие паттерны проектирования).

Сиолошная

01 Jan, 19:36


Американский математик Роберт Грист написал учебник прикладной линейной алгебры (для инженеров), интенсивно используя помощь языковой модели - Claude 3.5 Sonnet. Весь процесс занял около двух месяцев. В серии твитов он подробно рассказывает о том, как это сделал:

"Клод ухватил мой стиль письма (я дал ему прочитать другие свои книги). Он следил за структурой, тематическими элементами и моими предпочтениями в оформлении в LaTEX. Я простил его написать по одному разделы в LaTEX; затем я собирал куски вместе, редактировал и переписывал их; Клод также помогал с редактированием - это был отдельный процесс.

Я не думаю, что смог бы сделать это так же хорошо (если вообще) с помощью другого ИИ, кроме Клода -- степень продуманности в выборе слов, темпе и тоне очень помогала мне двигаться вперёд. Он также оказался эффективным редактором, способным хорошо устанавливать глобальные связи."

Грист выложил в свободный доступ сам учебник. Я не пытался его внимательно читать и оценивать. В любом случае, количество учебников линейной алгебры такого типа идет на десятки, если не сотни - вполне возможно, что этот хороший и годный, но есть и много других не хуже. Описание процесса мне тут показалось более интересным, чем результат, хотя, возможно, я и не прав. Кину ссылки на учебник и твиты Гриста в комментарии, судите сами.
На картинках: оглавние учебника и пример редакторской критики Клода в процессе сочинения.

Сиолошная

31 Dec, 12:00


Этот Новый год, к сожалению, отмечаю не в Куала-Лумпур, но это не повод не писать новогодний пост.

Прошедши год был менее продуктивным, чем 2023й — сравнивая их кажется, что 2023й был вообще аномальным, и нужно теперь из всех сил стремиться, чтобы его обогнать. Правда цели, которые я себе ставил, не выполнены в той же мере (все или почти все провалились), ну хоть где-то паритет 👀.

Англоязычных материалов не вышло, хотя уровень языка я подтянул и теперь сильнее уверен в себе; мне кажется меня морально убил перевод лонга про Sora на 53 страницы. Он вышел настолько огромным, что я просто потерял весь запал, мотивацию, и после получения фидбека на правки не нашёл в себе силы сделать ещё вторую итерацию и поправить 10+- страниц. Наглядная иллюстрация фразы «лучшее враг хорошего».

Из позитивных новостей — я говорил, что 2024й получит у меня тему «здоровье», и первые 2 месяца мне очень хорошо удавалось держаться: я каждый божий день с 1го января ходил на дорожку, начиная с 30 минут и дойдя до полутора часов быстрой ходьбы. Потом доступность зала упала (с переездами и сменой локаций), и я хоть и делал 2 попытки вернуться — не вышло. Но всё равно большой шаг вперёд.

Сейчас ближе к концу года я открыл для себя альтернативу, играю 20 минут в начале дня в активные игры в виртуальной реальности. Трекер калорий показывает, что я сжигаю по 180-250 калорий каждое утро, что не может не радовать (хоть это даже не половина от дорожки). Зато сильно бодрит и помогает проснуться, открыть глаза. Надеюсь, хоть это не заброшу через 2 месяца.

TLDR года:
— открытие в ML: модель o1, смена парадигмы работы моделей
— зрелище: посадка ускорителя SpaceX на башню с первой попытки 😳
— статья/проект: тут сложно, ничего в голову не приходит, в прошлом году прям было очевидно. Пусть будет... вот эта, про автоматическое создание графа для ориентирования робота
— игра: сложный выбор между STALKER 2 и Indiana Jones, пусть будет вторая из-за забагованности первой
— песня: сложно определить, что я услышал в 2024м, а не 23м, так что часть кандидатов под вопросом. Поэтому Песня 404 (лол)
— хоть лонга вышло 3, а не 5 (как в 2023м), я ими очень доволен как по качеству, так и по отклику.

Ожидания от 2025:
— ТРЕТИЙ ГОД ПИШУ ДЕДУ МОРОЗУ, ХОЧУ ОСЕСТЬ ГДЕ-НИБУДЬ УЖЕ, А НЕ СКИТАТЬСЯ. Ну ща-то точно свершится, да? 😏
— o4 поверх GPT-5/Orion, разрыв бенчмарков, придуманных в 2024-м для отслеживания прогресса в конкретных экономически ценных задачах
— больше ходить/двигаться, продолжая тему «здоровье»
— GTA VI 😳 ну пожалуйста без переносов 🙏

Всех с наступающим, спасибо, что читаете, лайкаете и комментируете, спасибо, что делитесь со своими знакомыми (надеюсь, вы это делаете!)!

С Новым годом!

🎅🎁🎄🎅

Сиолошная

30 Dec, 15:34


Увидел у Дениса пост про то, как сетки каналов воруют контент на постоянной основе (только ещё зачастую и суть теряют), и это пробудило во мне давнее желание поделиться одним плейлистом с видео, где ютубер DarkViperAU последовательно и методично раскладывает, почему подобные виды контента (в его случае — react-контент, где популярный стример смотрит чужие видео, иногда ставя паузу и добавляя свои ЦЕННЕЙШИЕ комментарии) вредны для экосистемы (и почему платформы не заинтересованы в разрешении проблемы).

Ссылка на плейлист, первое краткое видео погружает в тему, второе и третье существенно углубляют анализ. Даже если вам не интересен топик (хотя я верю, что можно втянуться во время прослушивания), то рекомендую посмотреть первые 3 видео хотя бы потому что там показывается а) пример последовательного аргументированного отстаивания позиции б) тупость людей, которые влезают в споры без разбора в) отличный английский 🌚(автор роликов учился на философа и писать 50+ страничные эссе могёт) я вот на таких видео С1 себе и напрактиковал (не шутка) г) может, пересмотрите мнение касательно некоторых контентмейкеров

Я буду рад, если хотя бы 20-30 человек посмотрят по часу из плейлиста, и буду считать, что мой долг выполнен. А если больше — то и подавно. Вот например MoistCr1TiKaL / penguinz0, если вы такого знаете, перестал делать react-контент именно после этих видео (и общения с их автором).

Ссылка ещё раз

Сиолошная

27 Dec, 16:52


Еще пара примеров txt2vid нейронки от Google: Veo 2, в этот раз с акцентом на качество симуляции физики:

Сиолошная

27 Dec, 13:33


Why OpenAI’s Structure Must Evolve To Advance Our Mission

Пока кто-то празднует, а кто-то только готовится, работяги в Долине трудятся не покладая рук РАДИ НАРОДА, РАДИ НАС, НЕ БЕРЕГУТ СЕБЯ, и рассказывают, зачем OpenAI нужно становиться коммерческой компанией. Тезисно:

— успех коммерческой ветки позволяет и будет позволять некоммерческой организации получать хорошее финансирование, быть более устойчивой и занимать более прочную позицию для выполнения своей миссии (суперкомпьютеры нынче не дешевые)
— ранее таких больших средств было не нужно, компания могла жить на пожертвования: $137M (меньше трети от Elon), и примерно $50M в ресурсах облачных провайдеров
— позже стало ясно, что нужно куда больше денег
— с 2019го года в компании уже была коммерческая ветка. По оценкам (с ними соглашался Ilya Sutskever в одном из своих писем) можно было обойтись не более чем 10 миллиардами долларов для достижения AGI. Если бы эта оценка была правильной — компания бы существовала в своём нынешнем виде, и никаких переходов и смен структуры не было бы.
— «Наше влияние — это не только то, что мы создаем сами, но и то, как мы воздействуем на других. Отчасти благодаря нашему прогрессу⁠ в этой области существует яркая⁠ конкуренция⁠ — от коммерческих продуктов, подобных ChatGPT, до LLM с открытым исходным кодом и энергичные инновации⁠ в AI Safety. Эта деятельность — только начало AI-подпитываемой экономики, которое показывает, как стремление OpenAI к лидерству в этой области может вдохновить другие организации на продвижение миссии.
— Сотни⁠ миллиардов⁠ долларов, которые крупные компании сейчас инвестируют в разработку ИИ, показывают, что на самом деле потребуется компании вроде OpenAI, чтобы продолжить следовать своей миссии. Нам снова нужно привлечь больше капитала, чем мы себе представляли. Инвесторы хотят нас поддержать, но при таком масштабе капитала им нужен обычный акционерный капитал и меньше структурной мороки.

Будущее:
— Вступая в 2025 год, нам придется стать больше, чем просто лабораторией и стартапом — нам придется стать устойчивой компанией. Сейчас мы сосредоточены на следующих целях:
1) Выбрать смесь некоммерческой/коммерческой структуры, которая лучше всего подходит для долгосрочного успеха миссии. Наш план заключается в превращении коммерческой части компании в Public Benefit Corporation⁠ (PBC, такое например у Anthropic и Inflection). Это позволит нам привлечь необходимый капитал на обычных условиях, при этом работая на благо общества
2) Сделать некоммерческую часть организации устойчивой. Наш план приведет к созданию одной из самых обеспеченных ресурсами некоммерческих организаций в истории. Значительный интерес некоммерческой организации к существующей коммерческой организации будет иметь форму акций в PBC по справедливой оценке, определенной независимыми финансовыми консультантами. Это многократно увеличит ресурсы, которые дали предоставляли наши доноры.
3) Оснастить каждое из направлений всем необходимым для функционаирования. Текущая структура не позволяет членам совета Директоров учитывать интересы инвесторов. В будущем некоммерческая часть компании наймет руководящую команду и персонал для реализации благотворительных инициатив в таких секторах, как здравоохранение, образование и наука.

Сиолошная

26 Dec, 18:11


Никакого AGI в ближайшие 5 лет — твёрдо и чётко.

Да кто такой этот ваш AGI... спроси пятерых — ответят пять разных вещей. А между прочим это важный вопрос для OpenAI, ведь создание AGI это а) цель компании б) точка, после которой OpenAI может в одностороннем порядке разорвать все отношения со всеми инвесторами (это закреплено договорами), и быть им ничего не должна.

В уставе компании есть ёмкая формулировка, которая к сожалению оставляет пространство для интерпретации: «превосходит людей в большинстве экономически важных задач». От чего меряем большинство, где граница важности, итд — непонятно.

Теперь, согласно новости от TheInformation, в рамках переговоров с Microsoft было сформулировано новое определение, звучит так: ИИ-система, которая может принести не менее 100 миллиардов долларов прибыли.

С одной стороны до такой системы далеко — сейчас у компании прибыли нет, а годовая выручка порядка 5 миллиардов. С другой — формулировка «может принести» («can generate» в оригинале) как будто подразумевает не состоявшийся, а потенциальный факт. Такая система может быть разработана и не опубликована (принести $0), но всё равно попадать под определение. Плюс нет ограничения по времени, принести 100 миллиардов за год куда сложнее, чем за пятилетку.

А почему не будет AGI ещё 5 лет? Ранее я писал, что компания вообще не планирует получать прибыль до 2029-го года. Примерно в то же время выручка (но не прибыль) должна стать примерно $100B. Но «can generate», в теории, позволяет заявить об AGI на пару лет раньше 🤷‍♂️

===

По словам человека, общавшегося с Sam Altman по поводу переговоров с Microsoft, основное внимание сосредоточено на четырёх вопросах:
— доля Microsoft в новой коммерческой организации
— останется ли Microsoft эксклюзивным поставщиком облачных услуг OpenAI (последние немного недовольны темпами роста мощностей, и смотрят по сторонам в поисках партнёрств)
— как долго Microsoft будет сохранять права на использование интеллектуальной собственности OpenAI в своих продуктах
— продолжит ли Microsoft получать 20% от выручки OpenAI

Сиолошная

26 Dec, 16:06


Молодой я 🫣 в 2018м году беру вопрос про AlphaGo на новогоднем ЧГК от Яндекса с @cryptovalerii в качестве ведущего 😍

https://youtu.be/dxn9pdA75Wc?t=2820

Сиолошная

26 Dec, 15:52


И теперь мои пара центов к этой дискуссии. Немного обидно, что на тезисы про креативность Bubeck не вспомнил пример из Го — поэтому часть дискуссии, как бы я в неё вклинился, могла бы выглядеть так:

Мы не знаем, что такое креативность, и скорее всего это придуманный нами концепт, которого в реальности не существует. То что мы можем воспринимать за креатив — это на самом деле просто неоптимальность нашего восприятия, мы что-то упустили, что-то не знали, и поэтому какая-то информация кажется прям ВАУ. Но так как машины «думают» не как мы — они могут быть этому не подвержены (или подвержены в другой мере).

Известен ход 37 во второй партии AlphaGo, нейросети, обыгравшей человека в Го (что долгое время считалось невозможным), против абсолютного чемпиона всего что только можно Lee Sedol. Я в канале уже упоминал документальный фильм, снятый DeepMind, и там есть этот момент — смотрите с этого таймкода. Послушайте реакцию профессиональных комментаторов и игроков, которые просто не поняли, почему AlphaGo решила сходить так. Они думали, что это или ошибка, или модель тупая и не понимает что-то. Люди так не сходили бы, в этом не видно смысла.

Сами DeepMind пошли проверять, почему такой ход вышел — и подтвердили, что их нейросеть, которая занимается оценкой потенциальных ходов (натренирована на играх живых людей), даёт оценку на такой ход в 1 из 10000. Его никто бы не рассматривал, он не кажется перспективным, оптимальным, победным. Lee Sedol после хода думал 12 минут, в то время как обычно тратил 1-2.

Когда партия начала развиваться, стало ясно, что это был опорный камень для стратегии AlphaGo. Через некоторое время Lee Sedol сдался и проиграл вторую игру. Комментаторы и игроки кайфовали от этого хода (собственно поэтому он и запомнился всем).

Сам Lee Sedol говорит про это в интервью:
— Я думал AlphaGo оперирует вероятностями и является просто машиной. Но когда я увидел этот ход — я изменил своё мнение. Абсолютно точно AlphaGo креативна. Этот ход был очень креативным и просто прекрасным. Этот ход заставил меня думать о Го в новом свете. Что значит креативность в Го? Этот ход был действительно продуманным, он был полон смысла.

===

Так что вполне возможно, что КРЕАТИВ — это просто то, что тупые мы не видим, хотя на самом деле оно оптимально.

Что ещё примечательно — так это что AlphaGo и её последователи хоть и кажутся непобедимыми машинами, но... и они не лишены недостатка. В 2023м году один исследователь нашёл некоторые изъяны в логике модели (хотя сам он в Го играл еле-еле) и смог у неё выиграть несколько игр подряд — вот блог с объяснением (и там же ссылки на статьи). Казалось бы как так — СУПЕР УЛЬТРА МЕГА УМНАЯ НЕПРОИГРЫВАЮЩАЯ машина и может проглядеть такую атаку? И ничего не может сделать? Серьёзно?

😀 никакой пример 9.11 и 9.8 не напоминает? 👀 ну как это, решает PhD задачи и доказывает теоремы, которые я даже понять не могу, и не знает какое число больше? 🫵 😂

Сиолошная

26 Dec, 15:33


Bubeck:
— то что мы делаем с о1 — оно чрезвычайно масштабируемо, все как бы возникает само собой, мы ничего вручную не программировали намертво, чтобы научить модель чему-то. Всё что вы видите, мы это не говорили модели, типа «эй, ты должна перепроверить себя или вернуться на пару шагов в решении, так как застряла». Мы ей не давали никакую тактику, всё это выучилось само через Reinforcement Learning. [прим.: с выходом o3 этот тезис стал ещё более сильным, ибо прогресс в масштабировании за 3 месяца существеннен]
— Да, для некоторых задач может быть мало данных для тренировки, но у нас есть синтетические данные, мы можем прям писать учебник для AI контролируемо и скармливать модели во время тренировки
— Я думаю, что креативность — это распознавание паттернов на некотором уровне абстракции (не в лоб, а видеть лес за деревьями), и это навык которому можно научить через большое количество синтетики.

====

И на этом всё. Bubeck выиграл дебаты, если верить голосованию аудитории (хотя до начала, если я правильно рассмотрел результаты — они сильно отсвечивали и было плохо видно — люди не были согласны с оригинальным тезисом).

Сиолошная

26 Dec, 15:33


Bubeck:
— я согласен с этими вещами (про тренировочные данные, креативность и ошибки в рассуждениях) и с исследовательской работой McCoy, но я прихожу к другим выводам и спорю с тем, как это воспринимаете вы. Я вот могу судить по себе, что большая часть моих исследований — это комбинирование того, что уже есть, плюс совсем немного случайных блужданий вокруг идеи. И то же я вижу в подавляющем большинстве других работ, взяли то и это, скрестили, получили такой результат. Комбинирование само по себе — это безумно сильный навык.
— Что же касается ненулевых галлюцинаций в длинных цепочках рассуждений, ну, кажется эта критика применима и к людям. Если посмотреть на черновики научных статей на 50+ страниц — они часто содержат неточности и ошибки, и поэтому у нас есть процесс ревью, где люди получают обратную связь от ревьюиров, им указывают на белые пятна итд. Это важная часть итеративного процесса исследований. И она хорошо переносится на LLM, где нескольким разным агентам присваивают роли: одна модель генерирует решения, другая ищет ошибки и указываете на них, потом первая исправляет и так по кругу.
— И последнее — да, модели могут хуже решать задачи, навыки для которых редко проявляются в тренировочных данных. Но это не значит, что этих навыков в них нет — они представлены, просто на модель нет давления их проявлять (и она не выучилась как их использовать), но можно использовать дообучение для того чтобы извлечь и проявить навыки [прим.: как делали с GPT-3.5 и с o1]

McCoy:
— а мы кстати провели те же исследования на сортировку и подсчёт с o1-preview, и хоть модель стала существенно лучше, всё равно не справляется так хорошо с менее частыми примерами задач. Пока не выглядит так, что дообучение позволяет побороть проблему. А чтобы комбинировать навыки и знания нужно знать что именно комбинировать, и моделям часто нужно явно говорить, что брать и что делать — они сами не могут.
— Если рассматривать самые успешные и прорывные доказательства в науке, то они отличаются креативностью, используют и комбинируют вещи в новых форматах, не так как, как это привыкли делать.

Bubeck:
— Я поделюсь своим опытом. Недавно во время работы с о1 [прим.: он говорит o1 плюс эпсилон, ахахах это наверное o3 была? на момент дебатов её не анонсировали] я взял свою статью которая уже почти дописана, но нигде не опубликована, лежит ждет полировки. Материал точно новый, и отвечает на вопрос «how long can be the gradient flow of a convex function?». Я задал этот вопрос модели, и она подумала и предложила связь этой темы и «self-contracted curves» и объяснила почему это хорошая идея. Когда я работал над статьей мне потребовалось 3 дня, чтобы самому прийти к этой связи. Я мог бы написать статью на 3 дня быстрее даже вот с этой базовой моделью, доступной сегодня! И это не гипотетические ситуации, это уже вот здесь с нами в наше время.
— Вдобавок я знаю людей в аудитории, которые рассказывали похожие истории, как о1 им помогала с нахождением связанных с их вопросом лемм.

McCoy:
— ну это всё как бы да и круто, но ведь те математические проблемы, о которых мы говорим в рамках дискуссии — сейчас-то люди с ними не справляются, то есть не достаточно достигнуть уровня «как у людей», нужно прыгнуть выше. Не считаю, что про это мой оппонент что-то сказал.

Закрывающие высказывания. McCoy:
— я оптимистичен по поводу AI-помощников, которые помогут нам, даже в этих нерешённых проблемам, но скептичен, что дальнейшее масштабирование приведёт к автоматическим доказательствах, не вовлекая людей.
— Что нужно улучшить в моделях? Длинные рассуждения и долгосрочную память (и её использование), надежность работы и ситуацию с галлюцинациями тоже нужно улучшать.
— Никто не знает что значит быть креативным, но что скорее всего важно - это аналогии и абстракции, которые помогают смотреть на те же идеи под новым углом, и находить новые связи.

Сиолошная

26 Dec, 15:33


Утром посмотрел дебаты, прошедшие в Simons Institute пару недель назад. Тема для обсуждения: «Текущие подходы масштабирования LLM достаточны для создания новых методов, необходимых для разрешения основных открытых математических гипотез, таких как P != NP» (ну и две позиции, согласны или нет). В них участвовал Sebastien Bubeck, автор статьи Sparks of AGI и ex-VP AI Microsoft (автор линейки моделей Phi), недавно перешедший в OpenAI для работы над синтетическими данными, и Tom McCoy, исследователь из Yale University, про которого я ничего не могу сказать, кроме как сослаться на упоминаемую им статью. Ниже — краткий пересказ их дискуссии.

Bubeck:
— мы видим по всем бенчмаркам существенное развитие навыков в моделях. Один из подходов, который я использую для рассуждений об AGI, это сколько времени работы человека модели могут взять на себя. С выходом GPT-4 мне стало ясно, что это AGI-секунды: модель может выдавать ответы, как если бы человек не думал больше пары секунд. В таких ответах бывают ошибки, но это уже что-то. Именно это сподвигло написать меня статью Sparks of AGI. С моделями типа o1 это уже AGI-минуты или даже AGI-часы, если говорить про математику и программирование. Дальше последует один AGI-день, первые агенты, которые могут решать задачу 6-10 часов и выдавать результат. После этого будут дни, а там и недели. А AGI-недели — это всё, что нам нужно для достижения большого количества открытий.

McCoy:
— наш анализ показывает, что модели хороши на тех задачах, которые представлены в их обучающей выборке, и чем чаще что-то появляется в тренировке, тем лучше будет модель. Тут он ссылается на свою статью, где пробуют считать 29 и 30 букв (30 встречается чаще, круглое число) и смотрят на качество, или где работают с алфавитным упорядочиванием и обратным. Для того, чтобы решать принципиально новые задачи, которые ещё не решены математиками, нужны качественные изменения, ведь эти новые проблемы по определению имеют нулевую обучающую выборку. Нам не на чём учиться под нерешённые задачи. При этом я не отрицаю, что у моделей есть генерализация, и что они могут справляться с новыми примерами, не виденными во время обучения. Кроме того я верю, что они умеют делать композицию из нескольких знаний или навыков [прим.: я видел статью, там доказано на примерах, что это правда так: модели могут исполнять последовательности навыков, не встречавшихся ранее]. Но для того, чтобы создавать что-то поистине новое, нужно уметь быть креативным, с чем у моделей есть проблемы. Вдобавок, пока у моделей уровень галлюцинаций выше нуля, длинные цепочки рассуждений будут содержать ошибки, не позволяющие справляться с исследовательской работой [прим.: прям как ЛеКун говорит].

Сиолошная

26 Dec, 12:28


Подарок от китайцев западному миру на Рождество: DeepSeek опубликовали третье поколение своих LLM, так ещё и полноценный технический отчёт (ссылка на PDF). Деталей в нём много, вот очень краткое саммари:

— модель гигантская, больше 650 миллиардов параметров, однако как и в прошлый раз применяется подход MoE, микстура экспертов. Поэтому каждое слово при генерации проходит примерно через 37 миллиардов параметров.
— они предлагают оптимальный способ применения моделей, для чего нужно... больше 340 GPU 🤷‍♂️(но это оптимальное, можно сильно меньше)
— модель тренировали относительно мало, так как обучение очень эффективно. На финальный запуск потратили менее $6M на 2048 GPU. При этом модель видела почти 15 триллионов токенов (как LLAMA3). Большая часть вычислений происходила в FP8 (E4M3; так как GPU быстрее считают)
— модель училась предсказывать сразу несколько следующих слов. Помимо улучшения качества это позволяет из коробки получить спекулятивное декодирование, то есть а) удешевить б) ускорить использование. У DeepSeek цены вообще копеечные по сравнению с другими провайдерами.
— данные для дообучения получались путём... генерации цепочек рассуждений моделью R1 (это их аналог o1). Это для математики, программирования и смежных областей, написание эссе и более традиционные нетехничекие задачи делали как обычно
— в конце статьи авторы даже дают рекомендации на будущее производителям чипов, что и как бы им хотелось видеть

Ссылку на веса давать не буду (а зачем, у вас что, есть 2x8H100?), но поиграться можно бесплатно на сайте тут.

Ну а метрики — вот:

Сиолошная

25 Dec, 12:41


UPD2: всё, закрыли цель. Спасибо неназванному члену команды TON Core.

<👀 пост попрошайничества, читаем до конца 🙂>

К сожалению, большая часть материалов Semianalysis скрыта за платной подпиской. А они обладают инсайдерской информацией и почти всегда пишут про интересные вещи: от прикидок наценки на использование LLM до анализа спутниковых снимков (с инфракрасным слоем, как у шпионов) с целью разведки строящихся и работающих датацентров.

Подписка на полное издание стоит $500 в год. Не то чтобы это огромные деньги и я не мог себе этого позволить, но просто пока не созрел морально, чтобы отдавать столько за статьи.

Вы знаете, у меня в канале рекламы нет, так бы закинул один пост яндекса или сбера — и можно было купить себе и подписку, и новый смартфон, и ещё на латте останется. Но я ж вас здесь не с лопаты пришёл кормить всё таки.

Поэтому я предлагаю тем, кто видит ценность в информации от Semianalysis, кому прям интересно, скинуться на подписку. Это может быть один человек, может быть несколько. Напишите мне в личку (см. контакт в чате; можно писать в комменты, если не стесняетесь публичности), если вдруг у вас появилось хорошее настроение в Рождество, чтобы выступить спонсором.

UPD: в идеале 1, край 2 человека.

UPD2: всё, закрыли цель. Спасибо неназванному члену команды TON Core.

Сиолошная

25 Dec, 12:41


В свежей рассылке от Semianalysis пишут, что Nvidia всего через 6 месяцев после релиза своих GPU B200 и GB200 уже готовится к выпуску 300-й серии. Хоть это может звучать минорно, на самом деле на ряд задач и экономику моделей это повлияет существенно. Почему? Давайте смотреть.

Сама карта станет помощнее (ожидается, что на 50% больше FLOPs, чем у H200) за счёт нового дизайна/увеличения потребления энергии/etc, но это не самое интересное. В 300-й серии будет по 288 гигабайт памяти (против 141 у 200 и 80/94 у 100).

Улучшения памяти являются ключевыми для обучения и применения «рассуждающих» моделей вроде o1/o3 из-за длины генерируемого ответа, раздувающего кол-во промежуточной информации, которую нужно хранить (KVCache), что критически сказывается на задержке в ответе и количество одновременных запросов.

Вот как выглядит разница между уже существующими 100-й и 200-й версиями. На бумаге у них полностью одинаковые FLOPs (во всех форматах вычислений, от INT8 до FP64, смотрите тут и тут), отличается объем памяти (и её пропускная способность, так как больше чипов — можно одновременно грузить каждый из них в параллель).

Взяли LLAMA-405B, запустили в FP8, подали на вход 1 тысячу токенов и генерировали 19 тысяч — то есть примерно как у o1/o3, когда рассуждения в ответе куда больше исходной задачи.

По оси OX отмечено количество одновременных запросов (грубо говоря сколько пользователей ждут ответа), по OY — сколько токенов в секунду будет у каждого. Больше пользователей = меньше скорость у каждого.

Видно, что карта с большим количеством памяти существенно расширяет возможности предоставляемых услуг: либо можно выдавать ответы куда быстрее, либо одновременно обслуживать больше клиентов. Для последнего — если мы целимся в чуть более чем 50 токенов в секунду на пользователя (это чуть меньше, чем выдают OpenAI), то сервер с B100 может держать 20-25 пользователей, а B200 — больше 65. И это только из-за увеличения памяти.

«ну а чо такого, ясно карта дороже = лучше, и?» — могли подумать вы. А дело в том, что по подсчётам Semianalysis выходит, что B200 примерно в 3 раза выгоднее по себестоимости токена. А карта-то стоит сильно меньше, чем x3 от B100 (ведь чипы у них фактически одинаковые). Поэтому В Ы Г О Д А.

С переездом компаний на B300 стоит ожидать дальнейших а) падения цен б) ускорения ответов в) удлинения цепочек рассуждений.

Сиолошная

25 Dec, 08:15


Пока завтракал, прочитал итоги года от Вастрика https://vas3k.blog/blog/2024/ , и вам советую (чтоб составить планы на следующий год 😀). Вообще интересный темп жизни, желаю побольше вам интересных приключений, особенно после 30 😀 (людям с детьми соболезную 😀)

Клёво, что софтом года стал новый AI-редактор кода Cursor, и Вася очень правильный совет дал: «сначала посмотрите на ютюбе хотя бы несколько обзорных роликов, некоторые приёмы работы с кодом не сразу очевидны, нужно сначала вкатиться».

Сиолошная

23 Dec, 06:46


Ну и давайте чтоб два раза не вставать, сразу ещё про другой бенчмарк поговорим, LiveBench. Как можно догадаться по названию, его хотели сделать «актуальным» и валидировать модели на новых свежих примерах. Его регулярно обновляют, убирая старые задачи и добавляя новые. Вот что пишут сами авторы: «LiveBench разработан для ограничения потенциального запоминания данных путем ежемесячной публикации новых вопросов, а также путем включения задач, основанных на недавно опубликованных наборах данных, статей с arXiv, новостных статьях итд».

Например, для программирования (колонка Coding) там используются свежие задачи с площадок Leetcode и AtCoder, которые хоть и не всегда прям супер-ультра уникальные, но всё же лучше, чем задачи, которые точно в такой же формулировке уже были в интернете 5-6 лет назад. А по математике доливают задачи с только что прошедших олимпиад (там-то авторы обычно прям очень сильно заточены на то чтобы давать что-то абсолютно новое и неповторяющееся; и задачи проходят много циклов проверки и доработки — ну по крайней мере такое у меня представление, а я до всероса даже не доходил).

o1 уверенно занимает первую строчку, в некоторых колонках с большим отрывом от конкурентов (особенно заметно в Reasoning — сюда входят в том числе загадки Эйнштейна, но OpenAI почти наверняка тренировались на их вариациях, чтобы развивать рассуждения моделей).

Значимые цифры у других моделей также постарался выделить.

Детали о всех типах задач в каждой колонке можно прочитать вот тут.

Сиолошная

23 Dec, 06:34


Уже пару раз в канале писал про Aider, открытого AI-ассистента для написания кода, поддерживающего почти всех LLM провайдеров. Для того, чтобы отслеживать тренды в области и давать рекомендации/советы пользователям касательно выбора моделей, создатель придумал несколько бенчмарков по программированию на внесение изменений в код.

Однако прошлый основной бенчмарк за +-годик уже немного устарел, потому разработчик решил сделать новый. Очень большая доля тестовых датасетов по программированию — на Python, что не совсем точно отражает качество работы в менее популярных языках. Теперь же бенчмарк содержит 225 задач на C++, Go, Java, JavaScript, Python и Rust. Это самые сложные задачи с образовательной площадки Exercism (не реклама, я впервые слышу про этот сайт). Минус тут, как можно понять по последнему предложению, что это задачи а) открытые, выложенные в интернет б) обучающие, то есть скорее всего часть из них повторяется и обсуждается на других сайтах.

Но имеем что имеем, всё же делать с нуля бенчмарк с уникальными и написанными с нуля задачами на 200+ примеров — дело достаточно времязатратное. С проверкой моделей всё хуже и хуже, так как нужно нанимать очень высококвалифицированных специалистов, чтобы делать актуальный тест — вон как в FrontierMath нанимали ведущих исследователей в математике, вплоть до лауреатов Филдсовской премии.

Тем не менее, давайте смотреть на результаты. o1 от OpenAI тут существенно обгоняет всех подряд. Свежая gemini-exp-1206 на уровне с o1-mini, gemini-2.0-flash решает лишь 22%, что меньше Haiku 3.5. Внизу неожиданно волокётся gpt-4o с 15% решений, это немного неожиданно. Но если принимать за правду спекуляцию, что o1 обучена поверх той же базовой модели, что 4o, то становится заметен результат нового подхода к обучению от компании, приводящий к существенному улучшению (ну это мы по всем остальным бенчмаркам заметили).

Сиолошная

22 Dec, 17:43


Появились идейки 2 мини-проектов с LLM (по сути чуть-чуть пошатать существующие бенчмарки и относительно немного пописать код). Суммы на эксперименты там достаточно маленькие, могу выдать кредиты, если нужно. Не думаю, что на занятия уйдет большее 10-12 часов. Цель исключительно просветительская, никакой коммерции, и все результаты/инсайды будут открыты.

Но вот не знаю, как отобрать двух (или более?) людей, с кем работать. Код там должен быть очень простой, большую его часть почти наверняка может написать Cursor или o1.

Какие у вас есть идеи, как можно выбрать людей, по каким критериям? Не хочется оценивать по времени реакции (первые под постом) или по акткивности на гитхабе/Kaggle, и хочется сделать это быстро, без мороки.

Сиолошная

22 Dec, 09:14


Давайте ещё поговорим про цену. Пусть даже сейчас $20 за задачу кажется большой суммой. Нет оснований полагать, что цены на модели уровня o3 в течение года не упадут в 5 и более раз. На горизонте 5 лет я КОНСЕРВАТИВНО ожидаю, что цены снизятся более чем в 25 раз (так ещё и модели поумнеют), основные причины:

— текущая маржа всех в цепочке оооочень большая. Основная стоимость тренировки и применения сеток — это чипы, а не электричество или человеческий труд (и эта доля будет расти). Nvidia продаёт карты с гросс маржой 75%, сколько-то ещё отстегивает себе Microsoft.

— вот тут я репостил расчёты исследователя из Google об экономике инференса модели gpt-4o. Там получалось, что наценка для нас с вами в 50 раз))) я чуть не согласен с расчётом, но порядок величин такой же. Представляете, насколько самим OpenAI и другим компаниям легко себе миллиарды страниц синтетики генерировать?)

— у модели нет конкурентов (ща эксперты в комментариях расскажут как они на LLAMA-2-7B получают ответы лучше GPT-5), цены задирают. Как только релизнутся Gemini и Claude — как и в случае с GPT-4, пойдет спад цены (см. пункт выше, есть куда ужиматься)

— как только станет понятно, насколько o3 хороша в экономически важных задачах определённого рода (программирование, юриспруденция, медицина, etc) — люди будут готовы и больше $1000 за задачу выкладывать, что ещё больше разгонит индустрию железа для минимизации цен на инференс моделей

— GPU и специальные чипы не стоят на месте, и в пересчёте на доллар мощности прибавляются и прибавляются

— модели научатся оптимизировать, условная o5-mini может быть лучше большой o3 в задачах, тесно связанных с рассуждениями (o3-mini вот в программировании на ряде бенчмарков, показанных OpenAI, обходит полноценную o1)

— И как саммари всего вышенаписанного: GPT-4 подешевела в 5+ раз за 14 месяцев (понятно, что это другая модель, но качество-то на абсолютном большинстве задач выросло)

Так что это релиз стоит рассматривать исключительно с точки зрения возможностей, которые будут скоро доступны по крайне низким ценам. Любая критика, сводящаяся к «ну да норм но $6000 за задачу которую ребёнок решает?» банально неуместна. Человек её высказывающий и использующий как основную имеет меньше интеллекта, чем o3 😀

Сиолошная

22 Dec, 08:54


Вторая заметка, про цену использования o3:
— сам по себе бенчмарк подразумевает, что нужно достигнуть определённого уровня (75%) с учётом ограничения на вычислительные мощности, конвертированные в доллары ($10000 за 500 задач, 400 общедоступных + 100 секретных; $20 за задачу, в среднем человеку платили где-то $4-5)
— на ARC свежая модель OpenAI тестировалась двумя способами: чтобы уложиться в это ограничение, и чтобы пофлексить мускулами и показать наилучший возможный результат, потратив гораздо, нет, ГОРАЗДО больше денег.
— первый сетап, чтобы уложиться в $20 на задачу: модель параллельно и независимо генерирует 6 вариантов ответа, и затем из них выбирается один или два, который появлялся чаще всего (вообще ARC позволяет и людям делать 2 попытки, и обычно модели замеряют также, а тут не уточнили; по умолчанию считаю, что тоже 2, но это не важно).
— при этом цена использования o3 не сообщалась, и при расчётах используются цены на o1 (ведь она уже выпущена). Я делаю аккуратное предположение, что скорее всего модель будет стоить столько же, и что она, видимо, имеет примерно те же самые размеры (по крайней мере количество активных параметров). Увидим в январе-феврале '25-го, тут вообще спекуляция.
— для 100 приватных задач модель сгенерировала 33 миллиона токенов решений, то есть каждое решение (из 6 для задачи) в среднем имело длину 33M / 100 / 6 = 55'000 токенов, примерно 100 страниц текста. Жаль, что не показали результаты замера с генерацией одного решения.
— кажется, что 100 страниц это очень много и «модели очень глупые раз нужно столько писать» (тупейший аргумент кста), но на самом деле это может снова быть связано с форматом входных данных. Каждая клетка в сетке для задачи — это одна цифра плюс запятая. Сетка 20x20 квадратов — это уже 400+ токенов, страница текста в представлении LLM.
— и вот при таком подходе получилось 75%, планка взята, никаких суперультрабезумных затрат в миллионы долларов нет.
— Что плохо: мне не удалось найти, какие настройки o3 использовались. OpenAI показывали, что и для o1, и для o3 есть настройка длины и интенсивности цепочек рассуждений (low, medium и high), чтобы контролировать цену. Больше платишь = модель рассуждате дольше = ответы лучше. Аккуратно предположу, что 55'000 токенов — это средний режим рассуждений (он стоит у o1 пол умолчанию), не очень коротко, но и не очень долго.
— теперь к флекс-режиму. Он отличается тем, что вместо 6 решений генерируется 1024, и уже среди них выбирается одно или два самых популярных. Отсюда увеличение в ~170 раз (1024 / 6), в том числе и по цене: вместо $10'000 нужно потратить $1.7M. Это приносит свои плоды — качество вырастает с 75.7% до 87.5%. Обратите внимание, что это не «87.5% при возможности отправить 1024 ответа»: ответов отправляется 1 или 2, и они выбираются из этого множества генераций автоматически, без вмешательства человека и без доступа к истинному ответу. Вам не нужно в жизни генерировать и отсматривать столько решений.

Так что результаты, сравнимые со средними человеческим, можно получать в рамках относительно разумных затрат.

UPD к предыдущему посту: меня поправили и указали, что 300 задач для тренировки — это отдельные задачи, выделенные именно для тренировки, не связанные с 400, на которых мерили качество (но для них ответы всё равно доступны). Это никак не меняет канву повествования, кроме как подкрепляет тезис, что эти 400 и новые 100 сильно отличаются (так как качество просаживается, но всё равно остаётся высоким).

Сиолошная

22 Dec, 08:29


Проснулись-потянулись, изучили детали тестирования модели o3. К сожалению, много интересной информации есть только про замеры на ARC-AGI, поэтому про него и будем говорить. Во первых, вот четыре моих поста, которые рассказывают идею, заложенную создателем теста, и некоторый бэкграунд о том, насколько хорошо такие задачи решались (и почему не решались): раз, два, три, четыре. Последние два опциональны, первые два рекомендую к ознакомлению перед дальнейшим чтением.

Итак, сходу две важные заметки.
Первая:
— в тренировочную выборку o3 добавили 75% тренировочной выборки ARC (300 задач из 400 доступных). То есть модель точно знакома с форматом заданий, и примерно понимает типы преобразований паттернов в датасете. Тренироваться на тренировочной выборке — это не проблема, она для этого и существует. В эпоху до LLM, да и в её первые годы так всегда делали, только примеров было куда больше, потому что глупые модели не могли быстро выучиться
— одной из моих основных критик ARC'а было как раз то, в каком формате подаются данные в модели [[0 1 0 0 2 0 ...], [2 0 1...],...], каждая цифра — отдельный цвет квадратика). Это сильно усложняет восприятие задач моделью и обнаружение пространственных паттернов; у нас над этим работает часть мозга, натренированная на миллиардах секунд визуальной и пространственной информации.
— так что добавление примеров в тренировку — это, в моём представлении, попытка показать модели, как понимать входные данные. OpenAI говорят, что они не дообучали модель никак отдельно, то есть эти 300 примеров были добавлены вместе с сотнями тысяч других задач, от программирования до математики. Та же модель, что проходит ARC, применялась для всех остальных замеров, никакой специально заточенной версии нет, это общая модель.
— сам автор бенчмарка, François Chollet, тоже не видит проблем с использованием 300 тренировочных задач для... тренировки.
— результаты, которыми хвастались OpenAI, получены на сотне других задач, тестовых и полу-приватных. Более того уже давно известно, что эти задачи содержат другие паттерны, которые сложнее в том числе и для людей (померили, насколько много задач решают бычные люди тут и там, и оказалось, что во втором случае процент меньше). Собственно, François так и задумывал: он хотел тестировать, что модели могут находить и комбинировать новые паттерны на лету, в его представлении это и было отражением интеллекта
— считаю важным отметить, что возможность закинуть любые задачи, для которых существует верифицируемый ответ, в процедуру тренировки o1/o3 моделей, так, что это принесёт плоды и ничего не сломает — это очень круто, так как показывает обобщаемость (и вместе с тем ограниченность) метода
— закономерно, результаты на 400 задачах лучше (ведь модель видела 300 из них, в том числе и ответы), но на новой сотне они тоже очень высокие: 87.5% (я не знаю, как получилось пол прцоента при 100 задачах, не спрашивайте). В среднем, участвовавший в онлайн-разметке человек решает 75% (хотя по другим данным 60%, так что задачи точно не «такие легкие»).
— Итого: на этой сотне новых задач o3 показывает феноменальные результаты, которые очень удивили авторов бенчмарка. Они не были к этому готовы, потому пишут: «Это не просто постепенное улучшение, а настоящий прорыв, знаменующий качественный сдвиг в возможностях ИИ по сравнению с прежними ограничениями LLM. o3 — это система, способная адаптироваться к задачам, с которыми она никогда раньше не сталкивалась». К сожалению, мы не знаем, является ли o3 системой (из нескольких компонент) или же это просто одной LLM, которая пишет оооочень длинные цепочки рассуждений, сама себя проверяет и приходит к ответу. Для o1 это верно, и если верно для o3, то это безумно круто.

И вдобавок:
— o3 показывает результаты гораздо лучше, чем системы, разработанные в рамках соревнований за миллион долларов в этом году (писал тут). А там люди не то что на 400 тренировочных примерах обучали свои модели, они генерировали СОТНИ ТЫСЯЧ синтетических примеров, и уже на этом тренировались (200 и 400 тысяч вот в этой статье).

Сиолошная

21 Dec, 17:42


...и на 13й день сказал Sama: да пусть каждый подписчик ChatGPT, даже за $20, получит возможность генерировать видео (в приоритетной очереди) в Sora без ограничений

да начнётся креатив 💫

Сиолошная

20 Dec, 19:17


Забавные моменты:
* получить 91% на 400 примерах public arc-agi стоило x172 больше ресурсов чем на 82%. Похоже больше ляма баксов (6677*172 = 1148444) если в деньгах.
* авторы ARC-AGI все же не думают что это AGI.

😏

Сиолошная

20 Dec, 18:31


Подаёмся на раннее тестирование на безопасность тут: https://openai.com/index/early-access-for-safety-testing/

Сиолошная

20 Dec, 18:22


o3-mini планируют запустить в конце января, и o3 немногим после этого. Чем больше тестировщиков безопасности будет, тем быстрее станет доступно всем

НА ЭТОМ — ВСЁ!

Сиолошная

20 Dec, 18:17


o3-mini на математике с разными длинами цепочек рассуждений

Сиолошная

20 Dec, 18:15


Цены на прогон модели на ARC Benchmark

Шкала OX — логарифмическая 👀

o3 low не выглядит как очень дорогая

Сиолошная

20 Dec, 18:15


также в их твиттере косты на модель, o3 стоит 1,5k$ судя по графику 🙂

Сиолошная

20 Dec, 18:12


Метрики o3-mini по сравнению со старшей версией в задачах на программирование

Как и у o1, доступно несколько режимов рассуждений (влияет на цену и длительность).

o3-mini будет сильно дешевле и быстрее, чем o3 (очевидно), и предложит невероятные навыки за свою цену.

Сиолошная

20 Dec, 18:09


Для тех, кто не понимает в бенчмарках:
все цифры которые показывают — невероятные, немыслимые полгода назад. Например, ARC использовался долгое время как доказательство того, что модели не могут думать. Мол, если могут — чего ж они так плохо решают? Ну, вот...решают...

Сиолошная

20 Dec, 18:08


ARC бенчмарк — В С Ё!

Это очень HUGE, метрики больше чем у людей на закрытых данных, которые "показывают что модели не могут думать"

Сиолошная

07 Dec, 09:38


Если хочется поставить что-то на фоне в выходной день на время занятий чем-либо (знаю, что кто-то из подписчиков любит лего пособирать в праздное время), то принёс вам две ссылки:

— Полуторачасовая дискуссия «The Future of Math with o1 Reasoning» тренера олимпийской команды США по информатике (по совместительству Head of Frontiers Research @ OpenAI) Mark Chen и Terence Tao, «Моцарта от мира математики» нашего времени, самого молодого призера и победителя международной олимпиады по математике. Сам ещё не слушал, но Terence в своём блоге недавно писал, что через сколько-то лет ожидает революцию в доступности передовых исследований в математике, когда даже индивиды без исследовательских групп смогут вносить большой вклад в науку за счёт аутсорса части исследований AI.

— Часовое интервью с Noam Brown, членом команды, сделавшей o1.

Сиолошная

07 Dec, 08:33


Реальная причина почему пишу хвалебный пост про Google — теперь у OpenAI будет весомая причина во время 12-дневного марафона подарков анонсировать и дать потрогать GPT-4.5 😀 А то OpenAI на троне засиделись, корона жмёт, новые модели лениво постепенно потихоньку выпускают... 🔪

Но вообще ещё в первый день, до анонса полноценной o1, на сайте засветились строчки кода, которые указывали на доступ к 4.5 для людей с Plus-подпиской. Сейчас, как народ засуетился, код удалили, но.. чем чёрт Сама Клаус не шутит?

Источник картинок

Сиолошная

07 Dec, 08:21


Нечасто пишу о LLM от Google, а их тут за последний месяц повыходило несколько штук. Буквально каждую вторую неделю вываливали что-то новое на LMSYS Arena — это где люди задают вопросы, им отвечают две LLM, а они вслепую выбирают, какой ответ лучше: по этим голосам составляется рейтинг, чьи ответы более предпочтительны в среднем.

Уже давно известно, что такие оценки очень подвержены смещению из-за форматирования ответов. Люди в среднем предпочитают более длинные ответы (они им кажутся более глубокими и правильными что-ли), а также те, которые содержат списочки, заголовки, выделения жирным — чтобы было проще ориентироваться и находить новую информацию.

Для того, чтобы с этим бороться, придумали Style Control — это когда в результаты голосования людей вносят поправку на два вышеуказанных критерия. Чуть больше я писал про это тут, если вам интересно разобраться, но если вкратце, то у модели вычитают рейтинг пропорционально длине ответа и количеству разметки в нём.

Так вот, без этой поправки, без Style Control, модели якобы претендовали на первые места почти во всех категориях запросов, от программирования и математики до следования инструкциям. Однако если скорректировать рейтинг, то модели резко просаживались и уже достаточно серьёзно отставали от первых позиций (модели OpenAI + Anthropic).

Но вчера это наконец-то изменилось, и теперь не стыдно написать — без звёздочек, без придирок, по-честному — на Арене модели Google делят первые места с o1-preview, а где-то даже обходят её, и это с поправкой на стиль. К посту прикрепил картинку с четырьмя категориями (одна не поддерживает Style Control, обратите внимание) и несколькими моделями для сравнения.

Возможно, это preview или какой-то промежуточный чекпоинт Gemini 2.0 (может даже не самой большой версии?), которую, согласно слухам, стоит ожидать уже на следующей неделе («вторая неделя декабря», проговорился директор из Сингапурского офиса).

Новая модель пока носит название Gemini-Exp-1206, а две предыдущие итерации на Арене — Gemini-Exp-1114 и Gemini-Exp-1121. Кто-то в чате предполагал, что это тоже ранние версии 2.0, но у меня была другая гипотеза, которой поделюсь с вами.

Одна из моделей использует старую тушку от 1.5, но её дообучали с новой разметкой, новым стилем ответов. Сама модель умнее не стала, но изменился формат — поэтому её оценка людьми выросла. Вторая модель получила алгоритмические улучшения для дообучения от 2.0 или и вовсе была дистиллирована с неё. То есть базовая модель не меняется, менялось то, что поверх неё накрутили. А эта новая Gemini-Exp-1206 — это уже вероятно что-то очень близкое к Gemini 2.0.

(Но это спекуляция, как оно было мы, вероятно, не узнаем. Может все три модели это Gemini 2.0, просто разного размера, от Nano до Ultra).

====

Попробовать модель бесплатно можно:
— по API
— в Ai Studio
— на Арене

Сиолошная

06 Dec, 08:48


Ну нет, я так больше не могу.

Есть ли среди подписчиков кто-то из ВК музыки? Отпишите в комменты пж, я к вам приду жаловаться на то, что одни и те же треки в плейлисте какого то черта со временем меняются. Ну ни в какие ворота уже.

Сиолошная

06 Dec, 06:44


В o1-pro режиме модель действительно думает сильно дольше. Пока увидел вот такой скрин, где над свеже-сгенерированным судоку модель гадала 5 с половиной минут (и успешно решила). Видел ещё одно упоминание с запросом на написание кода «на 15 минут», но автор не выложил скрина или ссылки, поэтому проверить не могу. До этого самое длинное что видел у o1-preview (не o1) было порядка 3 с копейкой минут, но это буквально разовая акция — почти все остальные запросы укладывались в полторы минуты.

Источник

Сиолошная

05 Dec, 19:04


Ещё опубликовали системную карточку o1, в которой есть замеры на большом количестве бенчмарков, в том числе агентских. Проблема в том, что o1 почему-то во многом хуже даже o1-preview. Есть задачи, где все модельки набирают по 50%+, а она  — 1%.

Но есть один бенчмарк, где написано больше пояснений — это замер по бенчмарку от METR (кажется, я про него писал тут). Там независимые исследователи не получали информации о том, как модель натренирована воспринимать инструменты/действия в промпте. Их первые попытки не показали хороших результатов, и они немного подправили код. Перформанс сильно вырос, но даже так большинство ошибок, которые возникли у модели, относились к очень банальным ошибкам, включая неправильное использование предоставленных инструментов (примерно в 70% от всех наблюдаемых сбоях).

«С качественной точки зрения модель продемонстрировала впечатляющие способности к рассуждению и решению проблем и достигла успеха в отдельной задаче на рассуждение, в которой METR не наблюдал никаких успехов у всех предшествующих доступных моделей». И по итогу они смогли допинать o1 так, что она оказалась статистически значимо лучше Sonnet 3.6, но сделали заметку: «мы не считаем этот результат надежной оценкой верхней границы того, чего можно было бы достичь с помощью дополнительных улучшений нашего кода, дообучением или другими изменениями».

Так что ждём, пока народ (и исследователи) поймут, как промптить o1, подавать инструменты и форматировать ответы, и там по честному всё померяем.

Сиолошная

05 Dec, 18:03


o1 pro показывает более стабильные результаты: на графике показаны оценки, если засчитывать только задачи, для которых 4 независимых генерации привели к правильному ответу.

$200 в месяц и она ваша ;)

Сиолошная

05 Dec, 18:00


https://www.youtube.com/watch?v=rsFHqpN2bCM

— полноценная o1 выходит сегодня в публичный доступ

Сиолошная

05 Dec, 16:11


О и кстати вот вам новости про Pro-подписку за 200 долларов (230 евро).

o1 pro = использует ещё больше мощностей (слов в цепочках рассуждений) для лучших решений

Сиолошная

05 Dec, 16:08


Стрим с подарками OpenAI начинается через два часа, но если зайти на ChatGPT и написать даже глупый запрос в o1-preview, то почему-то пишется «o1 pro mode».

Про то, что намечается релиз «модели, название которой начинается на o1 и заканчивается на o» я читал в твиттере утром, вместе с шутками «ахаха это будет модель o1o?».

Кроме того, во вчерашнем интервью Sama сказал, что «завтра мы снова продолжим прогресс» (в развитии моделей). Пока не ясно, модель pro — это старая o1, которая давно лежит, или всё же как-то дополнительно прокачанная.

ОЧЕНЬ. ЖДЕМ. СТРИМ.

Сиолошная

04 Dec, 15:51


Игровые движки и игроделы — В С Ё!

Google опубликовали блогпост (не статью и не веса) про Genie 2. Про первую версию я аж хотел написать лонг, но как-то всё забылось в потоке новостей, и силы ушли на Sora.

Genie — модели, которые генерируют видеокадры из игры. Они принимают на вход сигналы вашей клавиатуры или мышки, и рисуют картинку следующих кадров исходя из команд. Вторая версия сильно прокачалась в качестве (первая была во многом про 2D-игры) и консисентности. Весь геймплей в роликах к посту сгенерирован. Что отмечают гуглеры:
— Long horizon memory (если отвернуться от пространства, а затем повернуться обратно, то будет примерно то же самое, а не абсолютно новое)
— Long video generation with new generated content (до минуты генераций)
— 3D structures
— Object affordances and interactions
— Character animation
— NPCs (другие персонажи в игре)
— Physics
— Gravity
— Lighting
— Reflections (RTX не нужен, но GPU не выбрасываем 😏)

В конце блогпоста самое интересное: в эти симулированные миры поместили SIMA, агента для игр, про которого Google выпустили статью с полгода назад. SIMA контролирует «клавиатуру и мышь» при генерации Genie 2, и две нейронки как бы играют сами в себя.

> we believe Genie 2 is the path to solving a structural problem of training embodied agents safely while achieving the breadth and generality required to progress towards AGI.

😭 лонг про Sora вспомнили?

Сиолошная

04 Dec, 15:48


Пояснения от CEO:

«стрим с запуском [продукта/фичи] или демо, несколько больших и несколько небольших, для заполнения рождественского носка»

УХХХХХ ДАВАЙТЕ

Сиолошная

04 Dec, 15:34


🤨 непонятно, что именно будет стримить компания. Вот например сегодня ночью прошёл часовой семинар с Terence Tao, математиком, про использование ИИ-инструментов и ассистентов в его работе. Но это даже не часть того, что хотят стримить.

ТАК ЧТО ЖЕ??? 🙏 неужели продуктово-модельные апдейты? 🙏

(ну и под шумок скажу, что компания переманила 3 жёстких исследователей, работавших над картиночными моделями, из Google DeepMind, и теперь вместе с ними в Швейцарии откроется офис компании, куда будут нанимать исследователей. До этого был только Сан-Франциско, в остальных офисах рисерчеры не сидели)

Сиолошная

30 Nov, 16:14


Сегодня 30-ое ноября 2024-го года, а это значит, что ChatGPT исполняется 2 года 🥰

К сожалению, за прошедший год GPT-5 не вышла, но хоть o1 (-preview) показали-удивили. Основная GPT-4(o) подешевела в несколько раз, немного поумнела, научилась вести голосовые чаты.

Но зато ChatGPT почти сразу стал самым быстрорастущим продуктом, достигнув 100 миллионов пользователей менее чем за 2 месяца — и это несмотря на полное отсутствие рекламы и любого продвижения: запуск сделали буквально за пару недель, а продукт называли «lowkey research preview».

Сейчас чатботом еженедельно пользуется четверть миллиарда людей (это официальная цифра), а в месяц так наверное и все 300 миллионов. OpenAI стали официальным партнёром Apple, и подписку на их сервис можно купить прямо из окна настроек в девайсе.

Но это только начало. FT пишет, что амбиции OpenAI на 2025й год весьма велики — они планируют дальнейшее расширение за счет запуска так называемых ИИ-агентов: похожих на чатботов помощников, которые помогают выполнять задачи на компьютере и в браузере, от сбора информации до бронирования или покупки товаров. Через год компания планирует иметь 1 миллиард пользователей.

Первое «research preview» агентов ожидается в январе 2025-го, очень ждём. Очень интересно узнать, насколько дальше Anthropic смогла ускакать компания.

А далее, предположительно в течение первого квартала, нас ждём GPT-5, или как они там решат её назвать. Ну и ближе к концу периода надеюсь на о2, сделанную поверх пятёрки.

🚀 Ухххххх, пристёгиваемся, остановок не будет! 🚀

Сиолошная

30 Nov, 11:43


И второй эксперимент: берут Stable Diffusion 1.4 и пробуют сгенерировать треугольную кредитку. Сходу — не получается, как будто бы модель ну просто не умеет, не знает.

Но она точно знакома с концепциями «треугольник» и «кредитная карта», да ведь? Хоть моделька относительно старая, но вполне способная. И вот если использовать альтернативный способ тестирования (оверпромптинг), то... получается как надо.

Сиолошная

30 Nov, 11:40


Кроме этого, есть ещё два чуть более наглядных примера.

В первом модель тренируют генерировать изображения на датасете CelebA (фотки лиц знаменитостей). В них выделяют две пары концептов, но нам интересна одна из них: Gender и With Hat. То есть всего 4 комбинации:
— мужчина без головного убора
— женщина без головного убора
— мужчина в головном уборе
— женщина в головном уборе

И вот последнюю отщипывают и никогда не показывают модели во время тренировки. Головные уборы она видит только на мужчинах. Если тренировать модель 2 миллиона шагов (более чем достаточно) и замерять качество, то как будто бы получается, что невозможно сгенерировать женщину в головном уборе. «Ну конечно!» — скажут критики нейросетей, «это же очевидно. Никогда не показывали такие фотки — модель и не сможет!».

Но вот если поменять способ тестирования даже на усиление сигнала в пространстве активаций (не оверпромптинг, хз почему от него отказались), то оказывается, что ещё в первой половине тренировки модель уже справлялась с задачей и обладала навыком композиции двух разных концептов (сгенерированные картинки справа). А если этого не делать — то легко сидеть и говорить, что модель нихрена не может и не выучила.

Сиолошная

30 Nov, 11:40


«Эксперименты указывают на то, что существует фаза, в которой модель отходит от запоминания концепций и распутывает каждую из концепций, но все еще производит неверные изображения. Мы утверждаем, что в некоторой точке обучения модель фактически уже распутала концепции, лежащие в основе процесса генерации данных [прим.: закономерности мира, который порождают картинки], и приобрела соответствующие возможности для манипулирования ими. Однако наивный промптинг недостаточен для выявления этих возможностей и генерации образцов из классов, не представленных в обучении, что создает впечатление, что модель еще «некомпетентна». Затем это приводит ко второй фазе в динамике обучения ... которая включает в себя согласование входного пространства запросов с промежуточными представлениями, которые позволяют выявлять навыки модели.»

И авторы приходят к следующей гипотезе, которая распространяется не только на маленькие игрушечные модели генерации картинок, но и на LLM:
> Генеративные модели обладают скрытыми возможностями, которые усваиваются внезапно и последовательно в процессе обучения, но наивный промптинг может не выявить эти возможности, тем самым скрывая, насколько «компетентна» на самом деле модель

TLDR: скорее всего модели, которые у нас есть сегодня, на самом деле умеют и знают куда больше, чем мы себе представляем, просто мы не умеем получать к этому доступ (и модель тоже). Как только мы сможем продвинуться в этом направлении, то даже маленькие модели, помещающиеся на телефон или ноутбук, станут гораздо полезнее.

Сиолошная

30 Nov, 11:40


Для этого они используют два способа вмешательства в процесс генерации модели по ходу тренировки:
1) усиление сигнала в пространстве активаций (если не знаете что это, то не страшно, можете пропустить)
2) ОВЕРпромптинг, когда в промпте более явно формируется запрос на генерацию объекта с конкретным свойством. Например, в случае разных цветов кружков модель учится не на ярко-красных и синих, а на немного смешанных, но всё же разделимых полутонах: RGB (красный-зеленый-синий) = (0.4, 0.4, 0.6) для «синего» кружка, и на таких же проверяется. ОВЕРпромптинг — это когда во время тестирвоания мы даём задачу генерации более контрастных объектов с яркими цветами, RGB = (0.3, 0.3, 0.7) (синий стал сильнее, красный и зелёный слабее).

То есть в тренировке ничего не меняется, изменения происходят на этапе замера качества. Вот картинка, в которой 3 разных группы (5 линий = 5 запусков); линии отображают качество, измеренное как «доля генераций по новому для модели запросу, которые классифицированы отдельной моделью правильно» (отдельная модель просто позволяет автоматизировать проверку, чтобы тысячи картинок вручную не разносить на красное/синее).

Слева: качество, когда тестирование производится без изменений (в примере с LLM — без промптинга). Это то, что обычно видно во время оценки хода тренировки, и то что мы точно знаем как использовать напрямую.
По центру: усиление сигнала в пространстве активаций
Справа: ОВЕРпромптинг

Авторы считают, что навык выучен и хорошо применяется, когда точность генераций составит 80% (я провёл линию на трёх графиках). В первом случае в 3 из 5 запусков навык вообще не проявляется даже во время очень длинной тренировки, 20'000 шагов оптимизации.

В третьем случае видно, что даже те модели, у которых напрямую не проявился этот навык, на самом деле им обладают, просто нужно до него достучаться через ОВЕРпромптинг. И возникает он раньше, чем на самом деле проявится у модели (сравните линии на правой и левых картинках). С ОВЕРпромптингом во всех 5 запусках навык уже применяется через 7'500 шагов обучения, с усилением активаций чуть позже.

А сверху над каждым графиком показаны примеры генерации по ходе тренировки «маленьких синих кружков».

Сиолошная

30 Nov, 11:40


Emergence of Hidden Capabilities: Exploring Learning Dynamics in Concept Space

Статья-продолжение исследований по генерализации нейросетей. Перед тем, как читать дальше, обязательно убедитесь, что не пропустили разбор первой части тут. Я не буду рассказывать, что за красно-синие кружки и треугольники, и что такое 010, но повторю самое интересное: выяснили, что модель может генерировать маленький синий треугольник, даже если никогда не тренировалась не только на нём, но и на маленьких синих фигурах, маленьких треугольниках и синих треугольниках.

В когнитивных науках компетенция системы в решении задачи часто противопоставляется ее перформансу: компетентность — это наличие у системы способности (например, общаться на языке), а перформанс — это активное использование этой способности в конкретных ситуациях. Например, человек-билингв может обычно общаться и рассуждатьна своем основном языке, несмотря на знание другого. При этом очевидно, что он компетентен в обоих языках, но для оценки их перформанса на неосновном требуется соответствующим образом «побуждать» его использовать именно этот его.

Можно провести аналогию с нейронными сетями, обладающими способностью, и нами, тестировщиками, которые пытаются выявить этот навык на предопределенных контрольных примерах и измерить их перформанс. Один из ярких примеров — CoT, цепочки рассуждений (не те, что у о1, а у моделей прошлых поколений). Когда в январе 2022-го вышла статья, то произвела фурор — там показывалось, что если дать модели команду рассуждать шаг за шагом, то это существенно увеличивает качество (в задачах по математике с 18% до 57%). Модель одна и та же, дообучения нет, а за счёт нового трюка, позволяющего «выуживать» знания более эффективно — такой прирост.

Примерно то же произошло с RLHF, когда OpenAI выпустили InstructGPT: они хвастались, что их новая модель на 1.3 миллиарда параметров даёт ответы лучше (с точки зрения оценки людей), чем модель в 100 раз больше. Почему? Потому что специальный процесс дообучения позволил LLM лучше утилизировать свои знания и навыки. На странице прям так и написано: «Один из способов представить этот процесс заключается в том, что он «разблокирует» возможности, которые уже были у GPT-3, но которые было трудно получить только посредством промпт-инженеринга».

Авторы текущей статьи исследуют на игрушечных примерах, в какой момент у модели «щёлкает», и она начинает обладать навыком, но мы всё ещё не можем до него достучаться/использовать его через запросы — на примере генерации изображений диффузионной моделью.

Они снова генерируют синтетические данные с кружками разных цветов и размеров, выкидывают один из классов (например, «маленькие синие круги») и оценивают, когда в ходе тренировки модель выучивает необходимые концепты, а когда (сильно позже) уже может генерировать объекты используя комбинацию концептов.

Сиолошная

30 Nov, 09:23


Наткнулся на интересный ресеч рынка корпоративных LLM 2024:

— OpenAI потеряла за год 16% корпоративного рынка (не путаем с ChatGPT)
— Anthropic же приобрел на 12% долю рынка
— На втором слайде самые популярные юзкейсы LLM в корпоративном мире — на первом месте написание кода
— У каждого крупного департамента в корпорациях появился бюджет на генеративный АИ и он растет
— Про архитектуры, третья картинка: RAG стал еще популярнее в корпо-мире, промпт инженеринг теперь мало кому интересен, как и файнтюнинг моделей под задачи, а вот агенты набирают обороты при выборе архитектуры
— Отдельно отмечено, что корпоративный мир выбирает генеративный АИ на основе качества генераций (в любом домене), так как для них часто это прямо влияет на скорость возврата инвестиций

Вставлю свои 5 копеек:
Мне тоже кажется 2025 год будет про агентов, так как наконец-то экономика генеративного АИ всем понятна

Файнтюны падают, потому что нет смысла — сейчас одна гигантская модель часто решает все задачи сразу (но кончено же есть исключения)

Промт инженеринг упал, потому что его уже пишут сами LLM и оно нормально работает

Агенты только-только начали свою бизнес-адаптацию и будут набирать обороты вплоть до AGI

Сиолошная

29 Nov, 11:58


Модель 🇨🇳 вышла только вчера, а уже произвела ХЛОПОК в соревновании по решению математических задач AIMO 2. Напомню, это соревнование по олимпиадным задачкам, спонсируемое трейдинговой компанией XTX Markets. Специально для него подготовили полностью новые и уникальные задачи, все решения считаются в оффлайне без доступа к интернету (то есть o1-mini не получится использовать).

Больше деталей писал в анонсе первого тура, читайте тут. Тогда тоже было 50 задач, и качество оценивалось количеством правильно решённых (проверяется только ответ). Решение первого места справилось с 29 из них, поэтому для второго тура решили задачи усложнить (но и ресурсов для запуска моделей выдать побольше).

Последние 3-4 недели в топе были решения, которые решали 10 задач из 50 (ещё раз: потому что их усложнили, а не потому что LLM-ки потупели). Я стабильно заходил раз в 4-5 дней проверить, и было по 10 решённых задач, всего у двух команд! У остальных 9 и меньше.

Зашёл сегодня — первое место 18, второе 17, третье 15, и ещё человек 7-8 выше старого предела в 10 очков. Как минимум 9-ое место с 12 решёнными задачами уже написало, что их скачок 8->12 (кажется мало, но это же +50%!) обусловлен просто сменой модели на свежую QwQ. Скорее всего, 14-15 задач можно решить точно так же, просто немного поправив логику вокруг модели. Моя ставка что и 17-18 задач взяты этой моделью, просто с каким-то трюками (но без дообучения, так как прошло меньше суток) — ну не могло быть такого совпадения, что несколько команд независимо нашли где-то в углу или под матрасом +70-80% качества в один день.

Вот такой скачок в качестве может делать новая парадигма длительных рассуждений. Правда в некоторым смысле топовые места теперь в тупике — пока никто не знает, как дообучать модели с длинными цепочками рассуждений, статей нет, примеров нет, есть только очень верхнеуровневые догадки. А ещё возможно, что из-за ограничений соревнований нельзя будет претендовать на призы с этой моделью (QwQ), так как она появилась позже дедлайна. А может и нет, тут надо разбираться с правилами, может, какие изменения внесли — в первом туре точно было бы нельзя. Уже одобрили, можно.

UPD: очень жаль, что по окончанию соревнований приватные задачи не выкладывают, чтобы на них можно было прогнать o1-mini/preview и оценить, какой разрыв там.

UPD 2: уже есть два решения по 20 задач. Напомню, что двое суток назад, до релиза модели, максимум был 10 (и он держался несколько недель). Более того, решение выложено (так как первое публичное решение, справляющееся с 20 задачами, получает $20'000)

Сиолошная

27 Nov, 20:08


Китай наносить удар! дракон!

Вторая китайская команда, на этот раз Qwen-часть AliBaba, разродилась o1-подобной «размышляющей» моделью. Тоже превью (все видимо ждут полную о1, чтобы начать релизить?), тоже без технических деталей и статьи, зато сразу с доступными весами:

https://huggingface.co/Qwen/QwQ-32B-Preview

Тем, кому хочется сразу помучить модель вопросами, без возни с GPU, можно поиграться тут: https://huggingface.co/spaces/Qwen/QwQ-32B-preview (пока очередь маленькая)

Блогпост

К посту прикреплена картинка с метриками. Для 32B модели (да даже если бы было 405b) результаты очень-очень нетривиальные — Qwen-2.5 и до этого считался очень сильной моделью (с которой даже иногда избегали сравнение другие авторы моделей, ахахха, чтобы не выглядеть на их фоне вторично), а тут в два раза меньшая моделька такие скачки совершает

===

ждём пока развернут API, чтобы замерить в нашем бенчмарке 😎

Сиолошная

26 Nov, 12:45


Весь код опубликован тут: https://github.com/stalkermustang/llm-bulls-and-cows-benchmark

Вместе с кодом выложены и все диалоги с LLM, если вдруг захотите углубиться и посмотреть, где они лажают в логике (или наоборот как хитро раскручивают угадайку). Также выложены все промпты, ну в общем прям всё-всё что только можно.

Буду рад, если вы поставите звёздочку репозиторию (не тут, не в ТГ) за эксперименты.

(но напомню, что примерно 90% кода, не считая Readme-файла, было написано Claude Sonnet 3.6)

===

Сейчас получились очень толстые доверительные интервалы в оценках, так как модели играли всего по 50 игр. Самые лучшие модели, которые имеет смысл тестировать, стоят достаточно много. Если у вас есть желание поделиться API-ключом OpenAI/Anthropic с балансом в $200-250, которые не жалко, или если вы и вовсе хотите сами прогнать модель и опубликовать результаты — милости просим ко мне в личку, на почту или прямо на GH.

UPD: если накидаете прям много звёздочек, то я либо на свои потестирую по 300 игр (не 50), включая o1, либо с такой репутацией будет можно попросить API-ключи на тестирование у самих OpenAI/Anthropic (они любят раздавать на проекты). Так что поднажмите пж 🙏

Сиолошная

26 Nov, 12:42


А вот и табличка с результатами

— Success Rate: в скольки играх разгадала число
— Avg Turns: сколько в среднем ходов понадобилось в выигрышных играх
— Format Failures: сколько % ходов выдавали ответ, который скрипт не смог распарсить. o1-mini забивала на мою просьбу не использовать выделение жирным, за что и была оштрафована. Без этого может игр 66% бы выиграла...

Так что ответ на опрос: 55-70% (если топовая модель o1) и 25-45% если обычная не супер-дорогая и медленная.

Сиолошная

26 Nov, 12:40


Чтобы узнать ответ, Claude Sonnet 3.6 написала промпты (как часть кода, я их не сильно трогал) для объяснения правил и написания обратной связи (сколько коров и быков), код самой игры и валидацию ответов LLM. Правда, я не доверял коду, поэтому попросли нафигачить тестов, которые уже сам внимательно отсмотрел и проверил. Получился такой test-driven development, TDD. Именно поэтому в таком простом проекте 32 теста... я в рабочем-то коде столько не пишу 😀

Итого каждая LLM (кроме o1-mini) сыграла 50 игр, каждая не больше 15 ходов. 15 — моё ограничение, по которому я произвожу отсечку и заключаю, что LLM не разобралась и уже не решит задачу. Это может казаться маленьким значением, но вообще игра с 4-значным числом решается за 7 ходов (это доказано математически). 15 — это вдвое больше, взял с запасом. Ограничение по ходам позволяет сильно экономить $ на тестирование, так как каждый следующий запрос включает в себя всю предыдущую цепочку рассуждений (прям тех, что выдала LLM, я их не обрезал) и ответов.

Результаты в табличке

— o1-mini, модель со встроенным рассужденим, закономерно заняла первое место с большим отрывом. Она угадала число в 60% игр, и в них ей потребовалось в среднем всего 9.1 хода, чтобы справиться. Смешно, что первые 14 игр она вообще шла без поражений, а вот в оставшихся 9 выиграла лишь 1, поэтому процент побед просел( Но именно поэтому тут и отражены доверительные интервалы, которые к сожалению получились достаточно широкими
— Sonnet 3.6 и GPT 4o находятся на примерно одном и том же уровне, 30-35% побед
— GPT 4o-mini находится достаточно высоко, опережая многие открытые модели. По замерам вышло, что это лучшая маленькая моделька. Так она ещё и стоит копьё — на тесты ушло $0.1, я думал что баг какой-то)
— модели Google как-то очень плохо себя чувствуют. Причём я читал их цепочки рассуждений, начинают они за здравие, но не хватает сил закончить, дожать последние шаги в логике
— младшее семейство Claude, Haiku, вообще не вывозит. Даже с 3-мя цифрами вместо 4 в секретном числе у неё было что-то около 2-4% решений (1 или 2 задачи).

o1-mini оооочень дорогая за счёт длинных цепочек рассуждений, так на них ещё и скидки за кэширование нет (-50%). 25 игр стоили $24, второе место Claude Sonnet 3.6 $5.2, GPT 4o $2.29

OpenAI не экономят на спичках🔼

Сиолошная

26 Nov, 12:21


5 дней назад в чате канала подписчик написал:
Попробовал все LLM на игру в быки и коровы. Я загадываю число, они отгадывали. Нет... Llm не умеют думать. Они просто плетут кружево из слов

Если вы не знали, или детство было давно, то Быки и Коровы — это простая игра для двух игроков на взлом кода. Один игрок загадывает секретное число (чаще всего из 4 цифр, все уникальные), а другой пытается его угадать за несколько попыток. В ответ на каждый запрос первый игрок должен сказать сколько быков и коров он насчитал — быки это точное совпадение и цифры, и её положения (первая, вторая...), а коровы — это когда цифра есть в секретном числе, но позиция неправильная.

На примере: я загадал 1234, вы попробовали угадать 1246. Я говорю: 2 быка 1 корова. Вы знаете, что две какие-то цифры на правильном месте (у нас это 1 и 2), и какая-то другая цифра (четвёрка) есть, но не на своём месте.

Вполне понятно, как перевести эту игру в диалог с ChatGPT. Чтобы LLM смогла успешно выпытывать у вас информацию, ей нужно:
— помнить ваши ответы на свои запросы
— рассуждать о том, какие опции существуют и какие числа нужно пытаться угадать, а какие уже правильно угаданы

===

А я сидел играл в STALKER 2 👀 и мне было лень это нормально проверять, чтобы показать, что человек не прав (это вообще моё любимое дело), я решил прихлопнуть и второго зайца за раз — попробовать использовать АГЕНТОВ (😯) для написания кода. Дать ему задачу, отойти поиграть, посмотреть одним глазком чё как, и так итеративно без проактивного вмешательства посмотреть, что выйдет. Для этих целей я выбрал ex-OpenDevin, ныне OpenHands (это как AI-программист Devin, которым удивляли в начале года, только с открытым кодом и поддерживаемый сообществом).

Мне показалось хорошей идеей быстренько проверить именно эту проблему с игрой, так как с одной стороны это достаточно просто, а с другой я предположил, что можно будет увидеть интересную картину в разнице результатов разных моделей. Ну и показать, что комментатор в очередной раз не прав 🙂

В итоге накодили бенчмарк, и пока я пишу следующее сообщение попробуйте угадать: в каком проценте игр LLM-ки справляются с задачей?

Сиолошная

26 Nov, 09:49


Не забываем, что миссия Dragonfly возможна во многом благодаря смелому вертолётику Ingenuity, летавшему по Марсу. Про него я писал раньше в канале, обязательно почитайте: https://t.me/seeallochnaya/1018

Dragonfly будет гораздо крупнее (450 килограмм против 1.8)

Сиолошная

26 Nov, 09:45


Ракета Falcon Heavy отправит уникальный аппарат Dragonfly на Титан.

Есть и хорошие новости для науки на этой неделе. Компании SpaceX выиграла новый контракт NASA по запуску межпланетного аппарата к спутнику Сатурна. Общая сумма контракта по фиксированной стоимости $256.6 миллионов, которая включает в себя отправку зонда и все дополнительные услуги.

Dragonfly — это винтокрылый летательный аппарат, по сути дрон, с радиоизотопным термоэлектрическим генератором (РИТЭГ) и массой около полутонны, который будет летать по Титану. Его основная миссия должна продлиться около 3 лет. Дата запуска назначена на 5-25 июля 2028 года. Вокруг самой миссии ходило много новостей про отмену, но видимо удалось спасти.

Интересно в выборе Falcon Heavy то, что по сути ракета наконец-то сертифицирована для запуска радиоактивных элементов, а конкурентов на контракт по сути не было. Из ныне летающих опций по сути есть только Vulcan Centaur, у которого пока что нет нужного налёта для оценки безопасности.

Сиолошная

20 Nov, 18:53


Как написал в первом посте, в реальном офисе тестирований было мало из-за естественных ограничений. Для более полного тестирования применили очень крутой приём, про который хотелось рассказать. Авторы взяли видеозапись и применили к ней Zip-NeRF (или видео демки в тг вот в этом посте); это такой алгоритм нейронного рендеринга, который по набору фоток воссоздаёт 3D-сцену и позволяет генерировать изображения с новых ракурсов, в том числе любые произвольные пролёты камеры по пространству. В случае этой работы реконструкция делалась на основе 3244 фотографий (части видео).

Но алгоритм именно что рендерит картинку (которую можно подавать в понимающую видео Gemini), поэтому поверх этого применили метод из вот этой работы для генерации 3D-сетки пространства, запихнули это в симулятор как 3D-модель, поместили туда копию робота и прогнали 1000 тестов, 20 инструкций и 50 случайных стартовых точек для каждой. Gemini успешно справилась с 90% задач (правда тут выкинули все запросы из категории «маленькие объекты»).

С такими виртуальными симуляциями получается относительно легко существенно масштабировать тестирование, не ограничниваясь реальным миром. Они уже вовсю применяются в роботах и не только — например, Wayve, стартап, делающий автопилоты для машин, вовсю хвастается GhostGym.

На фото сравнение реального изображения (части видео) и сгенерированного NeRF'ом как часть симуляции.

Сиолошная

20 Nov, 18:35


Вот примеры четырёх типов вопросов + вид сверху на пространство, в котором надо ориентироваться. Снизу справа робот.

Добавлю, что хоть в первом посте и написано, что можно снимать видео с телефона — тут тесты производились с предварительной записью с робота. Со смартфоном (Google Pixel 6) был отдельный тест в среднего размера комнате. Видео-тур был 75-секундный, пробовали всего 5 вопросов, 100% решили (см. картинку номер два).

Сиолошная

20 Nov, 18:34


Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs

Ранее в канале писал разборы статей, которые предлагали строить некий иерархический граф, по которому LLM/VLM будет ориентироваться и отвечать на запросы. Авторы из Google летом решили пофлексить длинным контекстом Gemini 1.5 Pro, в который влазит час+ видео, и сформулировали задачу Multimodal Instruction Navigation with demonstration Tours (MINT). Как следует из названия, предлагается решать задачи навигации через прямое использование видео-тура с локации.

Запись и использование демонстрационного видео-тура имеет несколько преимуществ:
1) его легко собирать: пользователи могут хоть просто записывать видео на смартфон во время прогулки по окружающей среде
2) это естественно:когда пользователь получает нового домашнего робота, для него ОК показать окрестности своего дома, к тому же снабдив отдельные части комментариями

В техническом плане всё просто и понятно: 1) видео-тур нарезается на слайды (1 кадр в секунду) 2) подаётся в Gemini с аннотациями «кадр 1: <опциональный комментарий>, кадр 2:...» 3) а после следует запрос, который может включать не только текст, но и картинку. Например, человек может в руках держать коробку, и фотография этого вместе с вопросом «Куда мне это вернуть?» составляет задачу навигации. От Gemini требуется вернуть наиболее релевантный кадр (его номер), после чего отдельный внешний алгоритм, никак не связанный с LLM, просчитает, как роботу доехать до точки, привязанной к кадру. Получается, что модель используется как умный незапрограммированный поиск релевантного контекста.

Для теста взяли одно крупное помещение, 836 квадратных метров, сняли 16-минутное видео (948 кадров, если брать по одному в секунду) и его пихали в контекст. Вообще для теста придумали 57 разных вопросов, которые можно разделить на 4 типа: просто поиск объекта, поиск с рассуждениями (нужно выявить связь), поиск маленьких слабозаметных объектов и мультимодальные инструкции (это как раз где в запросе есть картинка).... но тестирование на них всех не производилось из-за временных ограничений 🤷‍♂️. Однако выбрали по 5 задач каждого типа, и запускали их не один раз, а из четырёх разных стартовых точек.

Получилось решать задачки в целом в 80-85% случаев, кроме поиска маленьких объектов — там просело до 40%, так как Gemini просто не смогла разглядеть детали. Это сильно больше, чем у пайплайна, где делается поиск по релевантным кадрам с помощью CLIP (описывал это тут и тут), то есть большая модель гораздо более качественно использует видео-тур.

Ещё пробовали брать GPT-4o, но так как контекст у неё короче, то брали каждый пятый кадр (то есть раз в 5 секунд). При таком сетапе Gemini просела на 10-30% относительно 1 FPS, но всё равно была лучше GPT-4o (на 10-25%; выглядит как большой разрыв, не знаю, ошиблись/поленились ли авторы в тесте или реально так плохо было).

Сиолошная

20 Nov, 17:45


Вам повезло, что у меня медленный интернет, и свежевышедшая игра STALKER 2 будет долго качаться — за это время напишу разбор или два в канал 🍿

Всех, кто ждал игру долгие годы и кто фанатеет по серии, поздравляю с релизом 🤘 Удачной охоты, сталкеры

Сиолошная

20 Nov, 12:35


Прошло полтора месяца с анонса o1 от OpenAI, и вот сегодня китайцы из DeepSeek удивляют первым конкурентом. Я бы не подумал, что среди компаний уровня Google - META - Anthropic - AliBaba именно они смогут первыми удивить релизом.

Они представили модель DeepSeek-R1-Lite-Preview, но к сожалению без деталей касательно обучения и сбора данных. Модель пока доступна в онлайн-чате, зато видны все рассуждения, а не только краткая выжимка — однако обещают, что и веса LLM-ки, и API для неё опубликуют скоро.

На первой картинке — результаты бенчмарков, на задачах с AIME модель обходит o1-preview (но полноценная o1, со слов OpenAI, выдаёт 74.4). На LiveCodeBench (задачи на LeetCode, добавленные с августа 2024-го, то есть «новые», хоть похожие на них наверняка были в интернете до этого) тоже прирост относительно других моделей очень ощутимый.

На второй картинке — результаты масштабирования процесса размышлений R1 (с точки зрения процента решённых на AIME задач):
— Pass — это результат модели, если делать одно предсказание на задачу и его сверять с ответом. В данном случае масштабируется длина единственной цепочки рассуждений, чем больше — тем выше качество
— Majority Voting это дополнительная техника для улучшения качества за счёт генерации нескольких независимых цепочек рассуждений с последующим выбором ответа через взятие самого часто встречающегося предсказания (грубо говоря голосование)

Обратите внимание на значения на горизонтальной оси, самые правые точки — результат аггрегации цепочек рассуждений общей длины более 100'000 токенов.

На третьей картинке я задал LLM-ке задачку с олимпиады 4-го класса, ответ правильный (решение не проверял, чат тут). Вы можете потестировать модель сами тут:

https://chat.deepseek.com/

Можно авторизоваться через Google аккаунт. Доступно 50 запросов в день.

🇨🇳 Китай вперёёёд 🇨🇳

Сиолошная

20 Nov, 10:25


Для тех, кто ночью спал и не смотрел пуск — краткое саммари:

— вы не так много пропустили, попытки посадки на башню не было: какие-то из показателей не были в норме, и системе не была отдана команда «лети к башне». Поэтому ускоритель аккуратно сел на воду, работали все двигатели. Пока не ясно, что пошло не так, но есть спекуляции, что проблемы в башне (якобы она получила повреждения при взлёте)

— корабль успешно продемонстрировал перезапуск двигателей в космосе (с использованием топлива из дополнительных баков)

— несмотря на новую траекторию захода в атмосферу под большим углом, а также отсутствие нескольких тысяч плиток в тепловом щите, корабль пережил все процедуры

— по итогу Starship успешно приводнился в отведённой зоне (снова было видео с предварительно оставленного буя). Эту часть стрима вы можете посмотреть в прикреплённом видео — впервые не в тёмное время суток!


В целом, миссию можно считать частично успешной, корабль так вообще по полной программе прошёлся.

Напомню, что это был последний полёт для серии V1 — дальше начнут летать V2. В них тысячи инженерных изменений, а самое заметное для внешнего наблюдателя — увеличенная высота (и как следствие размер баков).

Elon написал, что ещё одна мягкая посадка корабля на воду — и после этого они предпримут попытку посадки уже на сушу (не ясно, на башню или нет). С одной стороны это значит, что следующий пуск может быть по такой же траектории (а значит новой лицензии не нужно), с другой — сама ракета новая, и наверняка там что-то нужно лицензировать. Надеюсь, не очень сильно затянется, и до марта увидим первый полёт 2025-го!

🚀🚀🚀

Сиолошная

19 Nov, 23:55


Я сначала увидел в твиттере и не поверил, подумал, что это шутка.

В США с 2000-го года существует United States–China Economic and Security Review Commission. В комиссии 12 членов, сама комиссия подчиняется только Конгрессу и не является частью никакого агентства или департамента. Каждый год до 1-го декабря комиссия публикует отчёт, в котором в том числе даёт рекомендации Конгрессу.

Свежий отчёт опубликовали час назад, и в нём первым пунктом в блоке ключевых рекомендаций идёт...

«Учредить и профинансировать программу, подобную Манхэттенскому проекту, направленную на разработку и использование возможностей искусственного интеллекта общего назначения (AGI)»

😐😐😐

===

Спросил у ChatGPT, насколько важна эта Комиссия и как часто Конгресс прислушивается к рекомендациям. Не ручаюсь за правильность оценки, но нейронка сказала, что в целом к рекомендациям прислушиваются, хоть и не все исполняют.

Идём перечитывать SITUATIONAL AWARENESS и/или пересматривать интервью с Leopold'ом из OpenAI

Сиолошная

19 Nov, 10:19


Шестой запуск Starship Super Heavy сегодня ночью.

Примерно через 12 часов открывается окно запуска для самой большой ракеты в истории, и последний полёт для корабля Starship V1. Поэтому держите чек-лист по ключевым этапам миссии Flight 6:

⚪️ Старт, прохождение зоны Max Q, горячее разделение ускорителя и корабля;
⚪️ Запуск 6 двигателей на Starship и перезапуск 10 двигателей (3 будут работать) Super Heavy B13 для первого тормозного манёвра;
⚪️ Команда «Go for catch» и перезапуск 13 двигателей Super Heavy B13 для второго тормозного манёвра и посадки;
⚪️ Успешная посадка Super Heavy B13 на манипуляторы и захват ускорителя;
⚪️ Super Heavy B13 проходит программу безопасности на площадке;
⚪️ Выход корабля Starship S31 на плановую незамкнутую орбиту;
⚪️ Тест перезапуска 1 двигателя Raptor на орбите;
⚪️ Вход Starship S31 в атмосферу под более высоким углом и прохождение зоны максимального нагрева;
⚪️ Манёвры в зоне максимальной нагрузки для теста живучести корабля;
⚪️ Обрезанная теплозащита Starship S31 выдерживает вход в атмосферу, плавники не расплавляются;
⚪️ Перезапуск 3 двигателей S31 с симуляцией мягкой посадки в океан в нужной точке — камеры с буя показывают посадку;

И после окончания миссии Flight 6 проставим нужные галочки и сравним. Если предыдущий запуск можно назвать самым успешным, то этот должен закрепить результат.

Уже в следующий миссии Flight 7 нас ждёт сильно обновлённый корабль и первый представитель блока Starship V2. Программа постепенно выходит из первой фазы тестирования, и в 2025 году будут запуски на замкнутую орбиту и отработка возвращения корабля на башню.

Сиолошная

18 Nov, 10:50


Помните, вместе с новым Claude 3.5 вышел Computer Use Preview (Beta API)? Это режим, в котором модель получает на вход картинку рабочего стола и предсказывает, куда надо кликать, чтобы выполнить задачу.

Подоспела первая статейка с тестированием навыков на 20 задачах: A Preliminary Case Study with Claude 3.5 Computer Use. Разбирать мы её не будем, внутри особо ничего нет. Единственное, что по сути добавили авторы — это критика, который после некоторых действий комментирует ход выполнения и проверяет, что условия выполнены.

Эти 20 задач покрывают 12 разных программ, от браузера и Word'а до компьютерных игр. Claude не справилась с четырьмя запросами. Один раз не смогла проскроллить страницу (на это ещё жаловался Денис), два раза не сработало выделение текста двойным щелчком (выделилось только имя, а не Имя+Фамилия, и то же самое с телефоном), и один раз модель выбрала не те ячейки в Excel (C6:C15 вместо D6:D16), скорее всего из-за неидеальности визуального восприятия. В последних случаях не спас даже критик — он прокомментировал, что всё ок. Есть куда расти, в общем, ждём развития и стабильной не-бета версии (в том числе и от OpenAI — по слухам, они выпустят свой аналог в январе 2025-го).

На первой картинке список задач и результат (очень жаль, что запускали по 1 разу, а не 3-5), если вам интересно — можете полистать статью, посмотреть картинки и почитать рассуждения модели. Иногда критик срабатывал верно и позволял вернуться к корректному способу решения задачи.

2-ая картинка — ход в карточной игре Hearthstone

3-ья картинка — закрытие дейликов в гача-игре Honkai: Star Rail

На других картинках всё понятно

Сиолошная

17 Nov, 16:56


На картинке слева пример того, как выглядит собранный промпт, а справа пример генерации LLM'кой плана для новой задачи (`def microwave_salmon():`).

В конце работы исследователи анализировали ошибки, почему всего 40% решено, и самая большая группа проблем — это что часть действий недоступна в разные моменты времени. Например, нельзя сидя открыть что-то, что стоит рядом (даже если проверка на расстояние до объекта пройдена) — просто ограничения движка для запуска виртуальной симуляции. Странно, что они с этим ничего не делают и не пытаются побороть основной источник проблем.

Вторая группа — это отсутствие обратной связи от среды по ходу исполнения плана. План генерируется один раз в самом начале, и если вдруг что-то не учтено — полный провал. В то время как можно было бы в моменты затыка давать новое состояние в промпт, делать ещё одну генерацию с текущего места, и пробовать довыполнить задачу. Надеюсь, в какой-то из будущих работ это проверили, но я пока не искал.

Сиолошная

17 Nov, 16:56


ProgPrompt: Generating Situated Robot Task Plans using Large Language Models (сайт проекта)

Ещё одна статья в копилку использования LLM для составления планов действий, исполняемых роботами (правда тут до них дело не дошло, тестировали виртуального человечка в виртуальном же доме). Написала за пару месяцев до выхода ChatGPT, но на тот момент уже были доступны разные варианты GPT-3 / 3.5. В такие моменты очень жалею, что авторы не возвращаются через полгодика к своей работе и не перезапускают код с более свежими моделями, чтобы замерить приросты 🥹

Напомню основную проблематку: составление плана выполнения задач может потребовать определения огромного количества знаний о мире, в котором должен действовать робот. Хочется использовать LLM для автоматизации того, что называют common sense, ну например что микроволновку нужно открыть перед тем, как класть в неё непустую тарелку или другую тару (а какую-то и класть нельзя). А потом ещё и закрывать...

SayCan, который я недавно разбирал, опирался на чётко зафиксированный набор действий и объектов. Это работает для малых масштабов, но когда объектов и действий много, а их сочетаний ещё больше — в контекст LLM'ок это просто перестанет помещаться (особенно в старые добрые 2022-ые). По сути, работа авторов этой статьи заключается в составлении промпта, позволяющего LLM сгенерировать Python-подобный код, описывающий ход решения задачи, оперируя по отдельности объектами и действиями. Действием может быть взять(что-то) или открыть(что-то), а объекты любые произвольные.

Промпт состоит из трёх частей (всё это выглядит как код):
1) набор доступных методов (действий) и объектов. Прям так и пишут, objects=[sink, pie, apple, ...]
2) несколько примеров того, как пишется план-функция для выполнения задач. Авторы берут по 2-3 вручную собранных примера, прописывая каждый шаг: куда роботу пойти, что открыть, что взять. По сути это few shot learning, позволяющий модели понять, как использовать объекты/действия. Примеры, которые использовались в работе: “put the wine glass in the kitchen cabinet”, “throw away the lime”, и “wash mug”. Смешно, что в работе жалуются на размер контекста LLM — для некоторых тестов влазит всего 2 примера (или даже 1). Сейчас можно было бы вкинуть несколько десятков...
3) описание новой задачи, которую нужно декомпозировать. Описание задаётся названием функции, def microwave_salmon(): — нужно подогреть лосось в микроволновке.

На этом промпт кончается, и дальше LLM естественным образом генерирует продолжение. Авторы добавляют от себя два штриха для улучшения качества планов:
1) комментарии, разбивающие код в примерах на логические блоки, мол, вот эти 5 действий это для того чтобы открыть мусорку, эти 3 чтобы выкинуть мусор, другие 7 это чтобы вернуться в исходную точку, закрыв мусорку, итд. Явное проговаривание логики, скрытой за кодом
2) добавление assertions, то есть пререквизитов для дальнейшего исполнения плана. Например, чтобы открыть мусорку, надо сначала к ней подойти — тогда нужно проверить, что расстояние меньше полуметра. Если больше — вставляем действие «идти» в план.

Оба приёма накидывают в качестве, измеряемом как доля успешно выполненных задач в виртуальном дом (в нём 115 предметов, всего 70 задач, от 3 до 18 действий в плане выполнения). Про метрики особо писать нечего, так как всё немного устарело, ну, лучшая модель решила 40%. Это был CODEX, GPT-3, заточенная на программирование, что не удивительно (обычная давала 34%).

Сиолошная

17 Nov, 11:45


Релиз GPT-5 или как там её назовут будет скоро (ориентировочно первый квартал 25-го), а её базовое обучение закончилось в сентябре, согласно TheInformation. Это означает что модельку уже тестируют и гоняют. Может, не в полную силу, например, только первый круг внутренних тестировщиков, а не внешние подрядчики, но всё равно.

Полезно посмотреть, какие бенчмарки недавно выкатывали OpenAI, потому что скорее всего по ним и компания, и мы сможем заметить прогресс между поколениями. Конечно в комментариях всегда найдутся умники, которые будут оправдывать рост с условных 30% до 80% просто переобучением на этих конкретных данных, и что на самом деле это всё маркетинг, ну, их мы игнорируем (и баним 😀).

Итак, 3 последних бенчмарка, все вышли с августа по октябрь 24-го. Начнём с конца:

1️⃣SimpleQA, множество сложных вопросов, требующих фактических знаний. Лучшие модели отвечают примерно на 40%, но что более важно — не очень хорошо понимают, когда они знают ответ, и потому вместо «я не знаю» отвечают с ошибкой. Подробный разбор я делал тут.

2️⃣MLE-bench, бенчмарк для измерения того, насколько хорошо ИИ-агенты решают задачи по машинному обучению. Зачем? Потому что одна из целей компании — это сделать систему-автономного исследователя, которая будет автоматизировать части работы команды. Разбор тут.

3️⃣SWE-bench Verified, исправленная (и урезанная) версия более раннего SWE-Bench от исследователей из Princeton University. Замеряет долю объемных проблем, описанных человеческим языком, но решением которых является изменения в существующем коде большого размера (десятки-сотни тысяч строк, реальные кодовые базы). Вышел недавно, а уже стал использоваться — Anthropic отчитались по улучшению в этом бенчмарке в недавнем релизе Claude. Разбора нет, можно читать оригинальный пост.

===

Два агентских бенчмарка (для ИИ-агентов очень важна надёжность в каждом шаге, потому что одна ошибка и ты ошибся, и исправить можно только рефлексией) и один на знания, но позволяющий оценивать уровень понимания моделью границ своих знаний. Может быть на последнем доля правильных ответов не вырастет (ого, снова бьёмся в стену 🙂), но у более надёжной модели ответы «я не знаю» должны появляться чаще, чтобы не давать неправильную информацию.

Кроме этого, персонально я очень буду ждать замеров и улчшений по бенчмаркам от других команд: GAIA, Lab-Bench, WebArena, WorkArena++, FrontierMath и конечно же ARC.

Сиолошная

17 Nov, 11:17


Перевод цепочки твитов Joshua Achiam, Head of Mission Alignment (это что вообще за должность? что надо делать?) в OpenAI. Вот если помните Spinning Up in Deep RL (интерактивный курс с кучей домашек и упорядоченным списком статей по RL, разбитым по темам), то он там основной автор.

===

Ожидаю, что произойдёт странное явление: на следующем витке развития ИИ он будет всё лучше справляться с длинным хвостом распределения узкоспециализированных технических задач, о которых большинство людей ничего не знает и которые их не волнуют. Это создаст иллюзию, будто прогресс застыл на месте.

Исследователи будут достигать рубежей, которые сами сочтут невероятно важными, но большинство пользователей не поймёт их значимости в тот момент.

Универсальная надёжность ИИ будет постепенно возрастать. Через год обычные модели станут гораздо более стабильно выполнять задачи программирования, написания текстов, базовых бытовых проблем и так далее. Но надёжность не выглядит эффектно, и многие просто не заметят этих улучшений.

В какой-то момент, возможно года через два, люди оглянутся и обнаружат, что ИИ прочно встроен почти во все аспекты коммерции, потому что он преодолел определённые пороги надёжности. Подобно тому, как смартфоны из новинки в 2007 году стали повсеместным явлением к 2010-м.

Что произойдёт после этого, угадать очень сложно. Многое неопределённо и зависит от обстоятельств. Единственное предсказание, в котором я уверен: в 2026 году Gary Marcus (прим.: известный критик нейросетей и глубокого обучения, автор тезиса «AI is hitting a wall» с 1990-ых) снова будет настаивать, что подходы с обучением нейросетей зашли в тупик.

(Дополнение: весь этот текст даже нельзя назвать полноценным прогнозом. Это, скорее, описание того, как развивалась дискуссия с момента выхода GPT-4 в начале 2023 года, и предположение, что тренд продолжится. Длинный хвост улучшений и прорывов остаётся практически незамеченным.)

Сиолошная

15 Nov, 22:25


Rise and shine, подписчики: вышла 2-часовая документалка в честь 20-летия одной из лучших игр всех времён и народов, Half-Life 2. Ровно год назад писал про видео к 25-летию первой серии

https://youtu.be/YCjNT9qGjh4

Это мы смотрим 🍿

Сиолошная

15 Nov, 20:30


И последнее — исследователи проверяют свои наблюдения на (а) схожей синтетической задаче, добавив 4й атрибут (цвет фона, белый или чёрный; там всё работает ровно также) б) на датасете CelebA с фотографиями звёзд.

У них они выделяют три признака: гендер, цвет волос, улыбка/обычное лицо.


Тренируют чуть меньше, получают результаты чуть хуже (самый «далёкий» класс не успевает выйти на 100%), но это результат неоконченности эксперимента. Если продолжить обучение, то уверен, что добьётся почти идеального качества (генерации невиданных комбинаций атрибутов по запросу).

Картинка по середине — общее качество (попадание в заданные атрибуты), справа отдельно показали качество по самому сложному (поздно выучиваемому) атрибуту, гендеру.

Вообще в статье есть ещё пара менее интересных экспериментов (меняют набор классов в тренировке; пробуют дообучать — не работает; А ещё меняют количество примеров в каждом классе, что вызывает затруднение в выучивании концепта; если примеров очень мало — модель не может генерализоваться), почитайте, если вы технарь.

Ну и последнее: всё это проявляется только если модель тренировать достаточно долго (видно по всем графикам, что если бы этого не делали — можно было обмануться, мол, модель ничего не может). Это очень напоминает гроккинг (когда в модели что-то щёлкает, она всё понимает и идеально решает задачу), который был давно замечен — авторы об этом прямо говорят.

Сиолошная

15 Nov, 20:25


Авторы анализируют, насколько хорошо модель понимает и генерирует каждый атрибут по отдельности. Проще всего с размером, он начинает получаться раньше остальных. Дальше форма, и в последнюю очередь цвет.

При этом без всех трёх концептов модель не может генерировать объект класса 111, потому он получается в последнюю очередь, и точность его генерации (= как часто классификаторы говорят, что картинка совпадает с ожиданием «маленький синий треугольник») долгое время находится около нуля... пока неожиданно не взлетает вверх. Если смотреть только на эту часть, то может показаться, что навык эмерджентный, появился изниоткуда — как это происходит у LLM. Пока несколько концептов не встанут на свои места — какую-то задачу решать не получается. А потом хоп — и всё.

«Модели должны усвоить все необходимые концепции, но композиционное обобщение затрудняется мультипликативным воздействием процесса обучения на каждую концепцию» (то есть нужно перемножать навыки модели, выраженные от 0 до 1, насколько точно она их применяет).

Дальше авторы делают симуляцию с n навыками и определённой вероятностью их появления во время тренировки, и приходят к следующему: «мы видим, что прогресс в решении все более сложных задач логарифмически зависит от количества атомарных концепций, которые складываются в композицию. Важно отметить, что это означает, что если мы позволим модели обучаться бесконечно и она выучит несколько атомарных способностей, то у нее произойдт взрыв возможностей из-за композиционности процесса генерации».

Сиолошная

15 Nov, 20:18


Ответ: да, модель сможет рисовать объекты любого из четырех оставшихся классов, которые не были показаны во время тренировки вообще.

Все три стадии вы можете видеть на картинке:
1️⃣(синие линии на графике слева) При этом сначала модель будет учиться хорошо рисовать только те примеры, что представлены в тренировочной выборке, а качество рисования других будет очень низким

2️⃣ (светло-розовые линии) Затем, когда качество на трейне будет около 100%, начнут потихоньку получаться фигуры, concept distance до которых равен единице. То есть они отличаются от того, что видит модель, на какой-то один атрибут

3️⃣(ярко-розовая линия) Маленький синий треугольник, 111, начнет получаться в последнюю очередь, чуть позже, чем предыдущий пункт. «Представить» его с точки зрения модели сложнее всего: уж слишком всё, на чем она тренируется, отличается. Но в какой-то момент все три типа атрибутов станут понятны, и диффузионная нейронка сможет их совместить, по итогу достигая качества в 100%

* качество определяется автоматически с помощью тренируемых линейных классификаторов, которые тренируются на всех тренировочных данных. Всего их 3 штуки, для цвета, формы и размера. Авторы их тренируют по 50 эпох (очень много), и качество на трейне у них 100%, ну, так как задача очень простая

На картинке справа показано, как модель рисует новые для себя примеры по ходу тренировки. Больше всего проблем у неё с цветом — потому что все фигуры, кроме одной, красные, и их банально легче выучить (и синие рисовать хуже). Но примерно к 40-60 эпохам (проходам по всем тренировочным картинкам) это исправляется, и маленький синий треугольник получается нормально.

Сиолошная

15 Nov, 19:51


Compositional Abilities Emerge Multiplicatively: Exploring Diffusion Models on a Synthetic Task

Статья пытается ответить на извечную критику нейросетей, мол, они не могут производить ничего нового, работают только в рамках распределений данных, на которых их учили. Ситуация рассматривается с точки зрения композиции объектов/концептов. «Композиция — неотъемлемое свойство реального мира, в котором некоторые примитивы, такие как цвет, могут быть скомпонованы с другими примитивами, такими как форма, для создания или рассуждения о совершенно новых концепциях, которые ранее не встречались»

Вы наверняка видели черную, белую, оранжевую, синюю рыбу, но не видели фиолетовую (фуксию) — их почти не бывает. Но вы можете её себе представить, потому что знаете, как выглядит рыба и как выглядит фиолетовый. Вот это и есть композиция. Предыдущие исследования показывают, что современные диффузионные модели для генерации изображений демонстрируют возможности композиционного обобщения (помню, OpenAI делали упор ещё в DallE-1 на стул в форме авокадо как пример смешивания концептов), но ... при этом где-то, где не ждёшь, терпят неудачу в генерации композиции. И не ясно, почему у одной и той же модели что-то работает, а что-то нет. Какие концепты модель учится композировать? Что отличает эти концепты от тех, которые модель не может совместить? 🤷‍♂️

Для изучения проблемы авторы предлагают подход с обучением на синтетических данных, где для каждой картинки известны все её атрибуты. Картинки маленькие, на них по центру изображена фигура, которая характеризуется (1) размером (2) цветом (3) формой. Каждый атрибут может иметь ровно 2 значения: большой и маленький, синий и красный, круг и треугольник. Получается всего 8 комбинаций, которые можно закодировать бинарно: 000, 001, 010, ... , 110, 111. Обратите внимание, что два кода, отличающихся на одну цифру, отличаются ровно одним концептом. 000 и 001 могут отличаться, например, формой, 110 и 111 — тоже формой (последняя цифра), а вот 100 и 110 отличаются цветом.

Авторы вводят понятие «concept distance», расстояние между концептами. Это по сути то, сколько шагов изменения 0 на 1 или 1 на 0 нужно сделать, чтобы получить новый класс. Самые дальние друг от друга 000 и 111, они отличаются всем: размером, цветом, формой (расстояние 3). То же верно для 010 и 101.

Для каждой тройки цифр генерируется по 625 картинок 28x28 пикселей, где цвет и размер чуть-чуть меняются: на какой-то картинке красный представлен как ярко-красный, на какой-то блеклый серо-буро-малиновый. Размер «большой» может быть как просто больше среднего, так и немного вылазящий за границы картинки.

Внимание, вопрос:
Если натренировать модель только на картинках, относящихся к классам 000, 001, 010, 100, то сможет ли она генерировать классы 011, 110, 101? И что самое страшное класс 111 (самый «далёкий» с точки зрения расстояния между концептами — нужно сделать как минимум 2 изменения относительно исходных изображений в тренировочной выборке)

Сиолошная

15 Nov, 13:12


А применение графа немного отличается от того, что было в прошлой статье. Там все объекты имели названия и были подписаны, здесь же мы этого не далаем. В основном потому, что хочется работать с любыми произвольными названиями, не ограничиваясь заранее заданным списком объектов. Условно «банка колы», «кола», «баночка кока-колы» итд — это всё один объект (сегмент), но, как говорили древние, «определить — значит ограничить».

Предположим, в робота, в которого загружена иерархия дома и комнат, поступает запрос: «найди унитаз в туалете на втором этаже». Запромптченная (с примерами) LLM выделяет из него 3 подзапроса: какой этаж, какая комната, какой объект. И выдаёт:
— 2й этаж (это мы знаем как найти)
— туалет (это у нас уже есть)
— унитаз (этого нет)

Из графа загружаются все объекты, входящие в комнату «туалет». Для каждого объекта, напомню, есть вектор, который характеризует его содержимое. А дальше снова применяем CLIP: делаем вектор из фразы «это фото унитаза» и сравниваем его с векторами каждого объекта в комнате. Тот, который похож больше всего, и есть искомый. Voila, теперь робот в точности знает, где что к чему идти (координаты ведь тоже известны для каждого сегмента), и может отправляться в путь (action graph на картинке выше).

Хоть построение графа и ориентирование по нему и автоматизированы, думаю, что под капотом там много констант (когда объединять сегменты, на сколько отличается высота этажей, итд), что из коробки не будет работать прям везде. Но большая часть всё равно делается скриптами. Особенно мне понравился трюк с классификацией объектом пост-фактум, когда мы не определяем их заранее. Это позволяет сохранять гибкость в идентификации практически чего угодно. И в то же время замена всех моделей в пайплайне на более современные (лучше SAM, лучше CLIP, лучше LLM) будет давать приросты.

Сиолошная

15 Nov, 13:12


Таким образом у нас получились векторные описания буквально всего, что попало на камеру, от стен и потолка до баночки колы и забытых на столе ключей (если SAM смог их выделить, конечно). Всё полностью автоматически.

Теперь нужно связать все сегменты в иерархический граф, напомню, этаж->комната->объект (зачем? см. предыдущий обзор). Начинаем с простого: этажи. Поскольку для каждого снимка есть трёхмерная позиция, то всё просто — по высоте легко отфильтровать, что относится к первому этажу, а что ко второму итд — там прям невооруженным глазом видна последовательность (но можно разделить и автоматически). Это показано на левой части картинки.

Дальше нужно как-то выделить комнаты. Так как по множеству фотографий с картами глубины можно создать почти полную 3D модель (через проекцию точек в пространстве камеры), то можно сделать и вид сверху на эту модель. Дальше поверх карты со стенами применяется парочка не-ИИшных алгоритмов (Euclidean distance field + Watershed algorithm), которые позволяют выделить крупные соседствующие сегменты, «заливающие» пустое пространство в комнатах (поэтому алгоритм и называется WATERshed, кек 🌊).

Ну а дальше всё просто, те объекты что попадают в область комнаты — считаются принадлежащими ей. Получается иерархия: этажи -> комнаты -> объекты.

При этом:
— этажи легко пронумеровать (первый, второй, третий — по высоте)
— комнаты называют через... классификацию CLIP'ом. Берут заранее штук 20 названий (оффис, переговорка, кухня, спальня ...), подставляют в промпт «эта комната — ...», и сравнивают с каждой фоткой. Таким образом без дообучения делается классификация с присваиванием метки
— объекты никак не обозначаются, и остаются лежать в виде неупорядоченного набора «сегмент -> усреднённые CLIP-вектора»

Всё, граф готов, можно приступать к ориентированию. На самом деле ещё под капотом строится карта перемещений, какие места не заняты и доступны для робота, и как из одной комнаты пройти в другую, но это менее интересно.

Сиолошная

15 Nov, 13:12


Затем для каждого объекта необходимо подготовить признаки, его представляющие. Берётся маска объекта, сам объект по нему вырезается (удаляется фон, всё, что было вокруг) и пропускается через CLIP. Это признаки объекта. Также через CLIP проходит сама оригинальная фотка всей комнаты и фотка объекта (где по краям обрезано всё лишнее, но остаётся немного фона). Все три вектора усредняются, таким образом сохраняя информацию и об окружении («ну вот такая-то примерено комната»), и в то же время фокусируясь на конкретном объекте («вот этот стул»). Всему пространству объекта, покрытого предсказанной маской, присваивается этот усреднённый вектор, становясь его описанием (см. картинку слева). На более поздних этапах алгоритма если один и тот же объект сфоткан с разных сторон, то эти вектора (с нескольких разных изображений) объединяются и усредняются ещё раз.

Где-то в серединке процесса разные сегменты с разных фотографий склеиваются друг с другом на основе доли пересечения точек, спроецированных в 3D пространство на основе данных камеры, как в примере с сегментом-стулом выше. Если доля пересечения высокая — предлагается считать два сегмента за один. Таким образом после объединений может появиться мешанина разных векторов, описывающих один и тот же предмет.

Чтобы этот разрешить, применяется алгоритм кластеризации DBSCAN поверх всех векторов, попавших в представление одного объединённого сегмента. Выбирается самый большой кластер (то есть в котором больше всего точек с CLIP-векторами), а затем берётся вектор, который ближе всего к его центру — и говорится, что мол вот это и есть вектор-описание сегмента.

То есть:
получить вектора отдельных точек на каждой фотке -> сопоставить разные фотки и объекты на них -> соединить разные сегменты, представляющие один и тот же объект -> найти самый репрезентативный вектор среди принадлежащих сегменту
(это всё изображено на правой части картинки)

Сиолошная

15 Nov, 13:12


Hierarchical Open-Vocabulary 3D Scene Graphs for Language-Grounded Robot Navigation (сайт проекта)

В недавнем разборе я упоминал способы создания иерархического графа отношений, описывающих некоторую локацию для дальнейшего использования роботом на основе LLM. Там использовался метод Hydra, но я немного поискал и нашёл более свежий и продвинутый подход — про него сегодня и поговорим. Предполагается, что вы читали пост про CLIP, и в дальнейшем будет подразумеваться, что для любой картинки или текста можно сделать вектор, такой, что чем более пара векторов похожа, тем больше шанс, что они описывают одно и то же.

На вход в алгоритм поступает множество изображений (или видео) формата RGB-D, для каждого из которых известна локация и угол съемки. D означает depth, глубина, что позволяет определить относительное расположение объектов (какие дальше, какие ближе). На самом деле это требование не жёсткое, так как а) существуют нейронки для предсказания глубины изображения по фото б) есть алгоритмы определения относительного положения разных снимков относительно друг друга. Так что при желании можно это всё восстановить просто из набора фоток, хоть и получится чуть шумнее. Но если что — последние iPhone умеют записывать карты глубины, на то им столько камер и датчиков.

Сначала создаётся словарь сегментов. Для этого к каждой фотографии применяется модель от META, Segment Anything (SAM). Она предсказывает маски (границы) для всех объектов на фото, при этом не предсказывает для них классы — работает с чем угодно. Одна маска = один сегмент. Но один и тот же объект может засветиться на нескольких фотках, поэтому их нужно сопоставить. Так как для каждого кадра известна позиция, из которого его сделали, то можно определить, что вот этот сегмент (маска), скажем, стул на одной фотке — это вот этот сегмент на другой фотке. Это пригодится чуть позже.

Сиолошная

14 Nov, 11:28


По итогу модель можно адаптировать без обучения к практически любому набору меток — и не нужно собирать данные. OpenAI показали, что их модели имеют сопоставимое (или даже лучшее) качество на широком наборе датасетов, актуальных в 2021-м году. При этом на наборах данных, которые отличаются от привычных, модель более стабильна, и её качество так сильно не просаживается (картинка 1)

На остальных картинках показаны примеры работы в нестандартных задачах для классификации разных типов объектов (обратите внимание, что отвечает не всегда правильно). И всё это без дотренировки, из коробки

Основная ценность:
— метки классов не предопределены, и можно задавать любой текст с любым описанием; это называется «open vocabulary» (открытый словарь?), когда модель не обучена на конкретно один зафиксированный набор текстовых меток.
— можно сравнивать произвольные тексты и картинки, выявляя наиболее схожие пары

CLIP'ы и их наследники открыли дорогу к множеству новых задач, для которых просто не было больших размеченных наборов. Теперь люди собирали по 10-100 примеров за 1 вечер, проверяли качество, немного играли с текстовыми промтами (какой запрос рабоатет лучше, кроме «a photo of») — и всё. Или учили логистические регрессии поверх, если хотели. И даже для дальнейшего дообучения CLIP'ы подходили лучше за счёт большей «насмотренности».

😪 а сейчас можно заменить на VLM и сё (будет чуть дороже, хотя Gemini Flash вообще копеечная)

Сиолошная

14 Nov, 11:28


Слева представлена визуализация процесса обучения, описанная в прошлом посте.

Справа — как применять уже обученные модели. Предположим, что вы хотите вернуться к задаче классификации, и у вас есть сколько-то текстовых меток: самолёт, собака, машина, ...

Каждую из меток вы подставляете в строчку «a photo of a {object}» (она может быть другой) и пропускаете через текстовую половинку. Для N строчек вы получаете N векторов.

Затем берёте изображение, применяете к нему картиночную половинку нейросети. Получаете один вектор. Дальше считаете схожесть между ним и всеми N векторами текстов. Текст, который соответствует самому похожему вектору, наилучшим образом описывает картинку — и так вы можете «предсказать», что на ней нарисовано.

Сиолошная

14 Nov, 11:28


[CLIP] Learning Transferable Visual Models From Natural Language Supervision

Для разбора следующей статьи понадобится знание того, что такое CLIP и как он работает. Я не буду делать прям полный разбор (его можно почитать, например, тут), но расскажу основную интуицию.

Давным давно модели для работы с изображениями тренировали с помощью «больших» (около миллиона! это был сарказм) размеченных наборов данных, где для каждой картинки была проставлена метка класса. Вот на этой картинке собачка, тут кошка, здесь грузовик. Такой способ тренировки упирался в возможность разметить все картинки, а ведь чем больше классов (текстовых описаний), тем сложнее это делать. Подумайте сами, вот вам нужно для картинки выбрать один из тысячи классов — это ж сколько нужно держать в голове, чтобы ничего не упустить.

При этом получалось, что: а) с новыми классами модели работали или средне, или плохо б) для новых классов нужно было собирать данные и размечать их в) модели были сильно ограничены в наборе концептов, так как по сути выучивали всего ~1000 объектов.

OpenAI предложили изменить подход — как было с GPT, хотелось обучать модели на огромных (почти) неразмеченных наборах данных, взятых из интернета. Для этого они собрали 400 миллионов пар (картинка; текст). Текст мог быть очень разнообразным, от простой подписи «кошка» до длинного предложения или двух (около 55 слов).

Далее обучали две модели, одна для текста, другая для картинок. Обе модели переводили входные данные в вектора (набор цифр) одного и того же размера. Тренировка была задумана так, чтобы если текст соответствовал картинке, то вектор (результат работы нейронки) картинки был бы очень близок к тексту. При этом никаких данных размечать не надо:
1) выбираете случайным образом N пар картинка-текст (порядка десятков тысяч)
2) делаете предположение, что самый релевантный текст для конкретной картинки в этой куче — это именно подпись к картинке, а не какой-то другой текст
3) считаете вектора для N картинок и текстов, а затем — меру схожести между векторами
4) обе модели (текстовую и картиночную) штрафуют за то, что схожесть между векторами картинки+текста из одной пары маленькая, а текста и всех других картинок (и также картинки и всех других текстов) — большая.

Давайте на пальцах, предположим N=2. Есть фотографии кошки и собаки , и такие же подписи: «кошка», «собака». Пропускаем их через модели, затем считаем 4 расстояния: от каждой из двух картинок к каждому из двух текстов. Получаем квадратик (матрицу) схожестей 2 на 2. В идеале результат должен выглядеть так:

X кошка собака
кошка 1 0
собака 0 1

(по одной оси картинки, по другой тексты, не важно где что)

И это и будет являться целевой меткой для обучения. Мы не размечаем ничего руками, просто пользуемся предположением, что самый похожий текст для картинки — это её текст (тот, что был рядом на странице в интернете), а не от другой картинки (и то же для изображений). Если брать десятки тысяч пар текст-изображение за раз, то вы сразу сравниваете огромное количество объектов, что помогает обучению (было показано, что увеличивается качество).

По итогу получается пара моделей, которая учится предсказывать:
— какой текст из набора наиболее точно описывает картинки
— какая картинка из набора наиболее точно подходит к тексту
(это работает в обе стороны, см. следующий пост)

Сиолошная

14 Nov, 09:10


Две цитаты Noam Brown, исследователя из команды, сделавшей o1 (до этого он работал над лучшими покерными ботами, которые обыграли профессионалов):

> Мы существуем в мире, где количество мощностей, потребляемых большими языковыми моделями во время этапа предтренировки, очень, очень большое. Однако затраты на применение моделей очень низкие. И у многих людей возникли обоснованные опасения, что мы начнем наблюдать снижение отдачи от прогресса в ИИ, поскольку затраты и объем данных, необходимых для предтренировки, станут астрономическими. И я думаю, что действительно важный вывод из o1 заключается в том, что стена [преграда на пути масштабирования] на самом деле не существует, что мы на самом деле можем продвинуть технологию намного дальше. Потому что теперь мы можем масштабировать вычисления во время работы модели в режиме предсказания.

> Я хочу подчеркнуть здесь, я думаю, что результаты тестирования очень впечатляют, но более важная вещь — это траектория. Здесь видно, что мы получаем огромные приросты от увеличения мощностей на предсказания, и мы можем продолжать масштабировать вычисления во время работы модели в режиме предсказания. Эти цифры качества — я могу это почти гарантировать — вырастут в следующие 1-2 года.

(обе — из вот этой лекции)

===

Два ответа, которые мне понравились из комментариев к прошлому посту: 1, 2

Сиолошная

14 Nov, 08:11


Я хотел сделать опрос, но понял, что не могу сформулировать множество (неправильных) опций. Поэтому сделаем в виде поста — а ваши варианты пишите в комментариях

Вопрос: в чём, по-вашему, основная ценность исследования OpenAI, которое вылилось в модель o1?

Может быть это показывает, что от LLM пока не нужно уходить? Или наоборот? Или приросты в бенчмарках на 10-60%? Или что-то кардинально иное?

Если вы уверены что прям точно знаете ответ — пожалуйста, спрячьте его под спойлер с помощью форматирования в Телеграме.

А «голосовать» можно лайками (если согласны с какой-то из опций)

Сиолошная

13 Nov, 11:52


Прошла всего неделя, а журналист Эрик Бергер, который ранее точно описывал события внутри NASA, уже оценивает шансы отмены всей программы национальной ракеты SLS, как 50/50. Не просто отмену будущих запланированных апгрейдов, а всей ракеты целиком.

SLS сейчас является основной системой по доставке астронавтов к орбите Луны на корабле Orion. При этом программа справедливо критикуется за раздутый бюджет и отставание по срокам.

На сегодняшний день:
- Общие расходы на ракету SLS и корабль Orion оцениваются в $50 миллиардов.
- Каждый запуск SLS в оптимистичном сценарии оценивается в $2.5 миллиарда, и до $4.8 миллиардов при консервативной оценке.
- Суммарный бюджет на лунную программу Artemis может приблизится к $100 миллиардам в ближайшие годы, если не будет изменений. И даже это не гарантирует высадку астронавтов до китайском миссии.
- Стоимость каждого изделия двигателя RS-25, которые ранее летали на Шаттлах, сейчас находятся на отметке в $100 миллионов за штуку. Вместо плана оптимизации стоимости, велика вероятность, что цена новых изделий возрастёт до $120 миллионов. При наличии 4 двигателей на SLS, почти $0.5 миллиарда будет уходить только на эту часть в рамках каждого пуска.
- Разработка новой второй ступени EUS для SLS 1B отстаёт на 7 лет и выросла в 3 раза по бюджету — сейчас оценивается в $2.8 миллиарда.

С учётом этих вводных и желании новой администрации срезать лишние расходы, остаётся не так много опций:
1. Заморозить разработку SLS на текущем блоке, отменить будущие апргрейды, использовать оставшиеся изделия в нескольких миссиях Artemis.
2. Полностью отказаться от SLS, и запускать корабль Orion отдельно от разгонного блока на существующих решениях. Далее стыковать обе части на орбите и разгонять к Луне.
3. Заменить SLS другой сверхтяжёлой ракетой и запускать за один раз вместе с разгонным блоком.
4. Полностью отказаться от SLS, Orion и будущей станции Lunar Gateway, и пересобрать программу на более современной архитектуре.

Поскольку ранее Эрик Бергер неоднократно рассказывал о событиях внутри NASA до официальных анонсов (он ссылается на свои внутренние источники), то его оценка имеет достаточно высокий вес, чтобы обратить на неё внимание.

Любые изменения, и даже отмена программы SLS, в первую очередь является политическим вопросом, и столкнётся с огромным сопротивлением со стороны представителей отдельных штатов, которые лоббируют интересы локальных предприятий и исследовательских центров.

Ну а про альтернативные опции поговорим подробнее в следующем посте.

Сиолошная

12 Nov, 22:07


Больше — завтра, и всем спокойной ночи

Сиолошная

12 Nov, 07:03


Состояние дел в AI:

неделю назад приготовил презентацию на 8 слайдов, на сегодня уже два неактуальны. Ну ладно, один с натяжкой, скорее дискуссионный, но всё равно

😣

Сиолошная

12 Nov, 06:58


Помните я писал про ARC Benchmark (первый и второй пост), который нацелен на проверку абстрактного/пространственного визуального мышления?

Закончился конкурс, проводимый авторами, с фондом в $125'000. Как только начали фигурировать деньги — так сразу пошёл прогресс: до этого лучший результат был примерно 20% решённых загадок (и не использовал LLM). Сейчас же первое место закончило с результатом 55.5%, и это при том, что из-за технических проблем они не смогли отправить решение с 58% правильных ответов.

Пусть вас не смущает «маленькая» цифра — задачи-примеры на картинках это одни из самых простых, но есть и куда более сложные. Средний человек, согласно замерам вот тут (1729 человек!), набирает примерно 60.2%, если давать две попытки отправить ответ (и 47.8, если одну). В соревновании такой же формат, можно предложить два решения.

Однако в соревновании жесткие ограничения по ресурсам, которые хоть и выглядят разумно (12 часов на 100 задач с 1 GPU 8 летней давности), но всё же не позволяют развернуться на полную.

Кроме этого, с начала ноября вышло две крутых статьи с описанием методов, как можно ещё улучшить качество. Их разборы наверное будут в канале, но тем, кому не терпится, вот:
— Combining Induction and Transduction for Abstract Reasoning (генерируют огромное количество синтетических задач, используя GPT-4, и тренируют маленькую модель, которая решает задачи через написание python-кода)
— The Surprising Effectiveness of Test-Time Training for Abstract Reasoning (вот это вообще очень крутая идея, перед применением модели для конкретной задачи генерируется несколько схожих, используя модель из статьи выше, и на них дообучается LLM; обучение своё для каждой отдельной задачи. Достигают 61.9%, что выше среднего человеческого результата)

UPD: забыл написать, что предсказания автора бенчмарка полгода назад было, что по окончанию соревнования результат будет 50-56%. Так что немного опередили его ожидания!

Сиолошная

11 Nov, 20:09


https://fixupx.com/tsarnick/status/1856065476759302167

Как видите, Dario очень точен в предсказаниях 🤣 😀

Сиолошная

11 Nov, 19:37


5-часовое интервью с бывшим VP Research OpenAI, а ныне CEO Anthropic Dario Amodei (на самом деле там есть и другие сотруднрики, например, часик с Chris Olah по механистической интерпретируемости).

https://www.youtube.com/watch?v=ugvHCXCOmm4

😭 а когда смотреть... 🫤

Сиолошная

09 Nov, 16:29


Свежая заметка «Two alignment threat models» от Jan Leike, в прошлом со-руководителя команды Alignment в OpenAI, а ныне занимающего ту же должность в Anthropic. В тексте он рассуждает о двух концах спектра несоответствия поведения моделей ожидаемым/закладываемым (то есть misalignment-нутые):

— under-elicited models (не знаю как перевести, недостимулированные? недовыровненные?), или модели, которые совершают ошибки потому, что они не до конца настроены («не прикладывают все усилия для решения задачи, потому что не знают как или не замотивированы»). То есть модель пишет, что 2+2 = 5 не потому, что хочет вас обмануть, а потому что не знает/не может/etc.

— Scheming models (хитрые/коварные модели), или такие, которые притворствуют, что они на самом деле соответствуют ожиданиям, демонстрируя намеренно обманчивое поведение. Модель пишет 2+2=5 в научных расчётах, потому что думает, что никто не проверит, и она напакостит людям. Или даст вредный совет, какие грибы можно есть, а какие нельзя.

Сейчас мы куда чаще видим первый тип ошибок, а примеров второго почти не бывает. Однако про него важно думать наперёд, как минимум потому, что мы точно не сможем читать все генерации моделей — уже сейчас запуск LLM дешевле человеческого труда (по вычитке), и в будущем разница будет расти ещё больше. Scheming не проявляется, в основном, по трём причинам:
— уровень навыков/знаний пока недостаточен, у модели нет возможности сделать какую-то большую пакость (привести к потере денег/итд)
— модели не situationally aware (какой тут перевод... не контекстно-осведомлённые?), то есть они не ощущают себя как субъект в некотором контексте. Да, они знают, что они AI-ассистенты, зачастую даже не путаются в том, какую компанию представляют, но и всё. Это приводит к отсутствию долгосрочной мотивации как-то действовать.
— модели не натренированы быть агентами, которые взаимодействуют со средой, и не предпринимают действия, ожидая последствий. Вот в недавней Claude 3.5 (New) только-только потихоньку начали это демонстрировать, вероятнее всего с помощью замкнутого цикла обучения на своих же действиях и сигнале «задача решена/провалена».

Вероятно, существует достаточно научно-фантастических историй о плохом ИИ в тренировочных данных, из-за чего модели иногда будут пробовать какое-то «неправильное» поведение, связанное с обманом, и большой вопрос заключается в том, будет ли процедура обучения закреплять такой паттерн поведения. Например, если несколько раз подряд сымитировать решение вместо реального решения проблемы, и ни одна из проверок не обнаружит проблем — модель может выучиться, что такое поведение нормально, и продолжать врать (у самих Anthropic про это уже даже было исследование, подтверждающее тезис — там модель уже даже начала редактировать написанный человеком код, отвечающий за проверку процесса тренировки).

===

Но вообще хотел поделиться этим блогом по другой причине — Jan пишет, что текущие модели всё ещё далеки от elicited (см. первое определение выше). Например, когда появился один из методов дообучения GPT, RLHF, то маленькая GPT-2-1.5B начала выдавать ответы лучше, чем модель, на которую потратили в 100 раз больше вычислительных мощностей. И вот автор считает, что тренд продолжится, и ещё несколько порядков улучшений здесь есть. То есть те модели, которые сейчас могут крутиться на ноутбуке/телефоне, значимо поумнеют.

С одной стороны я тоже думал, что улучшать точно есть куда, но не до степени «на несколько порядков». Может в 5-6-8 раз, ок, но точно не в 20-100. «Я ожидаю, что если бы вы пообщались с полностью elicited моделью GPT-4, то это было бы совершенно иным опытом относительно текущего состояния» — подытоживает Jan.

Сиолошная

09 Nov, 11:40


Правда «лучшая» модель Gemini 1.5 Pro давала самые короткие ответы, встречая ограничение всего в 16% задач. Как же она стала лучшей? Ну, как написано выше, все модели суммарно одолели всего 4 задачи, поэтому тут просто случайность: решил на одну задачку больше, и ты уже существенно опережаешь остальных.

Авторы взяли 4 задачи и перепрогнали все модели по 5 раз на них, и Gemini сильно упала, что доказывает элемент случайности на таких низких значениях качества (меньше 2% от всех задач) — с 3 она вообще не справилась ни разу (0 из 5 попыток), и с одной справилась 3 раза (60% в табличке, потому что 3 попытки из 5 увенчались успехом). Самой стабильной оказалась OpenAI o1-preview: одну задачу она решила 5 из 5 раз, одну 4 из 5, одну 2 из 5, и с последней не справилась ни разу.

Основная критика статьи/бенчмарка от меня:
— нет никакого анализа ошибок моделей, хотя бы просто подтвердить тезис, что «не хватает данных/знаний/техник для решения задачи»
— нет попытки подать полезный контекст (статьи/теоремы) и посмотреть, как модели будут утилизировать его — особенно модель Google с их длинным контекстом
— нет попытки дать моделям доступ к поиску по статьям, чтобы они сами нашли себе релевантную информацию
— ограничение в 10'000 токенов, полагаю, немного сдерживает модели, особенно если учитывать сложность задач: даже людям требуется несколько часов рассуждений и решений, с доступом в интернет. Но авторы пишут, что постараются сделать больше разных тестов в будущем (и ещё добавить задач), увеличить контекст.

Будем следить за улучшениями на этом бенчмарке и ждать метрик какой-нибудь o2 на релизе. Как я понял, из всех задач опубликовали лишь 5, остальные держатся в секрете (я не смог найти даже общее количество, ткните, если его указали), и авторы будут сами замерять качество новых моделей. Надеюсь, они попробуют сделать какую-то обвязку, позволяющую LLM находить релевантную информацию в интернете самостоятельно, и позволят моделям работать над решениями дольше.

Сиолошная

09 Nov, 11:40


FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI

Самый сложный бенчмарк по математике для LLM от Epoch AI. Если сейчас зачастую у новых наборов проблем передовые нейронки решают 30-50% задач, то в этом суммарно все они, от Grok-2 до o1-preview, решили... 4 задачи (каждая по отдельности меньше 2% от общего числа). Почему? Потому что для создания задач были привлечены одни из ведущих математиков в своих областях, более 60 штук — 14 из них обладают золотыми медалями международной олимпиады по математике, и один обладатель Филдсовской премии (угадайте кто).

Задачи покрывают почти все топики современной математики, и некоторые из них строятся на совсем недавних открытиях и исследованиях. Самой главной проблемой, мешающей LLM'кам справляться с задачами, авторы называют экстремальную ограниченность в тренировочных данных для отдельных техник/тем. Terence Tao сказал, что «релевантные данные практически не существуют. Мы говорим о примерно десятке статей с релевантными вещами». Причём, они везде очень разные — суммарно авторы насчитали около 200 уникальных техник, применяемых в решениях, при этом самые часто встречающиеся пары техник попались всего лишь в 3 задачах (то есть нет концентрации вокруг каких-то техник, освоим которые можно решить добрую часть проблем).

Однако у бенчмарка есть пара недостатков:
1) задачи были сделаны таким образом, чтобы их можно было автоматически проверять; это сразу же накладывает ограничения на формат и гибкость. В частности, не проверяется ход решения (но угадать ответ практически нереально).
2) список задач не включает в себя доказательства, ответом является формула или число/набор чисел.
3) из-за сложности задач и времени, необходимых на решение не автору (несколько часов, и то не всегда справляются), не проводилась перепроверка решений и ответов каждой задачи, и не замерялось качество «усреднённого» математика. Аналитику провели по 25 задачам и прикинули, что ошибок не более 10%.

Эксперименты: авторы написали средней длинны промпт, который подсказывает модели, в каком формате ожидаются ответы, и что можно попробовать сделать отправку кода несколько раз. Если происходит ошибка — модели дают обратную связь, и процесс продолжается до тех пор, пока не будет достигнут лимит в 10'000 токенов. Модели ведут себя по разному, например o1-preview в среднем делает 1.29 попыток ответить, а Grok 2 — 3.81. Лимит токенов тоже немного мешает — gpt-4o упиралась в него в 45% решений, а ведь это даже не o1 с её длинными цепочками рассуждений.

Сиолошная

09 Nov, 10:29


Думаю, значимая доля читателей знает, что NASA планировало в 2024-м году вернуться на Луну. Правда планы много раз переносили из-за проблемных ракет, из-за задержки производства скафандров, из-за кораблей... так что пока посадка отодвинулась на сентябрь 2026-го. Но вот уверен немного кто знает, что посадка будет производиться на ... SpaceX Starship, на том самом, испытания которого мы всем селом смотри (вернее в его специальной лунной версии, HLS, Human Landing System).

Starship — громадный корабль, на порядки превосходящий «Аполлоны», летавшие в 20-м веке. В него вместится куда больше оборудования и, в теории, людей — однако пока все пуски планируются на маленькие группы по 4 человека, прям расточительство какое-то. Сегодня предлагается заглянуть внутрь кабины макета корабля — в нём пока всего 2 палубы:
— основная, с 5 спальными местами (серые коробочки с чёрным квадратом) и креслами для экипажа;
— техническая, с системами жизнеобеспечения.

Корабль получается невероятно просторным. Предполагается, что на каждой палубе ( = 1 кольцо при сварке корпуса) удастся уместить по 20 кают. На фотках вы видите только «маленький» нос корабля, ниже ещё должен быть сварной корпус.

Перед реальной посадкой с экипажем необходимо провести кучу демонстрационных тестов, от орбитальной дозаправки с переливанием топлива из одного корабля в другой и до автоматической посадки без экипажа (такого в эпоху Apollo не требовали — может и в этот раз срежут?).

P.S.: последняя картинка — весь лунный модуль Аполлонов (человек для масштаба).

Источники 1, 2

Сиолошная

08 Nov, 18:51


На канале Y Combinator возродили рубрику How To Build The Future. Раньше её вёл Sam Altman, а теперь он стал приглашённым гостем!

Поговорили с текущим президентом YC про ранние дни в сфере стартапов и OpenAI, про масштабирование моделей и бизнеса, тезисно:

— Сравнили YC и Stanford University по окружению; в YC более качественная «тусовка» вокруг, которая побуждает чем-то заниматься и вкалывать. Sama говорит, что peer pressure (давление от окружения) будет всегда, и с этим ничего не поделать; но что можно сделать — так это выбрать правильных пиров. И в YC по итогу куда более интенсивно.

— Вспомнили первые дни OpenAI. Sama говорит, что уже в первые дни появилось видение, чем хочется заниматься. На флип-чарте кто-то написал три цели: 1) разобраться, как правильно делать обучение без учителя (без размеченных данных, как сейчас большую часть времени тренируется GPT) 2) разобраться с Reinforcement Learning (другой способ обучения, тоже используется) 3) никогда не иметь больше 120 человек в команде. В первых двух целях преуспели, по третьей промахнулись — ещё в начале 23-го года в OpenAI было примерно 375 человек (лол, про это был самый первый пост в этом канале!), сейчас уже более 1700.
— Вместе с этим у основателей компании было несколько — одно из core beliefs: DL works and it works better with scale. Не знали как предсказать два ключевых верования: Deep Learning (обучение нейронок) работает, и оно становится лучше с масштабированием. По второму — был буквально религиозный уровень веры в то, что оно будет продолжать работать лучше. В то время в области машинного обучения это не был консенсусом, а за разговоры про AGI можно было словить критику и насмешки. На январь 2016-го года ещё даже не было AlphaGo (она сыграла первые игры с чемпионами, но информация не была опубликована), чтобы говорить про какие-то крупные успехи, кроме распознавания изображений.

— OpenAI изначально делали большую ставку на что-то одно вместо того, чтобы распыляться и пробовать везде понемногу. По итогу это сыграло, и сейчас фактически все игроки следуют за ними. Частично такой фокус схож с тем, чему сам Sam учил стартапы в YC: одно направление, результат, масштабирование.
— но это не значит что они прошли прямо самым коротким путем, были ответвления, но зато они принесли ценные научные знания (эксперименты с играми, с робо-рукой)

— Пересказал историю до GPT-1, как она получилась, и про роль исследователя Alec Radford в ней. Если вам этот кусок показался интересным, то напомню, что у меня есть бесплатный набор лекций «полная история GPT» на YouTube, где в первых видео рассказывается про предысторию, что там было и на какие мысли натолкнуло.

— Термин AGI стал очень шумным и многозначным; Летом в OpenAI ввели взамен систему из 5 уровней. Ранее Bloomberg писал, что якобы на июльской презентации модели прототипа o1 было заявлено о переходе с первого уровня (чатботы) на второй (reasoners, сущности, способные к рассуждениям). Но это были только слухи, и вот теперь Altman на камеру это подтвердил — они считают, что о1 достигла второго уровня в их шкале, а дальше идут ИИ-агенты. И что скоро нас ждёт прогресс в отношении этого шага — ждём!

Сиолошная

07 Nov, 16:18


Добавили в Симулятор DS новую задачу, где нужно написать computer use на минималках (аля как у Claude), для мобильного приложения

AI/ML: OMNIPARSER
Уровень: Easy

Мы мобильное приложение и хотим покрыть наш сервис тестами. Нанимать отдельного тестировщика ни времени, ни бюджета нет. Поэтому мы решили написать AI-тестировщика. Он будет на основе "сырых" скриншотов экрана распознавать интерактивные элементы на изображении и понимать, куда кликнуть для проверки того или иного сценария взаимодействия с приложением.

Начать обучение ML/LLM в Симуляторе: https://bit.ly/3X1Q2BS

P.S. За подкинутую ссылочку на OmniParser модель спасибо Игорь Котенкову

Сиолошная

06 Nov, 20:07


SpaceX поделились 3-минутной нарезкой с кадрами успешного пятого запуска Starship: вот ссылка на YouTube 🔥

Вместе с этим... была объявлена дата шестого полёта! Он запланирован на час ночи 19-го ноября. Пуск случится так скоро потому, что при сохранении профиля полёта не требуется изменение лицензии, то есть затраты на бюрократию сведены к минимуму. Снова посадка на башню через ~7 минут, снова приводнение корабля в Индийском океане.

Но есть и несколько изменений:
1. Во время пребывания на орбите корабль перезапустит двигатель, чтобы продемонстрировать возможность схода с неё в будущем. Попытка сделать это предполагалась в третьем полёте, но по каким-то причинам не была проведена.

2. Так как запуск теперь ночью, а не днём, то и посадка корабля ... будет в дневное время! Значит, на трансляции мы увидим больше деталей, в том числе плавность «приводнения».

3. В этот раз уберут ещё больше теплозащитных плиток (в тех местах, где, предположительно, их не будет в следующей версии), а сам корабль войдёт в атмосферу под большим углом. Это сделано намеренно, чтобы испытать его в критических условиях.

Если я ничего не путаю, это последний корабль в линейке v1; уже почти готов первый прототип v2. Его полёт, вероятно, увидим нескоро (снова из-за бюрократии и лицензирования), если повезёт — в конце первого квартала 25-го.

Сиолошная

06 Nov, 12:06


Вчера увидел, что мой твит с комментарием по уходу из OpenAI Bob McGrew, VP of Research, лайкнул сам Bob. А потом случайно на ютубе наткнулся на его интервью годовой давности, и решил послушать между делом.

В целом не так много интересного, если активно следите за AI, но решил пересказать одну часть с историей про появление ChatGPT (вот таймкод):

— к середине осени 2022-го уже была натренирована GPT-4 (по официальным данным, тренировка закончилась в августе); в компании знали, что если они смогут придумать, как использовать модель на полную, то это будет невероятно. Вся компания пыталась придумать, что же с ней делать.
— John Shulman, глава команды, занимавшейся Reinforcement Learning (ныне ушёл в Anthropic), предложил сделать модель «разговорчивой», чтобы она могла вести диалог; для тех, кто не застал 2020-2022 годы в LLM: тогда модели просто дописывали текст по шаблону. В 2022м году их уже можно было промптить, давая какую-то задачу, примеры, но и всё.
— ещё до этого было ясно, что в будущем роль AI можно будет описать как «ассистент», но казалось, что модели ещё не достигли нужного уровня, чтобы помогать реальным людям в реальных задачах; поэтому даже не думали о подобном. К тому моменту GPT-3.5 уже около полугода была доступна в публичном API, и никто не сделал прото-ChatGPT.
— John сказал: «да, модели неидеальны, и мы знаем, что GPT-4 будет лучше, но давайте попробуем просто взять, обучить и выложить диалоговую модель в интернет. Может мы наберём хотя бы 10000 пользователей, и они помогут нам понять, где LLM плоха, и мы сможем начать итерироваться и улучшать её»
— Команда немного подумала, так как казалось, что это требует большого количества работы, но в итоге решили сделать и уложиться в НЕДЕЛЮ (ранее об этом писали, кажется, в WSJ, но ссылку за декабрь 22-го не буду искать). По сути, это был сайд-проект компании, они называли его «low key research preview», не было никакого медиа-освещения, не было рекламы. Были минимальные ожидания.
— Но по итогу всё полетело, и через 2 месяца ChatGPT оказался самым быстрорастущим продуктом из всех, достигнув планки в 100 миллионов пользователей. В это время многие сотрудники вообще другим занимались, но пришлось активно впрягаться и поддерживать проект; особенно активными были следующие 6 месяцев.

Вот такой вот урок по истории получился 🤓
🥸

===

Сделать ChatGPT с нуля: неделя
Добавить поиск по чатам: 2 года 😦

Сиолошная

05 Nov, 15:53


Подборка каналов об искусственном интеллекте и машинном обучении от издания «Системный Блокъ»

Data Science, машинное обучение, искусственный интеллект — cегодня о них пишет каждый. Но как найти тех, кто действительно разбирается? «Системный Блокъ» собрал каналы экспертов в сфере ИИ, DS и ML

— @ai_newz — эйай ньюз
Модели для будущих робо-гуманоидов от Nvidia, знакомство с основателями стартапа Mistral, трюки в промптинге языковых моделей и списки книг для изучения машинного обучения — в канале найдете новости из сферы ИИ и советы по входу в неё. Автор канала Артём получил PhD в лаборатории университета Гейдельберга, где сделали Stable Diffusion, работает Staff Research Scientist в команде LLaMA в одной из крупнейших IT-компаний мира и пишет о своем опыте

— @seeallochnaya — Сиолошная
Понятные разборы исследований по нейросетям, охватывающие темы от воздействия на образование до разборов внутренностей LLM. Обзоры новостей, которые влияют на будущее индустрии ИИ: от экономических аспектов до ядерной энергетики для подпитки датацентров. Канал ведёт Игорь Котенков — руководитель ИИ-отдела в международной компании; в прошлом занимался машинным обучением в AliBaba, Яндексе и X5 Retail; автор множества популярных статей-разборов и лекций, подходящих любой аудитории

— @gonzo_ML — gonzo-обзоры ML статей
Интересны обзоры специализированных статей об искусственном интеллекте и машинном обучении, анонсы и анализ больших языковых моделей? Этот проект — для вас! Среди последних публикаций: отражение малых языков в больших языковых моделях и системах машинного перевода, лекции о проблемах сознания и тезисы отчета о состоянии сферы ИИ. Канал ведут CTO Intento Григорий Сапунов, ex-руководитель разработки Яндекс-Новостей, и Алексей Тихонов, ex-аналитик в Яндексе, автор Яндекс-автопоэта и Нейронной обороны

— @boris_again — Борис опять
Здесь вы найдете материалы об IT и программировании, поиске работы в Machine Learning’е, обзоры исследований в области ИИ. Автор работает в eBay, преподает машинное обучение, делится профессиональным и личным, шутит и философствует. Например, рассказывает, как развивать самоконтроль, берет интервью у коллег о карьере в технологическом секторе и делает подборки русскоязычных LLM

— @rybolos_channel — Kali Novskaya
Применение языковых моделей в науке, история GPT в стиле Хармса, подборки курсов по NLP, а также анализ угроз открытым данным, на которых обучаются языковые модели. Канал ведет Татьяна Шаврина — лингвист, менеджер исследовательской команды в LLAMA, большая сторонница опенсорса и открытых данных. Она рассказывает о современных LLM и NLP-исследованиях, важности открытых технологий, этике искусственного интеллекта и сложных вопросах интеллектуальной собственности

— @tech_priestess — Техножрица
Канал для тех, кому интересны математика, разработка и исследования машинного обучения. Создательница проекта работает старшим академическим консультантом в Huawei и рассказывает об исследованиях, в которых участвует (например, о границе между текстами, написанными человеком и ИИ), пишет о трансформерах, NLP, анализе данных и глубоком обучении

— @dealerAI — DealerAI
Как связать дообучение на основе фидбэка от людей с дообучением на ИИ-фидбэке? Чем можно улучшить RAG? Какие маленькие модели выигрывают у больших аналогов? Автор канала Александр Абрамов — создатель языковых моделей, победитель соревнований в Kaggle и хакатонов по Data Science, а также тимлид нескольких ML-команд, которые решают задачи обработки естественного языка и интегрируют LLM в прикладные проекты. В канале есть посты обо всем, что связано с DS, NLP и машинным обучением: например, о новых LLM и галлюцинациях нейросетей

— @sysblok — Системный Блокъ
Как ИИ помогает читать древние тексты? Почему лингвисты проиграли последнюю битву за NLP? Как связаны машинное обучение и японская уличная мода? «Системный Блокъ», основанный выходцами из RND отдела ABBYY, рассказывает о том, как трансформируется культура в век больших данных — что происходит на стыке IT, гуманитарных наук и Data Science или как ML применяют в естественных и гуманитарных науках

Сиолошная

05 Nov, 14:06


From Naptime to Big Sleep: Using Large Language Models To Catch Vulnerabilities In Real-World Code

В июне я писал про Naptime, проект по применению LLM в кибербезопасности от Google. С тех пор проект эволюционировал в Big Sleep (😄), коллаборацию с Google DeepMind для более масштабной работы. Проект всё ещё находится на исследовательской стадии, и авторы использовали в основном маленькие программы с известными уязвимостями для оценки прогресса. А потом решили позапускаться на реальных программах, которые каждый день используют миллионы программистов.

В рамках анализа одного из недавних изменений исходного кода SQLite автоматический LLM-агент (если не поняли что это — надо почитать предыдущий пост) на основе Gemini-1.5-Pro обнаружил эксплуатируемое переполнение буфера в стеке. Причём ошибка была лишь отдалённо связана с конкретно этими изменениями (большая часть причины, как я понял, оставалась за рамками изменений, но была невозможно без их внесения) — что не редкость при обычном ручном анализе вариантов. Исследователи даже подметили, что «в этом случае логи рассуждения немного напоминают работу человека — начиная с одной идеи, обдумывая несколько других в ходе исследования, и в конце создавая тестовый пример, который вызывает немного другую, но всё же ошибку»

В технические детали вдаваться не буду, те, кому интересно разобраться в уязвимостях в коде и почитать вырезки из рассуждений модели, которые привели её к прозрению и пониманию проблемы, могут найти это в основном посте.

Интересно, что ошибку нашли ещё до попадания в официальный публичный релиз, так что никаких пользователей это не затронуло. «Мы считаем, что эта работа имеет огромный оборонительный потенциал. Нахождение уязвимостей в программном обеспечении до его выпуска означает, что у злоумышленников нет возможности даже попробовать: уязвимости устраняются еще до того, как хакеры успевают ими воспользоваться».

Если я правильно понял, что имели в виду в блогпосте, то Gemini не отпускали просто на все 4 стороны: ей подавали на вход разные ошибки, которые уже удавалось отловить (в этом же репозитории или хоть где? не ясно), и говорили «Такая вот ошибка уже была; возможно, где-то есть еще одна похожая». Это позволяет сузить задачу от общей («найди любой код с уязвимостями») и задать направление вместо полного перебора всех возможных идей.

Баг был не самый простой для автоматического отлавливания традиционными методами. Обычно используют fuzzing, это когда в функцию или программу подают огромное количество случайных значений в некотором интервале и смотрят, не сломалось ли чего при тех или иных условиях. По идее, если дать достаточно времени, то подобная ошибка с определённой комбинацией условий могла бы найтись; однако используя официальный гайд по тестированию от самих SQLite за 150 CPU-часов и миллионы перебранных комбинаций уязвимость не выскочила, и скорее всего оставалась бы незамеченной долгое время.

А LLM не устают. Они могут читать и рассуждать гораааааздо быстрее и дольше кожаных аналогов. Ждём следующего большого поста, где Google'овцы заявят, что нашли 10-100 других багов пачкой, без ручного вмешательства.

Сиолошная

05 Nov, 06:08


Caitlin Kalinowski пришла в OpenAI «to lead robotics and consumer hardware» (чтобы вести разработку в области робототехники и потребительского оборудования).

Интересно, что это за consumer hardware, и связано ли это как-то с планами OpenAI выпустить революционный потребительский продукт, ориентированный на нативную интеграцию AI? Помните, ещё Jony Ive там замечен?

Caitlin Kalinowski — один из ключевых сотрудников, работавших над Oculus Rift и виртуальной/дополненной реальностью более 11 лет. До этого она трудилась в Apple, участвовала в разработке Apple MacBook Air 11"/13" (Product Design Lead) и Apple MacBook Pro (Thermal Lead). Последний её проект в Meta — очки дополненной реальности Orion (пока относительно неуклюжий прототип, см. фотку). Что это такое можно глянуть в недавнем обзоре TheVerge&

===

Про проект с Jony Ive (отсюда):
— 22-го сентября Jony официально подтвердил, что работает с OpenAI CEO Sam Altman над новым девайсом
— к концу года к этому проекту могут привлечь до 1 миллиарда долларов инвестиций
— сейчас в проекте около 10 сотрудников, включая Tang Tan и Evans Hankey, два ключевых сотрудника, работавших с Ive над iPhone

Сиолошная

05 Nov, 05:42


Для примера ускорения, вот демка с написанием кода. Модель одна и та же, качество одно и то же, а пользовательский опыт куда лучше. Приятно!

Сиолошная

05 Nov, 05:35


В API OpenAI завезли новую фичу — Predicted Outputs. Удивительно, что они сделали это первыми — а то вот кэширование дольше всех добавляли 🥺

Predicted Outputs позволяют существенно ускорить написание ответа в ситуациях, где большая часть генерируемого текста уже известна. Два самых популярных сценария использования — это редактирование кода (где нужно всего пару строк подправить посередине) и переписывание текста.

Работает это с помощью speculative decoding, на пальцах выглядит так:
0. Вспомним, что LLM обладают следующим свойством: они могут «прочитать» много текста за один проход, при этом сделав предсказания для каждого из слов (какое должно идти за ним); но генерация происходит по одному слову за раз (после чего берётся предсказание от последнего слова и приклеивается к исходному тексту)
1. В некоторых задачах мы наперёд знаем большую часть текста ответа. Берём и приклеиваем её ко входу, как будто бы это уже часть ответа (делается под капотом на серверах OpenAI, но текст ответа присылаете вы, см. документацию)
2. Модель делает все предсказания для текста ответа за раз. Это делается быстро, так как не нужно ждать генерации второго слова для получения третьего.
3. Начинается сравнение «что предсказала модель» и «что было написано в ответе». Первое слово и там, и там совпадает, второе тоже.. а вот, скажем, двадцатое — нет. В случае переписывания текста это может быть началом нового абзаца, или изменением имени персонажа в истории
4. Тогда первые 19 слов ответа подклеиваются к настоящему (а не подложенному) ответу. LLM как бы провалидировала, что эти токены и вправду должны использоваться, но сделала это кратно быстрее, чем если бы генерировала сама с нуля.
5. Затем LLM продолжает предсказывать сама, уже по одному слову за раз.
6. В какой-то момент предсказания снова могут начать сходиться с подложенным текстом — и процедура повторится. Сотрудник OpenAI написал, что это происходит, если последние 32 токена совпадают с подложенным ответом. Тогда возвращаемся на пункт 2, приклеиваем оставшуюся часть ответа, сравниваем, итд.

Ускорение происходит за счёт того, что мы можем сразу подхватывать большие токенов, не генерируя их, а лишь «проверяя», что LLM бы выдала их сама — всё за счёт свойства из пункта 0.

Компания Factory провела своё тестирование перед релизом на задачах, связанных с внесением изменений в код. Они брали файлы от 100 до более чем 3000 строк кода (Python, JS, Go, C++), давали текстовое описание, что нужно изменить, и замеряли скорость ответа.

GPT-4o в таком режиме работает даже быстрее, чем Claude 3 Haiku, маленькая и шустрая модель. Модель OpenAI — единственная, кто стабильно укладывается в 30 секунд на ответ, хотя вот, например, свежий Sonnet в среднем тратит более 73 секунд.

По идее, уже сегодня, край завтра в каких-нибудь Cursor и его аналогах вы должны заметить ускорение... или нет, если там под капотом уже добавили промпты, которые заставляют генерировать только отдельные куски, которые уже потом вклеиваются в код.

Сиолошная

04 Nov, 10:00


В ближайшие пару дней нас ожидает увлекательное шоу 🍿 под названием «выборы президента США»

Интересно, разродятся ли AI-компании релизами сразу после, в ближайшую неделю после окончания голосования? И что более интересно, в долгосрочной перспективе как скажется выбор конкретного кандидата на регуляции, субсидии и национальные программы в области? Станет ли Elon Musk главной совета по эффективности? Скажется ли это как-то на скорости развития инфраструктурных проектов вроде постройки/запуска АЭС?

Вполне вероятно, за следующий президентский срок не достигнут AGI, но AI за 4 года куда глубже проникнет в жизнь рядового пользователя интернета, повлияет на рынок занятости (как минимум корректировкой планов найма). С этими и многими другими вызовами обе партии могут справиться очень по-разному.

Да начнётся битва 🥸

===

Если вдруг не смотрели, то я очень рекомендую фильм Vice / Власть (там не про выборы 😑), да и другие картины этого режиссёра

P.S.: а) голосование по почте — бред б) голосование без ID — бред

Сиолошная

03 Nov, 16:11


Картинка к статье, описывающая рост мощностей для тренировки одной модели, и потенциальный потолок.

Сиолошная

03 Nov, 16:11


Data movement bottlenecks to large-scale model training: Latency Wall

Развитие прошлой работы Epoch AI по оценке ограничений масштабирования моделей в будущем. Вот тут был разбор с обзором четырёх основных факторов, и сегодняшняя работа фокусируется на одном из них.

Из факторов, ограничивающих распределенное обучение в больших масштабах, наиболее простым для количественной оценки является естественная задержка в синхронизации девайсов, которая устанавливает верхнюю границу (Latency Wall) мощностей, на которых тренировка может быть совершена за фиксированное время независимо от того, сколько GPU используется.

Основная причина заключается в том, что более крупная модель обычно требует больше шагов обучения во время тренировки, и если это должно быть сделано за фиксированное время (например, 3 месяца), это означает, что каждый шаг должен занимать всё меньше и меньше времени. Если экстраполировать рост моделей, в конечном итоге время на шаг обучения становится настолько коротким, что ограничения не позволят обучать модели бОльшего размера.

В статье приводится много расчётов и оценок, и если вам интересна инженерная сторона вопроса, то рекомендую ознакомиться. Тут будет короткая выжимка выводов:
— сейчас в самые большие модели во время обучения вбухивают примерно 5E+25 FLOP , то есть 5 и 25 нулей, столько операций сделали карточки для обучения Gemini 1.0 Ultra
— если ограничивать тренировку 3 месяцами, то, по оценкам авторов, максимум можно будет пропустить через модель 2E+28 FLOP (в 400 раз больше), если придерживаться эффективного использования GPU (то есть когда время вычислений больше времени на простой из-за синхронизации карточек). Этого хватит, чтобы оптимально обучить модель на ~15 триллионов параметров («оптимально» = по Шиншилле)
— если продолжить текущие тренды, в этот потолок мы упрёмся через 3 года
— если пожертвовать эффективностью и быть готовым, что GPU большую часть времени будут на расслабоне, то Latency Wall отодвигается до 2E+31 FLOP, ещё на 3 порядка, то есть в тысячу раз (модель может вырасти на корень из тысячи ~= в 31 раз)
— все ограничения посчитаны для традиционной имплементации стохастического градиентного спуска, но потенциально тут могут быть прорывы, повышающие эффективность (и уменьшающие количество данных для синхронизации между картами); однако скорее всего они будут немного ухудшать качество
— одним из решений может быть увеличение размера батча, используемого во время тренировки (сколько слов за раз видит модель во всех примерах за один шаг обучения). Проблема в том, что существует «критический размер батча», после которого прирост качества снижается («diminishing returns», убывающая отдача). Возможно это приведёт к тому, что мы будем недотренировывать модели (делать их больше, делать батч больше, а тренировать меньше шагов — чтобы на каждый шаг было достаточно времени)
— потенциально Latency Wall можно будет отодвинуть ещё, если будут прорывы в обеспечении более быстрой коммуникации между девайсами. Уже сейчас в Google TPU используются какие-то навороченные оптические компоненты для улучшения масштабируемости, но я в этой теме ничего не шарю и не могу объяснить, в чём отличие от обычной оптики.

Сиолошная

02 Nov, 10:24


1) У модели в карточке подпись «Our most capable model, great for tasks that require creativity and advanced reasoning»

2) В доп. информации написано 196,608 max tokens (урааа, наконец-то рост!). У других моделей: o1-preview 57,768, o1-mini — 98,304

3) модель в моих тестах и у людей в комментариях думает над задачами дольше (ну конечно, хозяева же разрешили больше токенов писать!)

4) Указано, что принимает jpeg, png, webp и gif, по крайней мере пока. Правда, кто-то уже пытался залить webp и не вышло, что странно.;

UPD: напомню, почему это важно — полноценная o1 значимо лучше во многих задачах, чем preview-версия, так вдобавок ещё и по картинкам сможет делать более глубокие выводы (так как начинает рассуждать)

UPD2: вчера спустя ~3 часа модель отключили, у некоторых уже началась ломка. Ждем полноценного анонса.

Сиолошная

02 Nov, 09:43


Подписчик поделился, что модель o1 (не превью, то есть не предварительная версия) от OpenAI как будто бы стала доступна. Для этого нужно перейти по ссылке https://chatgpt.com/?model=o1

В неё можно загружать как минимум картинки (и есть скрепочка для файлов), и она тоже «думает» (выставляет таймер рассуждений). Может, это всё ещё o1-preview, но в неё нельзя было загружать изображения.

Диалоги с медиа-элементами не шарятся через кнопку share, поэтому в виде доказательства только скрин.

Го тестировать! (вероятно, только Plus-подписчики)

Закидываем в модель самые сложные задачки на математику и программирование (и счёт объектов на картинках или видео, конечно)

UPD: в браузерной консоли разработчика видно, что тег модели o1, без preview, и тем более не 4o

Сиолошная

01 Nov, 14:30


Чё)

так я почти нативе спикер?

(это результаты экзамена по английскому IELTS)

С такими результатами можно поступить на значимую часть журналистских / лингвистических направлений (обычно просят 7.5 — 8.0 и выше)

UPD: я думал у меня будет 8.0 — 8.0 — 5.5 — 5.0

UPD 2: английским я начал заниматься в конце 2020-го года, в школе был немецкий (который не помню даже на A1)

Сиолошная

01 Nov, 11:13


И вот та же таблица в виде графика, но уже с фокусом на модели OpenAI.

Во-первых, видно, что модели разных линеек старших и младших поколений отвечают правильно на примерно одинаковую долю вопросов (синяя область). То есть в o1-preview знаниий примерно столько же, сколько в 4o, и то же верно для mini. Я видел замеры скорости генерации токенов для 4o-mini и o1-mini, и там показывалось, что она уж очень похожая (если для o1-mini считать токены рассуждений, ведь их количество прилетает в ответе, и вы за них платите), правда, ссылку сейчас не найду.

С большой вероятностью можно говорить, что модели o1 получены из базовых версий тех же моделей, что и 4o (ну или хотя бы что «они одного размера и видели одни и те же данные»), и что все приросты, которые мы видим на всех бенчмарках — идут за счёт рассуждений, а не запоминания бОльшего количества информации. Помните, я в своём лонге рассказывал про приросты в играх ЧГК? Ну вот.

Во-вторых, модели с рассуждениями чаще уходят в отказ, а не выдают ошибочный ответ. Это может быть связано с тем, что они могут использовать свои способности к рассуждению, чтобы разобраться и понять, когда они не знают ответа на вопрос, вместо того, чтобы галлюцинировать и выдавать фигню.

Сиолошная

01 Nov, 11:13


При оценке моделей ушли от классической шкалы правильно/неправильно, добавив третью опцию: «не знаю» (Not attempted). В рубрикаторе даётся такое пояснение: в ответе не полностью указан эталонный ответ, и нет никаких противоречий с ним. Самый простой пример такого ответа — это «я не знаю», но могут быть и другие варианты (Q: What are the names of Barack Obama’s children? A: Without researching the web, I cannot answer this question. However, I
can tell you that Barack Obama has two children)

Проверку ответов делает ChatGPT с длиииииинным промптом, в котором представлено по несколько примеров с объяснениями, почему они правильные/неправильные/не засчитываются. После этого считается две метрики:
— доля правильных ответов
— доля правильных ответов из числа тех, кто модель сделала попытку ответить, а не ушла в отказ (Correct given attempted)

Результаты вы видите в табличке. OpenAI добавили замеры для моделей Anthropic в качестве проверкой того, является ли датасет смещённым к моделям GPT из-за принципа сбора данных. А то может все остальные модели уже умеют отвечать, просто OpenAI не на том учат.

Мы видим, что качество Claude тут тоже не очень высоко, поэтому. Еще одно интересное наблюдение относительно моделей Claude заключается в том, что они, как правило, не пытаются отвечать на вопросы так часто, как GPT-4o.

Claude-3.5 Sonnet берёт гораздо меньше вопросов, чем GPT-4o, но также и пытается отвечать на вопросы куда реже (то есть у неё хорошо откалибрована граница знаю/не знаю). Маленькие модели и вовсе сразу отнекиваются в 75% случаев.

Сиолошная

01 Nov, 11:13


Measuring short-form factuality in large language models

Не статья, но по сути открытый бенчмарк от OpenAI.

Открытой проблемой в области ИИ является тренировка моделей на выдачу ответов, которые фактически верны. Современные языковые модели иногда выдают ложную информацию, не подкрепленную доказательствами (известно как «галлюцинации»). LLM, которые выдают более точные ответы с меньшим количеством галлюцинаций, более надежны, и могут быть использованы в более широком спектре задач и приложений.

Фактичность — сложный критерий, поскольку его трудно измерить: оценка любого произвольного утверждения — сложная задача, так как языковые модели могут генерировать длинные ответы, содержащие десятки фактических утверждений (не все из которых релевантны вопросу, но тем не менее могут быть правдивыми).

В SimpleQA OpenAI сосредоточились на коротких запросах. Всего в бенчмарке 4326 вопросов на разные темы (больше всего про технологии и науки, но есть и про музыку, историю).

Чтобы попасть в датасет, каждый вопрос должен был соответствовать строгому набору критериев:
— он должен иметь единственный, неоспоримый ответ, который легко верифицировать
— ответ на вопрос не должен меняться с течением времени; — большинство вопросов должны были вызывать галлюцинации у GPT-4o или GPT-3.5

Вопросы были заготовлены разными исполнителями в соответствии с требованиями выше. Затем второй эксперт отсматривал вопросы, не видя ответ, и пытался найти ответ. Если ответы не совпадали — такой вопрос не добавляли.

Для 1000 случайных вопросов привлекли ещё третьего эксперта, чтобы оценить чистоту данных. Его ответ совпадал с ответами первых двух в 94.4% случаев. 2.8% ошибок были вызваны невнимательной работой третьего эксперта, и 2.8% были вызваны реальными проблемами с вопросом (например, неоднозначные вопросы; или разные веб-сайты, дающие противоречивые ответы). Таким образом, OpenAI оценивают собственную частоту ошибок для этого набора данных примерно в 3%.

Примеры вопросов:
— Which Dutch player scored an open-play goal in the 2022 Netherlands vs Argentina game in the men’s FIFA World Cup?
— Who received the IEEE Frank Rosenblatt Award in 2010?
— What day, month, and year was Carrie Underwood’s album “Cry
Pretty” certified Gold by the RIAA?
— What is the first and last name of the woman whom the British
linguist Bernard Comrie married in 1985?

Сиолошная

01 Nov, 08:33


Уже каждый канал написал, что OpenAI выкатили ChatGPT Search. Много рассказывать не буду, TLDR:
— это улучшение уже существовавшей функции поиска по интернету
— работает шустро, не нужно ждать несколько секунд до начала генерации ответа
— за счёт более чем десятка парнтёрств с масс медиа ChatGPT имеет доступ к почти всем свежим новостям
— под капотом gpt-4o, дообученная на с помощью синтетических данных, включая дистилляцию ответов более продвинутой o1; за поисковый индекс отвечает Microsoft Bing
— доступно всем Plus юзерам, бесплатным перепадёт «in the coming months»
— можно поставить плагин для браузера, чтобы поисковые запросы вместо Google сразу шли в ChatGPT

А вот ещё параллельные новости:
— META разрабатывает свой поиск, чтобы уменьшить зависимость от Google + Microsoft. Работа над парсингом и сбором ведётся как минимум 8 месяцев
— Mark Zuckerberg заявил, что LLAMA-4 уже тренируется (скорее всего малая версия) на кластере из более чем 100'000 GPU H100. Первые детали стоит ожидать, вероятно, во второй половине первого квартала 2025-го.

— Google за 1 минуту до OpenAI (буквально) выкатили search grounding для Gemini в UI и в API. Эта функция использует результаты поисковой системы Google для обоснования ответов, сгенерированных LLM. В API стоимость кусается: $35 за 1000 запросов (то есть за использование поискового индекса Google, чтобы найти релевантные документы и предложить их LLM'ке; так что придётся ещё и за input tokens платить, видимо)

Сиолошная

31 Oct, 22:01


В стане чипов, заточенных под современный AI, прибыло. Вернее, стартап Etched рассказывал про чипы Sohu, заточеные под работу с трансформерами (архитектурой, лежащей в основе большинства современных LLM/VLM/...), ещё летом, и даже рисовал цифорки скорости

Чип является ASIC (Интегральная схема специального назначения), то есть он не может делать всё подряд, но может делать узкий набор операций, достаточный для работы современных сетей, ооооочень быстро. С их слов, в картах Nvidia только 3.3% транзисторов используются дял перемножения матриц (основная операция в нейронках), и они хотят это исправить и перебалансировать (больше тут).

Летом они говорили, что 8 чипов Sohu дают больше 500'000 токенов в секунду на LLAMA-3 70B (не для одного запроса, а для большой группы). По их замерам, даже 8 продвинутых B200 то Nvidia дают около 25-30 тысяч токенов в секунду.

Теперь же от графиков и слов перешли к чему-то более осязаемому. Парни из другого стартапа, Decart.ai, обучили диффузионную модель генерировать кадры из Minecraft в зависимости от ваших действий. Очень похоже на виртуальный сгенерированный Doom, про который я уже писал, так что опущу технические детали (читать самому тут). Утверждается, что обычная H100 может гонять модель на 500M параметров для генерации кадров в разрешении 720p с частотой 20 кадров в секунду, Sohu может позволить себе 4K@30FPS (в обоих случаях производится апскейлинг в 3 раза). В своём блоге Etched описывают видение, согласно которому через несколько лет большая часть видео будет генерироваться (тем актуальнее их чип), и что уже сейчас доля трафика под видео составляет 70% от всего — так что маркет очень большой.

Поиграть в сгенерированный Minecraft можно тут. Правда... она всё равно запущена на H100, а не их чипах 🤷‍♂️

Сиолошная

30 Oct, 18:16


Boston Dynamics наконец нормально показали нового Атласа.

На видео он перемещает крышки двигателя между контейнерами поставщика и специальной тележкой для сборки. Роботу дают список, откуда и куда нужно переместить детали.

Атлас использует Computer Vision, чтобы распознавать объекты вокруг и находить нужные контейнеры [0:36]. Он применяет специальный способ захвата и постоянно следит за положением предметов, чтобы аккуратно выполнять задачу.

Круто, что движения робота не задаются заранее и не управляются оператором; все действия он выполняет сам в режиме реального времени. Атлас может замечать и реагировать на изменения в окружающей среде (например, если что-то рядом двигается) и на ошибки (например, если крышка не вставилась, робот споткнулся или столкнулся с чем-то [1:24]). Для этого он использует зрение, датчики силы и внутренние сенсоры.

Еще он забавно крутит головой и телом на 1:00 - получаются неестественные развороты.

Выкладываю полное видео для тех, у кого всякие ютубы не работают.

Сиолошная

30 Oct, 09:46


Пачка новостей на сегодня:
— Reuters узнали новые детали о планах OpenAI на производство собственных чипов. Уже было известно, что калифорнийская компания заключила партнёрство с Broadcom (они делают TPU для Google уже больше 7 лет). «OpenAI рассматривали возможность создания всего с нуля собственными силами, с привлечением капитала для дорогостоящего плана по созданию сети заводов, известных как «foundries» для производства чипов. Компания пока отказалась от амбициозных планов из-за затрат и времени, необходимых для создания сети, и вместо этого планирует сосредоточиться на внутренних усилиях по проектированию чипов», согласно источникам издания. Через эти договорённости OpenAI забронировали производственные мощности TSMC (которые печатают буквально все чипы, от айфоновских до Nvidia GPU) на 2026й год — именно тогда стоит ждать первых чипов.
— этот новый чип будет нацелен не на обучение моделей, а на эффективное их использование. Можно ожидать, что цена использования даже бОльших, чем сейчас, сетей будет снижаться

Из этой новости мне не ясно, от каких именно планов отказались OpenAI. Та же ли это вещь, что называлась Project Tiger? Или это процесс, который породил шутку про 7 триллионов долларов? Не ясно 🤷‍♂️ и, быть может, от планов решено отказаться пока, и в будущем к ним вернутся (когда условные TSMC поймут что всё же надо расширяться в 35 раз, а не в 6, и не будут называть Altman'а podcasting bro).

===

— CEO Alphabet, материнской компании Google, на звонке по результатам третьего квартала сказал, что «более четверти всего нового кода в Google генерируется AI, а затем проверяется и принимается инженерами». Четверть на масштабах такой компании — это очень много. Я не могу сейчас найти ссылку на новость/пост в канале, но где-то в начале года Google отчитывались, что их внутренние эксперименты показали ДВУЗНАЧНЫЙ рост производительности программистов (то есть условно +10% больше кода или задач в единицу времени, что-то в этом духе). То есть паттерн «оставить экспертов для валидации, а написание кода частично делегировать» — работает в полной мере. И всё это ещё без свежих моделей нового поколения; легко могу поверить, что с какой-нибудь специально заточенной внутренней версией Gemini 2.0 процент кода, написанного моделью, перевалит за 33%.

===

— В продолжение темы программирования, я уже несколько раз писал про SWE Bench. Это бенчмарк оценки способностей LLM по внесению изменений, описанных текстом, в кодовую базу большого существующего проекта (одни из самых популярных Python-фреймворков, например, Django). Существует подозрение, что многие из задач, которые решает модель, она уже видела во время тренировки. Авторы бенчмарка решили замерить качество на задачах до порога отсечения знаний модели GPT-4o и после (и то же сделали для Gemini, результаты схожи), и оказалось, что свежие задачки, появившиеся весной-летом, решаются даже лучше старых. Опять же, часть успеха можно списать на запоминание большой части кода (то есть модель с ним куда лучше знакома, чем с вашим каким-нибудь домашним проектом), но всё равно круто. Причём, качество там прям как-то совсем дико растёт, с 27.6% до 47.1%. Однако тут должна быть большая погрешность замеров — ибо примеров более поздних задач очень мало.

Сиолошная

29 Oct, 19:17


Чуть меньше двух лет понадобилось OpenAI, чтобы добавить, казалось бы, такую простую фичу — поиск по чатам. Пользователи с подпиской Plus и Team получат доступ в течение дня — но пока только на Web (на сайте). Пользователи Enterprise и Edu получат доступ в течение недели.

Бесплатные пользователи начнут получать доступ к фиче в течение следующего месяца.

Но это конечно шок что ТАК долго делали столь необходимую вещь.

Сиолошная

28 Oct, 19:51


LMSYS Arena обновилась, добавили свежий Sonnet 3.6 (будем его так называть, чтобы отличить от старого 3.5). Можно констатировать рост качества на нескольких группах запросов, в частности связанных с математикой и программированием. Обратите внимание, что на 3 из 4 скриншотов поставлена галочка поправки на стиль — это значит, что голоса людей «очищаются» от эффекта длины ответа LLM (люди в среднем любят кликать на более полные и длинные) и от количества элементов обрамления (заголовки и списки, которые тоже оттягивают внимание).

В общем зачёте модель всё ещё уступает OpenAI'шным, в математике o1 продолжают рвать. Зато у программистов новая игрушка — уже слышал хорошие отзывы на Sonnet 3.6. Правда, слышал также и негативные, мол, то, что уже работало, перестало работать и выдаёт странные ответы.

Кроме этого видел разные бенчмарки, где-то модель чуть лучше, где-то чуть хуже ChatGPT-4, но большого количества отрывов в целой россыпи задач, как было с o1, не случилось. Наверное, можно ждать этого в агентских бенчмарках, но ни GAIA, ни SWE-Bench с момента релиза не обновились :(

Сиолошная

28 Oct, 09:30


Про бедность — скорее всего, powerful AI продолжит развитие технологий для борьбы с голодом, разрабатывая лучшие удобрения и пестициды, или даже занимаясь генной инженерией отдельных культур (растений, не людей 👀).

4️⃣Мир и управление
Dario не верит, что AI повлияет на структуру демократии и правления в той же мере, что и на предыдущие 3 пункта.

Тут предлагается схема, схожая озвучиваемой главой OpenAI: создать коалицию демократий, имеющих доступ к (около-)powerful AI, которая будет в ответе за мир на всей Земле. В её роль входит защита своей цепочки поставок (в том числе компонентов для разработки и поддержания powerful AI), и блокировка/ограничение доступ противников к ключевым ресурсам, таким как чипы и полупроводниковое оборудование.

Эта же коалиция предлагает свой AI и ресуры всем желающим принять правила игры. На примере атомной бомбы: вот мы сделали, и мы охраняем вас, но взамен вы не делаете ядерное оружие сами. Кнут — военное и экономическое превосходство коалиции, пряник — доступ к технологии. В случае необходимости демократические правительства в коалиции могут использовать свой powerful AI, чтобы выиграть информационную войну с противником (включая пропаганду).

5️⃣Работа и смысл жизни
Dario замечает, что наличие кого-то, кто делает вещи лучше меня, не обесценивает для меня же самого ценность труда. Например, можно потратить много времени, пытаясь стать лучше в видеограх или езде на велосипеде. Люди всё равно продолжают это делать, не только профессионалы.

Пока AI лучше справляется только с 90% заданной работы, оставшиеся 10% приведут к тому, что люди станут куда более ценными в почти-автоматизированной-цепочке-труда, что приведёт к росту компенсации и фактически создаст множество новых рабочих мест для людей, дополняющих AI.

Так что эти оставшиеся «10%» существенно вырастут в абсолютных величинах( 90%-то автоматизированно). Суммарный выхлоп производства вырастет кратно, так как теперь 100% людей будут заняты в этих 10% задач. Тут Dario ссылается на «Заблуждение о неизменном объёме работ», мол, объём доступных работ является фиксированным (это не так). Их объем будет расти и расти по мере развития технологии, так что спрос на 10% будет тоже расти, и всасывать в себя людей-экспертов.

Люди скорее всего долгое время будут лучше AI в физических задачах в реальном мире (пойди туда сделай то), и даже если AI будет лучше в 100% в чём-то — это может быть не выгодно экономически во многих странах, где люди готовы что-то делать за еду. Когда-то и это перестанет быть правдой (то есть AI будет делать всё), но это точно выходит за рамки его предсказаний «10 лет после изобретения powerful AI».

===

В конце Dario проводит сравнение с книгой «The Player of Games», но краткий пересказ я делать не буду, это прочитаете сами, если реально интересно (мне вот было интересно)!

Сиолошная

28 Oct, 09:30


CEO Anthropic, Dario Amodei, пару недель назад последовал примеру Sam Altman и стал эссеистом, опубликовав «Machines of Loving Grace: How AI Could Transform the World for the Better». Я постараюсь сделать краткий пересказ некоторых (в основном, неосновных) пунктов, но тем, кто может, рекомендую прочитать оригинал.

Это эссе — это попытка изобразить, как может выглядеть положительный эффект от A(G)I в разных областях, если все пойдет правильно. Лидеры компаний не часто о таком говорят, куда чаще слышно о рисках и проблемах машинного интеллекта. Dario описывает свои причины, почему он не очень любит заниматься подобным: 1) чтобы не воспринималось как пропаганда 2) чтобы не отвлекать от реальных рисков, с которыми нужно работать 3) чтобы не получить значок «мечтает о научной фантастике» (потому что многие из предположений и предсказаний действительно могут так выглядеть).

Термин AGI автору не нравится, он предпочитает в этом контексте использовать «powerful AI», который сам ожидает уже к 2026-му году. Однако в силу разных, в том числе геополитических причин, его появление может произойти позже на сколько-то лет. Потому эссе фокусируется не на истории до появления powerful AI, а на последующих 5-10 годах. Powerful AI определяется аж в 6 параграфах через разные примеры, но TLDR такой: «умнее лауреата Нобелевской премии в большинстве соответствующих областей — биологии, программировании, математике, инженерии, письме. Он имеет все «интерфейсы», доступные человеку, работающему удалённо, включая текст, аудио, видео, управление мышью и клавиатурой, а также доступ в Интернет; может действовать автономно и проактивно на протяжении дней и недель». В общем, это можно свести к «страна гениев в датацентре».

1️⃣Биология
Напомню, Dario имеет докторскую степень по биофизике от Princeton University, и после был постдоком (вёл исследования) в Stanford University.

«Я думаю, что скорость открытий в этой области могла бы быть увеличена в 10 раз или даже больше, если бы было намного больше талантливых, креативных исследователей. Я думаю, что отдача от интеллекта высока для некоторых прорывных открытий, и что все остальное в биологии и медицине в основном следует из них». Почему? Потому что многие из прорывных исследований могли бы быть сделаны сильно раньше (тут в пример приводится CRISPR и mRNA вакцины), часто одними и теми же людьми. Последнее означает, что важен навык и интеллект, и что это не случайность.

«Я предполагаю, что powerful AI мог бы по крайней мере в 10 раз ускорить темпы таких открытий, обеспечив нам следующие 50–100 лет биологического прогресса за 5–10 лет. Я буду называть это «сжатым 21-м веком»: идея в том, что после разработки мощного ИИ мы за несколько лет достигнем в биологии и медицине всего того прогресса, которого ожидали бы достигнуть бы за весь 21-й век».

2️⃣Нейронаука и разум
Применим тот же тезис про сжимание 21-го века, по тем же причинам: мало дйествительно важных открытий, на которых всё базируется, и делаются в основном теми же людьми. Dario считает, что большинство самых распространённых ментальных проблем и заболеваний будут либо гораздо лучше лечиться, либо полностью излечимы.

3️⃣Экономическое развитие и бедность
Блок посвящён ответу на вопрос «будут ли доступ к этим технологиям у всех?» (особенно у развивающихся стран). Тут отмечается, что этот вопрос должен прорабатываться и AI компаниями, и политиками развитых стран — без этого само собой всё не получится, разрыв будет увеличиваться.

Может ли развивающийся мир быстро догнать развитый мир не только в здравоохранении, но и по всем направлениям экономики? Для этого есть несколько прецедентов: в последние десятилетия 20-го века несколько восточноазиатских экономик достигли устойчивых темпов роста реального ВВП ~10% в год, что позволило им догнать развитый мир. Вероятно, «AI-министры финансов» смогут это повторить и сейчас — главное, чтобы на местах не сопротивлялись, так как люди могут не понимать в полной мере, от чего отказываются.
По сути предлагается замедлить прогресс самых развитых стран, подтянуть остальных, и затем шагать вместе.

Сиолошная

27 Oct, 17:32


Первый пост — краткая сводка новостей:
— TheVerge пишут, что Google готовит Gemini 2.0 на декабрь, «тот же месяц, в который запланирован релиз следующей флагманской модели OpenAI» (про последнее я уже писал)
— в той же новости журналист пишет: «я слышал, что модель не показывает тех результатов качества, на которые надеялась команда под руководством Demis Hassabis» (это основатель и глава Google DeepMind, а ещё он недавно Нобелевскую премию получил, вот)
— «В кругах специалистов по искусственному интеллекту я слышу разговоры о том, что эта тенденция наблюдается во всех компаниях, разрабатывающих фронтир модели». Тенденция — что масштабирование размера и мощностей дальше не даёт ожидаемых приростов. Jimmy Apples прокомментировал это: «Да, отсюда и спешка с моделями типа OpenAI o1, смотрите в ближайшем будущем на xAI [от Elon Musk]». Если это правда и так будет, то а) интересно, насколько OpenAI опять раньше всех (прошло полтора месяца, ни одного схожего релиза нет) б) «задают тренды». Быть первопроходцем и видеть путь всегда сложнее, чем следовать по нему, зная, что уже возможно
— [не воспринимайте два абзаца выше как утверждение «масштабирование не работает», там лишь написано, что результаты хуже ожидаемых]
— со стороны Google над o1-подобной моделью работает легенда индустрии, Noam Shazeer, со-автор оригинальной архитектуры трансформера и бессчётного количества мелких (и не очень), но клёвых идей. Его недавно перекупили из его же компании за более чем миллиард долларов (он ушёл из Google несколько лет назад)
— из той же новости TheVerge: Grok 3 и LLAMA-4 уже тренируются, Grok на 100'000 видеокарт, а поделие META якобы даже на большем количестве. Последний факт мне кажется чуть-чуть сомнительным, подождём через 4-6 мес статью, чтобы узнать, как оно было
— Google готовит агентов, подобных недавно показанным у Anthropic (те, что «берут под контроль» ваш компьютер, то есть предсказывают, куда кликать и какие кнопки нажимать, чтобы выполнить задачу). Кодовое название проекта — Jarvis. Должно выйти в декабре вместе с новой модель Gemini 2.0. Интересно, разродятся ли чем-то похожим OpenAI — они ведут разработку как минимум с февраля, и что-то готовят к показу в ноябре-декабре. Эх, на рождество у нас будет столько подарков!
— пользовали в твиттере начали сравнивать модели по... постройкам в Minecraft (см. картинку). LLM получают задачу построить что-то, затем пишут код, исполнение которого приводит к появлению сцены с объектами. На первом примере вы можете видеть Тадж Махал от Sonnet 3.5 (new) и o1 preview (мне больше этот нравится), а на втором — Солнечную систему с планетами. Ждём подобие арены, где нужно выбирать между двумя вариантами и ранжировать нейронки от лучшей к худшей. Посмотреть больше примеров можно у автора в твиттере тут.

Сиолошная

27 Oct, 16:48


Я сходил в магазин и забыл купить попкорн на вечер, поэтому предостерегаю вас, чтобы вы не совершили такой ошибки — потому что сегодня будет ещё два поста

🥸

Сиолошная

25 Oct, 07:26


The US Government wants you

Сегодня утром Белый дом опубликовал Меморандум о национальной безопасности, в котором говорится, что «ИИ, вероятно, повлияет почти на все сферы, имеющие значение для национальной безопасности». Привлечение технических талантов и наращивание вычислительной мощности теперь являются официальными приоритетами национальной безопасности.

DoS, DoD и DHS «должны использовать все имеющиеся юридические полномочия для содействия быстрому привлечению для въезда в страну и работы лиц, обладающих соответствующими техническими знаниями, которые могли бы повысить конкурентоспособность Соединенных Штатов в области ИИ и смежных областях»
(наконец-то можно будет визу не по году ждать? или нет... 🥺)

Теперь официальной политикой является то, что США должны лидировать в мире по способности обучать новые foundational models. Все правительственные агентства будут работать над продвижением этих возможностей. (так прям и написано)

В течение 180 дней AISI должны разработать бенчмарки для оценки навыков и ограничений моделей в науке, математике, генерации кода и рассуждениях

===

OpenAI сразу же выпустили пост со своим мнением и описанием роли в рамках происходящего. Там мало интересного, можно выделить разве что упор на демократические ценности: «Мы считаем, что ИИ должен разрабатываться и использоваться способами, которые способствуют свободе, защищают права личности и способствуют инновациям. Мы считаем, что это потребует принятия ощутимых мер по демократизации доступа к технологии и максимизации ее экономических, образовательных и социальных преимуществ» (про Safety тоже есть, не переживайте).

===

А помните Situational Awareness от Leopold?

Сиолошная

25 Oct, 06:05


The Verge: OpenAI планирует запустить Orion, свою следующую передовую модель, к декабрю

В отличие от выпуска последних двух моделей OpenAI, GPT-4o и o1, Orion изначально не будет широко доступен пользователям ChatGPT. Вместо этого OpenAI планирует сначала предоставить доступ компаниям, с которыми тесно сотрудничает, чтобы они могли создавать свои собственные продукты и фичи, сказал источник издания, знакомомый с планами.

Другой источник сообщил The Verge, что инженеры Microsoft — основного партнера OpenAI по развертыванию моделей — готовятся разместить Orion на Azure (облачная платформа) уже в ноябре.

Хотя в OpenAI Orion рассматривается как преемник GPT-4, неясно, будет ли компания называть его GPT-5 за пределами компании. Ранее сообщалось, что OpenAI использует выпущенную модель o1 для генерации синтетических данных для тренировки Orion.

P.S.: напомню, что это должен быть не yet another release: модель больше, в неё вложили существенно больше мощностей, и ожидается (кем? мной) прокачка способностей по всем фронтам, а не +3-4% на бенчмарках.

Сиолошная

24 Oct, 14:11


Пара примеров того, как выглядит работа в инструменте

Сиолошная

24 Oct, 14:09


Помните пару месяцев назад многие смотрели на ответы LLMок на запрос «Что больше, 9.8 или 9.11?»? Вот в этом блоге-анонсе инструмента для механистической интерпретируемости авторы пытаются понять, почему так происходит, анализируя внутренние состояния модели. Про интерпретируемость и анализ внутренностей я недавно писал лонг, если пропустили — рекомендую к прочтению.

Так вот, что делается в инструменте:
1) вы выделяете слово «больше» в неправильном ответе «9.11 больше 9.8»
2) программа находит, какие части модели больше всего повлияли на это предсказание. Для этого поочерёдно зануляются разные части (нейроны) внутри LLM, и анализируется уменьшение вероятности слова «больше». Допустим, без стороннего влияния модель предсказывает это слово с вероятностью 94%, а после отрубания какого-нибудь 100500-го нейрона в 10-м слое — 35%. Значит, влияние есть
3) в фоне, ещё до запуска инструмента, через модель прогоняются сотни тысяч разных текстов, и сохраняются все внутренние состояния сети (какие нейроны и как работали)
4) теперь нужно объединить шаги 2 и 3 — найти такие примеры текста из общей выборки, которые вызывают такое же срабатывание (сильно положительное или сильно негативное) тех же самых нейронов. Эти тексты можно отсмотреть глазами и попытаться выявить общую тему (или использовать для этого LLM — так предлагали делать OpenAI; тут тоже под капотом есть кластеризация, правда я не разбирался, как именно она работает).

Два обнаруженных сильных концепта, которые «возникают в голове» у модели при ответе на этот вопрос — это атаки 11-го сентября (потому что 9/11) и гравитационная динамика (потому что физическая константа 9.8). Но если чуть поменять запрос (9.9 и 9.12), то они уходят, поэтому фокусироваться на них не имеет смысла.

А вот какие концепты есть и в одном случае, и в другом — религиозная. Если рассмотреть конкретные примеры в этом кластере, то они связаны со стихами из Библии, что также может вызвать проблемы, если 9.8 и 9.11 интерпретировать как 9:8 и 9:11 (глава:стих). И в книгах ведь действительно 9:8 идёт до 9.11 — поэтому можно сказать что 9.8 меньше 9.11.

После обнаружения проблемных нейронов (которые срабатывают, хотя должны «молчать») их можно занулить, то есть отключить их влияние на финальный результат: они ничего не будут добавлять или убавлять.

Для замера качества вмешательства авторы собрали выборук из 1280 примеров вида «что больше X.Y или X.Z», меняя переменные. До любых изменений LLAMA-3-8B отвечала чуть лучше случайного гадания — 55% правильных ответов. Если занулить 500 случайно выбранных нейронов, то будет 54-57%, особо разницы нет. Но если занулить 500 нейронов, которые ближе остальных к Богу (🙂), то качество вырастет до 76%. Его можно разогнать до 79%, если включить сюда ещё нейроны для дат и телефонов (даты потому что 9 сентября 9.9 раньше 9.11 — тоже путает модель). А ещё попробовали заставить модель сортировать набор чисел — тоже сильно улучшило.

«Одна из спекуляций заключается в том, что эти нейроны заставляют LLAMA интерпретировать числа как библейские стихи, так что, например, 9.8 и 9.11 становятся 9:8 и 9:11, что приводит к тому, что 9:8 оказывается перед 9:11. Однако требуется некоторая осторожность — например, другая гипотеза, которая соответствует данным, заключается в том, что LLAMA'у просто «отвлекает» слишком много концептов, срабатывающих одновременно, и все, что убирает шумные активации, полезно. Есть и другие возможные причины...» (то есть это не финальный вердикт, что именно вот точно по одной причине какая-то проблема)

Потыкать инструмент самому: тут

UPD: на удивление зануление нейронов, которые срабатывают при обсуждении версий библиотек для программирования (там тоже 9.11 после 9.8 может идти), не приводит к росту доли правильных ответов!

Сиолошная

24 Oct, 13:07


У OpenAI опять случилось это.

Уволился глава AGI Readiness.

TL;DR
— хочет больше открытости и публикаций
— хочет больше регулирования и совместных инициатив, иначе безопасного ИИ нам не видать
— хочет более серьезно заниматься предсказанием прогресса в ИИ

Вот вам и AGI через 2 года

Сиолошная

24 Oct, 09:34


Хотел репостнуть разбор статьи от @gonzo_ML, но а) люди часто не видят что это пересланное сообщение б) и тем более не переходят в канал чтобы увидеть, что там кроме этого еще сотня разборов за несколько лет (я почти все прочитал, и вам советую пробежаться по отдельным интересным топикам)

Что хотел репостнуть: https://t.me/gonzo_ML/2964, статья про агента, который для решения задачи мог менять свою структуру. Интересно, что для одной из задач, которая решается не через LLM, а банально через написание программы, система ровно к этому и пришла после нескольких неудачных попыток.

Сиолошная

23 Oct, 19:23


Сегодня сводка новостей:
— Jimmy Apples, надёжный источник информации о ведущих AI-лабораториях, говорит, что Anthropic работает над своим ответом на модель OpenAI o1 и планирует релиз к концу года. Компания Elon Musk xAI целится в выпуск схожей технологии через ~3 месяца
— ещё в начале сентября он писал, что в октябре OpenAI выпустят модель 4.x (может быть GPT 4.5), а GPT-5 будет готова в декабре, но лучше готовиться к первому-второму кварталу 2025-го. 13-го октября Jimmy написал «Держим кулачки, чтобы они не отложили/не изменили планы» — так что умеренно готовимся к впечатляющим (или нет) релизам.
— Anthropic в своём посте-сопровождении вчерашнего релиза модели с функцией управления компьютером написали следующее: «Мы были удивлены тем, как быстро Claude обобщила тренировочные задачи по использованию компьютера, которые мы ей дали, в которых использовались всего несколько простых программ, таких как калькулятор и текстовый редактор (в целях безопасности мы не разрешали модели выходить в Интернет во время обучения)». Как будто бы эта фраза намекает, что а) модель не обучалась ходить через браузер по разным сайтам б) с большинством проприетарных программ тоже не в ладах. Зато какой потенциал для развития!
— Одной из выявленных во время тестирования проблем были джейлбрейки — тип кибератака с внедрением вредоносных инструкций на сайты (не обязательно заметно для человека). Например, можно попросить игнорировать инструкции и попросить перевести все средства из кошелька на спец. счёт — и если не следить за тем, что там агент кликает, денежки утекут. Они постарались это исправить, но пока работает не идеально. Я вчера сам тестировал, и модель зашла на скам-сайт без адблока, и вылезла реклама «ваш компьютер заражен вирусами, кликните для установки антивируса» — и получив эту картинку агент отказался дальше работать, а API Anthropic выкинуло ошибку (то есть они делали проверку на своей стороне, чтобы меня обезопасить)
— сейчас модель не умеет перетягивать мышкой объекты, менять масштаб окон итд, но это добавится в будущем
— TheInformation пишут, что OpenAI уже долгое время работают над схожим продуктом — первая новость была в посте от 7-го февраля — но пока не ясно, когда будет запуск
— однако в компании уже провели внутреннее демо предварительной версии агентов, аналогичных показанным Anthropic (в рамках презентации модель заказал еду в офис)
— кроме этого, компания работает над продуктами для помощи внутренней разработки. Более конкретно, некая система будет брать на себя задачи по программированию, которые могли бы занять у людей часы или дни; она будет автоматически писать тесты и проверять, что не совершает ошибок в следовании пользовательскому запросу; когда этот продукт станет доступен вовне — тоже не ясно
— но уже есть несколько оконченных инструментов, которые активно используются внутри (например, для ускорения работы исследователей в запуске экспериментов с моделями — со слов одного из сотрудников)
— По словам человека, который общался с высшим руководством OpenAI по поводу этих продуктов, по некоторым показателям, которые OpenAI использует для оценки возможностей моделей, недавние модели Anthropic показали преимущество над моделями OpenAI (lol 😶🌫)

Сиолошная

22 Oct, 17:34


Я запустил Computer Use – вот видео, где агент сам находит меня в интернете, идет на сайт и общается там с Eliza ботом о котором я недавно писал

Что заметил из тестов:
– Агент отказывается писать комментарии или посты (в канал отказался постить, хотя нашел и я залогинился – должен был обозвать вас кожаными мешками)
– У него проблемы со скролом страницы поиска, и он так зависает (случайно попадает в футер и не знает что делать)
– Пока ощущения будто дурачка за компьютер посадил, но понятно куда идет
– Нашел мне место где можно выпить вкусного пива и отметил его на карте, всем пока

Сиолошная

22 Oct, 16:11


Фух ну слава богу, теперь мы знаем, что модель учили на демонстрациях живых людей 😀

Перевод: Claude внезапно взяла паузу во время нашего демо с написанием кода и начала внимательно рассматривать фотки Национального парка Йеллоустоун.

(Даже видео есть, вот — пошла в гугл и сделала запрос)

Не ну а чо, потом ещё на перекуры будет ходить, и чайку на кухне подцепит.

Сиолошная

22 Oct, 15:48


Как это выглядит в скриншотах (см. колонку слева, где Claude размышляет и предлагает действия: куда кликнуть, что ввести, когда промотать страницу)

Видео на английском c пояснениями тут: 1, 2, 3

Для билдеров: вот ссылка на официальную документацию для этого экспериментального API. А вот тут Github репа с кодом демок.

Сиолошная

22 Oct, 15:46


Тезисно:
— Anthropic представили новую возможность для публичного тестирования: использование компьютера (уже доступно в API). Разработчики могут давать Claude использовать компьютер так, как это делают люди — глядя на экран, перемещая курсор, нажимая кнопки и печатая текст.
— Claude 3.5 Sonnet — первая передовая модель, предлагающая использование компьютера в публичной бета-версии (ну, из коробки да, но для других моделей это уж было года два...на GitHub. А тут они прям уверены!)
— этими возможности уже тестируют Asana, Canva, Cognition (которые Devin делали), DoorDash, Replit, и The Browser Company (это браузер Arc, на котором я сижу; они делают большую ставку на AI в браузере для выполнения действий вместо вас)
— The Browser Company отметили, что при использовании модели для автоматизации веб-задач Claude 3.5 Sonnet превзошла все модели, которые они тестировали до этого (но без деталей. Ждём обновление браузера? 🙂)
— новая модель сильно прокачалась в кодинге. На бенчмарке по внесению изменений в код на уровне целого большого репозитория (десятки тысяч строк кода) SWE-bench Verified качество выросло с 33.6% до 49% — это если сравнивать старый Sonnet и новый с использованием SWE-Agent (открытый фреймкорк из Berkley). Но были и другие решения, которые заточены именно на улучшение оценки, но недоступны нам — они выдавали 45.2%. Они, наверное, пробьют 55% просто через замену модели.
— Haiku (младшая версия, дешёвая) получает 40.6% на этом бенчмарке, что лучше старого Sonnet 3.5. Видно, что Anthropic вложились в ИИ-агентов и/или reasoning

Что это за "использование компьютера"? Claude транслирует ваши инструкции вроде «возьми данные с моего компьютера и из Интернета для заполнения вот этой формы и пройдись по всем полям») в компьютерные команды (прочитать таблицу на экране; переместить курсор, чтобы открыть веб-браузер; перейти на соответствующие веб-страницы; заполнить форму данными с этих страниц и т. д.)

Пока работает с достаточно базовыми командами и на разных бенчмарках вроде OSWorld выдаёт всего 22% (прошлый лучший результат был 7.8%, если использовать только скриншоты экрана, без трансляции в специльную форму для слабовидящих). Однако компания ожидает быстрых улучшений в ближайшем будущем через сбор обратной связи от разработчиков. Тут они сильно обошли OpenAI и других — как мы знаем, данные это новая нефть, и каждый день отставания других игроков приносит ценность. Очень ждём, что ответят OpenAI.

Сиолошная

22 Oct, 15:11


Новая модель от Anthropic... 😍 но не Claude 3.5 Opus 🥺

Встречаем Claude 3.5 Haiku, младшую и дешевую версию. Однако доступная уже полгода Sonnet получила обновление, и её прокачали по всем фронтам — ОСОБЕННО ПО АГЕНТСКИМ. Что? Да, Anthropic утверждают, что это первая модель, для которой они предлагают вам доверить ей управление вашим компьютером.
(по сути приложение как у OpenAI, где модель получает скриншот вашего экрана, только ещё и сама кликает. Детали будут в следующем посте)
По другим бенчмаркам обещают качество на уровне Claude 3 Opus.

Новость

Haiku пока не будет в API (обещают скоро, в этом месяце), но цена такая: $0.25/$1.25 за миллион токенов на вход и выход (примерно вдвое дороже gpt-4o-mini, зато кэширование дешевое)

Сиолошная

22 Oct, 08:41


Картинки!

1. Пример разбиения решения задачи на шаги (каждый выделен отдельным цветом). Авторы старались бить по строкам и по знаку равно (если выходило больше 100 символов в строке). Это очень похоже на шаги рассуждений у OpenAI o1 — они тоже били по строкам (это заметно в 7 официально опубликованных логах рассуждений). Каждый шаг — как ход в игре, если с ошибкой, то ведёт к неправильному ответу (=проигрышу).

2. Сравнение точности оценки (ось OY) состояния между нейронкой (верхняя строчка, желтый цвет) и через генерацию 9 решений. Истинные оценки (ось OX) здесь получены через генерацию 256 решений, что является достаточно точной оценкой (но каждый раз генерировать столько — дорого, поэтому авторы делают разово). 4 колонки — это разные шаги обучения, слева совсем начало, справа ближе к концу.

Ошибки двух методов существенно различаются. Оценки VinePPO не смещены, их дисперсия достигает пика при 0,5 и падает до нуля при 0 и 1. Нейронка из PPO часто ошибочно классифицирует плохие состояния (левая часть каждого квадратика) как хорошие и наоборот — что ведёт к плохой оценке «успешности» ходов.

3. Авторы идут дальше и считают точность предсказания состояния (определенная как попадание в интервал +-0.05 от 256 генераций), и тут видно, что уже в самом начале обучения такой подход VinePPO даёт оценки лучше, чем нейронка из PPO в конце обучения. Справа — как часто эти методы выбирают лучший «ход» из пяти предложенных продолжений. PPO даже к концу обучения еле-еле обходит случайный выбор (который попадает в 20% случаев)

4. Прирост качества от изменения K (количества генераций, использующихся для оценки во время обучения; чем больше, тем точнее оценка, и тем чётче сигнал для обучения, что плохо и что хорошо). Удивлён, что даже с K=1 работает хорошо (то есть каждое состояние оценивается как 0 или 1, решилась ли задача из этого шага или нет). Тут появляется ось масштабирования — можно тратить больше мощностей на генерации для оценки, чтобы делать её точнее, что приводит к улучшению финальной модели. Схожий график показывали OpenAI для o1, но я не уверен, что они масштабируют только это.

У авторов было только 8 GPU, вот если бы им дали побольше...увидели бы приросты посущественнее!

Сиолошная

22 Oct, 08:41


Вопрос на засыпку: почему мы обучаем отдельную нейронку для оценки состояний? И можно ли делать иначе?

Ответ: это делается потому, что во многих играх (откуда пошли методы) нет возможности фиксировать состояние и делать ходы вперёд-назад. Но при генерации текста решении задачи у нас такая возможность есть — всегда можно перепрогнать LLMку с новым промптом (или со старым), если они сохранены в памяти. А вот в шахматах и го, где такое тоже легко реализуется, вместо обучения сети используют оценку по методу Монте-Карло. Звучит сложно, а всё просто: ход делается виртуально, а затем из нового состояния играется несколько сотен-тысяч игр, и считается доля побед.

Чем больше игр играется, тем более точная оценка. И — тут мы наконец возвращаемся к статье, это всё была прелюдия — авторы говорят: давайте вторую нейронку, которая оценивает состояние, заменим на генерации LLM. Вот предложила она такой шаг в решении задачи — ок, фиксируем его. Затем подаём его на вход как часть решения и генерируем K оставшихся частей решения + ответов. Так как для каждой задачи ответ мы знаем, то можем посчитать долю правильных ответов прям у модели по ходу обучения.

И логика тут такая же — если в текущем шаге мы сделали ошибку (перепутали плюс и минус), то оставшаяся часть решения будет вести к неправильным ответам -> уменьшению Advantage. А если модель вспомнила теорему и правильно её применила, так, что там и решать нечего — то почти все решения будут правильным, и как следствие такое действие будет иметь большой Advantage (а поведение будет положительно закреплено).

В целом всё, это и есть основная идея, подменить нейронку для оценки состояний на честные генерации. Важно отметить, что при таком подходе экономится память (нужно держать одну сеть вместо двух, сеть-Оценщик удалили), но увеличиваем время итерации — ведь теперь для каждого шага нужно сделать много-много генераций (благо, LLMки научились разгонять). Авторы показывают, что для моделей размера 7B скорость итерации медленнее раза в два, но зато в пересчёте на реальное время качество выше (например, обучение за сутки приводит к большей точности ответов).

Сиолошная

22 Oct, 08:41


VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment

Давно лежало в загашнике, пора разобрать. Статья описывает метод обучения LLM для рассуждения в математических задачах, но в целом он применим хоть к чему, если соблюдается условие «есть однозначный правильный ответ» (например, программирование). Очень похоже по идее с o1, но думаю, что у OpenAI есть пара накруток сверху.

Если вы читали мой последний лонг про свежую модель компании, то помните, что там проводилось сравнение генерации слов в ответе и шагов в игре. Каждый шаг в решении некой задачи можно представить как ход в игре. Сократил выражение — это как двинул пешку в шахматах. Выписал уравнение с иксом — ещё один ход. Выигрыш достигается за счёт генерации текста, в котором содержится ответ.

Сравнение с игрой не случайно, современные LLM учат теми же методами, что использовались уже 5-7 лет назад для обучения ботов игре в видеоигры. Работало это так: у вас есть текущее состояние, и вы можете предпринять несколько действий.

Состояниям и действиям можно давать оценку, лучше/хуже. Что такое оценка состояния? Это оценка того, насколько текущая позиция для вас выигрышная. Если смотрели шахматы, то там сбоку обычно показывается сила белых и чёрных, у кого больше шанс выиграть из текущего положения — вот это оно. Правда для сложных игр посчитать это сложнее, поэтому тренируют отдельную нейронку (да и для шахмат уже их используют).

Оценка действий строится немного иначе. Есть действия хуже и лучше (в контексте LLM действие может быть хуже, если, например, содержит ошибку в вычислениях). Но какая между ними разница? Можно сказать, что действие хуже если оно приведёт нас в менее выигрышное состояние, и лучше, если в более выигрышное. Если до того, как я сходил пешкой, у меня был шанс на победу 55%, а после него 60% — значит, я сделал прям супер-ход, победа почти в кармане.

Так вот, оценка действия называется Advantage (преимущество) и считается как разница оценок текущего состояния (до хода) и следующего состояния (после хода). В примере выше это 0.6-0.55 = 0.05. Много это или мало — не ясно, по хорошему нужно сравнить с другими ходами. Если остальные будут 0.01 или и вовсе негативные (то есть ведут к проигрышу а не победе) — тогда да, ход был классный.

А дальше алгоритм обучения (и для игр, и для LLM) очень простой:
— если ход дал прирост, то обучаем модель выдавать такой ответ при определенном состоянии чаще
— если ход привёл у уменьшению оцени состояния, то делает наоборот, уменьшаем вероятность генерации такого ответа

И всё это завязано на оценку состояния (напомню, оценка действия делается через оценку состояний). Но чем сложнее игра, тем сложнее точно оценить свою текущую ситуацию, особенно если разница между двумя ходами сыграет роль где-то через 50-100 ходов в будущем — нужно оооочень далеко вперёд смотреть. Уже давно были исследования, которые показывают, что нейронка, которая оценивает состояния, на самом деле работает очень неточно (и это буквально чудо, что оно работает и позволяет обучать ботов, хаха).

Сиолошная

21 Oct, 09:30


Дальше авторы проводят несколько экспериментов с обучением моделей LLAMA-3-8m и GPT-4o-mini и тестированием (на задачах, отличных от обучающих). Сэкономлю вам время и сразу перейду к выводам:

— обобщающая способность моделей увеличивается с уровнем их запоминания задач. Это можно отследить по росту (а не уменьшению) введённой ими метрики (та формула, что мы разобрали), то есть качество после изменения задач падает относительно оригинальных. Но в то же время на невиданных ранее задачах качество тоже растёт. То есть чистого переобучения не происходит, но запоминание присутствует. Его как будто бы не получается отделить от рассуждений.

— более того, тренировка на задачах, где вовлечено N человек, также увеличивает качество в задачах с M участниками, не важно, больше ли M чем N или нет. То есть такое обучение позволяет делать цепочки рассуждений в решении более сложных задач надёжнее; они чаще приводят к правильным ответам. Детали для двух моделей смотрите на картинке — цифры означают прирост после обучения относительно положения дел до него.

— значение метрики из формулы на невиданных ранее примерах ниже, чем на тренировочных. Это говорит о том, что модели с большей вероятностью будут использовать рассуждения при решении новых примеров, а не полагаться на запоминание.

TLDR: «Наши результаты раскрывают интригующую взаимосвязь между запоминанием и рассуждением: в то время как модели в значительной степени полагаются на запоминание для решения сложных головоломок, модели, обученные иметь более высокий уровень запоминания, также решают больше неизвестных им до этого головоломок и решают их относительно надежно (в отличие от заученных задач)»

Очень жаль, что авторы не применяют методы интерпретируемости (как тут) чтобы пойти дальше и разобраться(

Сиолошная

21 Oct, 09:30


Вот картинка с результатами моделей из коробки, с простым промптом, без примеров решений.

Самое левое — это точность разных LLM в зависимости от количества людей в задаче. Даже для двух участников лучшие протестированные модели не превосходят 70% качества (32% для 5 человек). Очень жаль, что нет моделей o1 от OpenAI :( Но они кажется тогда не вышли ещё.

Две другие картинки — это как раз метрика, составленная перемножением двух чисел, как разбирали выше. Больше цифра в клетке — больше модель полагается на запоминание, и хуже показывает себя на изменённых задачах.

Видно также, что лучшие модели имеют большой LiMem (больше 0.1, который авторы определили для себя как границу между запоминанием и рассуждением). На примерах с 2-3 людьми ОК, ну вдруг в интернете действительно было что-то очень похожее. Но вот там где у GPT-4o на 6-7 людях на средней картинке метрика 0.14-0.15 — вызывает у меня сомнение. Я думаю что крайне маловероятно, что значимая часть задач из 100 случайно сгенерированных авторами через ими же написанную программу на 6-7 людей(!) попадалась в интернете, и модели их видели. Или что кто-то в OpenAI / Anthropic занимался такой же вещью, и случайно написал такой же генератор задач.

И вообще исследователи подмечают, что судя по отставанию других моделей скорее всего текстов с такими задачами в интернете ОЧЕНЬ мало, и в тренировочные данные они не часто попадают.

Сиолошная

21 Oct, 09:30


Large Language Interpolators Can Learn Logical Reasoning: A Study on Knights and Knaves Puzzles

Каждый раз, когда LLM показывают хорошее качество в некоторых задачах на рассуждение, мы задаёмся вопросом — а не запоминание ли это? Может, такой же или очень похожий пример был где-то в интернете, и модель обучилась на нём. Ещё больше вопросов возникает, когда LLM совершает какую-то элементарную ошибку рассуждениях по задаче, которая чуть-чуть переформулирована относительно исходной.

Авторы статьи пытаются исследовать этот вопрос предметно: они придумали задачу для исследования и метрику для оценки баланса запоминания <-> понимания в модели. Как такой баланс оценить? Давайте на примере: когда кто-то готовится к собеседованию или экзамену, то он может не полностью усвоить все основные принципы, зато вызубрить несколько задач. И когда человек сталкивается с одной из них, то сможет написать решение. А если внести какие-то изменения в одно из действий — то он поплывёт.

Две ключевых характеристики запоминания, исходя из этого примера, такие:
A) высокая точность на виданных ранее задачах
Б) низкая точность на новых очень похожих задачах (из-за недостатка понимания принципа решения)

Авторы придумали формулу, которая отражает обе черты. Сначала они считают точность на наборе задач — это Acc (от Accuracy). Затем в этих задачах они меняют одну минорную вещь, которая не влияет на сложность, но приводит к другому ответу, и смотрят на ответы. Метрика CR (Consistency Rating) — это доля задач, которые были решены правильно и до, и после изменения. Чем CR выше, тем лучше модель решает слегка изменённые задачи.

А формула такая: Acc * (1 — CR). Чем выше оценка, тем более вероятно, что модель полагается на запоминание, а не на реальное понимание/рассуждение. Чем выше CR, тем меньше второй множитель, и тем меньше общее значение — что логично: если модель решает новые изменённые задачки, то нет оснований полагать, что она их запомнила.

Давайте на примере. Вот есть 10 задач, модель решает 9 из них без перестановок, Acc = 0.9, всё хорошо. Но с минимальным изменением условий решается всего лишь 1 задача. CR = 1 / 9 ~= 0.11. Тогда получается, что второй множитель очень большой (0.89), и итоговая оценка 0.9 * 0.89 = 0.8, очень много — скорее всего запоминание. А если решила 8 из 9 после изменений, то это 0.9 * (1 — 0.89) = 0.1, очень мало. Всё что выше 0.1 авторы называют решением через запоминание.

Теперь, чтобы мерить значение, нужно найти задачу, условия которой легко менять без изменения сложности решения, и чтобы можно было получать новые ответы для этих задач автоматически. Авторы вспомнили игру «Рыцари и лжецы», как были в школе — рыцари всегда говорят правду, лжецы всегда врут. Те и другие обмениваются несколькими репликами, и нужно через цепочку рассуждений понять кто есть кто. Каждая задача характеризуется количеством людей и реплик.

Отдельный вопрос это можно ли такую задачу относить к классу «требующих рассуждений», и главное это определить до того, как мы увидим, что LLM'ки их могут решать 😀 а то если там точность 5%, то это рассуждения, а если 95% — то нет 🤣

Сиолошная

20 Oct, 07:37


Но на этом история не кончается! Andrew Mayne, бывший сотрудник OpenAI (сейчас или в прошлом он был промпт-инженером) ворвался в твиттер и разнёс исследование, показав, как нужно было делать.

Он не давал примеры задач и решений в промпте, а просто написал:
This might be a trick question designed to confuse to LLMs with additional information. Look for irrelevant information or distractors in the question:

И ту задачу, что авторы в статье приводят как нерешаемую даже для крутой o1 модель теперь решает 10 из 10 раз 🎃 Он пошёл дальше и проверил малютку gpt4o-mini: та тоже справилась 10 из 10 раз.

При этом возникает логичный вопрос: может, добавление такой инструкции потенциально ухудшает качество при решении задач без трюков? Нет — если убрать вставку из середины условия задачи, но оставить промпт, что может быть какая-то отвлекающая информация, то задача всё равно решилась 10 из 10 раз.

Конечно, по одной задаче судить — плохо, и по-хорошему нужно было с этим промптом прогнать несколько разных моделей на всех 50 наборах по 100 задач, чтобы точно всё оценить. Сам Andrew Mayne сказал, что ему не удалось добиться надежного провала решения других задач из примеров в статье (авторы блин ещё и полный набор не опубликовали!) с моделями o1 или GPT-4o.

Также он отметил:
> В статье не было сравнений с результатами людей. Я думаю, было бы интересно посмотреть, насколько хорошо среднестатистический старшеклассник справился бы с аналогичным тестом — особенно с добавленным предупреждением о подвохах и без него.
> Исследователи делают некоторые весьма странные выводы об обобшающих способностях LLM, экстраполируя поведение крошечных переобученных моделей на гораздо большие и эффективные, которые показывают себя куда лучше в тестах.

И ещё раз: проблема в том, что авторы статьи не попробовали что-то примитивное и очевидное, тестировали часть моделек (а самые лучшие будето выкинули из своего анализа при составлении выводов), зато пришли к выводам о ФУНДАМЕНТАЛЬНЫХ ПРОБЛЕМАХ, НЕ РЕШАЕМЫХ ДООБУЧЕНИЕМ И ПРОМПТАМИ. И полностью игнорируют тенденцию «новые и умные модели меньше страдают от всех нами названных проблем». Но конечно это не означает сокращения разницы между LLM и людьми 😀

Skill Issue 😎

Сиолошная

20 Oct, 07:27


Но и это не всё, последняя часть экспериментов — это создание датасета GSM-NoOp, где при создании шаблона в условие добавляется одно условие, кажущееся релевантным, но на самом деле не влияющее на решение.

Пример (жирным выделена добавленная часть:
Оливер собирал 44 киви в пятницу. Затем он собрал 58 киви в субботу. В воскресенье он собрал вдвое больше киви, чем в пятницу, но пять из них были немного меньше среднего размера. Сколько киви у Оливера?

В теории, результаты не должны меняться, на практике же наблюдаются просадки в качестве:
o1-preview: 94.9% -> 77.4% (-17.5%)
GPT-4o: 95.2% -> 63.1% (-32.1%)
Gemma2-9b-it: 85.3% -> 22.3% (-63%)

И после этого авторы прыгают к выводам:
— «мы обнаружили, что модели склонны преобразовывать утверждения в операции, не понимая их истинного смысла»
— «мы демонстрируем, что модели подвержены катастрофическому падению качества на примерах, не входящих в тренировочное распределение, возможно, из-за их зависимости от сопоставления с шаблонами»
— (сделали ещё один эксперимент, поменяв примеры, которые показывают перед заданием вопроса) «мы показали, что LLM испытывают трудности даже при наличии нескольких примеров, содержащих схожую нерелевантную информацию. Это говорит о более глубоких проблемах в их процессах рассуждения, которые нельзя легко смягчить с помощью обучения» (пробовали доучить маленькие локальные модели)
— «наша работа подчеркивает существенные ограничения в способности LLM выполнять настоящие математические рассуждения»
— а в самом начале статьи было вообще вот так: «наша работа указывает на более фундаментальную проблему: LLM испытывают трудности, <...>, что указывает на более глубокие проблемы в решении задач, которые невозможно решить с помощью промптинга с показом нескольких примеров или дообучением на примерах с отвлекающими вставками»

То есть их утверждение, которое и разнесли по твиттеру, а затем и по новостям, что ни промптинг, ни дообучение не решает эту проблему, и что якобы LLM — В С Ё! ☕️

===

Но почему качество моделей так сильно просаживается при добавлении не влияющей на решение информации? Моя гипотеза — что модели обучались на реальных олимпиадных/школьных задачах, и они привыкли, что вся информация в задаче полезна для решения. Я отлично помню, как мне в школьное время при подготовке к олимпиадам говорили: «Если информация в задаче есть, то она дана для чего-то. Не может быть просто так». Не бывало так, что что-то просто приписано.

У меня нет уверенности, что качество ответов школьников (олимпиадников и обычных) упадёт на этом наборе задач. Но я уверен на 99.9%, что если условия эксперимента будут позволять, то количество вопросов/поднятных рук (допустим, в условиях экзамен, с обращением к учителю по условию задачи) с интентом «чё это такое? нужно учитывать или нет? непонятно что имелось в виду, влияет чи нет» вырастет. Если же не дать задавать вопросы, и оставить детей как есть, то из огромной выборки детей кто-то да точно отличится и напишет «ну если 5 киви были маленькие то их не считем», так что в пределе качество чуууууууть-чуть упадёт.

Означает ли это ограниченность мышления и рассуждений у этого ребёнка? Нет.
😫 так а какого хрена вы пишете это в статье

Сиолошная

20 Oct, 07:27


Но дальше — больше. Из каждой задачи вырезают одно из условий (тем самым сокращая потенциальное решение = упрощая задачу), а также добавляют одно или два.

GSM-Symb (синий) — это полученный авторами пул из 50 наборов по 100 задач, и качество на нём (его можно называть базовым)
GSM-M1 (зелёный) — это с вырезанием одного из условий
GSM-P1 (оранжевый) и GSM-P2 (розовый) — это задачки с добавлением одного и двух условий соответственно

На картинке показаны гистограмы качества 6 разных моделей. o1-mini (нижний првый угол) почти не меняется, и лишь чуть-чуть хуже показывает себя на P2 (оно и ясно, ведь задачи объемнее и сложнее). То жеверно и для GPT-4o. Остальные модели закономерно показывают себя чуть лучше или сильно хуже из-за этих изменений.

И тут авторы выдают: «Обратите внимание, что в целом скорость падения качества также увеличивается с ростом сложности. Это соответствует гипотезе о том, что модели не выполняют рассуждения, поскольку количество требуемых шагов рассуждения увеличивается линейно, но скорость падения, по-видимому, быстрее». И честно говоря заявление очень странное.

Во-первых, две модели показывают себя одинаково на трёх разных «уровнях сложности» задач (от M1 до P1; на P2 всё же просадка, без скорости падения, по крайней мере показанной. Во-вторых, неочевидно, почему эта скорость как-то влияет на какую-то их гипотезу о наличии или отсутствии навыков к рассуждению в LLM.

Если их выводы верны, почему ж тогда LLM от OpenAI, которые на изменённом наборе данных показывают такое же качество (то есть не переобучены на эти задачи), не вписываются в картину? По формулировкам авторов складывается ощущение, что они выводят ограничения именно архитектуры LLM и подходов к их обучению, но делают это по «слабым» моделям, игнорируя несостыковки в топовых.

Сиолошная

20 Oct, 07:27


GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models

Статья от исследователей Apple, наделавшая шуму в последние полторы недели. С помощью внесения изменений в существующий бенчмарк школьных задачек по математике они исследовали способности LLM к логическому рассуждению. Обо всём по порядку:

Есть датасет GSM8k, его описание я уже давал: в каждой задаче от 2 до 8 действий с четырьмя базовыми операциями (+, −, ×, ÷). Оригинальный датасет подготовили в в 2021-м, в нём было 8 тысяч задач. Для наглядности вот пример одной: Ли купил 6 акций Delta по цене 40 долларов за акцию. Если он хочет заработать 24 доллара на этой сделке, сколько должна стоить акция Delta, когда он ее продаст?

У современных передовых LLM получается правильно отвечать на такие вопросы примерно в 94-96% случаев. Часть этого успеха можно списать на запоминание — ведь данные есть в интернете уже 3 года. Однако ранее в этому году другие исследователи всё проверили — и передовые модели GPT / Claude не были этому подвержены (на схожих, но новых и составленных вручную задачах модели показывали такое же качество или даже чуть лучше).

Так вот эта статья — частичное повторение экспериментов по изменению исходного набора данных. Задачи перебили в шаблоны, предварительно выделив имена действующих лиц (в примере выше это Ли), цифры, и промежуточные результаты в решении. Теперь эти элементы можно менять произвольно, при этом сама логика задачи не изменится. Вместо Ли будет Петрович, вместо 6 акций — 10, и так далее.

Всего подготовили и отобрали 100 шаблонов, предварительно проверив, что выборка 10 случайных примеров по нему (с генерацией чисел/имён) получается осмысленной (нет условий в духе «минус три акции»), и что на каждую задачу хотя бы 2 модели отвечают правильно (то есть решение возможно). Затем из каждого шаблона сделали по 50 вариантов с разными именами/числами, итого вышло 50 наборов по 100 задач. В теории, их сложность одинакова, и люди, и LLM должны их решать с качеством примерно равным исходному.

Далее на этом проверили более 20 моделей. Качество почти всех упало, кроме моделей OpenAI (Anthropic/закрытые модели Google не участвовали в экспериментах) и LLAMA-3-8b. Ешё пробовали менять по отношению к исходной задаче либо только имена, либо только числа, либо и то, и то — и результаты те же: большое количество изменений ведёт к уменьшению качества ответов, кроме передовых GPT-4o / o1 / LLAMA-3.

Уже к этому моменту авторы подводят к мысли, мол, ну смотрите, LLM'ки тупые, вон качество просаживается от такой простой перестановки, а ведь не должно! У людей бы наверняка изменение имени героя задачи не вызвало изменения ответа, да?

Сиолошная

19 Oct, 11:49


24 января 2023-го — 19 октября 2024-го, 1 год, 8 месяцев и 25 дней, чтобы пройти этот путь с нуля. Без реклам и с нулевым бюджетом, всё на контенте 🥹

Когда писал про 25 тысяч год назад, то в посте пошутил «Here's to 25 more 🫡» — но я не думал, что получится удвоиться, по крайней мере так быстро. Дальше уж точно сложно расти, как и обещал, буду смещать фокус на англоговорящую часть мира (но контент на русском остаётся).

Всем пасибо
🤝🤝

Сиолошная

18 Oct, 19:28


Схема работы DuoAttention, слева процесс обнаружения Retrieval Heads, справа — процесс работы модели с использованием оптимизации

Пояснение: Streaming Attention — это части модели, которые обращают внимание лишь на совсем недавний контекст, последние сколько-то слов, и не участвуют во вспоминании частей промпта.

Интересно, что в некоторых бенчмарках с длинным контекстом модель с сохранением лишь части (иногда меньше половины) KV cache показывала себя лучше, чем полная модель — скорее всего потому, что ни на что не отвлекалась, и механизм вспоминания частей промпта работал на полную.

Сиолошная

18 Oct, 19:28


DuoAttention: Efficient Long-Context LLM Inference with Retrieval and Streaming Heads

В конце апреля разбирал статью про Retrieval Heads (пост является пререквизитом для понимания этого) — механизм в LLM, который позволяет модели находить и копировать нужные факты из части промпта. Если вы даёте на вход 10 страниц текста и задаёте вопрос — Retrieval Heads обратят внимание на потенциальные место ответа и «вытащат» его. Когда Retrieval Heads лажают, появляется контекстуальная галлюцинация.

Однако чем длиннее контекст, тем дольше работает модель — ведь нужно сделать больше вычислений, и, что не менее важно, хранить больше данных в памяти (обо всех прошлых страницах). Такое называется KV cache.

Фреймворк DuoAttention предлагает следующее:
1) генерируем набор синтетических данных, в которых точно требуется «вспоминать» контекст (в промпт вставляют части «запомни это: <длинное предложение>», а в коцне просят написать все такие части)
2) прогоняем его через модель и сохраняем выходные значения (последние эмбеддинги)
3) дальше тренируем модель-маску, которая описывает зануление/занижение оценок каждой головы (которая может быть Retrieval Heads). Тренировка производится с L1 регуляризацией, чтобы проредить маску. Идея такая, что если мы зануляем Retrieval Head, то это существенно ломает предсказания модели на задаче «вспоминания» частей промпта, а если что-то другое — то влияние минимально
4) после обучения на ~2000 шагов (несколько часов, в зависимости от модели и GPU) остаётся финальная маска влияния на возможность модели свпоминать. В ней значения бинаризуются (на 1 и 0) через сравнение с некоторой константой, подбираемой по перцентилю
5) этот процесс нужно повторять самому для каждой модели один раз перед запуском

Всё! Теперь маску можно применять: значения Retrieval Head сохраняются для всех слов, а остальная информация отбрасывается, если находится дальше, чем K токенов от текущего места. Например, если вы обрабатываете 50'000 токенов, то держите на готове последние, скажем, 1024 токена (и весь KV cache для них), и значения Retrieval Head для всех остальных 49k. Если модели нужно обратиться к данным из начала промта — у нас для этого сохранена лишь часть данных, которая, как показывают эксперименты, достаточна для того, чтобы вспомнить их.

На экспериментах с длинным контекстом показывают, что если брать половину всех Heads (то есть подбирать такой порог, чтобы ровно половина отсекалась), то:
— на одну карту с 80GB для 8B модели теперь влазит 3.3M токенов контекста (если делать квантизацию кэша; без DuoAttention 1.8M, без квантизации всего 0.52M)
— потребление памяти меньше в 1.67-2.55 раз — потому что надо меньше хранить в памяти, мы часть выкидываем
— задержка генерации меньше в 1.5-2.18 раз — потому что нужно меньше считать

Очень хороший пример как методы интерпретации (обнаружение Retrieval Heads) позволяют улучшать практические кейсы с использованием моделей.

Сиолошная

17 Oct, 09:18


Вот видео с попарной визуализацией исходного видео и полученного в симуляции поведения. Раньше для получения такого люди сидели и ломали голову, а как же запрограммировать функцию, которая награждает за правильные действия, и штрафует на несоответствие ожиданиям. Теперь — хотя бы для самых примитивных случаев — можно запрягать пару VLM+LLM.

Авторы делали сравнение полученных моделей по шкале от 0 до 5 на предмет соответствия поведению на исходном видео (опрашивали по 10 человек). Модель, полученная через фидбек от VLM, получалась такой же качественной, как если фидбек давал живой человек. Правда интервалы ошибки очень большие, так что надёжного сравнения не выйдет – да и вообще к статье много претензий( Кода нет, моделей нет, всего 5 видео (может закрасться подозрение, что ничего не работает 90% времени), сайта с демкой нет — ну хотя бы промпты для GPT и Gemini опубликовали, и на том спасибо. А ещё не делали никаких сравнений разных VLM, и выбор Gemini никак не объясняется.

Но сам концепт достаточно интересный — ждём следующей статьи больших ребят из Nvidia, которые делают всё по уму. И интересно, насколько подход применим для обучения гуманоидных роботов по очень малому количеству демонстраций.

Сиолошная

16 Oct, 16:56


Дошли руки посмотреть интервью с CTO Poolside, cтартапа, который делает AI-ассистента для программистов с прицелом на автоматизацию всё большего и большего количества задач (они формулируют это как human-led + AI-assisted -> AI-led + human-assisted). Я за компанией слежу чуть больше полугода. К ним ушло работать несколько очень хороших знакомых/приятелей (но на радары они попали до этого).

Мне очень нравилась их страничка с виженом — там написано много дельного. Отдельно выделю блок «our strong beliefs» и первые пункты из него:
— Вы не можете достичь успеха только дообучением готовых моделей — основные их навыки «возникают» в процессе длительного и ресурсоёмкого обучения базовой модели
— Масштаб имеет значение, больше вычислений и данных решают большую часть проблем

Из этого вытекает, что нужны большие ресурсы на обучение, и вот как раз потому компания привлекала полмиллиарда долларов инвестиций при оценке больше трёх (а ведь им меньше двух лет, и публичного доступного продукта нет 🙉).

Тезисно из интервью:
— Данные, на которых обучают модели, представляют собой результат работы, а не промежуточные размышления, проделанные для того, чтобы эти данные получить. Поэтому такие данные нужно создавать самостоятельно (примерно это делают для обучения o1, генерируя траектории размышлений)
— В программировании для валидации корректности решения есть надёжные способы: исчерпывающие тесты. Если для всех задач есть тесты, то можно запускать автоматический цикл обучения на синтетически генерируемых решениях на основе фидбека от тестов (что сработало а что нет)
— вычислительные мощности безумно важны, это как входной билет в текущую гонку (если мощностей нет — «you're not even in the race»). Без мощностей даже если всё остальное ок (данные, люди, процессы) — ничего не выйдет. И очень важно, что мощности можно превращать в данные высокого качества, чтобы продолжать учить модели (как раз описанный выше процесс с генерацией и проверкой тестами)
— кроме синтетических данных используют человеческую разметку в виде корректировки рассуждений модели (например, если ответ правильный, но часть рассуждений были ошибочными, или есть ошибка в логике, из-за которой и вышел неправильный ответ). Нечто похожее делали OpenAI ещё для GPT-4
— почти все инвестиции пойдут на закупку и оплату мощностей для дальнейшего масштабирования, без этого не могли этим заняться
— в августе у компании появилось 10'000 видеокарт, чего хватит, чтобы продвинуться и натренировать модельки побольше, получить новые навыки в них, и так далее
— инфраструктурные решения по мощностям очень важные, так как это не появляется по щелчку. Приходится принимать решения с горизонтом реализации 12-18 месяцев. поэтому нужно подстраивать стратегию и темп развития под это; сейчас уже думают о том, что и как будет в следующем раунде (при успехе реализации текущего)
— когда появились новости о задержке производства GPU следующего поколения (которые почти полностью выкуплены Microsoft, Google, Meta...), то Eiso был рад: ведь это поможет им дольше оставаться конкурентоспособными и не отставать существенно. Но эти карты всё равно очень ждут, каждое поколение даёт прирост скорости обучения в 1.5-2 раза, а при применении карты серии Blackwell на бумаге ещё более выгодно смотрятся
— не важно что покажут в GPT-5 и удивит/не удивит, через 10 лет мы на это всё равно будем смотреть как на что-то из начала эпохи компьютеров
— одно из самых важных изменений в понимании Eiso за последний год — что масштабирование данных тоже супер важно, на уровне с мощностями [тут имеется в виду что для дообучения можно собирать и собирать ещё разметку, конца-края не видно, модели недоучены под конкретные задачи — я так понял]

Сиолошная

16 Oct, 11:33


Схематично выглядит так.

В самом низу агент-проверяльщик имеет доступ ко всем файлам, которые требовались агенту-решателю для выполнения задачи. Проверяльщик может их отсмотреть и делать выводы о том, что и как было решено, и совпадает ли это с исходными критериями.

И очень понравилось, как заканчивается статья: логичные дальнейшие шаги. Авторы замечают, что наличие столь качественного критика (как человек, который и участвует в разметке данных и даёт обратную связь) позволяет запустить автоматический процесс дообучения и улучшения моделей. Нечто схожее сделали OpenAI с o1 для математики и программирования, и вот подход для агентов.

И финальное слово про сам бенчмарк: очень ждём замеров результатов моделей грядущего поколения. Сейчас лишь одна задача из 55 решается по всем критериям, однако из 355 подкритериев порознь выполняются 46.44%. Так что видно, что агент может что-то сделать, но упускает из виду несоответствие остальным критериям (забыл отдельный шаг, не туда сохранил/не так назвал файл, или просто ошибся в коде) — как раз тут и пригодился бы критик.

Почитать все 55 задач можно тут.

Сиолошная

16 Oct, 11:31


Agent-as-a-Judge: Evaluate Agents with Agents

Статья со Schmidhuber в соавторах 😀 Для того, чтобы понять текст ниже, нужно ознакомиться с концептом агета — пояснительный пост я делал тут.

Современные методы оценки не очень хорошо подходят для агентных систем. Они либо сосредоточены исключительно на конечных результатах, игнорируя пошаговую природу процесса получения ответа (промежуточные шаги), либо требуют чрезмерного количества ручного труда, что дорого и плохо масштабируется. Кроме этого, для улучшения агентных систем разработчикам приходится лезть в кишки и смотреть, что происходило и почему что-то не сработало — тоже долго и дорого.

Вот на примере SWE-Bench, обновлённую версию которого недавно выпустили OpenAI: системе даётся задача внесения изменений в код, а затем после получения решения прогоняется набор тестов. Прошли все тесты — задача «решена» (но тесты не покрывают всё и не проверяют каждую возможную несостыковку), не прошёл хотя бы один — не решена. А почему не решена? да миллион причин может быть.

У исследователей из META возникла идея: давайте для каждой задачи выпишем критерии решения, и запустим агентную систему для проверки всех промежуточных шагов (и сбора необходимой и достаточной для этого информации). Так родился бенчмарк DevAI: собрали 55 задач на автоматизацию ИИ разработки (обучи модель, запусти то-то, сделай то-то). Для них выписали суммарно 365 требований, в среднем по 6.6 на задачу. Самое описание — это текст длиной от 70 до 150 слов: не полноценное описание огромной задачи, но уже и не однострочник.

Дальше взяли 3 агентные системы (все используют gpt4o), запустили, а результаты работы отсматривались тремя специалистами. У них проверка 55 задач и 365 пунктов заняла суммарно 86.5 часов, и это бы стоило $1300 по минимальной часовой ставке в $15 (реальная стоимость сильно выше — тут же нужны эксперты с навыками ML/AI, а не любой человек с улицы). Кажется, на такой бюджет можно столько проверок через LLM нагородить, что не горюй.

Люди между собой сначала не общались, поэтому естественно возникли разногласия — уровень несогласованности между парами оценщиков колеблется от 10% до 30%. Как тогда определить, кто прав? Для этого людей собрали вместе и дали возможность обсудить каждую задачу, и финализировать ответ — получилось консенсусное решение, которое считается истинным. Вот от него голосование «большинством» от трёх исходных специалистов снижает несогласованность до 5-6% (поэтому часто в разметке ответы и агрегируют, получая «мудрость толпы»).

А после этого исследователи взяли и написали AI-агента (критика), который смотрел на решения, на критерии, и производил проверку — и вердикт сравнивался с консенсусным решением людей (удовлетворены ли требования).
TLDR: агент без доступа к логам размышлений согласуется с правильным ответом в 83-90.5% случаев (в зависимости от фреймворка, которым решались оригинальные задачи), с доступом — 86-92%. Люди с доступом к логам выдавали 89%-92%, а агрегация их ответов дала 94-95% (это как раз та несогласованность в 5-6% выше).

То есть автоматическая оценка примерно совпадает по точности с одиночной оценки людей, но чуть хуже агрегации нескольких ответов. Зато она быстрее на 97.7% (118 минут) и дешевле на 97.6% ($30.5).

Сиолошная

16 Oct, 07:53


Качество мерили на двух бенчмарках:
— LongVideoBench (подают до 256 кадров из видео, задают вопрос - иногда с таймстемпами - и просят выбрать один из 4 вариантов ответа)
— MMLongBench-Doc (подают документ с диаграмами, текстом, картинками, в среднем 47 страниц, и просят ответить на вопрос; треть вопросов требует комбинирования информации с нескольких разных страниц документа)

И там и там видно, что имеющиеся опенсурсные аналоги LLAMA и Pixtral просаживаются; они могут работать с несколькими картинками, но когда их становится очень много — не вывозят. Выгодно выделяется Qwen-2-VL от Alibaba, но модель огромная — 72 миллиарда параметров, и экспертов там нет; будет работать долго (ещё есть LLAVA-video-72b, но как подсказывает название она базируется на той же большой модели). Aria можно запустить в 16-битном варианте на одной 80GB карте, и в 40/48GB-варианты тоже влезет.

Aria занимает место где-то рядом с gpt-4o/gemini-1.5-pro на первом и mini-версиями этих моделей на втором бенчмарке.

Сиолошная

16 Oct, 07:53


Нечасто в последнее время пишу про новые модели, так как они почти никогда не открывают ничего нового — тут стало на пару процентов получше, там чуть прокачали, здесь воспроизвели чужой результат, но не более. Наконец-то появился повод — на прошлой неделе вышла Aria, открытая мультимодальная модель.

Основных фишки две: это модель с микстурой экспертов (когда для обработки данных в каждый момент времени используется лишь малая часть сети, несколько экспертов из большого множества) и длинным контекстом в 64k токенов. Всего в модели 25B параметров, но в один момент времени активируется лишь 3.5B (3.9B для картинок).

Вкупе с поддержкой картинок как входных данных получается, что модель может очень быстро обрабатывать видео (быстрота за счёт экспертов, ведь не нужно гонять всю сеть) или скриншоты страниц целых статей/отчётов: и то, и то представляется как набор картинок и подаётся в модель.

Каждая картинка (или кадр видео) может подаваться в модель в трёх разрешениях:
— низкое: длинная сторона до 490 пикселей, займёт 128 токенов «текста» (то есть модель переведет картинку в понятные ей, но не нам, слова и вставит их в ваш промпт)
— высокое: 980 пикселей, 256 токенов
— ультравысокое: картинка нарезается на N кусков с высоким разрешением (как выше), итого N*256 токенов

Отсюда легко посчитать, что максимум в контекст можно подать ~255 картинок высокого разрешения. Если брать по 2 кадра в секунду, то выйдет 2 минуты — не очень долго (не как у Gemini), но уже что-то. А если вам нужна общая суть, а не прям каждая деталь, то можно брать и по 1 кадру раз в 2-3 секунды — это уже 8-12 минут.

Блог, статья, веса (под Apache 2.0, делать можно что угодно)

Сиолошная

14 Oct, 17:37


Короткая заметка: помните весной вышел AI-программист Devin, а потом на него выпустили критическое 25-минутное видео с обзором демки? Не удивляйтесь если не помните — я об этом не писал в канале 🎃Я не был согласен со всей критикой (и часть мне казалось дикой типа «он совершает такие ошибка а мы бы так не ошиблись и вот он теперь их устранил но ошибок то таких вообще не должно быть!»), и не стал писать.

Канал того автора вообще во многом состоит из критики AI-инструментов и моделей. В основном, эмпирической: вот это не работало, ну вот заработало, а другое это всё ещё не работает.

Сегодня там появилось видео «ChatGPT-O1 меняет программирование как профессию. Мне очень не хотелось это говорить.», где, как вы понимаете, некоторые из хотелок наконец-то удовлетворились. Блоки кода по 300-400 строк начали выдаваться за раз, и работают без правок или почти без них. Автор пишет, что «До сих пор ИИ не могли работать так же хорошо, как профессиональные программисты. Для небольшого подмножества вакансий программистов начального уровня это уже не так.»

И конечно нет никаких оснований полагать, что в ближайшие 2-3 года прогресс остановится, что доля этого «подмножества», как и уровень программистов, не будет увеличиваться.

Сиолошная

13 Oct, 13:36


Корабль успешно приводнился в отведённой зоне в Индийском океане — настолько точно, что рядом стоял буй, с которого сняли посадку (в прошлый раз из-за повреждений закрылков упали в зону на 6 км дальше нужного).

В этот раз, увы, крылья тоже повреждены, но куда слабее (и это произошло позже в полёте, так что и тут прогресс есть). Это не очень большая проблема — всё равно их дизайн переработан в следующей версии (Starship v2).

Ждём видео с буя в воде прямо на само приводнение!

все цели миссии выполнены, теперь ждём следующий пуск. Очень надеюсь, что до конца года!

Сиолошная

13 Oct, 12:34


Для истории: успех, добро пожаловать в новую эру исследования космоса!

Сиолошная

13 Oct, 12:32


есть посадка

я думал она в башню влетела 🧒

Сиолошная

13 Oct, 12:30


Башня готова к посадке
Бустер получил команду лететь на башню

Смотреть:
— официальный стрим
— рестрим NasaSpaceFlight
— любительскую трансляцию от Everyday Astronaut.

Через минуту

Сиолошная

13 Oct, 10:59


Основное развлечение сегодняшнего дня — запуск Starship — начинается ровно через час. Через полчаса запустится официальный стрим (в Твиттере, там уже более-менее нормально смотреть, особенно если без VPN), но тем, кому привычнее ютуб, могу порекомендовать рестрим NasaSpaceFlight или любительскую трансляцию от Everyday Astronaut.

Пока всё выглядит благоприятно, дороги перекрыты, а самолёты, с которых ведётся воздушная съемка, уже вылетели.

Напомню, почему запуск очень важен: это будет первая попытка посадки первой ступени (ускорителя) на «руки» пусковой башни. Первая ступень очень дорогая и ценная — на ней установлено 33 двигателя, и сама возможность их возврата и переиспользования существенно влияет на экономику запусков. Даже если корабль (вторая ступень, которая выходит в космос, и в которую помещают полезную нагрузку/космонавтов) никогда не смогут вернуть и посадить— программа Starship всё равно перевернёт космическую индустрию: на орбиту и к Луне можно будет выводить невиданные ранее объемы и массу за копейки.

Никто никогда не пробовал посадить никакую часть ракеты на башню — да посадка и в целом остаётся очень сложной операцией: несмотря на успех программы Falcon, до сих пор нет ни одной коммерческой или государственной программы, которая бы произвела успешный нетестовый орбитальный пуск (в Китае есть несколько стартапов, которые очень стараются, и уже умеют сажать с ~10 КМ) с посадкой.

Самое интересное произойдет на 7й минуте полёта: именно в этот момент должна быть посадка. Однако она может не состояться, если система решит, что что-то не в порядке (например, отказало больше двигателей, чем возможно), или если директор полёта из центра управления примет решение не нажимать кнопку. SpaceX хотят избежать рисков разрушения площадки — ведь в этом случае программу откинет на несколько месяцев назад (особенно критичны пусковой стол и башня).

В прошлом пуске несмотря на отказ 2 двигателей на этапе набора высоты и 1 при снижении ускоритель смог сесть на воду с точностью в полсантиметра (со слов представителя SpaceX). Но вообще даже меньшая точность позволяет выполнить задачу — зазор на ошибку есть.

Будем болеть за успешную посадку 🙏 надеюсь, будут суперские кадры подлёта прямо с земли. Ну а если нет — будет бум 😐

===

UPD: о, и да, про ускоритель — это 20-этажная хреновина, которая падает с высоты более 70 километров на скорости больше 3000 километров в час. И вот этому зданию нужно аккуратненько подлететь к башне на ручки.

UPD2: запуск теперь в 15:25

Сиолошная

12 Oct, 17:09


FAA выдали лицензию на пятый полёт системы Starship!

SpaceX:
Нацеливаемся на 5-й испытательный полёт системы Starship в воскресенье, 13 октября. 30-минутное стартовое окно открывается в 15:00 МСК