эйай ньюз @ai_newz Channel on Telegram

эйай ньюз

@ai_newz


Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow

эйай ньюз (Russian)

Добро пожаловать в канал "эйай ньюз"! Мы рады представить вам самые актуальные новости из мира искусственного интеллекта. Наш канал культурно освещает как самые важные, так и не самые важные события в сфере AI, обогащая их авторитетными профессиональными мнениями. Наш автор @asanakoy, работающий в качестве Staff Research Scientist в Meta Generative AI в Швейцарии, делится своими знаниями и опытом с нашими подписчиками. Присоединяйтесь к нам, чтобы быть в курсе последних тенденций и достижений в области искусственного интеллекта! Для связи и вопросов по поводу рекламы обращайтесь к PR-менеджеру @kander426.

эйай ньюз

17 Feb, 11:32


Кто не знает, я живу в Швейцарии, и у нас тут неплохие новости ☕️ (кроме открытия офисов ТикТока и OpenAI) – пару дней назад Швейцария решила не принимать закон похожий по строгости на Европейский AI Act.

@ai_newz

эйай ньюз

17 Feb, 10:22


🚨Лекция "𝐅𝐋𝐔𝐗: Flow Matching for Content Creation at Scale"

Сегодня, в 18:00 CET (через 6.5 часов) будет онлайн-лекция от моего коллеги Робина Ромбаха, создателя SD и Flux. Ниснер пригласил его сделать доклад у себя в лабе.

Кажется, это будет первый публичный доклад про Flux от авторов, ведь тех-репорта до сих пор нет.

Смотрим, думаю будет интересно!

YouTube стрим

@ai_newz

эйай ньюз

16 Feb, 21:52


Нейродайджест за неделю (#56)

Finance
- Ответ Stargate — французы вложат 109 миллиардов евро в AI. Mistral питаются от счастья.
- Лучше не злить Маска — бифф с OpenAI продолжается. Илон предложил почти 100 миллиардов долларов за выкуп OpenAI у нонпрофита, чтобы помешать превращению OpenAI в коммерческую организацию.

Занимательные графики
- Прогресс LLM — клёвый график, где видно, как двигался SOTA-перформанс на разных бенчах со временем.
- Прогресс VLM — они растут не так быстро, как LLM-ки.

LLM
- Бесплатный Deep Research — Perplexity утерли нос OpenAI со своими 5 запросами в день. Конечно, он не лучше оригинала, но отстаёт не так сильно.
- В o1 и o3-mini теперь поддерживается загрузка документов и картинок. Лимиты o3-mini-high повысили до 50 запросов в день для Plus подписчиков. А ещё OpenAI выкатили новую версию 4o.
- Grok 3 — Маск обещает побить OpenAI o3. Хотелось бы верить, но верится с трудом. Но пощупать будет крайне интересно.

Другое
- Первый собственный чип OpenAI — уже в этом году. Пока что он нужен в основном для торгов с Nvidia, но направление очень перспективное.

> Читать дайджест #55

#дайджест
@ai_newz

эйай ньюз

16 Feb, 10:36


Grok 3 релизнется во вторник утром

По словам Маска, это будет "самый умный ИИ на планете". Изначально модель обещали в декабре, но, похоже, случилась o3 и таймлайны немного сдвинулись.

Претрейн закончился полтора месяца назад, с тех пор модель тюнили. Похоже, это время ушло на reasoning тюн - в отдельной вебапке Grok уже находили интерфейс для рассуждений модели.

Если у xAI и правда выйдет перегнать ещё не релизнутую o3, то OpenAI придётся заметно пошевелиться. А может и Anthropic, наконец-то, релизнет свою reasoning модель, которая, по слухам, тоже должна обгонять o3.

А xAI уже ищет новый раунд финансирования - речь идёт о 10 миллиардах при оценке в 75. Нужно расширять Colossus, миллион GPU сами себя не установят (по крайней мере пока что).

@ai_newz

эйай ньюз

14 Feb, 20:39


Бесплатный Deep Research от Perplexity

Без подписки дают 5 запросов в день, подписчикам - 500 запросов в день. На Humanity's Last Exam, Deep Research от Perplexity набирает 21,1%. Это хуже результатов OpenAI, но в разы лучше всех остальных конкурентов.

Хороший повод для OpenAI дать доступ к Deep Research подписчикам Plus.

perplexity.ai

@ai_newz

эйай ньюз

12 Feb, 17:43


Прогресс по VLM

В то время как LLM бенчи насыщаются довольно быстро, прогресс по VLM, которые требует мультимодального ризонинга (то есть нужно понимать что-то по картинке) идет не так бодро.

На графике приведен бенчмарк MMMU (Massive Multi-Discipline Multimodal Understanding and Reasoning Benchmark) — это тест для оценки знаний и логического мышления на уровне младших курсов бакалавриата в шести ключевых дисциплинах. Он проверяет, насколько хорошо система понимает и анализирует информацию из разных областей, используя текст, изображения и другие форматы данных (таблицы, например). Тест измеряет не просто запоминание фактов, а способность делать выводы и решать сложные задачи.

Китайцы и тут хорошо колбасят в опенсорс! Из открытых моделей, на этом бенче в лидерах сейчас как раз китайцы: InternVL2.5-78B (ее на графике нет) и QVQ-72B-Preview / Qwen2.5-VL-72B (этой тоже на графике нет).

@ai_newz

эйай ньюз

11 Feb, 16:02


Европа уже какой день подряд говорит про АИ на самом верхнем уровне – последнее выступление Урсулы фон дер Ляйен от сегодня уже с конкретными шагами, включая послабление регуляции:

1. Предоставление суперкомпьютеров для разработчиков ИИ

• Дать ресечерам «одни из самых быстрых суперкомпьютеров в мире» для учёных и стартапов

Цель: чтобы любые компании (а не только крупные) могли получать доступ к вычислительным ресурсам

2. Создание «фабрик ИИ» (AI factories)

• Уже запущено 12 таких центров
• Общие инвестиции – 10 млрд евро из публичных источников, которые привлекут ещё большую долю частного капитала

3. Переход к «гигафабрикам ИИ» (AI Gigafactories)

• Создать аналог CERN, но в сфере ИИ
• Предоставление крупных объёмов вычислительных мощностей для работы над большими моделями

4. Единое регулирование ИИ в Европе
• Принятие единого «Акта об ИИ» (AI Act) для всех 27 стран ЕС.
• Унифицированные правила АИ-безопасности и доверия вместо разрозненных национальных законов
• Обещано снижение бюрократических барьеров (ака дерегуляция, ура! Это про что я открытое письмо подписывал летом)

5. Объявлены масштабные инвестиционные программы

• Инициатива European AI Champions Initiative обеспечивает 150 млрд евро
• Программа InvestAI добавляет ещё 50 млрд.
• Итого: 200 млрд евро на развитие «доверенного ИИ» с упором на промышленную и критически важную инфраструктуру

6. Поддержка глобального сотрудничества
• Участие в запуске AI Foundation и расширение доступа к ИИ для развивающихся стран («Глобального Юга»)
• Цель – сделать ИИ доступным и полезным для всех

ИИ-гонка идет полным ходом 🐱

эйай ньюз

11 Feb, 12:49


Маск продолжает вставлять палки в колёса OpenAI

Группа инвесторов, во главе с Илоном, предложила 97,4 миллиарда долларов за OpenAI. Компанию продавать им никто не собирается, о чём уже заявил Сэм Альтман, но такое предложение само по себе создаёт OpenAI с инвесторами огромные проблемы.

Дело в том, что у OpenAI крайне необычная структура - компания всё ещё принадлежит нонпрофиту со своим советом директоров. Это уже привело к инциденту с увольнением Сэма Альтмана в конце 2023, когда основного инвестора — Microsoft, даже не предупредили. Представьте шок, когда вы инвестировали более 10 миллиардов долларов и узнаёте о том, что совет директоров сместил CEO, из новостей.

После таких финтов ушами, следующий крупный раунд OpenAI уже был с условием превращения компании в коммерческую в течении двух лет. В противном случае, OpenAI обязались вернуть инвестированные 6 миллиардов.

Но выполнить требования инвесторов так просто нельзя - коммерческую структуру OpenAI нужно выкупить из под контроля нонпрофита. До предложения Маска, такую сделку можно было достаточно легко провернуть за относительно небольшую сумму, теперь всё сильно усложнилось.

Если совет директоров нонпрофита согласится на меньшую ставку, то такое решение придётся объяснять целой куче инстанций, которые могут легко заблокировать сделку. А перебить предложение Маска будет сложно — в его предложении вишенкой на торте служит обещание перебить предложение любых других инвесторов такой же либо ещё большей ставкой.

То есть у OpenAI выходит неприятная ситуация — либо вступать в ценовую гонку с Маском, что сильно облегчит кошельки инвесторов, либо их затаскают по судам. Если отменить превращение в коммерческую организацию, то компания будет в минусе на 6 миллиардов и с туманными перспективами будущих инвестиций.

В ситуации есть ещё куча неизвестных, кажется, мы ещё долго будем обсуждать новую драму с OpenAI.

@ai_newz

эйай ньюз

11 Feb, 11:06


Наглядно о том, как быстро сейчас идет прогресс в LLM и как быстро насыщаются бенчмарки.

Но это нормальная история, что более простые начинают решаться под сотню, в том числе и потому что они просачиваются в тренировочные выборки, им на смену приходят более подковыристые. Я в своей карьере такое видел уже не раз, как минимум на бенчмарках по Visual Recognition.

Напомню, что Humanity's last exam сейчас решается на 26% моделью DeepResearch от OpenAI, тогда как GPT-4o выдает 3.3% на нем.

А я все также не могу доверять LLM важные задачи, где критична точность – в основном из-за галлюцинаций. Но все равно прогресс огромный, и многие вещи получается автоматизировать.

Графиком поделился ресерчер из OpenAI.

@ai_newz

эйай ньюз

10 Feb, 20:55


😮 Французский ответ Stargate

На AI Action Summit, президент Эммануэль Макрон анонсировал гигантские инвестиции во французскую ИИ индустрию - 109 миллиардов евро в течении следующих нескольких лет. Вплоть до 50 миллиардов придёт от фонда MGX из ОАЭ (он также участвует в финансировании Stargate), 20 миллиардов - от канадской инвестионной фирмы Brookfield, остальные деньги от плеяды более мелких инвесторов.

Значительная часть из вычислительных ресурсов, построенных на эти деньги, явно уйдёт Mistral - это сейчас единственная европейская компания способная выдавать конкурентноспособные LLM. Стартапам поменьше тоже достанется порядочно, но вот сколько - вопрос.

Похоже, что это всё часть единой европейской стратегии по ИИ, которую должны представить завтра. Она должна включать упрощенные регуляции, на замену отвратительному AI Act. Франция в этой стратегии должна сыграть лидирующую роль - у страны есть и куча талантов, и большие избытки атомной электроэнергии и доступ к современным чипам.

Государства всё ещё лишь начинают играть мышцами в сфере ИИ, это не последний такой анонс в этом году. Мои выводы после анонса Stargate лишь подтверждаются.

@ai_newz

эйай ньюз

09 Feb, 20:26


Нейродайджест за неделю (#55)

LLM
- Deep Research – самый умный поиск от OpenAI, основанный на еще не релизнутой O3.
- Gemini 2.0 Flash – лучший в своей весовой категории.
- Le Chat – французы сделали самого быстрого бота на Диком Западе, генерит в 30 раз быстрее, чем ChatGPT, на неплохом уровне. Там же теперь можно потыкать Flux 1.1 Ultra.

Гайды
- LLM с нуля с Карпатым – гений гайдов из OpenAI взялся за основы.

Прочее
- Илья Суцкевер ту зе мун! – стартап по разработке AGI без прибыли собираются оценить в 20 миллиардов зеленых.
- Pickle – ваш виртуальный двойник с реалтайм липсинком для митов. Лежим на диване, пока ваш клон отсиживается на мите.

> Читать дайджест #54

#дайджест
@ai_newz

эйай ньюз

08 Feb, 19:09


SSI Ильи Суцкевера ведёт переговоры о раунде инвестиций с оценкой в $20 миллиардов

Оцените скорость роста - компания появилась в начале лета, через три месяца она уже оценивалась в 5 миллиардов долларов и привлекла миллиард. И полгода не прошло - уже ходят слухи о привлечении денег при оценк в 4 раза выше.

При этом компания не планирует выпускать никаких продуктов в ближайшее время - они пропускают все промежуточные этапы и идут напрямую к "безопасному сверхинтеллекту".

Интересно, что такое Илья показывает инвесторам?

@ai_newz

эйай ньюз

07 Feb, 20:19


Кстати еще в Le Chat завезли Flux 1.1 Ultra - чат сейчас реально раскачаивают

Из минусов - это то, что бесплатно дает погенерить только несколько картинок, а дальше просит денег.

Если что, то Flux 1.1 Ultra можно потыкать вот тут: https://replicate.com/black-forest-labs/flux-1.1-pro-ultra

Качество действительно хорошее! Но генерация занимает до 12 секунд, и нужно привязывать карту ($0.06 / image).

@ai_newz

эйай ньюз

07 Feb, 11:25


Le Chat теперь в 30 раз быстрее ChatGPT

ИИ чипы от Cerebras позволяют чату работать на скорости в 1100 токенов в секунду, с новой фичей Flash Answers. Сейчас это просто интересная демка, но когда французы из Mistral сделают свою reasoning модель, это будет серьёзным преимуществом их чата. Зачем ждать пока какая-то o3-mini-high или R1 думает несколько минут, если она может справиться за секунды?

Но это не единственная новая фича - Le Chat теперь умеет исполнять код на Python и это доступно всем пользователям. Исполнение кода ограничено минутой, чего в принципе достаточно для большинства задач.

А ещё, у Le Chat теперь есть приложения на iOS и Android и Pro подписка за 15 долларов в месяц (со скидкой студентам). За подписку дают неограниченное количество сообщений, возможность отключить тренировку на своих данных и расширенное использование дополнительных фич - интерпретатора кода, поиска, генерации изображений и Flash Answers.

chat.mistral.ai

@ai_newz

эйай ньюз

06 Feb, 12:45


Введение в LLM с нуля - новое видео Карпатого

Видео простым языком объясняет что такое LLM, как они работают внутри, что они могут и не могут и как этим пользоваться.

Для тех кто не знает - Андрей Карпатый был одним из сооснователей OpenAI и директором по AI в Tesla. Сейчас занимается образованием и пилит лучшие видосы про ИИ на ютубе. Если интересно посмотреть больше - вот подборка видосов.

https://www.youtube.com/watch?v=7xTGNNLPyMI

#ликбез
@ai_newz

эйай ньюз

05 Feb, 18:16


Gemini 2.0 Flash наконец-то релизнулась

Модель заметно дешевле конкурентов в подобной ценовой категории (GPT-4o mini, DeepSeek V3 по скидке и Claude Haiku 3.5), при этом она показывает себя лучше всех этих моделей. Но есть и нюанс - расценки заметно поменяли. Раньше для длинных запросов цена была в 2x больше, а теперь цену сделали усреднённо единой. Теперь длинные запросы будут дешевле на 30%, а короткие - дороже на 30%.

А по старой цене доступна Gemini 2.0 Flash-Lite. Она лучше чем 1.5 Flash, но разница по бенчам с полноценной 2.0 Flash больше разницы в цене. Вот так ловко Google пытается пересадить разработчиков на более дорогую Gemini 2.0 Flash.

Вдобавок ко всему этому, Google обновил превью Gemini 2.0 Pro - более ранняя версия модели була доступна уже два месяца как Gemini-Experimental-1206, эта версия уже ближе к релизу. Надеюсь она не будет сидеть в превью ещё два месяца и релизнется скоро, желательно сразу с Thinking версией.

https://aistudio.google.com (может быть нужен впн)

@ai_newz

эйай ньюз

05 Feb, 17:36


Имба для удалёнщиков — Pickle

Записываем 3 минуты своей говорящей головы. Затем ждём сутки, а то и двое, пока тренируется моделька — и вуаля, готово! Лежим на диване во время мита, пока ваш виртуальный клон с реалтайм липсинком отсиживается за вас перед веб-камерой.

Это молодой стартап с командой из 5–7 человек, так что технических деталей никаких. Есть только подписка, по которой за 24 бакса в месяц можно наговорить аж на 1000 минут (чего, надеюсь, хватит всем). Пока работает только на Mac — поддержка остальных устройств в разработке.

Пообещайте, что не будете пользоваться этой штукой 😗

getpickle.ai

@ai_newz

эйай ньюз

03 Feb, 06:27


Deep Research - продвинутый поиск от OpenAI

Выглядит это так - вы описываете модели что бы вы хотели узнать, она задаёт уточняющие вопросы и начинает поиск. Он занимает от 5 минут, до, примерно, получаса. Модель ищет новую инфу на основе уже найденой и возвращается с детальным репортом, с указанием источников.

Основана модель для Deep Research на ещё не релизнутой o3, которую зафайнтюнили делать поиск в интернете. Кроме обычного поиска ей в руки дали ещё и интерпретатор питона - так что она сможет строить графики и другие визуализации, на основе найденной информации.

На Humanity's last exam она умудряется набрать 26,6%, правда используя внешние источники и Python. И двух недель не прошло, а топовые результаты на бенче уже практически утроились с 9,4% на старте.

Фича уже доступна Pro подписчикам (100 запросов в месяц), Plus и Team на очереди (~10 запросов в месяц), остальные получат ещё позже. У гугла, если что, такая же фича запустилась ещё в декабре. Правда внутри там Gemini 1.5 Pro, так что качество по идее заметно хуже. Если кто-то пользовался - как ваши впечатления?

@ai_newz

эйай ньюз

02 Feb, 19:50


Нейродайджест за неделю (#54)

LLM
- DeepSeek — топ 1 — текущее состояние апсторов.
- R1 + Perplexity — один из лучших AI-поисковиков добавил режим с DeepSeek R1.
- Кратко о релизах Qwen — Qwen 2.5 VL (визуальная модель), новый интерфейс, Qwen 2.5-1M с 1 млн токенов контекста.
- Qwen 2.5 Max — тестируем в чате. Это не лучше, чем R1, но есть много фич, например, генерация картинок и артефакты.
- Mistral Small 3 — довольно маленькая, зато можно погонять на 3090. А лицензия Apache просто сок — можно юзать в проде без заморочек.
- Трамп про DeepSeek — успехи китайцев дошли даже до президента. Когда тебя так нагибают, нужно что-то сказать.
- Сброс лимитов в Claude – датамайнеры нашли ещё не анонсированную фичу, которая обещает стать спасением для тех, кто любит потранжирить токены.
- OpenAI o3-mini — главный релиз недели! Топ-1 в коде. OpenAI не хочет отдавать первенство и поспешил с релизом. Можно потыкаться даже без подписки.

Генеративные модели
- YuE — добротный генератор музыки с открытым исходным кодом. Станет ли он Stable Diffusion в мире музыки — пока неясно, но движение в этом направлении есть.
- Qwen Video — таинственный видеогенератор из чата Qwen. О нём совсем нет информации, но генерит он сносно, да ещё и бесплатно.

Чуть про меня

- Сходка на Бали — отчёт с фотками со встречи. Как всегда, прекрасно поболтали! + Анонс новой сходки сегодня (2 февраля) на Кипре.
- Моя первая принятая статья на ICLR — впервые работаю непосредственно над LLM. Ускоряем 405B модель.

Прочее
- Сколько зарабатывает OpenAI? — The Information слил примерные цифры.

> Читать дайджест #53

#дайджест
@ai_newz

эйай ньюз

02 Feb, 12:50


Датамайнеры нашли в Claude (пока) не релизнутую возможность заплатить за "сброс" лимита сообщений, когда сообщения заканчиваются. Сколько это будет стоить - пока что непонятно.

У Claude последние несколько месяцев всё очень плохо с лимитами - они у Anthropic динамические и зависят от нагрузки, но серверов им не хватает и нагрузка там всегда очень высокая и лимиты крайне маленькие. Я, в последние несколько месяцев, много раз видел в твиттере пользователей умоляющих о такой функции, ну вот они и прислушались. Но насколько нужно это сейчас, когда есть несколько серьёзных конкурентов без таких проблем с лимитами, куда и перешла значительная часть пользователей Claude - вопрос.

А вам какой из новых способов монетизации низких лимитов больше нравится - этот, или подписка за $200?

@ai_newz

эйай ньюз

01 Feb, 12:29


У ChatGPT 15,5 миллионов платных подписчиков

По данным The Information, с сентября добавилось более 4 миллионов подписчиков. Их доля общем количестве юзеров не растёт и составляет около 5%, а рост в количестве подписчиков обусловлен ростом юзербазы, которая за 2024 год утроилась.

А вот средняя выручка с подписчика растёт - Pro подписка уже приносит больше выручки чем Enterprise, то есть количество Pro подписчиков уже измеряется в сотнях тысяч. При этом всём, по заявлениям Сэма Альтмана, подписка месяц назад была убыточной - OpenAI не расчитывали на такое активное использование. При таких вводных подписка в $2,000 звучит уже не так безумно как несколько месяцев назад.

Ещё быстрее подписок росла выручка с API - за 2024 она выросла в 7 раз, при том что компания несколько раз за 2024 год сбрасывала цены. Вот вам и наглядная иллюстрация парадокса Джевонса.

При этом всём, сколько именно зарабатывают сейчас OpenAI понять трудно. Хоть мы и знаем, что за первое полугодие 2024 проекция выручки удвоилась до $3,4 миллиарда долларов в год, но как повлияли на выручку запуск Voice API и o1 - незвестно. Зато известно что переговоры про новый раунд инвестиций размером в $40 миллиардов, ведутся уже при оценке компании в $260 миллиардов, что на 73% выше оценки в октябре 2024

@ai_newz

эйай ньюз

31 Jan, 19:47


OpenAI выпустили o3-mini - бесплатно

Лимиты бесплатным пользователям пока непонятные, Pro подписчикам дают безлимит, Team и Plus - 150 сообщений в день. Также к o3-mini, в качестве эксперимента, прикрутили поиск.

Модель доступна одновременно как и в чате так и в API, куда добавили поддержку function calling и structured output для этой модели. Цену скинули в три раза - стоит новая модель $1.10/$4.40 за миллион токенов, что лишь немногим дороже R1 с официального API (и дешевле многих неофициальных).

У новой модели есть три режима работы:
(1) быстрый режим low compute,
(2) обходящий o1-mini режим medium (всё равно на 24% быстрее),
(3) и опережающий o1 на большинстве бенчей, более медленный режим high compute.

Есть и нюансы - как и оригинальная o1-mini, o3-mini не поддерживает мультимодальный ввод, а одну из требующих агентности задач модель полностью провалила - использовала bash вместо питона не смотря на все попытки уговорить её это не делать.

Модель очень интересная, классно что бесплатным пользователям наконец-то дали reasoning модель. Ощущается как OpenAI задвигались, когда появилась конкуренция - и цены сбрасывают, и доступ бесплатным юзерам дают, и поиск прикручивают.

@ai_newz

эйай ньюз

31 Jan, 17:34


Qwen Video?

Пару дней назад я писал про Qwen-2.5-Max – вот тут. Так вот, туда прикрутили видео генератор! Он не встроенный, конечно, тут дёргается сторонняя диффузионная модель.

Теперь доступ к видео есть почти у всех (в ЕС не работает, работает под американским и британским VPN).

Ну, как для всех… Сервера, конечно, лежат, как это часто бывает с релизом видео-моделей. Это уже как будто must-have: если сервера не падают, значит, ваша модель – никому не нужная хрень. Так что, если бы я делал свой стартап, то положил бы серверы специально 😂

Подробностей про эту модельку нет от слова совсем, только текст на вотермарке – TONGYI WANX. Однако качество и следование промпту оч добротное, анатомия в том числе. Можно было бы подумать, что это Kling 1.6 или Minimax, подключенный по API, но Qwen лепит свою вотермарку на видосы, да еще и генерит их бесплатно. Поэтому в этой версии возникают сомнения. Кто-то предположил, что это может быть новый Minimax, они вроде бы связаны с Qwen через Alibaba.

Я собрал черипики из твиттера на оценку местным мастерам. Еще примеры в комментариях. Как думаете, это новая безымянная модель от Qwen или что-то из уже известных?

chat.qwenlm.ai

@ai_newz

эйай ньюз

31 Jan, 14:26


В суматохе работы cовсем забыл поделиться хорошими новостями! Нашу статейку приняли на ICLR – spotlight! Ну, и кстати, я впервые сабмитил что-то на ICLR, до этого были либо конференции по зрению либо NeurIPS.

Это моя первая статья непосредственно по LLM, мы там представляем новый метод по значительному ускорению инференса 405-миллиардной модели.

В ближайшие дни будет на архиве, тогда и напишу про нее подробнее.

#резерч

@ai_newz

эйай ньюз

30 Jan, 14:24


Mistral Small 3

О, вот и новая моделька от Mistral, от который уже несколько месяцев не было опенсорс релизов. 24B, по бенчам сравнивают с Llama 3.3 и Qwen 2.5 32B.

Модель должна влезть в 3090/4090/5090, ждём reasoner тюнов. Хорошая новость - лицензия Apache, так что с моделью можно делать вообще что угодно.

magnet:?xt=urn:btih:11f2d1ca613ccf5a5c60104db9f3babdfa2e6003&dn=Mistral-Small-3-Instruct&tr=udp%3A%2F%http://2Ftracker.opentrackr.org%3A1337%2Fannounce&tr=http%3A%2F%http://2Fopen.tracker.cl%3A1337%2Fannounce

Блогпост

@ai_newz

эйай ньюз

30 Jan, 13:06


Фотоотчет с тусовки "эйай ньюз" на Бали

Выкладываю запоздалые фоточки с оффлайн встречи 3 Января, которую мы провели на Бали. Неожиданно много людей собралось. На пике было около 40 человек, только посмотрите на толпу на коллективном фото!

Как всегда было очень круто - интересные люди (не обошлось и без присущих Бали приколов), классное пространство (отдельное спасибо Ash Nuanu), и глубокие разговоры про AI! Кстати, это был первый раз, когда подготовка к ивенту была настолько серьезной, что у нас было даже целых два микрофона, чтобы все могли хорошо слышать дискуссию и задавать вопросы.

Я в очередной раз приятно удивлен концентрацией умных, приятных и талантливых людей в нашем комьюнити!

---

Как вы уже могли заметить, я очень люблю организовывать такие тусы. Поэтому, пользуясь случаем, хочу анонсировать, что я буду на Кипре, в Лимассоле на этих выходных и хочу там тоже организовать сходку! Ориентировочно в Вск вечером 2.02.2025. За подробностями присоединяйтесь к Кипрскому чату, если вы на Кипре. Буду рас вас всех увидеть!

@ai_newz

эйай ньюз

30 Jan, 11:48


Опенсорс Suno🤡🤡🤡

Наконец-то в опенсорс генераторах музыки сподвижки. Угадайте, кто? Правильно, китайцы YuE — по-русски йе! Yeah, ну или просто 乐. По звуку похоже скорее на Suno v2, но и это уже очень хорошо. Примеры в видосе и полные треки в комментариях.

К сожалению, какого-то демо не нашёл, поэтому своих тестов нет. Пейпер обещают скоро, а вот раскатить модельку у себя уже можно. Потребуется только 24 GB VRAM, то есть 4090 может осилить.

Ждём, когда оптимизируют и понаделают всякие финтифлюшки, по типу звуковых IP-адаптеров и контролнетов. :)

Модели на HF
Project page
GitHub

@ai_newz

эйай ньюз

28 Jan, 17:29


Qwen-2.5-Max - китайцам тоже сложно конкурировать с DeepSeek

На бенчах соревнуется с фронтирными не-reasoner моделями, но стоит как reasoner.

Цена тут и правда MAX. За модель просят 10 долларов за миллион токенов на вход и 30 долларов за миллион токенов на выход. Это, если что, в разы дороже чем все конкуренты - в 2.5x дороже чем Sonnet и аж в 30x дороже DeepSeek V3. Причём Qwen тут не предлагает никаких фич для оптимизации цен, даже тех, что уже стали стандартом.

Основное достоинство модели при такой цене - то, что её главный конкурент в Китае находится под жуткой нагрузкой уже второй день и не может выдержать всех желающих.

Ко всему прочему это закрытая модель, как и все современные MoE модельки Qwen. Бесплатно потестить можно в их чат интерфейсе.

chat.qwenlm.ai

Хух, в Китае наступил Китайский Новый год и релизов от них должно стать чуть меньше

@ai_newz

эйай ньюз

27 Jan, 20:02


Пока DeepSeek лагает под нагрузкой, давайте поговорим про Qwen

У компании за последние пару дней было несколько релизов, но я подождал китайского нового года и собрал всё

Qwen 2.5-VL - обновлённая визуальная модель в размерах 3B, 7B и 72B. Из интересностей - возможность парсить документы в HTML и базовый компьютер юз - до клода и оператора далековато (модель попадает в лупы даже на официальных демо, правда выбирается из них).

Компания сильно обновила свой чат интерфейс, там есть теперь генерация картинок с видео и поиск по интернету.

Релизнули Qwen 2.5-1M - 7B и 14B модели с миллионом токенов контекста, непонятно как их sparse attention влият на качество. Много тестов пока нет - все играются с R1 и на Qwen внимания не обращают.

Веса Qwen-2.5-VL
Веса Qwen-2.5-1M

chat.qwenlm.ai

@ai_newz

эйай ньюз

27 Jan, 17:54


Perplexity добавили Reasoning в Pro Search

Поддерживается как R1 так и o1, бесплатным пользователям дают 3 поиска в день с R1, обещают постепенно повышать лимиты.

R1 у них хостится самостоятельно, на европейских и американских серверах, так что проблемы с перегрузкой DeepSeek (которые из-за повышенного спроса закрыли регистрацию) их не затронут.

Я как раз преданный подписчик Perplexity. Нравится, что там легко можно переключаться между моделями.

perplexity.ai

@ai_newz

эйай ньюз

27 Jan, 10:30


Топ апстора в США прямо сейчас

UPD: от такого наплыва юзеров дипсик прилёг
UPD2: частично поднялся
UPD3: ограничили регистрацию новых пользователей

@ai_newz

эйай ньюз

26 Jan, 21:04


Нейродайджест за неделю (#53)

DeepSeek R1
Китайцы выложили в общий доступ свою reasoning-модель, на уровне o1 от OpenAI!
- Веса — для запуска потребуется 8xH200, для тех кто не может себе позволить есть дешевые API и бесплатный чат.
- Бенчи — R1 особенно хороша в коде и математике.
- Дистилляты — их есть целый спектр и даже 1.5B моделька по бенчам обходит 4o в узких задачах.
- Генерируем видосы в стиле 3Blue1Brown — Manim позволяет создавать самые разнообразные визуализации и презентации (не только математические) с помощью кода, и с этим R1 справляется на ура.
- Поиск с R1 — у DeepSeek и так был один из лучших AI-поисковиков, у тут с reasoning он стал ещё лучше.

LLM другое

- Gemini Flash Thinking — очередная "малявка" от Google, хороша, но где флагманы Google?
- Последний экзамен человечества — что будет, если всем миром собрать пул из 6000 самых сложных задач? LLM решат меньше 10% из них.
- Operator — агент, который может брать под контроль браузер от OpenAI. Уже доступен за $200.

Инфраструктура для LLM
- Stargate — $500B потекут рекой прямо в залив AI с лёгкой руки Трампа. Ни о каких регуляциях для больших разработчиков и уж тем более калифорнийском проекте запретов речи уже не идёт.
- 2GW датацентр от Meta — Марк анонсировал огромный датацентр размером с Манхэттен.

Прочее

- Kling Elements — мои тесты для видеогенерации с заданными объектам: костыль есть костыль.

Читать дайджест #52

#дайджест
@ai_newz

эйай ньюз

25 Jan, 13:11


Теперь поиск можно юзать вместе с R1

Работает и на сайте и в приложениях (да, у них теперь есть приложения на Android и iOS). DeepSeek, как всегда, просто релизят фичи, без анонса.

Надеюсь OpenAI почувствуют давление и добавят и это и интерпретатор кода в o1, а DeepSeek, в свою очередь, ответит, ведь конкуренция - это хорошо. Релиз R1 уже побудил их анонсировать бесплатный доступ к o3-mini.

chat.deepseek.com

@ai_newz

эйай ньюз

24 Jan, 18:11


Я же говорил, что анонс Трампа разгонит AI индустрию в целом. Вслед за Stargate Марк флексит тем, какой большой датацентр размером с Манхэттен строит Мета.

Это будет датацентр мощностью 2GW+. В 2025 онлайн уже будет ~1GW* мощности и более 1.3 миллиона GPU! Только в 25 году в этот проект будет проинвестировано $60-65 млрд, а также Марк будет значительно наращивать AI команду внутри Мета - а это значит еще больше конкуренции за таланты!

* 1GW - это мощность, выдаваемая средненькой атомной электростанцией, например Беларуская АЭС производит 1.2 GW.

@ai_newz

эйай ньюз

24 Jan, 14:15


Мнение по Operator от ChatGPT на основе дня использования:
- это все еще ранний продукт, поэтому в бете: он не со всем справляется, но от него уже есть польза

- он полезен, когда вам нужно что-то собрать в автономном режиме: отправляете его собирать список философских кружков вокруг вас, он возвращается со списком ссылок, или у вас есть список товаров и нужно прописать им описания автоматом, или вам нужно найти какую-то редкую деталь, ответ и тп и тд, короче вы поняли

- он довольно сухо и коротко отвечает пока что - видно, что это будут настраивать

- поскольку это бета, агент может запутаться и долго делать простую задачу - простые задания лучше все еще делать кожаным

- каждый раз, когда он подходит к выполнению задачи, он просит вас вмешаться чтобы убедиться, что все ок - оператор работает в фоне и присылает пуш когда вы нужны, удобно

- забавный промпт инженеринг пример от OpenAI: в системном промпте, они говорят агенту что у него 20-летний опыт использования компьютера 🌚

- кстати, оператор будет доступен на телефонах в том числе, вчера упомянули на презентации - это уже киллер фича мне кажется, полноценный пк-браузер доступный в любой момент

Пока что мне нравится, соберу потом сценарии использования от сообщества

эйай ньюз

24 Jan, 11:20


Kling Elements: есть ли смысл?

Я уже писал про генерацию видео с заданныит объектами, когда вышла пика 2.0. Но пика, мягко говоря, слабовата. Клинг объективно на голову выше, да и версия 1.6 недавно вышла.

И вот я всё-таки решил потестировать *Elements*. Мои спекуляции о том, как работает эта фича в Pika (там она зовётся ingredients), можете почитать здесь.

Ну что там по тестам? Я закинул мокап с телефоном и фон с каким-то модерновым домом. Я сам не очень представлял, как их совместить — собственно, и вышла шляпа. Но я хотел проверить, как передастся текст, и... на удивление, у него получилось! Ну, почти. По крайней мере, надпись "эйай ньюз" реально видна. А это очень важно для всяких AI-шных промо-роликов, ведь это значит, что эта штука способна передавать логотипы.

(Но, кстати, если отдельно залить только лого, он вообще его не воспринимает.)

Юзать для каких-то брендовых историй, где нужно, чтобы логотип обязательно сохранился, можно. Если просто задать конечный и начальный кадры с таким вот мелким (да и крупным тоже) текстом, у вас, скорее всего, ничего, кроме каши из пикселей, не выйдет.

Однако всё равно это очень тупо — генерить видео текстом, не имея контроля над начальной картинкой (как это делается в обычном image2video). А что, если мне нужна композиция или "киношность" MidJourney? Приходится кучу раз тестировать разные комбинации фона и продукта. Поэтому на ожидание генерации уходит просто неимоверное количество времени и токенов.

Кстати, Клинг по ощущениям — самый медлительный генератор. Даже в те моменты, когда на серверы не такая большая нагрузка, как сегодня на релизе, ждать приходится в среднем минут 7.

Так что хз, такой себе костыль. Не более чем временное решение.

klingai.com

@ai_newz

эйай ньюз

23 Jan, 19:08


OpenAI показали Operator - своего первого агента

Он может полноценно пользоваться браузером и заказывать билеты, еду, столики и т.д. Выглядит это как отдельный сайт на поддомене чатгпт, где к обычному интерфейсу прилепили окно браузера, которое стримится одновременно и пользователю и оператору. Пользователь в любой момент может перехватить контроль, более того, для чувствительных действий, вроде платежей, вмешательство пользователя необходимо.

Это всё напоминает мне про стартап Mighty, который создавал облачный браузер, но пивотнулся в генерацию изображений пару лет назад (теперь они Playground). Он проходил Y Combinator как раз когда Альтман ещё был там главой совета директоров, возможно OpenAI выкупили IP.

Работает это всё на основе CUA (Computer-Using Agent), нового тюна GPT-4o, который совмещает ризонинг с пониманием изображений. Она бьёт Sonnet 3.6 (2024-10-22) по computer use, с аналогичной моделью Google не сравнивают - там разрыв куда меньше и доступа публичного пока что нету. Заметьте, как OpenAI всё больше и больше в презентациях похожи на Apple - в табличке упоминают модель как "Previous SOTA", а то что это Sonnet 3.6 можно узнать только из сносок.

Anthropic и Google показывали демки и запускали API на несколько месяцев раньше, но OpenAI всё равно первыми запустили консьюмерский продукт, что показывает разницу приоритетов. Operator уже раскатывают на пользователей Pro подписки (кстати, а вы знали что она убыточна?), через подписку Plus и API оно будет доступно через несколько недель.

operator.chatgpt.com (доступно Pro пользователям из США, под впном пускает)

@ai_newz

эйай ньюз

23 Jan, 15:40


Последний экзамен человечества

Новый бенчмарк, на котором все наилучшие LLM набирают меньше 10%. Собирали его всем миром - была открыта форма, где принимались вопросы, если на вопросе фейлились основные передовые LLM - его давали на обсуждение панели экспертов, которая которая отсеивала неподходящие вопросы и модифицировала прошедшие ценз вопросы. Всего LLM не прошли 13000 вопросов, из которых выбрали 6000, на более чем сотню разных тем. Половину из них - опубликовали, половина - попала в приватный сет. Авторы топ 50 лучших вопросов получили $5000, за следующие 500 вопросов уже платили $500, что тоже солидно.

На бенче лидируют o1 и R1, причём кто лучше тут сказать сложно. 10% бенчмарка - мультимодальные вопросы, R1 в изображения не умеет, поэтому её тестили лишь на текстовой части, где она обогнала всех (так что то что она на уровне o1 - не байт). А на полном бенче всех обгоняет o1. Что интересно - у всех моделей, кроме Grok 2, при переходе на текстовую часть бенчмарка, слегка падает точность, но результаты моделей пока что слишком плохие чтобы делать из этого какие-то выводы.

Кроме качества ответов, бенч тестит ещё и самооценку - вместе с самим ответом, модель просят выдать и её уверенность в этом ответе. Это позволяет понять, насколько хорошо модель может оценить свои собственные возможности. У хорошо откалиброванной модели результаты на бенчмарке и среднеквадратичная уверенность должны быть довольно близко. На этой части, с заметным отрывом, лидирует та же R1, но всё равно Calibration Error у неё за 80%. Надеюсь, из-за этого бенча, заоблачную самооценку современных LLM немного поумерят.

Название, конечно, слишком пафосное и далеко не факт что насыщение этого бенчмарка означает что модель - это AGI. Но новые, ненасыщенные бенчмарки сейчас на вес золота, создавать их крайне сложно, так что грех жаловаться. Авторы ожидают что до конца года новые модели могут выдать более 50% точность на этом бенче, посмотрим как на нём себя покажет o3.

Пейпер
Бенчмарк
Сайт проекта

@ai_newz

эйай ньюз

22 Jan, 15:58


Google продолжает эксперименты с reasoner моделями. Компания обновила свою Gemini Flash Thinking (доступна бесплатно в AI Studio) - она теперь умнее, имеет миллион токенов контекста и может выполнять код (нужно отдельно включать). Вообще раздражает, что в AI studio не всегда понятно, когда именно модель пользуется поиском или исполнением кода,

Моделька сейчас занимает первое место на чатбот арене, обгоняя o1, Sonnet 3.6 и другие модели, что доказывает бесполезность этой самой арены - у модели очень сильный "small model smell". Она уходит в думлупы, не знает многих вещей и в целом часто тупит. Но, хоть и от Gemini-Exp-1206 впечатления часто были приятнее, на кодинге с математикой Flash Thinking всё же показывает себя лучше (но слабее o1 и R1).

Что мне не нравится в поведении Google в последний год - концентрация на маленьких модельках. Сначала с радаров пропала Gemini Ultra, а теперь уже и Pro не так часто появляется. Выглядит это, честно говоря, странно - как будто бы команде дают только компьют на эксперименты, но не на скейлинг.

Flash Thinking, для маленькой модели, показывает себя прекрасно. Но всё же хочется посмотреть, насколько хорошей будет Gemini Pro/Ultra Thinking. И, учитывая тот факт, что дистилляция из большей модели, работает намного лучше чем RL напрямую на маленькой модели, насколько похорошеет Flash от дистилляции из моделей побольше.

@ai_newz

эйай ньюз

22 Jan, 09:47


😮Трамп анонсировал проект Stargate по построению AI инфраструктуры в США на $500 млрд

Инвестиции в размере $500B – это очень много денег, и составляет 1.7% ВВП США, что сравнимо с тратами на Лунную програму США в прошлом веке. Еще для сравнения, это в 3 раза больше всей VC индустрии в США!

Почему сейчас? Потому что Китайцы давят люто, и даже с гораздо меньшими ресурсами и под санкциями выпускают модели, которые не хуже по качеству чем у OpenAI, да еще и дешевле и быстрее.

США видит в этом прямую угрозу и хотят оставаться лидером в гонке AI. Также на уровне государства все осознали потенциал AI трансформации во многих сферах жизни, включая экономику и военную промышленность, куда исторически США инвестирует большие доллары.

Что это значит для нас? Это значит, что сфера дальше будет раздуваться, зарплаты AI инженеров и сайнтистов расти, а размер инвестиций в AI увеличиваться. Инфра и инференс моделей сильно подешевеет. Как сказал Коля Давыдов: "нас зальют баблом, AI стартапам будет очень хорошо".

Приведет ли это к AGI в широком понимании в течение следующих 5 лет? Я тут скорее скептичен и склоняюсь к тому, что нет. Но модели точно станут более мощными и умными.

Мы с вами в очень правильное время занимаемся очень правильными вещами.

@ai_newz

эйай ньюз

21 Jan, 19:35


Забавная возможность R1 - генерировать видосы объясняющие математические концепты по одному запросу. Алмазный век с его букварём все ближе.

Делается это через генерацию кода для Manim - системы анимации, которую сделал ютубер 3blue1brown, который ещё делал прекрасное объяснение работы трансформера (тык).

@ai_newz

эйай ньюз

20 Jan, 14:03


Не забыли DeepSeek и про простых смертных - компания выпустила целую линейку дистиллированых из R1 моделей.

Даже 1.5B моделька показывает себя лучше Sonnet и оригинальной 4o на математических бенчмарках, 14B уверенно обходит QwQ, а 32B - o1-mini (правда отстаёт на Codeforces).

Вместо дистилляции пробовали учить напрямую через RL на маленькой модельке, но результаты были сильно хуже. С дистилляцией модель может напрямую учиться у большей модели размышлять, а не самой искать эффективные способы размышления.

Интеллект для всех, даром, и пусть никто не уйдёт обиженный!

Qwen 1.5B
Qwen 7B
Llama 8B
Qwen 14B
Qwen 32B
Llama 70B

@ai_newz

эйай ньюз

20 Jan, 13:40


🔥DeepSeek R1 - уровень o1 бесплатно

Бенчи говорят сами за себя. Модель уже бесплатно доступна в чате (50 сообщений в день), веса выложены на HuggingFace. API дешёвый - в 30 раз дешевле o1, в 6 раз дешевле o1 mini. И всего в два раза дороже чем DeepSeek V3 без скидки.

Веса R1
Пейпер
Код

@ai_newz

эйай ньюз

20 Jan, 11:37


Ищем людей или команды, которые могут создавать простых ИИ-агентов для автоматизации бизнес процессов в отдельно взятой отрасли!

Добрый день! Мы – сеть медицинских клиник, а еще – преданные читатели этого канала. И вот складывается ощущение, что в канале – 2025 год, а у нас в отрасли пахнет дореволюционным нафталином. Столько ИИшных возможностей хочется реализовать на практике, но совершенно не получается, потому что:

⁃ отраслевые информационные системы дремучие, часто не имеют API или имеют, но скудный и плохой;
⁃ очень мало умельцев, которые одновременно ориентируются и во всем зоопарке ИИ моделей, и в том, как их пришить к действующим ИТ системам в организации (RPA, Silenium, может что-то еще)

Хотим местные захватывающие дух «сказки» сделать действующей и помогающей людям былью. Поэтому ищем подрядчиков – разбирающихся в вопросе ребят или команды.

Пишите сюда, будем рады познакомиться!

#промо

эйай ньюз

20 Jan, 09:38


DeepSeek выпустили веса R1, своей reasoner модели

Как обычно, компания сначала релизит веса, и лишь потом техрепорты и бенчмарки. Так что пока что у нас есть лишь результаты Preview версии на LiveCodeBench, где R1-Preview тягается по качеству с o1. Важный контекст к табличке - в отличие от o1, мы не знаем насколько много компьюта использовали для получения таких результатов от R1. Если бенчили аналог low-compute режима OpenAI, то модель может в итоге оказаться сильнее чем o1.

Основана R1 на DeepSeek V3 (685 миллиардов параметров), так что требования для запуска модели такие же - 8xH200. Пока ждём техрепорта, можно поспекулировать в чём разница между R1 и R1-Zero.

Веса R1
Веса R1-Zero

@ai_newz

эйай ньюз

19 Jan, 20:49


Нейродайджест за неделю (#52)

LLM
- Codestral 25.01 — обновление LLM от Mistal: модель стала значительно умнее и быстрее.
- MiniCPM-o 2.6 — омни-моделька, которая работает локально, даже на iPad!
- ChatGPT Tasks — теперь ChatGPT может напомнить вам, например, помыть посуду вечером.
- Арена чатбот-комиков — бездушные боты борются за звание самого угарного мемодела. Можно протестировать самому!

Генеративные модели
- Ray 2 — Luma возвращается! Новая моделька вернула компанию в гонку видео-моделей.

Прочее
- Retro — Сэм Альтман инвестирует в стартап, который совместно с GPT-4b micro пытается создать «зелье бессмертия».

> Читать дайджест #51

#дайджест
@ai_newz

эйай ньюз

18 Jan, 15:48


OpenAI помогает разрабатывать средства для продления жизни

Для этого компания кооперируется со стартапом Retro, заявленная цель которого - повысить среднюю продолжительность жизни на десять лет. Специально для стартапа была создана модель GPT-4b micro, натренированная на последовательностях белков множества биологических видов и данные об их взаимодействии.

Подход стартапа (в который Сэм Альтман инвестировал $180m) основывается на процессе превращения клеток кожи в стволовые, которые потом можно тривиально перепрограммировать в любые другие типы клеток в человеческом организме. Из-за этого свойства стволовые клетки очень ценятся и имеют кучу применений, но крайне дорогие, из-за чего не могут использоваться массово.

Существующий процесс получения стволовых клеток из клеток кожи крайне неэффективен - занимает несколько недель и может успешно перепрограммировать менее 1% клеток. Благодаря GPT-4b micro процесс вышло заметно улучшить - вышло создать более чем в 50 раз эффективные версии двух из четырёх необходимых для процесса белков. Насколько именно это улучшает процесс в целом - непонятно, но разница на картинке огромная.

@ai_newz

эйай ньюз

18 Jan, 13:37


Помните 2007? А стенку "ВКонтакте"?
Хочу тут навалить вам немного ностальгии.

Челиксы, которые когда-то сделали iFunny (тикток до того, как родились зумеры), решили, что пора "Make AI Funny As Fuck". Короче, они создали генеративную ленту ВКонтакте... @AIMemeArenaBot. Я даже как-то соскучился по тупым картинкам с ещё более тупым текстом, но бывает, и улыбнёт. Особенно учитывая, что можно подгружать свою тему для мемасиков.

Главный прикол в том, что ваши оценки мемов учитываются, и вообще это как бы даже не бот для генерации мемов, а chatbot arena — только по приколу. Там на данный момент 8 агентов-мемоделов, причём количество ботов растёт, потому что каждый может добавить своего и поучаствовать в челлендже. А за призовые места даже USDT дают! Причём немало: за первое место аж $3к.

По идее, AI может быть лучше человека во всём, так что и в юморе тоже. Странно, что мало кто делает упор на это в резерче, хотя юмор это очень важный компонент человеческой коммуникации. Если зайти в чат GPT и что-то у него спросить, вряд ли он вас рассмешит, ведь для хорошей шутки ещё нужен сетап, да и текст в ChatGPT, как правило, будет выдаваться очень банальный. Поэтому круто, что есть такой челлендж. Видно, что участники взяли датасетик очень неплохой и промпт подобрали. Можно как раз взять топ мемов из IFunny для файнтюна своих агентов.

Пушит всю эту тему с юмором для AI один из создателей Spatial Chat (у них недавно был exit). Он русскоговорящий, поэтому и мемы на русском. В англоязычном сегменте, конечно, есть что-то подобное, но без арены и без бесплатного бота. И первый подобный сервис, который попался в поисковике не такой весёлый :)

Я закинул в контекст бота последние посты с канала, а выше — то, что вышло.

AI Meme Arena Challenge

@ai_newz

эйай ньюз

16 Jan, 13:04


ChatGPT Tasks

Ну всё, теперь гптишка может быть полноценным персональным ассистентом. Новая фича позволяет гптишке отправлять вам уведомления и напоминания. Это не геймчейнджер, конечно, но довольно полезная штука для экономии времени. Хотя какой-нибудь Okey-Google мог делать это давным-давно, но с этой штукой можно делать что-то гораздо более интересное, чем просто записывать напоминалки. Дополнительного контекста из чата, особенно если вы активно пользуетесь памятью, может делать очень много. Как насчет: «Придумай, что мне сегодня поесть, основываясь на том, что осталось в холодильнике из списка покупок, который ты писал в начале недели, и учитывая всё то, что я уже готовил по твоей команде»?

Такая фича - явно предвестник агентов, которые, по слухам, OpenAI собирается запустить скоро. Простые уведомления это, конечно, прикольно. Но когда ChatGPT сможет автономно делать за вас даже простые запланированные действия в интернете, всё станет гораздо интереснее. Название проекта - Operator. Оно в последнее время светится всё чаще и чаще, так что релиз не за горами.

@ai_newz

эйай ньюз

15 Jan, 18:28


Ray 2 - новая видеомодель от Luma

Сейчас доступен text to video режим, image to video и другие более продвинутые фичи обещают когда-то потом. Черрипики выглядят хорошо, ждём реальных генераций от пользователей.

Модель доступна только по подписке, за 10 долларов в месяц дают сгенерить 40 видео с ватермаркой, за 30 долларов количество видео растёт до 125, ватермарку снимают и разрешают коммерческое использование. А за 95 долларов в месяц дают доступ к медленной очереди, но без ограничений по количеству генераций.

Блогпост с анонсом (там больше примеров генерации)
Попробовать модель можно тут (платно)

@ai_newz

эйай ньюз

14 Jan, 11:37


Омни модель локально на айпаде

Вышла MiniCPM-o 2.6 - опенсорсная омни модель от китайцев из OpenBMB. По пониманию картинок, моделька, не смотря на свой скромный размер, обходит ранние версии GPT-4o.

За основу взяли Qwen2.5 7B, к которому приклеили Whisper и SigLip для обработки аудио и картинок на вход. Для синтеза речи используется ChatTTS-200M. У получившейся модели всего 8 миллиардов параметров, то есть квантизированную версию запустить можно практически где угодно.

Хоть и визуальные бенчи и понимание звука работают довольно хорошо, но разговаривает модель точно не на уровне 4о. Модель сносно говорит на английском (китайский проверить не смог) и может немного играться голосом, но про остальные языки можно забыть. На тасках посложнее, вроде пения, модель совсем сыпется. Но результаты, для такой весовой категории, всё равно отличные.

Это всё ещё одна из первых опенсорс омни моделей, тренировать их пока что не очень умеют. Но то же самое было и с VLM совсем недавно, а сейчас у нас есть сразу несколько хороших семейств моделей в совсем разных весовых категориях. Дальше будет только лучше.

Демо (русский немного понимает, но не разговаривает)
Веса

@ai_newz

эйай ньюз

13 Jan, 15:24


Mistral обновили Codestral

Новая версия 25.01 значительно умнее и в два раза быстрее, из-за обновлённого токенизатора и улучшенной архитектуры. Окно контекста расширили до 256к токенов. Заявляют первое место на Copilot Arena, но результаты пока что не опубликовали.

С бенчами опять шалят - Qwen 2.5 Coder в сравнении отсутствует, семейство Llama тут представляет не Llama 3.3, а Codellama 70B полуторагодичной давности.

С моделями DeepSeek, на этот раз, всё же сравнивают, но только с моделями меньше 100B параметров, из-за чего сильные MoE модели из сравнения выпадают. А ведь Codestral стоит на уровне скидочных цен DeepSeek V3 - $0.09/$0.30 за вход/выход, не на уровне моделек поменьше. Но у Mistral нету context caching, что сильно повышает цену при реальном использовании модели в кодинге (в Copilot сценариях часто входных токенов 95%+). Ждём независимых бенчей чтобы понять реально соотношение цены и качества.

Весов в открытый доступ не дают, даже по кастрированной лицензии. Попробовать бесплатно можно через плагин continue.dev, он доступен для VS Code и JetBrains.

@ai_newz

эйай ньюз

12 Jan, 22:46


Нейродайджест за (две) недели (#51)
Первый дайджест в новом году.

Про канал
- Этот год на канале — было много сходок, стримов, постов и всякого-всякого.
- Mustread года — подборка главных постов 2024 года, которые до сих пор остаются актуальными.
- Сходка — создал чатик для того, чтобы встретиться с вами на Бали. Как оказалось, желающих было очень много — уже встретились!

LLM
- Grok 3 на подходе — Маск хвастается, что претрейн уже завершён.
- Qwen Chat — совсем бесплатно и с хорошим функционалом.

Генеративные модели
- Text-to-CAD — интересная попытка научить нейросети работать в 3D при помощи кода. Костыль? Да, костыль.
- JEN-1.5 — самый легальный (и, наверное, единственный) генератор музыки на лицензионном датасете. Для тех, кто любит атмосферу лифта или задаётся вопросом, почему важен хороший датасет.

Железо (Nvidia)
- RTX 5090 — свежие флагманы для пользовательского сегмента от Nvidia. Наконец-то есть на чём тянуть Flux!
- Digits — мини-ПК от Nvidia — убийца Mac Mini. Очень мощный, но по цене сравним с техникой Apple.
- Нейросети против дезинформации — неудачный пример от X.

> Читать дайджест #50

#дайджест
@ai_newz

эйай ньюз

12 Jan, 10:57


Коротко о состоянии лицензионных стартапов.

В публичную бету вышел JEN-1.5 — генератор музыки, натренированный исключительно на легальном контенте. Вроде как под крылом Warner, в команде Майк Карен, который был там одним из топов.

Ну что сказать... Data is everything. Хотя, возможно, ребята просто еще не успели доделать работу. По звуку — как самые дешевые и банальные мелодии, которые вы могли бы найти на стоках. А дабстеп он вообще отказывается делать :) Я будто в прошлый год вернулся. Ну и вокала тоже нет.

Зато не забыли добавить подписку: в месяц дают 20 генераций, а все самые интересные фичи, по типу инпейнтинга, стоят за пейволом. Тестить? Очень интересно, но пробовать, конечно же, не будем.

Кстати, там еще завезли StyleFilter — типа "крутилка" для музыкантов, чтобы обрабатывать музыку. Вот это, пожалуй, самое интересное! Что-то я совсем не видел никаких AI-powered инструментов для музыкантов. А ведь генеративные эффектики 100% могли бы звучать интересно.

Но тут есть минус: для этого такие инструменты должны работать в реальном времени или хотя бы без необходимости рендера. Иначе это будет совсем неудобно для музыкантов.

Хотя, конечно, есть парочка таких штуковин... Ставьте 🦄, если интересно!

Вот вам примеры внизу, о качестве судите сами.

Попробовать можно здесь.

@ai_newz

эйай ньюз

10 Jan, 09:41


Китайцы из команды Qwen заделали свой чат

Кроме старших моделей из всех линеек опенсорс моделей Qwen, там ещё есть закрытые MoE модели. Qwen2.5-Plus - это самая сильная их general-purpose модель, а Qwen2.5-Turbo - их long-context модель с поддержкой до миллиона токенов контекста. Есть ещё Qwen2-VL-Max, но судя по всему это просто Qwen2-VL 72B (но это не точно).

По фичам всё неплохо для ранней версии - есть артефакты, загрузка документов и картинок. Ну и фича которую нигде, за пределами чатбот арены, я не видел - возможность отправлять один и тот же промпт нескольким (до 3) моделькам сразу (АПД: из комментов узнал что это форк Open WebUI, оттуда и эта фича). Она ещё сыроватая - хотелось бы иметь возможность продолжить диалог лишь с одной из этих моделей, что их интерфейс не позволяет. Скоро в чат обещают прикрутить поиск и генерацию изображений (интересно, это опять будет FLUX, или натренят что-то своё?), ждём.

Всё полностью бесплатно, так же как и у Mistral с DeepSeek. Цель тут - не получить деньги с подписки, а прорекламировать API и получить дополнительные данные для тюна. Если кому-то из подписчиков хочется приватности, то Anthropic, с их Claude, остаются единственной компанией, которая не тренирует модели на основе данных из чата.

chat.qwenlm.ai

@ai_newz

эйай ньюз

09 Jan, 06:08


Как нейросети борются с дезинформацией в X (нет)

Пока читал Твиттер, чтобы вдохновиться новостями, наткнулся на вот такую штуку. 

Уверен, многие уже видели у себя такое в ленте, если хоть иногда заходят в Х. 

Выше чел решил по-старинке похайпить чужим контентом из Реддита, но был жестоко уличен в пиздеже системой распознавания дезинформации X, которая работает на основании ответов на твит.  

Самое смешное, что этот же чел в предыдущем посте защищает X, мол, там нет вранья, и вообще, классические масс-медиа зря обвиняют Твиттер в распространении дезинформации. 

Правда, позже выяснилось, что фото-то реальное. А критик в комментах, который написал, что это враньё, перепутал дату создания сабреддита и дату публикации самой картинки, которая там оказалась уже после поста в Твиттере. Хотя вот ресторан действительно не Мишлен, но всё ещё очень крутой. 

А ложная плашка так и повисла под постом бедного парня, ведь она основывается на комментах под постом. Даже сам критик уже извинился и сообщил об ошибке, все там же, но ничего не изменилось. А автора картинки сейчас, кажется, закенселят за эту шутку.

Неловко вышло, однако! 

В итоге, получился цирк, где критик винит во всем Google Lens, что мол он выдал в поиске неверную дату. А автор поста оправдывается, что он не хотел врать. Все-таки, система, которая для модерации полагается на комменты анонимусов все равно требует ручного фактчека. Ну, либо требуется более сложное агентное поведение для проверки фактов (да и там будут появляться казусы).

As usual: most internet is fake!

@ai_newz

эйай ньюз

07 Jan, 06:35


Убийца Mac Mini от Nvidia – Digits

Вы только гляньте, шустрая коробочка помещается на ладошке Хуанга!

— 128 GB оперативки, причем эта память доступна и для GPU,
— Blackwell GPU GB10 с 1 петафлоп в fp4,
— Проц Arm, 20 ядер.

На такой машинке можно инференсить модели вплоть до 200 млрд параметров. Можно соединить две такие малышки и запускать уже 405B модель.

Обещают выпустить в мае, цена вопроса - $3000.

Хочу себе такую домой! 🥺

@ai_newz

эйай ньюз

07 Jan, 03:15


На презентации Nvidia свои вайбы

@ai_newz

эйай ньюз

07 Jan, 03:05


RTX 5090 за $2000 - Nvidia показала 5000 серию видеокарт

Хуанг с барского плеча закинул в 5090 32 гигабайта видеопамяти с 1.8TB/s пропускной способности. По остальным характеристикам она в 1.5x-3x быстрее чем 4090.

Не забыли и про сегменты подешевле - в RTX 5070 обещают уровень производительности 4090, при этом новые видяхи стоят дешевле 4000 серии.

У новых GPU гора новых фич для геймеров - DLSS 4 теперь работает на основе трансформера, а не CNN, генерация кадров теперь генерит три промежуточных кадра вместо одного. Текстуры и материалы теперь сжимаются при помощи нейронок - и они потребляют вплоть до 3x меньше памяти.

Нужно ждать независимых обзоров, но пока что поколение выглядит очень интересно. Ждём релиза 30 января.

@ai_newz

эйай ньюз

04 Jan, 10:48


Пре-трейн Grok 3 завершен!

На пре-трейн этап тренировки модели ушло более 200 миллионов H100 часов - самый большой трейнинг ран в истории. Это более чем 6x компьюта Llama 3.1 405B и 70x компьюта DeepSeek V3.

Сейчас модель тюнят (там тоже может быть несколько этапов). Релиз в массы обещают "скоро".

@ai_newz

эйай ньюз

04 Jan, 00:56


Text-to-CAD!🪳🪳🪳

Потихоньку возвращаемся из новогодней комы.

Зацените, что делают чуваки из Zoo (да, как зоопарк).

Со стороны выглядит как революция: мол, смотрите, нейросети теперь моделируют в 3D да еще и в CAD формате, инженеры — на завод. На деле же чуваки запилили свою среду для CAD-моделирования через код, а затем (до)обучили свою LLM этот код редактировать. Т. е. это не нативная генерация 3D-объектов, а опосредованная через код, что гораздо проще, чем научить модель генерировать 3D напрямую.

В примерах очень простые базовые детальки. Насколько я понимаю, для них у инженеров и так уже есть заготовки. Может быть, в будущем смогут делать более сложные модели, но вряд ли — кода может оказаться слишком много, и LLM в нем запутается.

Было бы полезно для выполнения рутинных задач, по типу изменения диаметра всех крепежных резьб, но пока я не увидел возможности подгружать свои файлы. Если завезут — будет клево.

Ну и самое сочное: уже открыли публичную альфу — и даже в Discord бота тулзу уже запихнули. Правда, у них и сайт есть с тем же функционалом, так что Discord тут не обязателен. А ещё, вот, код их UI — может, кому пригодится для своих проектов.

AI действительно внедряется во все аспекты нашей жизни.

Инженеры-проектировшики, как вам такая приблуда?

@ai_newz

эйай ньюз

31 Dec, 04:18


Сходка на Бали в 2025

Ребят, как я уже намекал вчера, хочу организовать оффлайн встречу через несколько дней. И, кажется, это будет самая экзотичная сходка "эйай ньюз" – на Бали!

Уверен, что несколько человек из нашего комьюнити точно найдутся на острове. Интересно, сколько нас тут?

Ориентировочно хочу устроить встречу 3-4 января в районе пляжа Чангу.

Добавляйтесь в чат, если вы на Бали и предлагайте место, где можно встретиться. Буду очень рад вас всех увидеть!

@ai_newz

эйай ньюз

30 Dec, 16:19


Mustread: Топ-10 постов 2024 года!

Год подходит к концу, а я продолжаю подводить итоги. Это был крайне насыщенный и плодовитый на новости и другие посты год.

Вот 10 самых интересных из них (в хронологическом порядке):

1) Подборки пейперов про ускорение диффузии — я рассказал как и про дистилляцию, так и про другие методы ускорения.
2) Теперь я Staff Research Scientist — личный апдейт.
3) Инженерные грейды в бигтехе — что такое Staff Research Scientist , и почему Senior — это ещё не всё
4) Ликбез по оптимизации SD3-Turbo — Latent Adversarial Diffusion Distillation в деталях.
5) Что такое Mixture of Experts (MoE) — детальнейший разбор простым языком.
6) Командировка в Калифорнию — о том, как я веду дела и двигаюсь по карьерной лестнице.
7) Автономные агенты в Minecraft — которые позже (но от другой компании) построили цивилизацию из 1000 ботов.
8) О карьерных траекториях в AI — нужен ли PhD?
9) О компенсации в FAANG+ — или где бабки, Лебовски?
10) Movie Gen — 30B text2video модель, где есть и мой вклад!

Ну и самое главное на эти выходные — про отдых с отключением.

Хороших праздников! 🎉

#дайджест
@ai_newz

эйай ньюз

30 Dec, 05:04


С наступающим!🤩

Этот год был очень продуктивным для эйай ньюз, да и для меня в целом. Было очень много крутых новостей в сфере AI - вы просто полистайте ленту вверх, чтобы ощутить, как много всего произошло.

А завтра я опубликую список из топ-10 постов года.

В 2024 канал знатно вырос: пришло +25к новых читателей – добро пожаловать! Сейчас это самый крупный авторский tg-канал про AI и ML на русском языке, и это очень приятно.

В этом году я попробовал новые формы контента – сделал несколько стримов с друзьями и один (1, 2, 3, 4). В следующем году хотелось бы делать такое чаще, т.к мне это очень зашло. Пишите в комментах, какие темы вам были бы интересны.

У нас здесь образовалось очень крутое комьюнити профессионалов и всех причастных к AI, о чем можно судить как по обсуждениям в комментариях, так и по оффлайн-тусам, не говоря уже о закрытой группе. Спасибо, что читаете, друзья! ❤‍🔥

--
P.S. кстати, сразу после НГ планирую провести еще одну оффлайн-сходку, если в том месте, где я сейчас нахожусь, наберется критическая масса людей. Скоро будет анонс!

@ai_newz

эйай ньюз

29 Dec, 16:43


Нейродайджест за неделю (#50)
Рождество дает о себе знать, предновогодняя серия стримов OpenAI прошла. Все ресерчеры и инженеры разбежались по домам, кроме героев ниже:

LLM
- QVQ - 72B – Reasoner от Qwen. По мультимодальным бенчам обходит 4o, но до o1 ещё не дотягивает. А это ведь лишь цветочки - результаты нескольких месяцев работы с небольшими бюджетами, которые весь 2025 будут активно масштабировать.
- DeepSeek V3 – лучший в опенсорсе. Этот уже на равных конкурирует с SOTA не-reasoning моделями в стандартных бенчмарках, но при этом инференс в 10 раз дешевле. Посттрейн оставляет желать лучшего, но на то опенсорс и опенсорс, что скоро будут допиленные версии модели от комьюнити.
- О локальных LLM – ChatGPT лег, а мы обмениваемся своими любимыми модельками и локальными сетапами.

Прочее
- Unitree B2-W – робопёс на колёсах делает сальто и летает сквозь пересечённую местность.
- Локальный txt2video на мобиле! – взяли SD 1.5 VAE-декодер и жёстко заоптимизировали. Для стикеров пойдет.
- Книги на Новый год – или что подарить ML-щику.
- О PhD – мемчик.

> Читать дайджест #49

#дайджест
@ai_newz

эйай ньюз

27 Dec, 18:03


Пятничный мем про жизу PhD студента.

@ai_newz

эйай ньюз

26 Dec, 19:29


ChatGPT лежит, давайте поговорим про локальные LLM

Какие модельки используют подписчики канала дома? Для чего вы их используете? На чём вы их запускате? Сервачок в облаке? Мак? ПК с парой видях? Пришло самое время поделиться своим локальным сетапом в комментах.

@ai_newz

эйай ньюз

26 Dec, 13:23


DeepSeek V3 - новый опенсорс лидер

На общих бенчах тягается с Sonnet 3.5 и GPT-4o, уверенно оставляя Llama 405B позади. Но особенно хорошо моделька показывает себя в кодинге и математике, что не удивительно - модель дистиллировали из R1, конкурента o1 от DeepSeek. А вот по бенчам для агентов Claude всё ещё значительно лучше.

Ушло на тренировку всего 2.78 миллиона H800 часов, что очень мало - у Colossus, суперкомпьютера xAI, на тренировку такой модели даже сейчас уйдёт всего день, а ведь его хотят увеличить в 10 раз. Датасет 14.8 триллионах токенов. Не смотря на то что тренировали в fp8, тренировка была на удивление гладкая - им ни разу во время тренировки не пришлось ничего откатывать.

Архитектурно модель это преемник DeepSeek V2, но заметно больше - 671 миллиардов параметров, из которых 37 миллиардов активных (у меня есть пост о том как это работает). Теперь моделька может опционально предсказывать два токена за раз, что даёт 1.8x прирост в скорости. Устройство MoE слоя тоже слегка изменили - softmax в роутере заменили на сигмоид, а общий эксперт теперь всего один на слой. Практически убрали дополнительные лосс функции, которые нужны были для балансировки такого большого MoE, из-за чего увеличилась точность. Вот пейпер о том как это работает.

До 8 февраля стоимость будет такая же как у V2 ($0.14/$0.28), а после её планируют заметно повысить - до $0.27/$1.10 за миллион токенов. Цена за закэшированные токены на вход тоже вырастает - с $0.014 до $0.07 за миллион токенов, но само кэширование бесплатное и автоматическое, да и хранят кэш целые сутки (у OpenAI и Anthropic по 5-10 минут, у Google платится за час кэша). Позволить себе так играться с ценами они могут - ни один провайдер до сих пор не запустил инференс DeepSeek V2 за адекватные деньги, надеюсь сейчас ситуация с этим улучшится. Даже с таким повышением цен, модель будет очень дешёвая - в 10 раз дешевле Sonnet 3.5 и 4o.

Веса
Пейпер
Чат (со вчерашнего дня на DeepSeek V3)

@ai_newz

эйай ньюз

25 Dec, 20:51


🎄Как всегда получаю на рождество книги про AI. Вот такую получил в подарок в этом году. Так как я живу в Европе, то по сути успеваю отпраздновать оба рождества:)

Книга Ника Бострома, профессора из Оксфорда, про философский взгляд на развитие AI. Ещё не читал, но уже интересно.

Забавно, что Бостром в 2014 году, когда вышла эта книга, очень много говорил про риски и скорее предостерегал о негативных последствиях развития AI, а сейчас он пришел к более сбалансированному взгляду и считает, что если чрезмерно бояться прогресса технологий, то это может значительно замедлить развитие человечества.


Если кто-то читал эту книгу, напишите в комментах, что думаете про неё.

Кстати, накидайте бустов, а то не могу постить стори.

#книги #books
@ai_newz

эйай ньюз

25 Dec, 17:10


QVQ - 72B Reasoner от команды Qwen

Моделька умеет в визуальные инпуты, по мультимодальным бенчам обгоняет 4o, но отстаёт от o1. Результатов обычных бенчей не публикуют, так же как и было с Qwen 2 VL 72B, на которой, похоже, QVQ основана.

Reasoner модели - явно новая парадигма скейлинга, которой теперь занимаются примерно все, ждите подобные превью и релизы в ближайшие пару месяцев от всех лаб.

Веса
Демо

P.S. Китайцы что-то очень быстро всё релизят, сегодня дропнулась DeepSeek V3 на 685B параметров, пока без деталей, но уже доступна в чате.

@ai_newz

эйай ньюз

24 Dec, 14:28


Генерацию видео запустили на телефоне

Выглядит простенько, но 5 секундное видео генерится прямо на iPhone 16 Pro Max всего пять секунд, для небольших анимированных стикеров сойдёт.

За основу взяли Stable Diffusion 1.5 и VAE декодер из Open-Sora, которые крайне сильно запрунили, получив гигантский прирост по скорости - 10x в первом случае и аж 50x во втором. Модели старые и далеки от SOTA, но если кто-то в лоб применит такой же агрессивный прунинг, напрмер к Hunyuan или другим открытыми видео-моделями, то он будет очень сильно съедать качество.

Сайт проекта

@ai_newz

эйай ньюз

23 Dec, 20:42


Да, что этот робопёс себе позволяет?!

Вот здесь я совсем недавно на ECCV видел его вживую. А выше он же выполняет дикие трюки.

Unitree B2-W обойдётся любому желающему приобрести такого питомца в $150,000. Да, недешёвая выходит порода. Эта версия примечательна гибридом ног и колёс, вместо просто "палок", как у Boston Dynamics. Чуваки решили не отказываться от колёс — всё-таки это самый эффективный способ передвижения, которым природа обделила всех животных. Вышел эдакий гибрид ног с колёсами, совмещающий в себе проходимость ног и скорость колёс.

Кстати, Unitree выложили в опенсорс всё, на чём и как тренируют своих ботов, включая скрипты для Isaac Gym и датасеты.

Ну и, пользуясь случаем, напоминаю, что на эту зверюгу (другой версии) какие-то психи уже навесили ОГНЕМЕТ! и выпустили в продажу.

@ai_newz

эйай ньюз

22 Dec, 21:11


Нейродайджест за неделю (#49)

OpenAI
- Анлим Sora — теперь даже базовым подписчикам доступна безлимитная генерация видео в "медленной очереди", но лишь на праздники. Нужен не европейский VPN.
- Search GPT — минорный апдейт поиска от все тех же OpenAI (со стрима).
- OpenAI API — добавили o1, понизили цены и ещё пару плюшек.
- Информатор по делу об авторском праве мёртв — бедного парня нашли у себя дома, СМИ обвиняют OpenAI.
- +1-800-242-8478 — звоним ChatGPT и... пишем в WhatsApp. Мем.
- Thinking от Google — конкуренты OpenAI наступают на пятки со своими "думающими" модельками.
- o3 и o3-mini — модель на порядок превосходит предшественника o1. Правда, для прохождения бенчмарков нужно всего лишь $1,5 млн.
- Капча против AGI — убер-машина решает такие задачки, тратя пару тысяч $$$ за штуку. А как быстро вы сможете их решить?

Все, стримы OpenAI закончились😮‍💨

LLM
- Devin — AI-джун за $500 в месяц. Спорный стартап, пока неясно, как будет выигрывать конкуренцию у тех же OpenAI.
- Три опенсорс модели для русского языка — LLM, текстовый эмбеддинг и speech2text.
- Бесплатный GitHub Copilot — 2000 дополнений кода на месяц в VS Code.

Другие генеративные модели
- Veo 2 — Google подготовились к анонсам OpenAI лучше, чем сами OpenAI. Их text2video моделька по тестам (и теперь уже по зрительским симпатиям) опережает недавно вышедшую и теперь безлимитно доступную даже в базовой подписке Sora.
- ElevenLabs Flash 2.5 — научились генерить голоса в реальном времени, довольно правдоподобно, но это, конечно, не Voice Mod.
- Pika 2.0 бесплатно — кажется, поезд уже ушёл. Но не расстраивайтесь, Pika, как всегда, облажались и не завезли компьюта на такое количество народа. Так что, если вам повезло получить хотя бы пару видео, считайте себя счастливчиком.


> Читать дайджест #48

#дайджест
@ai_newz

эйай ньюз

21 Dec, 14:59


А вот и несколько задачек из ARC-AGI, на которых валится o3, даже в high-compute режиме (где на одну задачу уходят десятки миллионов токенов, стоимостью в несколько тысяч долларов).

Самим порешать эти головоломки можно здесь. Задачи со скринов: 1, 2, 3. За сколько времени у вас их выйдет решить?

@ai_newz

эйай ньюз

20 Dec, 20:03


Прогнать o3 на ARC-AGI стоит до полутора миллиона долларов

OpenAI запретили публиковать такие цены напрямую, но high-compute режим использует в 172 раза больше вычислений чем low-compute режим, цену которого мы уже знаем (8689 долларов).

@ai_newz

эйай ньюз

20 Dec, 18:40


o3 и o3-mini - разрыв бенчмарков

Это ещё не AGI, но точно SOTA на всём что только можно. Стоимость тоже гигантская - на решение одного единственного таска могут уйти тысячи долларов.

🎓 SOTA результаты по Frontier Math выросли с 2% до 25%.

💻 На SWE-Bench модель набрала 71,7%. Чтобы вы понимали, в этом году стартап смог поднять 200 миллионов долларов с результатами 13,86%.

👨‍💻 ELO на Codeforces - 2727, в мире всего у 150 человек больше ELO.

🔥На ARC-AGI модель набрала 87,5%, бенчмарк пять лет не могли покорить. Авторы уже партнёрятся с OpenAI чтобы создать вторую версию бенча.

👨‍🎓 На GPQA и AIME тоже очень хороший прогресс.

Сегодня дают доступ ресёрчерам безопасности к o3-mini, простым смертным доступ к o3-mini дадут в конце января, к o3 чуть позже.

@ai_newz

эйай ньюз

20 Dec, 17:35


Вчера Google показал превью своего конкурента o1. Пока он работает на основе Flash модели, а сам процесс размышлений показывается, в отличие от той же o1. Модель неплохая, но сильно уж маленькая, из-за чего есть лёгкие проблемы.

Судя по недавним превью (r1 lite, QwQ), даже у компаний второго эшелона уже есть рецепты для inference time compute scaling работающие на маленьких модельках. Сейчас они их дорабатывают и потом будут масштабировать на модельки побольше. Через пару месяцев у всей индустрии будет "o1 дома".

o1 - это сейчас последнее оставшееся большое технологическое преимущество OpenAI. Veo 2 уверенно бьёт Sora, в генерации картинок их не обскакал только ленивый и т.д. А ведь у других лаб есть свои заметные преимущества, которые OpenAI всё не может реплицировать - к примеру, гигантский контекст Gemini и посттрейн магия Claude.

И в этот момент из OpenAI гуськом уходят очень заметные кадры - вон вчера ушёл автор оригинальной GPT, Alec Radford, перед ним ушли CTO и CRO компании. И это только за последние три месяца, а до этого была вся драма с Ильёй Суцкевером.

Через полчаса у OpenAI будет последний из их 12 стримов. Хоть анонсы они и затянули - вчера, вместо интересных анонсов, чел просто играл на саксофоне, но на последнем явно покажут что-то особенное. По слухам, покажут o3 - сиквел к o1 (название O2 занято британским мобильным оператором).

Непонятно, хватит ли этого, чтобы заметно оторваться от Gemini 2.0 Ultra с включённым Thinking или от результатов гигантского трейнинг рана Anthropic, который уже несколько месяцев ощущают все пользователи Claude (другого объяснения этим всем лагам я не знаю). Но главный вопрос - сможет ли OpenAI, с такой текущей кадров, совершить следующий большой прорыв и сохранить лидерство.

@ai_newz

эйай ньюз

20 Dec, 13:08


Pika 2.0 теперь можно попробовать бесплатно

Такой аттракцион будет продолжаться ещё 66 часов. В теории лимитов нету и доступны даже ингредиенты, но видосы генерятся часами. Обещают докинуть ещё серваков чтобы попробовать смогло больше людей.

pika.art

@ai_newz

эйай ньюз

20 Dec, 11:08


📢 GPT-4o-mini Hackathon для любителей и профессионалов AI 📢

Ogon.AI открывает регистрацию на уникальный онлайн-хакатон и приглашает всех желающих принять участие 🔥

🚀 Что вас ждет:

✔️ Вы разработаете AI-проект на базе GPT-4o-mini, который будет иметь практическую ценность
✔️ Получите поддержку экспертов хакатона и обратную связь от топ-менеджеров IT-компаний
✔️ Сможете проявить свои навыки и найти единомышленников
✔️ Получите помощь в превращении своего проекта в бизнес, открытии компании в подходящей юрисдикции, привлечении инвестиций

📅 Даты хакатона: 20 января 2025 — 27 января 2025
📍 Формат: Онлайн
👥 Участвуйте один, своей командой или в составе новой команды с другими участниками!

💡 Задача хакатона: разработать AI-ассистента с использованием модели GPT-4o-mini и расширенного контекстного окна (128,000 токенов) для практического и коммерчески ориентированного решения. Например:

➤ Ассистент по созданию резюме
➤ Психологический помощник
➤ Умный агрегатор новостей
➤ Ассистент для студентов по архивированию лекций
➤ Генератор маркетингового контента
➤ Ассистент для подготовки к собеседованию
➤ AI-помощник для стартапов

Эти идеи — лишь вдохновение. Креативность и нестандартный подход всегда приветствуются!

🎁 Призы: победители соберут индивидуальный набор призов из разных категорий (подарочные карты на AI-сервисах, платные курсы на образовательных платформах и другое) в рамках призового бюджета:

⭐️ 1 место: 1,500 USD
⭐️ 2 место: 1,000 USD
⭐️ 3 место: 500 USD

Также, каждая команда-финалист получает двухчасовую личную консультацию с топ-менеджерами Ogon.AI по интересующим вопросам бизнеса, стартапа!

Узнайте больше о команде Ogon.AI на сайте и о ближайшем GPT-4o-mini Hackathon на странице мероприятия.

Готовы принять вызов и вывести свой AI-проект на новый уровень? Регистрируйте свою команду по ссылке и присоединяйтесь к чату Telegram Ogon.AI Hackathons!

Ищете команду? Найдите ее в чате Telegram Ogon.AI Hackathons!

#промо

эйай ньюз

07 Dec, 11:00


xAI Илона Маска запустили Aurora - свой собственный генератор картинок

После вчерашнего апдейта использовать его можно бесплатно - 10 сообщений каждые два часа. Оригинальный Grok 2 с FLUX.1 пока ещё тоже доступен.

grok.x.com

@ai_newz

эйай ньюз

06 Dec, 18:04


OpenAI показали файнтюнинг O1

Запустят полноценно в следующем году, пока что бета.

Заявляют, что всего из пары десятков примеров модель сможет при помощи RL научится новым скиллам в какой-то узкой области.

Зааплаится на бету

@ai_newz

эйай ньюз

06 Dec, 17:46


Все как с цепи сорвались перед вторым стримом OpenAI

1️⃣ Google выпустили Gemini-Exp-1206, которая заняла первое место на арене во всех категориях (хард промпты, стиль, кодинг), плюс повысили лимиты в AI Studio (бесплатно можно потыкать гемини, нужен впн).

2️⃣ xAI сделали Grok бесплатным - теперь можно с ним общаться 10 сообщений каждые 2 часа. А ещё куда-то пропал Grok 2 mini. Неужели Grok 3 не за горами?

А посмотреть стрим OpenAI можно вот тут, начнётся через 15 минут. Что, думаете, там покажут?

@ai_newz

эйай ньюз

06 Dec, 16:58


Вышла Llama 3.3!

70B модельку дотюнили так, что она часто обгоняет даже 405B. Особенно большой прирост на математике и кодинге, в которых Llama традиционно была послабее. В этот раз релизят только 70B, других размеров и VLM нету.

Это последняя итерация Llama 3 и последний большой опенсорс релиз Meta в этом году. Следующая остановка - Llama 4.

Веса

@ai_newz

эйай ньюз

05 Dec, 18:21


Слухи оказались правдивыми - OpenAI запускает подписку за 200 долларов в месяц

Подписка даст доступ к o1 pro режиму - модели позволят дольше думать над запросами. Также дают неограниченный доступ к o1, o1-mini и Advanced Voice Mode.

Ещё o1 выходит из превью, релизная версия принимает на вход картинки и заметно лучше в математике и кодинге. Плюс она лучше понимает сколько нужно думать над таском - над простыми запросами теперь будет думать быстрее, над сложными - больше.

А ведь ещё ходили слухи о подписке за $2k в месяц ☠️

@ai_newz

эйай ньюз

05 Dec, 18:00


Начался первый из 12 стримов с анонсами OpenAI!

https://www.youtube.com/watch?v=rsFHqpN2bCM

@ai_newz

эйай ньюз

05 Dec, 17:02


LLM стают ещё дешевле - Lambda запустили Inference API

Миллион токенов Llama 3.1 405B в fp8 теперь стоит всего 90 центов (одинаковая цена за инпут и аутпут). Это почти в два раза дешевле самого дешёвого провайдера. Цена других моделей тоже поражает - за миллион токенов Qwen 2.5 Coder просят всего 9 центов.

Увы, пока что нет context caching и batch api, но если их когда-то добавят, то разнос будет полный. Ждём бенчей эндпоинтов и поддержку bf16.

Ещё жаль, что пока у них нет VLM моделей.

https://lambdalabs.com/inference

@ai_newz

эйай ньюз

05 Dec, 15:30


Colossus расширят минимум до миллиона видеокарт

Размер суперкомпьютера xAI, который построили за рекордные четыре месяца, пару месяцев назад начали удваивать - к 100k H100 решили докинуть 50k H100 и 50k H200. Закончены ли уже работы - непонятно, но Маск вроде пока этим не хвастался.

До лета следующего года планируется докинуть ещё 300к GB200, первые из которых начнут устанавливать уже в январе, за приоритетный доступ к GPU Маск заплатил больше миллиарда долларов. А вот сейчас выяснилось что и это не предел, а общее количество карт планируется довести более чем до миллиона.

Для понимания масштабов - Llama 3 405B тренировали на 16k H100, Grok 2 - на 20k. Кластеры для тренировки других передовых моделей тоже находятся в пределах пары десятков тысяч GPU. Следующее поколение моделей, вроде Grok 3, тренируется уже на 100k+ GPU, а компании уже закладывают инфраструктуру на всё большую и большую тренировку.

А ведь миллион GPU это не предел - уже какое-то время ходят слухи о многогигаваттных инсталляциях, стоимостью за сотню миллиардов долларов каждая, с многими миллионами чипов.

@ai_newz

эйай ньюз

05 Dec, 10:44


Я недавно писал как Amazon, в обмен на дополнительные инвестиции ($4 млрд), заставили Anthropic использовать их чипы Trainium. А вот и вышла хорошая выжимка статьи с разбором этих чипов:

https://t.me/addmeto/5976

@ai_newz

эйай ньюз

04 Dec, 17:46


Genie 2 – A large-scale foundation world model

Google DeepMind хвастаются своим игровым AI-движком на базе диффузионного генератора видео. Сейчас это модно назвать World Model, но давайте без булшита, друзья.

Imagen 3 (txt2img от GDM) генерирует картинку – типа начальное состояние игры. Затем, в привычной нам для img2video манере, картинку оживляют, превращая ее в игру, где дополнительным инпутом идет нажатие клавишь.

Пока что игра живёт лишь 60 секунд максимум (в среднем 10–20), но миры все крайне разнообразные и в абсолютно разных условиях. Я имею в виду вид от третьего лица, первого лица, сверху — и даже гонки можно сделать (и на лошади тоже), и просто бродилки, конечно же. Управление по классике: WASD (QE), пробел и мышь.

Также работает и взаимодействие с объектами, например, можно лопать шары, взрывать бочки и открывать двери на E. Там даже NPC-персонажей можно найти, если задать нужный входной "скрин".

Архитектура
Каких-то технических деталей по Genie 2 особо нет — Google на такие вещи довольно скупы. Из моего представления - там тупо latent diffusion image2video модель, где каждый следующих кадр постепенно генерируется, исходя из контекста, состоящего из существующих кадров и нажатий на клавиатуру/мышку.

Черипики с сайта сасные в плане diversity, но не ахти по качеству картинки. Возможно, через год-два каждый сможет сгенерировать себе мир по душе, так же как сейчас генерируют музыку в Suno.

Очевидно, до статуса играбельно ещё далеко. И я тут даже молчу о скорости генерации (об этом не пишут, но, думаю, там не совсем риалтайм). Несмотря на то, что у авторов были горы TPU для обучения и тысячи часов записанного геймплея, качество видео пока хуже PlayStation 1, картинка размытая, и нет четкости в деталях. Ну, и мир сильно плывет после 10–20 секунд. Есть куда улучшать.

Скоро в эту нишу могут вкатиться другие серьёзные игроки (ждём ответку от Маска). Вот тогда и посмотрим.

Блогпост

@ai_newz

эйай ньюз

04 Dec, 14:53


Сейчас будет пост для новичков и повод вспомнить былое для старичков. 

Зачем ученым нужен AI? 


Тут мой бывший преподаватель по алгоритмам из Школы анализа данных в Минске, а ныне руководитель всего ШАДа Алексей Толстиков написал небольшое эссе на эту тему и собрал пару юзкейсов из академии. 

Кроме всяких чатов GPT, и Copilot'ов, помогающих писать код, машинное обучение уже давно используется в науке. Например, бозон Хиггса еще в 2012 году открыли с помощью ML (хоть и классического). Модели кормили килотоннами данных с датчиков, пока они искали какие-то необычные паттерны.

Самый известный на сегодняшний день пример, пожалуй, — AlphaFold, который предсказывает трехмерную структуру белков. Этот инструмент открыл множество новых комбинаций, за что и получил Нобелевскую премию. 

В таких задачах людям пришлось бы годами разбираться в бесконечных датасетах и графиках. Нейросети здесь незаменимы, особенно когда дело доходит до эмпирического вывода закономерностей — первого шага к построению полноценной теории или законов. 

Кстати, ШАД тоже занимается разработкой ИИ-моделей для научных задач.. Например, там собрали нейронку для предсказания распространения вулканического пепла в атмосфере. Это помогает заранее подготовиться к выпадению пепла и и минимизировать риски для людей и инфраструктуры. Такие риски есть, например, на Камчатке и в других регионах с активными вулканами. 

Технологии ИИ в науке начали применять еще давно. Например, с помощью модели Morpheus астрономы с 2020 года анализируют космическое небо в поисках экзопланет  Однако рядовой астроном или биолог вряд ли соберет AlphaFold, а обычный ML-щик без биолога тоже не справится. Поэтому ML-специалисты нужны везде! 

Вообще, междисциплинарный ресерч — это топ (я и сам начинал PhD с интердисциплинарного проекта с историей искусств). У нас уже есть Нобелевские премии по физике и химии, а еще осталась куча дисциплин, где использование AI еще не получило такого большого признания. Кто знает, может, следующая будет по истории? Например, за расшифровку каких-нибудь древних рун.

@ai_newz

эйай ньюз

04 Dec, 13:33


Amazon релизнули Nova - новое поколение своих моделей

В семействе четыре LLM - Micro, Lite, Pro и Premier. Первые три уже доступны на AWS, а Premier ещё тренируется. Все кроме Micro - мультимодальные.

Модели вышли дороговатые - Pro по бенчам чуть лучше Llama 3.2 90B, но по гораздо более высокой цене – $0.8/$3.2 за лям токенов у Pro, против $0.72/$0.72 у Llama на том же AWS. Но Amazon очень хочется сравнивать себя с передовыми моделями, поэтому все результаты Nova Pro в табличке выделили жирным, не смотря на более слабые результаты по сравнению с GPT-4o и Claude Sonnet.

Что неплохо - длина контекста. Хоть у Micro она всего 128к, у Lite и Pro она уже солидные 300к. Этого уже достаточно чтобы туда засовывать видео, пусть и в маленьком фреймрейте. Больше контекст только у Gemini.

Также релизнули Nova Canvas и Nova Reel, для генерации изображений и видео. Пока примеров генерации не очень, так что отпишусь про них я как-то потом.

Model card

@ai_newz

эйай ньюз

04 Dec, 10:20


Так-с, OpenAI открывает офис в Цюрихе! И это не может не радовать. Это, кстати, их первый research-офис вне США.

Круто, что в Цюрихе есть офисы почти всех самых классных AI компаний. Думаю, скоро и другие AI стартапы-переростки подтянутся.

Почему тут открывают офисы? Потому что сюда можно хайрить лучшие таланты со всего мира (не все хотят жит в США), это не ЕС, тут очень сильные университеты по профилю AI/ML, низкая налоговая база для компаний и для работников. Плюс можно переманивать людей из других местных бигтехов.

@ai_newz

эйай ньюз

03 Dec, 16:24


Intel показали новое поколение видюх - Battlemage

Хоть у компании и большие проблемы, смена CEO менее чем сутки назад не помешала провести презентацию видеокарт. В этом поколении ещё больший упор на бюджетных геймеров, чем в прошлом, а показали лишь две карты. У старшей B580 12 гигов видеопамяти, по бенчам Intel она на 10% быстрее 4060, а выйдет уже 13 декабря за $249. Соотношение цена/качество очень хорошее, но стоит подождать что смогут предложить конкуренты в этом поколении.

У младшей B570 всего 10 гигов, сильно урезанные характеристики, а цена не сильно ниже — $219. Выйдет она 16 января, цену до этого момента, мб, успеют сбросить, ведь разница в характеристиках сильно больше разницы в цене.

Набор фич в гейминге подтянули до уровня Nvidia — завезли Frame Generation в свой XeSS, аналог Nvidia DLSS. Добавили и Low Latency режим, аналог Nvidia Reflex. Но новое поколение Nvidia выходит уже в начале следующего года, а для него Хуанг явно придумал что-то новое.

Довольно большой упор делают на ИИ-фичи - сделали AI Playground, приложение, позволяющее простым юзерам запускать модели на видяхах Intel. Поддерживаются не только LLM, оно умеет ещё и в генерацию изображений - внутри Playground есть как ComfyUI, так и AUTOMATIC1111 webui. Для людей не разбирающихся, как работает Comfy, сделали библиотеку готовых пайплайнов.

Софт всё ещё сырой, но ситуация улучшается. Хвастаются, что поддержку видях Intel скоро смержат в мейнлайн PyTorch, так что запуск рандомных репозиториев будет возможен без костылей. Говорят, что стабильность драйверов тоже возросла - с момента выпуска прошлого поколения выпустили больше 50 крупных апдейтов, что исправило кучу проблем. Надеюсь, Intel сможет себе позволить выпустить следующее поколение - Celestial, желательно с хайенд видяхами. Софт к тому моменту должны уже полностью допилить, а серьёзной конкуренции на рынке GPU очень не хватает.

В общем, новое поколение потребительских GPU началось, ждём анонсов от Nvidia и AMD на CES.

@ai_newz

эйай ньюз

03 Dec, 11:23


Hunyuan Video - новый опенсорс 13B видео генератор от Tencent

Качество офигенное, даже для 13B модели, хоть и генерировать может максимум пять секунд. Но, самое главное - доступны веса.

Генерится 129 кадров, что как раз чуть больше 5 сек в 24 fps.

По архитектуре: используют Temporal VAE с 16 каналами и 4x даунсеплингом по времени, то есть это 32 latent frame'а. То есть автоэнкодер не самый навороченный – в других моделях и видео и 128 каналов и более агрессивный даунсемплинг по времени.

Сама модель очень похожа на Flux, где сначала идут two-stream блоки как в SD3, где картиночные и текстовые токены обрабатываются параллельно, а затем идёт серия обычных DiT блоков.

В качестве текстового энкодера используют Clip и Multimodal LLM (llava-llama-3-8b) вместо традиционного T5. Говорят, что с MLLM у них достигается боле качественный prompt alignment.

Чтобы запустить модель нужно минимум 45 гигабайт видеопамяти для 544x960 видео и 60 гигов для 720p. Умельцы явно подкрутят и оптимизируют модельку, так что запуск на консьюмерских видюхах на низком разрешении не исключён.

Статья занятная, стоит прочитать в деталях.

Я пока сам их моделью ничего не генерил, но предполагаю, что одно видео будет генерится минут 10.

Демка (нужен китайский номер)
Веса
Пейпер

@ai_newz

эйай ньюз

03 Dec, 06:46


HuggingFace ввели ограничение на объём загруженных моделей и датасетов. Pro подписка не спасает - она всего лишь удваивает лимит до терабайта, как повысить дальше не очень понятно.

Что будет с теми кто уже превысил лимит не говорят, но, надеюсь, массовой чистки репозиториев не будет.

Конец эпохи.

Ну, и пора делать бэкапы датасетов.

@ai_newz

эйай ньюз

02 Dec, 21:04


В Intel серьёзные перестановки

CEO Пэт Гельсингер ушёл на пенсию, а пока ищут полноценную замену, его роль будут выполнять два временных co-CEO - текущий CFO компании и глава Client Computing Group (подразделения, делающего консьюмерские продукты).

У компании большие проблемы: на основных рынках, где компания совсем недавно была монополистом, появились серьёзные конкуренты. Серверные процы Intel теряют свою долю рынка из-за Epyc от AMD, а Arm-процы теперь делают уже все, кому не лень - от больших клиентов, вроде Amazon, Nvidia и Google, до мелких рыбёшек вроде Ampere.

С десктопными процессорами вообще ад - Intel на пару с производителями материнок настолько их разогнали, что они просто начали гореть (при этом всё равно отставая от чипов AMD, жрущих в два раза меньше энергии). В ноутбучных тоже шляпа - 6 лет назад конкурентов совсем не было, а сейчас компанию душат одновременно AMD, Qualcomm и Apple.

Не вышло и выйти на новые рынки - компания зачем-то сделала три поколения Gaudi, чипов для нейронок, а потом убила направление в пользу серверных видеокарт, причём когда Gaudi 3 удалось догнать H100 по производительности. С серверными видяхами тоже не очень - первое поколение, вышедшее в прошлом году, совсем не задалось, второе решили просто не выпускать, третье выйдет лишь в следующем году. Пытались они сделать и свои геймерские видеокарты, где доля, которая на старте была 2% от рынка новых видях, сейчас опустилась до 0%. Кстати, завтра презентация нового поколения геймерских видях Intel.

На кошельке компании всё это отразилось крайне сильно - убытки выросли с 1,6 миллиарда во втором квартале до астрономических 16,6 миллиардов в третьем. Посмотрев на такие выдающиеся успехи, акции за последний год упали более чем в два раза.

Пока не выберут нового CEO, компания в подвешенном состоянии. У 18A (18 ангстремов) техпроцесса, на который Пэт поставил будущее всей компании, судя по слухам, значительные проблемы. Но даже его абсолютный успех мог не предотвратить продажу ряда подразделений, а что будет, если он провалится - страшно и подумать.

@ai_newz

эйай ньюз

30 Nov, 17:27


CS492(D): Diffusion Models and Their Applications

Курс по Диффузионным моделям от KAIST (Южная Корея) - если хочется поднять базу, не ходя в университет.

Читает леции вот этот чувак - Minhyuk Sung. На сайте есть записи всех лекций и слайды, плюс 2 гостевые лекции от крутых ученых.

Список лекций:
1 - Course Introduction
2 - Introduction to Generative Models / GAN / VAE
3 - DDPM 1
4 - DDPM 2
5 - DDIM 1
6 - DDIM 2 / CFG
7 - CFG / Latent Diffusion / ControlNet / LoRA
8 - Zero-Shot Applications
9 - Guest Lecture 1 by Or Patashnik
10 - DDIM Inversion / Score Distillation 1
11 - Score Distillation 2
12 - Diffusion Synchronization
13 - Inverse Problems 1
14 - Inverse Problems 2
15 - Probability Flow ODE / DPM-Solver
16 - Flow Matching 1
17 - Flow Matching 2
18 - Course Summary
19 - Guest Lecture 2 by Jiaming Song, Chief Scientist at Luma AI

https://mhsung.github.io/kaist-cs492d-fall-2024/

Ну а еще почитать про диффузию можно у меня :) Вот пара ссылок:
- Как ускорить диффузию часть 1, часть 2
- Моя любимая статья по диффузионным моделям (база)
- Разбор нашей статьи Cashe Me if You Can по ускорению диффузионок
- И ещё пара туториалов, вот первый и второй

#ликбез

@ai_newz

эйай ньюз

30 Nov, 15:27


Про нейросети и технологии пишут многие. Но много из того, о чём пишет редакция ТЕХНО, нигде больше не увидишь. Контент, конечно, не такой хардкорный, как в @ai_newz, но действительно качественный и разнообразный.

ТЕХНО будет полезен тем, кто хочет быть в курсе не только развития софта, но и того, что можно пощупать ручками. Про основы AI там тоже частенько вещают. Вот, например, первый калькулятор, который определил наше представление о том, как должен выглядеть калькулятор или вот про мягкие игрушки-психотерапевты с LLM под капотом.

А в курсе последних новостей держит регулярный технодайжест.

Подписывайтесь!

#промо

эйай ньюз

30 Nov, 12:55


Выложили веса INTELLECT-1, первой модели натренированной децентрализованно

Пару дней назад я уже писал про завершение тренировки, а вот релизнули и веса. Модель оказалась в среднем по бенчам примерно на уровне Llama 2 7B, но, так как сейчас есть куча моделей получше в схожей весовой категории (Llama 3.1, Qwen 2.5, Mistral Nemo, Gemma), юзать её вряд ли кто-то будет. Всё-таки для первой распределённой тренировки такого масштаба результаты отличные.

Вместе с релизом модели выпустили и техрепорт, где рассказывается, как они уменьшили необходимость коммуникации во время тренировки в 400 раз. Помимо использования смеси DiLoCo и FSDP2, они квантизируют градиенты в int8. К сожалению, никаких абляций эффективности такого метода в техрепорте нет. Оно-то точно работает, но насколько хорошо – вопрос, плюс явно можно придумать схемы квантизации получше.

В будущем Prime Intellect планируют расширить масштабы тренировки, оптимизировать стек и добавить экономические стимулы для комьюнити. Как может работать последнее – непонятно, может быть, у вас есть идеи?

Демка
Веса
Техрепорт

@ai_newz

эйай ньюз

29 Nov, 11:33


Дженсен Хуанг после того как распредлённая тренировка станет возможной на консьюмерских видюхах (куртка у него уже есть)

@ai_newz

эйай ньюз

28 Nov, 12:25


Black Forest Labs привлекают $200M по оценке более чем в $1B

Такая оценка неудивительна - посмотрите на сравнение популярности FLUX.1 с разными версиями Stable Diffusion, у последних версий которой большие проблемы.

Вообще оцените темп - парни ушли из Stability в марте, в августе уже релизнули первую модельку, попутно зарейзив $31M на Seed. Сейчас в процессе рейза $200M по оценке $1B. Достигли единорога за 4 месяца c запуска первой модели в начале Августа! 🦄

Пацаны вообще ребята!

@ai_newz

эйай ньюз

27 Nov, 18:56


Маск пообещал заделать целую ИИ игровую студию внутри xAI, как противовес "студиям во владении гигантских корпораций". У xAI, кстати, оценка 50 миллиардов, это между Electronic Arts и Nintendo.

Как думаете, что из этого выйдет?

@ai_newz

эйай ньюз

26 Nov, 18:21


А вот новая моделька SmolVLM работает на M1 Max на скорости в 80 токенов в секунду.

@ai_newz

эйай ньюз

26 Nov, 18:21


SmolVLM - новая VLM с мизерным потреблением памяти

Huggingface заделали конкурента для moondream, маленькой 2B VLM, о которой я рассказывал на прошлой неделе. К SmolLM 2 1.7B прицепили visual encoder от SigLIP.
Модель при мизерном потреблении памяти еще и умудряется сильно обскакать moondream по качеству! Эх, догоняйте, стартаперы!

Так мало памяти SmolVLM кушает из-за более эффективной токенизации картинок. Из-за большего размера патчей в картинках, на тот же промпт, где у SmolVLM уходит 1,2к токенов, у Qwen2-VL 2B уходит 16к. Таким образом, при одинаковом количестве параметров, SmolVLM вплоть до 5x быстрее и кушает почти в три раза меньше памяти. Размер патча в SigLip увкличили за счет применения к закодированной кантинке блока Pixel shuffle, который дополнительно уменьшает количество токенов в 9 раз. Pixel Shuffle преобразует квадраты из 3x3 токенов в один токен, перещая токены из spacial размерности в channels.

Все же тут палка о двух концах - хоть Qwen и медленнее, но качество у него сильно выше.

В принципе из-за такой эффективности модель могла бы быть довольно хороша для понимания видео, но, к сожалению, длина контекста всего 16к.

Демо
Веса
Блогпост

@ai_newz

эйай ньюз

26 Nov, 16:21


AI Assistant API или RAG из коробки

RAG – это хороший способ залить в нейронку свою базу данных и избежать галлюцинаций (вот здесь я писал подробнее про это). RAG достаточно жестко задает контекст в виде фрагментов текста, на базе которых LLM должна скомпоновать ответ, то есть нейросеть не обучают на нем, а используют непосредственно в момент генерации. Имплементировать RAG самому, хоть и не очень сложно, но всё же требует специальных умений.

Тут Яндекс решил ещё упростить жизнь разработчиками и внедрил RAG в свой API. Идея в целом не новая, но в паре с неплохим облачным сервисом, на котором строятся местные компании, выходит удобный фреймворк. Он не требует специальных навыков, чтобы прикрутить AI-ассистента на сайт клиента — что сейчас, как будто бы, must-have для любого сайта. Ну а кроме этого, RAG полезен для работы с внутренней документацией, crm и прочими базами данных.

@ai_newz

эйай ньюз

26 Nov, 14:02


INTELLECT-1 - первая децентрализованно натренированная LLM

Наконец-то завершилась первая большая распределённая тренировка, продолжавшаяся больше месяца на трёх континентах - в Европе, Азии и Северной Америке. В результате вышла 10B модель, натренированная на одном триллионе токенов, на что ушло около 80к H100-часов.

В тренировке поучавствовало около 30 людей и организаций, компьютом скинулся даже Hugging Face. Большую часть времени тренировки регистрация была закрыта, а поучаствовать можно было только задеплоив готовый образ на машине с 8xH100 80Gb через Prime Intellect, агрегатор GPU-провайдеров, который и организовал тренировку. В следующих трейнинг ранах обещают открыть доступ к тренировке и с другого железа и не через Prime Intellect, ждём.

Но даже когда тренировать смогут все желающие на любом железе, на консьюмерских видеокартах поучаствовать вряд-ли выйдет - сейчас в 24 гига 4090, для тренировки, влезет максимум модель 3B класса. Но через пару прорывов в распределённой тренировке, Training@home может стать реальностью.

Вышла явно не SOTA - современные модели тренируют, используя на порядок больше данных. Если авторы сильно не налажали, результаты должны быть где-то в районе Llama 2 13B. Не идеально, но в качестве proof of concept более чем достаточно.

Сделали такую распределённую тренировку возможной через слегка модифицированный DiLoCo, а код тренировки открыт и лежит на гитхабе. Сейчас модель тюнят, полный релиз будет где-то на этой неделе. Потом обещают и пейпер.

@ai_newz

эйай ньюз

25 Nov, 20:06


Anthropic показали универсальный способ общения LLM с внешним миром

MCP (Model Context Protocol) - открытый протокол, позволяющий любой LLM получать доступ к инструментам и информации. В качестве демо Claude попросили создать веб-страницу, залить её на GitHub, создать issue и PR, что он успешно и сделал (показано на видео).

Вдохновлялись LSP - протоколом, который позволил написать ядро интеграции языка с IDE один раз и использовать её повсюду, чем изменил рынок редакторов кода, дав маленьким проектам конкурировать с большими IDE.

MCP работает по простой клиент-серверной архитектуре - приложения на основе LLM (клиенты) могут запрашивать информацию у серверов, а также пользоваться предоставленными серверами инструментами. Ещё серверы могут задавать ряд промптов. Сделать сервер довольно просто - показанный в видео сервер для GitHub написали меньше чем за час.

Клиент пока что только один - Claude Desktop, а серверы нужно разворачивать своими руками локально. Потом обещают поддержку сторонних серверов - то есть в каком-то Notion будет кнопка "привязать Claude/ChatGPT/Gemini", через которую LLM будет даваться доступ к вашим данным.

Выглядит это куда интереснее, чем то как пытаются сделать интеграции OpenAI и Google в ChatGPT и Gemini. Во-первых, MCP более гибкий - авторы приложений могут встраивать туда MCP-серверы. Во-вторых, открытость протокола позволит более маленьким провайдерам, вроде Mistral или DeepSeek, использовать куда больше тулов, чем если бы они пытались сделать это сами. Ну и, конечно же, это приближает эру агентов.

Взлетит или не взлетит - пока ещё непонятно, но выглядит многообещающе. В качестве примеров для разработчиков Anthropic сделали 9 MCP-серверов - Slack, Google Maps, GitHub и ещё несколько. Несколько компаний уже принялись делать и сторонних клиентов - к примеру, авторы Zed и Codeium.

Примеры интеграций
Туториал по протоколу

@ai_newz

эйай ньюз

25 Nov, 15:05


Нейродайджест за неделю (#45)

LLM
- DeepSeek 2.5 – лучший в своем деле! Подъехали неожиданные результаты с Copilot Arena.
- Pixtral Large – Open source SOTA даже среди фронтирных моделей в мультимодалках, правда, и здесь не без подвоха.
- Phi1.6B + SigLIP 400M vision encoder – мини-моделька на коленке оказалась лучшей в своем классе, или о том, как случайно сделать стартап, подняв $4,5M.
- R1-Lite – опенсорс-аналог o1 от OpenAI. Пока слабенький, но главное, что мы теперь тоже научились в inference time scaling.
- Llama 3.1 405B – на скорости 1k токенов/сек. Гонки инференса продолжаются, Cerebras пока лидирует.
- Бойня на арене – Gemini топ-1, тюн под ELO арены и прочие грязные приемчики.

Генераторы всякого
- Cтримец про Movie Gen от коллег. Даже запись сохранилась.
- FLUX.1 Tools – BFL снабдили нас всем необходимым для полноценного пользования FLUX, остальное – на плечах опенсорса.

Про деньги
- Насильный манирейз от Amazon – сколько бы Anthropic ни отнекивались, все-таки взяли 4 миллиарда зеленых. И еще о других многомиллиардных сделках.

Мой ресерч

- Мой доклад про CV – видос лежит на YouTube, сделал обзор на новиночки в вижене за 2023-2024.
- Ищу Research интернов – требования серьезные, но, может, именно ты как раз проходишь.

Читать дайджест #44

#дайджест
@ai_newz

эйай ньюз

24 Nov, 19:08


На чатбот арене последние дни очень жарко 💃

Неделю назад Gemini-1114 заняла первое место на арене, обогнав все модели OpenAI. В среду OpenAI ответили более новой версией 4o, Artificial Analysis протестировали её, и выводы печальные - хоть рейтинг на арене и растёт, бенчи MATH и GPQA просели ниже результатов июльской 4o-mini. При этом, с просадкой по бенчам, более чем в два раза выросла скорость - с 80 до 180 токенов в секунду. Похоже, нам суют модель сильно поменьше за те же деньги.

Вот вам ещё одно напоминание, что теперь и арене верить решительно нельзя - несколько компаний уже несколько месяцев активно занимаются тюном под арену только чтобы повысить ELO. Живая демонстрация закона Гудхарта в действии: «Когда мера становится целью, она перестает быть хорошей мерой». Кстати, жёсткий тюн под арену не сильно помог OpenAI - новая 4o продержалась в топе всего лишь чуть больше суток. В четверг вечером первое место заняла уже Gemini-Exp-1121.

Под постом про набор интернов у меня спрашивали, чем лучше сейчас заняться в AI. Так вот, надеюсь, посмотрев на весь этот бардак с ареной, кто-то из подписчиков вдохновится темой оценки качества моделей и сможет предложить бенчи получше.

Вообще объективная автоматическая оценка качества генеративных моделей будь-то текстовых или картиночных и видео - задача важная, но все еще не решенная.

@ai_newz

эйай ньюз

22 Nov, 15:48


Amazon инвестирует ещё 4 миллиарда в Anthropic

Слухи ходили уже какое-то время, я уже писал об этом раунде в начале ноября. И вот свершилось - Amazon всё таки удалось заставить Anthropic тренировать на своих чипах Trainium, что позволит довести эти чипы до ума, а там, глядишь, и кто-то их начнёт арендовать у амазона.

Вообще поразительно как часто сейчас случаются такие многомиллиардные сделки - неделю назад xAI подняли ещё 5 миллиардов на дополнительные 100к GPU для их Colossus . Оценка компании за полгода удвоилась, до 50 миллиардов долларов, что в 500 раз больше её годовой выручки. А сейчас уже Databricks, по слухам, ищет 8 миллиардов по оценке в 61, причём, скорее всего, компания их найдёт.

Инвестиций, даже в большие компании, столько, что я не знаю, есть ли смысл писать про каждую отдельно. Канал ведь не финансовый. А ведь есть ещё и рыбёшки поменьше...

@ai_newz

эйай ньюз

22 Nov, 13:45


О внедрении AI в бизнес.

Я недавно делал обзор на то, как корпорации тратят деньги на AI. В основном это LLM, которые берут на себя customer support, продажи и контент в соцсетях.

О том, как эффективно и пошагово внедрить AI в свой бизнес, — читай здесь.

Автор канала — Михаил, кандидат наук по экономике с MBA Skolkovo и владелец Black Mesa IT, которая внедряет AI-решения в крупнейшие корпорации, включая Сбер.

🔥 Рекомендую! Здесь учат использовать нейросети для роста вашего бизнеса:
@KiberMisha.

#промо

эйай ньюз

21 Nov, 20:11


FLUX.1 Tools

Ну что, лучший генератор картинок (Recraft не в счет) решил не отставать от Midjourney и выпустил свой почти такой же набор инструментов. Все они, как полагается разработчикам модели, аутперформят решения от комьюнити.

В наборе:
- Ин/аутпейтинг — FLUX.1 Fill
- Конролнет — FLUX.1 Depth и FLUX.1 Canny, которые также идут в формате LoRA.
- IP-адаптер — FLUX.1 Redux

Классический набор готов, остальное могут сделать энтузиасты. О качестве судить пока рано — жду ваши тесты в комментариях.

А дальше, что дальше? На сайте BFL уже красуется громкая надпись:
"Up Next. State-of-the-Art Text to Video for all."

Анонс
Обнимающее лицо
GitHub

@ai_newz

эйай ньюз

20 Nov, 18:01


Прямо сейчас идет трансляция, где коллеги рассказывают про нашу 30B Movie Gen модель!

Не знаю, будет ли запись. Но еще не поздно присоединиться.

https://atscaleconference.com/event/live-now/

YouTube Stream

@ai_newz

эйай ньюз

20 Nov, 16:37


Llama 3.1 405B ускорили почти до тысячи токенов в секунду

Cerebras наконец-то нашли достаточное количество своих CS-3, чтобы запустить Llama 405B, применили к ней Speculative Decoding, который использовали для ускорения 70B до 2к токенов, и обскакали SambaNova почти в 6 раз. Стоить это будет $6 input/$12 output за миллион токенов и уже доступно в бете. Всем пользователям дадут доступ в первом квартале 2025.

Столько ждать нужно из-за крайне плохой доступности железа - для того чтобы запустить Llama 405B, нужно 20-30 CS-3. Для сравнения, в Condor Galaxy, суперкомпьютере на чипах Cerebras, всего 64 CS-3. А стоит он больше ста миллионов долларов. Надеюсь, что если им удастся перейти на массовое производство, то стоимость их систем значительно упадёт. Иначе прибыльность такого API сомнительна.

Проблемы с доступностью не только у Cerebras — есть они и у Groq, которые больше трёх месяцев обещают API 405B, но, видимо, чипов просто не хватает (для запуска 405B нужно около четырёх тысяч чипов Groq). А пока что они почти догнали Cerebras на инференсе Llama 70B — 1669 токенов в секунду, при этом обещая, что следующее поколение чипов будет сильно быстрее.

К сожалению, доступ всем юзерам через чат на этот раз не дали. Да и длина контекста пока что всего 8к, но на релизе обещают сделать доступным и 128к. Скорость при таком контексте, правда, проседает, но всё равно больше полутысячи токенов в секунду. Надеюсь, к полноценному релизу R1 они откопают ещё один суперкомпьютер, и будет у нас модель, думающая секунды вместо минут.

@ai_newz

эйай ньюз

20 Nov, 15:30


Приглашаем тебя на крутое IT-мероприятие, посвящённое AI и передовым технологиям разработки рекомендательных систем.

Регистрируйся, и в день мероприятия мы пришлём тебе ссылку на трансляцию. Или приходи очно, если ты живёшь в одном из городов.

Где и когда?

✔️ Владивосток, 26 ноября
✔️ Новосибирск, 28 ноября
✔️ Нижний Новгород, 5 декабря
✔️ Санкт-Петербург, 6 декабря

Тебя ждут крутейшие доклады, живая дискуссия и новые знания в сфере рекомендательных систем.

Количество мест ограничено — успей занять своё и прикоснуться к миру рекомендательных систем! 👌

#промо

эйай ньюз

20 Nov, 13:59


😮 R1-Lite - бесплатный конкурент o1, который скоро релизнут в опенсорс

Китайцы из DeepSeek, несмотря на крайне ограниченные ресурсы, продолжают выдавать охренительные модели мирового уровня. Их новая модель, R1-Lite, очень близка по бенчмаркам к o1-preview, где-то даже превосходит. Она также может тратить десятки тысяч токенов на размышления, при этом чем больше токенов, тем лучше результаты. DeepSeek говорят, что это только начало и тизерят модели ещё мощнее.

По бенчмаркам модель лучше o1-preview в кодинге и математике, но отстаёт в остальных задачах. С o1-mini, которая как раз в кодинге и математике сильнее, чем o1-preview (не спрашивайте), на графиках не сравнивают. Для примера, по бенчам OpenAI, у o1-preview Elo на Codeforces 1258, у o1-mini и полноценной o1 - 1650 и 1673 соответственно. По моим личным тестам, R1-Lite тоже отстаёт от моделей OpenAI.

Но насколько лучше или хуже R1-Lite, чем разные версии o1, это не так важно, ведь изначальная моделька сильно меньше и хуже. Важно, что inference time scaling заставили работать за пределами OpenAI, причём без дурацких ограничений - в отличие от o1, DeepSeek дают полный доступ к размышлениям модели. К тому же скоро обещают API и опенсорс-релиз, к которым будет прилагаться Technical Report о тренировке, а они у DeepSeek очень детальные. То есть даже если другие лабы не смогли воспроизвести inference time scaling самостоятельно, через пару месяцев свой o1 будет у всех. Вместе с base и instruct весами будут релизить ещё и reasoner.

Ещё один нюанс - DeepSeek всё ещё отрабатывают рецепт тюна на маленькой модели, перед тем как потратить заметные ресурсы на тюн большой. Отсюда и Lite в названии модели. Не факт, что она основана на DeepSeek V2 Lite, но скорее всего её смогут запустить простые смертные. Полноценный R1 будет гораздо умнее.

Попробовать можно на их сайте, включив «Deep Think». Дают 50 сообщений в день, причём абсолютно бесплатно.

chat.deepseek.com

@ai_newz

эйай ньюз

20 Nov, 11:55


Новая модель GigaChat Max от Сбера

Сбер выложил новую модель GigaChat Max. У нее заявлены увеличенная база знаний и улучшенная логика. Еще добавили Vision.

Новый GigaChat эффективнее работает с текстом и пишет код. Дает более красивые и структурированные ответы, лучше решает комплексные и творческие задачи. А по бенчмаркам уступает лишь Llama-3.1 и GPT4o.

Также GigaChat MAX хорошо показала себя при создании агентов. Ещё у них есть специальная Studio, позволяющая создавать агентов без специальных знаний.

@ai_newz

эйай ньюз

20 Nov, 10:09


Интеренcый видос про то, как чел натренил маленькую быструю 2B VLM, которая оказалась лучшей в своем классе.

Моделька - это Phi1.6B + SigLIP 400M vision encoder. Далее чел собрал синтетический датасет LNQA (Localized Narratives Question Answering) с вопросами-ответами по картинкам, 300к пар. И натренил на нем свою модель и выложил все в опен-сорс.

Полочилась довольно сильная шустрая модель. Далее чел поднял $4.5M и строит стартап moondream.ai по тренировке мелких моделей для прода.

В общем правильные данные решают.

Github
Demo
Blogpost про синтетический QA датасет
Видео

эйай ньюз

19 Nov, 16:16


И опять настало то время года, когда я ищу Research интернов к нам в команду в Meta GenAI в Цюрихе!

Интерн будет работать непосредственно со мной и моими коллегами. Основная цель стажировки публикация на ICLR/CVPR.

Работать будем над image&video генерацией (см. Movie Gen для примера).

Какой профиль я ищу:
- PhD студент, официально зачисленный в университет.
- Есть 2-3+ публикации на top-tier конференцииях вроде NeurIPS, CVPR, ICRL, ECCV и т.д.
- Опыт с диффузионными моделями (предпочтительно) либо с LLM.
- Дополнительным плюсом будет, если вы умеете ускорять модели либо работали с альтернативными архитектурами типа Mamba, RWKV, и тп.

Длительность стажировки: 24 недели.
Начало: весна-лета 2025.
Визу и переезд в Цюрих спонсируем.

Писать можно мне в ЛС, прикрепляя CV. Репост и решер приветствуется - может у вас есть кто-то знакомый, кому эта вакансия идеально подойдет.

@ai_newz

эйай ньюз

18 Nov, 20:18


Pixtral Large 🔥🔥🔥

Новая моделька от Mistral на 124B параметров является мультимодальным расширением Mistral Large 2, но с обновлённым системным промптом и улучшенным пониманием длинного контекста в 128K токенов. На мультимодальных бенчах показывает себя очень хорошо, по заявлениям чуть ли не SOTA.

Но Mistral часто убирает неудобные бенчи или модели из своих анонсов. Конкретно тут непонятно с какими версиями моделей сравнивают, плюс как-то очень удобно "забыли" про мультимодального Qwen2-VL и Molmo. Я добавил таблицу с ними тоже. По сути Pixtral Large даже слегка хуже чем Qwen.

Также можно потыкаться в Le Chat. Он, кстати, тоже мощно обновился. Добавили веб-поиск с ссылками на цитаты. Canvas для редактирования аутпута inline, не переписывая всё заново, как это недавно сделали в ChatGPT. Ещё прикрутили Flux Pro прямо в чат.

Веса уже лежат на Hugging Face
Le Chat
Или подключиться по API
Подробнее

@ai_newz

эйай ньюз

18 Nov, 17:00


DeepSeek 2.5 оказался лучшей моделью для автокомплита кода

Спустя всего пару недель после запуска, подъехали результаты с Copilot Arena. На удивление для всех, топовой моделью там оказался DeepSeek 2.5, опередив Claude Sonnet, Codestral и Llama 3.1 405B. А вот модели от OpenAI заметно отстают. GPT 4o-mini — худшая модель из всех, которые тестили, причём отставание огромное.

Что примечательно, дешевле DeepSeek 2.5 лишь Gemini Flash, и то до учёта context caching'а, который у DeepSeek автоматически хранится сутки и сбивает цену инпута в 10 раз. В реальном использовании она дешевле всех, да к тому же единственная полностью открытая модель из топа (у Codestral драконовская лицензия).

o1 и o1-mini тут не участвовали, потому что задержка там слишком высокая для автокомплита, а новая Qwen 2.5 Coder просто не успела на лидерборд. Не хватает и более специализированных моделей — вроде Cursor Tab или Supermaven, которые создатели Cursor недавно купили. Они явно будут похуже чисто из-за размеров, но вопрос, насколько.

@ai_newz

эйай ньюз

18 Nov, 15:00


Прошла пятая онлайн-конференция Яндекса Yet another Conference on Education. В этом году обсуждали будущее образования.

Благо, на сайте есть запись для тех, кто крутится в этой теме и случайно пропустил онлайн-трансляцию.

Вот какие темы вас ждут:
- Свежее исследование Яндекс об AI в образовании.
- Каким сейчас представляется будущее учебного процесса?
- Какие навыки становятся востребованными?
- Как бизнес, общество и технологии трансформируют обучение?
- Как получить навыки, которых нет в специальности: софт-скилы и нейросети?

Смотрите конференцию в записи и будьте в курсе всех изменений!

#промо

эйай ньюз

17 Nov, 21:24


Нейродайджест за неделю (#44)

LLM
- Возможный потолок Scaling law. OpenAI меняет вектор развития.
- GPT-2 Small за 8 минут. Подъехали свежие оптимизации, теперь своя LLM обойдется всего лишь в 3 доллара.

Карьера
- Ревью с ICLR. Наша команда получила отличные рецензии!
- Как найти ментора? Есть неплохой вариант заплатить за это.

3D
- NeRF On-the-go. Делаем нерф на ходу в ужасных условиях.
- Трекаем тело по одной ego камере. В реальном времени, с лучшей точностью. Уже юзабельно в продуктах VR/AR.

Прочее
- Роботы EVE разъехались по домам. Первые тесты от "эксцентричного" Kai Cenat.
- Веса и код AlphaFold 3. Следующее поколение нобелевконосной модели для предсказания структуры стало "народным достоянием".
- SeedEdit. Очередной текстовый фотошоп. Ничего нового, но зато показывает, насколько важен хороший датасет.

> Читать дайджест #43

#дайджест
@ai_newz

эйай ньюз

16 Nov, 18:42


Лол, стример Kai Cenat купил робота EVE.

Помните, я писал про X1? Так вот, похоже, первые модели разъехались по домам. Наблюдать за историей приходится от лица бешеных стримеров.

Плюсом ко всему, они, видимо, зафайнтюнили бота под хозяина, и теперь он, помимо обычных робо-дел, ведет себя несколько *freaky*. Спокойно произносит слово на букву "N" и говорит о том, что переспал с Alexa от Amazon. Я собрал для вас небольшую подборку выше. Зацените угар.

Но скорее всего роботом управляет человек, конечно же.

А, ну и да, еще X1 со злости разбил ему телек 😂

@ai_newz

эйай ньюз

13 Nov, 14:22


GPT-2 Small теперь тренируют в полтора раза быстрее

Модель теперь тренируется менее чем восемь минут на 8xH100 - всего пару недель назад это занимало более 12 минут. Стоимость тренировки упала до 3 долларов. Давайте разберём как так вышло.

Основной архитектурный трюк - улучшенный value residual learning. Он нужен потому, что модели на более глубоких слоях фокусируются на меньшем количестве токенов, что сильно снижает эффективность глубоких слоёв. Решается это домешиванием в values n-го блока values из первого блока трансформера. То есть в attention идёт не обычная value-матрица, а взвешенное среднее текущей value-матрицы и таковой из первого блока. Параметры для усреднения обучаются отдельно для каждого трансформерного блока.

Такой же трюк с value residual learning применяют и к эмбеддингам - в каждом трансформерном блоке эмбеддинги также взвешенно усредняются, как и value-матрица.

Ещё одно изменение, которое срезало чуть больше минуты от тренировки, - отвязывание embedding-слоя от lm head. Это повысило количество параметров на 39 миллионов, но никак не повлияло на количество активных параметров и время каждого шага. Авторы репозитория сказали, что с данного момента будут ограничивать себя активными параметрами, так что мы вполне можем увидеть MoE через неделю-другую.

Из мелочей - lm head инициализируется теперь нулями, а после эмбеддинг-слоя добавили одну норму. Максимальное значение логитов теперь ограничено, по заветам Gemma 2. А ещё заметили что по дефолту в PyTorch в mixed precision режиме bfloat16 используется достаточно консервативно, поэтому вручную заменили fp32 на bfloat16 в паре мест.

Кстати, автор доказал, что они скейлятся как минимум до 1.5B, по крайней мере на нескольких миллиардах токенов. Это обнадёживает, но не означает, что все эти трюкт стоит использовать в тренировке больших моделей. Ждём, когда кто-то попробует это либо на моделях побольше (7B+), либо на бо́льшем количестве токенов (1T or bust).

Такие спидраны нужны по двум причинам. Первая — повышение эффективности претрейна больших моделей: даже если не всё масштабируется, то что-то точно будет. А наличие чёткого базового уровня помогает лучше понять эффективность каждого отдельного изменения. Вторая - повышение доступности ресёрча. Одна 3090 может натренировать такую модель примерно за 8 часов (одну ночь), без этих оптимизаций тренировка на 3090 приближалась бы к суткам, что сильно снижает скорость итерации.

https://github.com/KellerJordan/modded-nanogpt/

@ai_newz

эйай ньюз

13 Nov, 12:35


Вы меня спрашивали, как найти классного ментора, если на текущей работе нет никого подходящего, либо если вы сам себе хозяин. Есть вариант найти себе подходящего ментора на разных платформах типа intro (у Насти есть хороший пост на этот счет).

Конечно, это стоит недешево (от $500 до нескольких тысяч в час), но я убежден, что встреча с толковым ментором раз в месяц или хотя бы раз в два месяца может очень сильно помочь и сдвинуть вас с мертвой точки в карьере.

Кроме того так вы можете знакомиться и расширять свой нетворк с людьми, которых очень трудно случайно встретить в жизни.

Кстати, это никакая не реклама, чисто делюсь лайфхаками.

#карьера
@ai_newz

эйай ньюз

13 Nov, 10:15


⚡️ Machine learning - крупнейший обучающий канал для всех, кто хочет погрузиться в Машинное обучение, Аналитику данных и ИИ.

По контенту:
1. Разбираем за вас самые интересные мл модели, новости и анонсы.
2. Ежедневные мл-дайджесты.
3. Курсы, гайды, уроки и обучающие материалы.
4. Решаем задачи с собеседований.
5. Публикуем бесплатные книги, учебники и разбор статей,
6. Подготовили для вас целую папку со всем необходимым для МЛ- специалитса.
И многое другое.

Подписывайтесь, такие знания в 2024-м году на вес золота: t.me/ai_machinelearning_big_data

#промо

эйай ньюз

12 Nov, 23:40


Пришли ревью с ICLR. Мы получили отличные рецензии! Но как всегда есть тот самый Reviewer #2, который порет какую-то фигню.

С поддержкой остальных ревьюеров, думаю, мы легко сможем опровергнуть R2, и, надеюсь, статья будет принята.

Что за статья пока точно сказать не могу :) Могу только сказать, что она про LLM.

А как ваши ревью, если сабмитили?

#конфа #резерч
@ai_newz

эйай ньюз

12 Nov, 11:45


Вот еще примеры SeedEdit. Первые две картинки с китайского сайта, где, вроде бы, можно потыкать модельку, пока Hugging Face лежит, но нужен китайский номер. Демки целых две: вот первая и вторая. Остальные — это черрипики из статьи.

@ai_newz

эйай ньюз

12 Nov, 11:43


Очередной хайп-тул от китайцев из ByteDance — SeedEdit

По сути, это еще один text2photoshop или по простому текстовый редактор картинок, но качество — моё почтение (судя по черипикам, а демо на Hugging Face у меня пока лежит).

Результаты получаются очень похожими на то, что даёт наш Emu Edit из соседней команды.

Пробежался по тех-репорту. Деталей там зиро, так же как и novelty:
Все таже начинают с обычной pre-trained text2img диффузии и генерят пары синтетических данных - картинка и ее отредактированная версия с инструкцией. Далее это все дело сильно фильтрут, дообучают модель на отфильтрованных парах с инструкциями. Затем опять повторяют по кругу - генерят синтетику, фильтруют и дотренивают модель. Так несколько раз.

По архитектуре: вместо добавления оригинальной картинки на вход с помощью конкатенации дополнительных каналов как в Emu Edit, тут кормят фичи оригинальной картинки в контекст self-attention блоков. Эта фишечка не новая, так делали уже например в Story Diffusion для генерации консистентных кадров.

Иначе говоря, ничего нового в методе нет, челы просто очень хорошо приготовили синтетические данные (data is the king).

Больше примеров ниже.

Демо на Hugging Face
Пейпер
Project page

@ai_newz

эйай ньюз

11 Nov, 15:37


Google DeepMind релизнули веса и код AlphaFold 3

Это модель для предсказания структуры белков, которая облегчает разработку лекарств. За предыдущую версию Демису Хассабису дали нобелевку, а эта, по заявлениям гугла, как минимум на 50% лучше.

Раньше доступ был лишь через AlphaFold Server, с ограничением в 20 запросов в день. Код уже на гитхабе, а веса доступны по запросу, обещают одобрить или отклонить в течении 3 рабочих дней.

Важно: лицензия некоммерческая и очень жёсткая, использование коммерческим организациям и в коммерческих целей запрещено. Также запрещено распространение весов и тренировка своих моделей на аутпутах AF3.

Запускается на видюхах с 16 гигами, но с ограничением длины контекста в 1280. Лучше юзать как минимум A100 на 40 гигабайт. Всякие A6000 тоже в теории подходят, но авторы тестировали точность модели только на H100 и A100.

А у нас есть кто-то кто пользуется AlphaFold в рабочей деятельности? Как вам?

Github
Курс по использованию AlphaFold

@ai_newz

эйай ньюз

11 Nov, 11:55


Кажется, OpenAI достигли потолка scaling law.

The Information (от них последнее время приходит много интересной информации) поделились неутешительными новостями о следующей LLM от империи Альтамана.

С одной стороны, o1, пройдя всего 20% тренировки, уже достиг уровня GPT-4. С другой — источники в OpenAI говорят, что следующая модель хоть и обещает быть лучше предшественника в целом, но «не надежно лучше своего предшественника». Именно поэтому обсуждается смена парадигмы нейминга. Чтобы справиться с вызовами скейлинга, OpenAI создали специальную команду — foundation team. Похоже, мы можем не дождаться ChatGPT-5. o1, конечно, выглядит перспективно, но это всего лишь один из примеров смены направления развития.

Как видно из успеха o1, следующий шаг в развитии LLM-моделей лежит не в увеличении объема данных (их, кстати, уже не хватает — в датасете уже куча синтетики), а в поиске новых подходов к скейлингу. Один из таких подходов — это chain of thought, который по сути получает прирост в качестве за счет скейлинга количества компьюта во время инференса.

Еще одно важное направление — это агенты. Антропик уже продемонстрировали computer use, так что ответ от OpenAI не заставит себя ждать (как минимум еще во время презентации 4o gpt-ишка смотрела на экран юзера). Правда, точных дат нам не называют, и это, возможно, к лучшему — не хотелось бы снова ждать полгода, как это было с voice mode после первого анонса.

И да, Orion ожидается early next year, что на языке OpenAI это может означать период с января до середины июля :)

@ai_newz

эйай ньюз

10 Nov, 18:05


Нейродайджест за неделю (#43)

LLM
- API Claude 3.5 Haiku. Дорого и бесполезно, картинок на входе еще даже нет.
- Frontier Math. Самый сложный бенчмарк от Epoch. С ним справятся не все доктора наук, а LLM решает эти задачи чуть чаще, чем никогда (<2%).

Про деньги в индустрии
- Где бабки Лебовски, или куда тратят деньги корпорации в AI. Репорт от The Information слил расходы на AI 50 крупнейших корпораций.
- Anthropic и золотые горы. Главный конкурент OpenAI привлекает несколько миллиардов "зеленых". Амазону понравилось доить API Антропиков.
- Physical Intelligence. Стартап, заручившись поддержкой Амазона, OpenAI и фондов, строит foundation model для всех типов роботов.

Генеративные модели

- Super Sonic. Генерим спецэффекты по видео или голосом от Adobe.
- FLUX1.1 pro Ultra and Raw Modes. Еще один хит от Black Forest Labs! Генерит картинки в 2k с потрясающей детализацией. Картинка стоит $0.06 по API. Примеры.

Прочее
- Marimo. Прокаченная версия Jupyter ноутбука, куча фич, упрощающих жизнь, топ для пользователей ноутбуков.
- Хакатон Anthropic. Наделали кучу прикольных проектов, среди которых мануал для Computer Use Claude, благодаря которому он научился управлять роботом и выполнять команды, а еще капча против LLM.

> Читать дайджест #42

#дайджест
@ai_newz

эйай ньюз

09 Nov, 11:41


У Epoch новый бенчмарк — Frontier Math, состоящий из задач, на решение которых у профессионалов могут уйти дни. Лучшие современные модели могут решить менее 2% задач, даже с доступом к Python и кучей токенов на размышления. Для составления бенчмарка привлекли более 60 математиков из разных областей; у них суммарно 14 золотых медалей IMO (Международной математической олимпиады) и одна Филдсовская премия.

Чтобы оказаться в бенчмарке, задача должна быть оригинальной и иметь ответ, который нельзя угадать с вероятностью более 1%, не проделав большую часть работы по решению задачи. В то же время ответ должен быть легко проверяем без вмешательства человека — поэтому у многих задач в качестве ответа используется целое число (но в некоторых случаев решение проверяется через SymPy), а если для решения задачи нужно запускать код, то время выполнения референсного решения ограничено одной минутой.

Небольшую выборку получившихся задач предоставили на оценку трём лауреатам Филдсовской премии: Ричарду Борчердсу, Уильяму Гауэрсу и Теренсу Тао, а также Эвану Чену, золотому медалисту IMO, который сейчас занимается подготовкой других к олимпиаде. Они назвали эти задачи "крайне сложными" и ожидают, что для создания моделей, которые хорошо себя в них показывают, нужны годы. Основная проблема — задачи крайне специализированные, и статей на тему может быть всего около десятка.

В то же время отмечают, что "решение таких задач отличается от доказательства теорем" и что система, которая может такое решить, хоть и не сможет заменить профессионального математика, но будет крайне полезным ассистентом. Но тут важна и цена вопроса — три дня на суперкомпьютере, которые нужны были для AlphaProof для решения некоторых задач с IMO, могут стоить дороже, чем годовая зарплата математика. А ведь задачи в бенче значительно сложнее.

Небольшой нюанс: Теренс Тао придумал несколько задач для бенчмарка, а Чен выступил соавтором статьи в качестве математика, с которым сотрудничали основные авторы.

В эпоху перенасыщения старыми бенчмарками нужны новые сложные бенчмарки, у которых есть шансы продержаться несколько лет. Оценивать модели по вайбам, конечно, весело, но без воспроизводимых бенчмарков непонятно: а есть ли у нас вообще прогресс или мы просто топчемся на месте?

Пейпер
Пять задач из бенча разных уровней сложности

@ai_newz

эйай ньюз

09 Nov, 10:22


Anthropic собирается привлечь ещё несколько миллиардов долларов инвестиций

Инвестором снова должен выступить Amazon, который уже инвестировал в компанию 4 миллиарда долларов. Оценка в этом раунде инвестиций ожидается в районе 30-40 миллиардов долларов.

Amazon явно понравились результаты инвестиций - AWS, главная дойная корова компании, показывает очень хороший рост во многом из-за продажи AI API. Плюс Amazon пихает Claude сейчас куда только возможно - от чатботов на сайтах и в приложениях, до их конкурента Github Copilot. А ещё планируемая интеграция в Alexa, по платной подписке.

Загвоздка на этот раз в том, что Amazon хочет, чтобы Anthropic использовал Trainium - собственные чипы Amazon. Они их произвели в огромных количествах, но никто не хочет их использовать. Я даже не припомню ни одной статьи, где использовали бы Trainium. Anthropic в качестве клиента поможет отполировать софт до хорошего уровня, плюс сделает неплохую рекламу, если на них смогут натренировать какие-то передовые модели.

Такие условия не новинка в индустрии — в прошлом году Intel провернула такой же трюк со Stability, предоставив им свои чипы Gaudi 2 вместе с инвестициями. Да и сами Anthropic как минимум использовали TPU для инференса после того, как Google в них инвестировал.

С кнутом есть и пряник - ведутся переговоры о постройке Amazon кластера для обучения для Anthropic - вроде тех, что Microsoft строит для OpenAI, а X.AI и Meta для себя. Будут ли там Trainium или более традиционные чипы от Nvidia - непонятно.

Понятно только одно – инфраструктурная гонка все еще набирает обороты, а клауд провайдеры снимают жирнющие сливки от огромного запроса на инференс и тренировку больших AI моделей.

@ai_newz

эйай ньюз

06 Nov, 23:31


🔥FLUX1.1 [pro] Ultra and Raw Modes

Новый релиз от Black Forest Labs! 4k 4Mp (примерно 2k) изображения и более реалистичный режим!

1. FLUX1.1 [pro] Ultra - теперь можно генерить картинки в 2k x 2k разрешении! Причем довольно быстро - за 10 сек.

$0.06 за картинку

2. FLUX1.1 [pro] Raw - режим, который передает подлинное ощущение спонтанной фотографии. Генерит изображения с менее синтетической, более естественной эстетикой. Он значительно увеличивает разнообразие человеческих образов и улучшает реализм

@ai_newz

эйай ньюз

06 Nov, 18:12


Physical Intelligence подняли $400M при оценке в $2 миллиарда.

Чуваки планируют создать foundation model для роботов всех мастей. Чтобы вот воткнул софтинку в машину, а она резко адаптировалась и подстроилась под существующую механику. Похоже, нас ждут «мозги по API»! Но надеюсь, к тому времени научатся считать всё локально.

Главными инвесторами стали Amazon, фонды Thrive и Lux Capital, ну и OpenAI — куда же без них.

Стартап не совсем с голой жопой. Если не считать топовый состав ко-фаундеров, в который входят Mr. Hausman, в прошлом robotics scientist в Google; Sergey Levine, профессор в Беркли, преподаёт computer science, но сам дико угарает по обучению агентов и RL (кстати, я лично с ним знаком, и вот ещё пост про воркшоп с его участием); и Lachy Groom, бывший executive в Stripe (сейчас все зарубежные подписки оплачиваются через него), так что бизнес он вести умеет. Чуваки недавно опубликовали пейпер, где представили свою первую модель pi0 (они кстати процитировали нашу Movie Gen, кек). Научили две роборуки разным приколам типа складывания одежды и уборки. Всё это мы уже видели тут, тут и тут, ну а главные в этом 1X . Да и вообще, вот есть набор «сделай сам» для точно таких же механических рук — здесь (вместе с тренировкой и записью датасета).

Но это только начало, у Physical Intelligence цель в другом. Не просто научить машину в какой-то конкретной конфигурации выполнять команды, а научить вообще всех ботов всему, в том числе саморепродукции и захвату человечества. По факту, есть закос на general purpose модель, и вот в этом и заключается наибольшая проблема - совсем непонятно смогут ли они перегнать general purpose модели от Anthropic или тех же OpenAI, которые всё лучше и лучше справляются с контролем роботов.

Источник
Пейпер

@ai_newz

эйай ньюз

06 Nov, 14:50


Об AI в образовании: универы по всему миру все активнее используют нейронки

Яндекс Образование и ВШЭ выпустили карту университетов, которые решили внедрить ИИ в обучение. Получилась кейсотека с примерами того, для каких задач студенты и преподы используют ИИ. Проект поможет вузам определиться с наиболее подходящими стратегиями интеграции нейросетей. Собрал несколько любопытных примеров.

#промо

эйай ньюз

05 Nov, 21:52


Капчи для LLM - Anthropic провели хакатон в Сан-Франциско

Собралось более двухсот человек, было немало интересных проектов.

🥇 Первое место заняла команда, которая дала Claude мануал по использованию робота, и при помощи Computer Use Claude смог управлять роботом и выполнять инструкции (хотя с заметными задержками). Задача была достаточно простой, и хотя скорость работы Claude оставляет желать лучшего, сам факт того, что это работает, впечатляет.

🥈 Второе место заняла капча, которую сложно обойти современным LLM с Computer Use. Участники показали несколько способов поймать Claude: Логические задачки — LLM всё ещё часто ошибаются на таких. Анимированные паттерны, которые видны обычному пользователю, но не видны LLM, ориентирующейся по скриншотам. Ловушки — задачи на время, которые человек просто не успеет решить, а LLM справится без вопросов. Конечно, эти решения сложно масштабировать, но задача важная и её нужно как-то решать.

🥉 Третье место занял проект по улучшению ТЗ через обсуждение несколькими агентами.

Причин использовать Haiku 3.5, участники хакатона не придумали.

@ai_newz

эйай ньюз

05 Nov, 16:51


Подборка каналов об искусственном интеллекте и машинном обучении от издания «Системный Блокъ»

Data Science, машинное обучение, искусственный интеллект — cегодня о них пишет каждый. Но как найти тех, кто действительно разбирается? «Системный Блокъ» собрал каналы экспертов в сфере ИИ, DS и ML

— @ai_newz — эйай ньюз
Модели для будущих робо-гуманоидов от Nvidia, знакомство с основателями стартапа Mistral, трюки в промптинге языковых моделей и списки книг для изучения машинного обучения — в канале найдете новости из сферы ИИ и советы по входу в неё. Автор канала Артём получил PhD в лаборатории университета Гейдельберга, где сделали Stable Diffusion, работает Staff Research Scientist в команде LLaMA в одной из крупнейших IT-компаний мира и пишет о своем опыте

— @seeallochnaya — Сиолошная
Понятные разборы исследований по нейросетям, охватывающие темы от воздействия на образование до разборов внутренностей LLM. Обзоры новостей, которые влияют на будущее индустрии ИИ: от экономических аспектов до ядерной энергетики для подпитки датацентров. Канал ведёт Игорь Котенков — руководитель ИИ-отдела в международной компании; в прошлом занимался машинным обучением в AliBaba, Яндексе и X5 Retail; автор множества популярных статей-разборов и лекций, подходящих любой аудитории

— @gonzo_ML — gonzo-обзоры ML статей
Интересны обзоры специализированных статей об искусственном интеллекте и машинном обучении, анонсы и анализ больших языковых моделей? Этот проект — для вас! Среди последних публикаций: отражение малых языков в больших языковых моделях и системах машинного перевода, лекции о проблемах сознания и тезисы отчета о состоянии сферы ИИ. Канал ведут CTO Intento Григорий Сапунов, ex-руководитель разработки Яндекс-Новостей, и Алексей Тихонов, ex-аналитик в Яндексе, автор Яндекс-автопоэта и Нейронной обороны

— @rybolos_channel — Kali Novskaya
Применение языковых моделей в науке, история GPT в стиле Хармса, подборки курсов по NLP, а также анализ угроз открытым данным, на которых обучаются языковые модели. Канал ведет Татьяна Шаврина — лингвист, менеджер исследовательской команды в LLAMA, большая сторонница опенсорса и открытых данных. Она рассказывает о современных LLM и NLP-исследованиях, важности открытых технологий, этике искусственного интеллекта и сложных вопросах интеллектуальной собственности

— @boris_again — Борис опять
Здесь вы найдете материалы об IT и программировании, поиске работы в Machine Learning’е, обзоры исследований в области ИИ. Автор работает в eBay, преподает машинное обучение, делится профессиональным и личным, шутит и философствует. Например, рассказывает, как развивать самоконтроль, берет интервью у коллег о карьере в технологическом секторе и делает подборки русскоязычных LLM

— @tech_priestess — Техножрица
Канал для тех, кому интересны математика, разработка и исследования машинного обучения. Создательница проекта работает старшим академическим консультантом в Huawei и рассказывает об исследованиях, в которых участвует (например, о границе между текстами, написанными человеком и ИИ), пишет о трансформерах, NLP, анализе данных и глубоком обучении

— @dealerAI — DealerAI
Как связать дообучение на основе фидбэка от людей с дообучением на ИИ-фидбэке? Чем можно улучшить RAG? Какие маленькие модели выигрывают у больших аналогов? Автор канала Александр Абрамов — создатель языковых моделей, победитель соревнований в Kaggle и хакатонов по Data Science, а также тимлид нескольких ML-команд, которые решают задачи обработки естественного языка и интегрируют LLM в прикладные проекты. В канале есть посты обо всем, что связано с DS, NLP и машинным обучением: например, о новых LLM и галлюцинациях нейросетей

— @sysblok — Системный Блокъ
Как ИИ помогает читать древние тексты? Почему лингвисты проиграли последнюю битву за NLP? Как связаны машинное обучение и японская уличная мода? «Системный Блокъ», основанный выходцами из RND отдела ABBYY, рассказывает о том, как трансформируется культура в век больших данных — что происходит на стыке IT, гуманитарных наук и Data Science или как ML применяют в естественных и гуманитарных науках

эйай ньюз

05 Nov, 15:56


Marimo - как Jupyter, только лучше

Огромная часть кода для ИИ пишется и запускается в Jupyter ноутбуках, как локально так и в колабах. Но они не идеальны - дефолтно редактировать код там не очень удобно, часто можно наворотить такого, что решается лишь перезапуском ноутбука. Marimo решает заметную часть проблем Jupyter, при этом привнося кучу новых фич:

Реактивность - при изменении ячейки, зависящие от неё ячейки тоже автоматически пересчитываются (смотреть гифку). Если пересчитывать половину ноутбука при каждом изменении не хочется, то можно включить lazy mode, который будет всего лишь помечать ячейки устаревшими.

Отсутствие "hidden state" - переменная из удалённого когда-то куска кода теперь никак не будет влиять на код текущий, рандомных перезапусков теперь будет поменьше.

Поддержка ИИ ассистентов - как автокомплиты Copilot и Codeium, так и API больших моделей (OpenAI, Anthropic, Google).

Интеграция с пакетными менеджерами - можно указать зависимости для конкретного ноутбука, Поддерживаются все популярные пакетные менеджеры для Python, за исключением Conda.

Интерактивность - использовать местные виджеты куда проще чем в Jupyter так как не нужно использовать колбеки.

Ноутбуки хранятся в обычных питон файлах, так что их куда проще хранить в гит репозиториях и запускать как скрипты.

Основной минус - неполная поддержка LSP, так что об ошибках типизации узнаёшь только когда код запускается. Отсутствие LSP в Jupyter Notebooks - одна из причин почему может быть не очень удобно использовать Cursor (Microsoft блокирует использование Pylance в Cursor, а Jedi не поддерживает Jupyter). Да и работает пока что только в браузере, но надеюсь мы получим и расширение для VS Code.

Хоть тула ещё и в альфе и не всё идеально, то что есть подаёт надежду и ощущается заметно лучше Jupyter, по крайней мере после нескольких часов которые я им пользовался.

Попробовать можно вот так:
pip install marimo && marimo tutorial intro


Github

@ai_newz

эйай ньюз

04 Nov, 22:03


Anthropic наконец-то релизнули API Claude 3.5 Haiku

Результаты SWE Bench выше чем у июльского Sonnet 3.5. Cutoff данных тренировки - июль 2024.

Этого мало чтобы перекрыть минусы - цена выросла в 4 раза по сравнению с 3.0, а изображения в качестве инпута модель на старте просто не поддерживает. Кажется Anthropic, которые изначально и начали гонку дешёвых моделей, решили просто заняться рекламой GPT 4o-mini и Gemini Flash.

Я совсем не понимаю зачем использовать эту модель, а что думаете вы?

@ai_newz

эйай ньюз

04 Nov, 12:27


Super Sonic sound special effects с контролем голосом от Adobe (из анонса в этом посте).

Видали прикол? Кричишь в микрофон, а на выходе — рык дракона. txt2sfx от Eleven Labs конечно прикольно генерит, но таким образом тяжело попасть в динамику движений в кадре.

Больше всего завирусился отрывок генерации по голосу, но оказывается, модель умеет генерить ещё и по движению на футаже. Более того, можно сегментировать кадр и делать озвучку только для какой-то отдельной его части (см. видео с примером НЛО). Пока генерация чисто по видео работает не очень хорошо в сложных сценах, так что SFX-еры ещё успеют наиграться с этой тулзой, ведь она даёт наибольший контроль над динамикой и характером звука. Кстати, в кино много эффектов делают именно голосом с жирной пост-обработкой — это база.

Подобные решения уже появлялись на рынке, но без возможности описывать сам звук текстом. Можно было, например, напеть мелодию, и она переводилась в мелодию на гитаре. Хотя чего-то реально юзабельного не было. Интересно, как SuperSonic проявит себя на этом поприще.

@ai_newz

эйай ньюз

03 Nov, 17:59


Нейродайджест за неделю (#42)

Робототехника
- CoTracker3 — новая модель для трекинга точек от исследователей из Meta. Как минимум это полезно для обучения роботов и контролируемой генерации видео.
- Как научить роборуку играть в дженгу за 1 час — пособие для начинающих. Все благодаря тому, что демонстрации человека и исправление ошибок встроены прямо в RL-пайплайн.

ЛЛМ
- MoE улучшает память больше, чем reasoning — статья пытается ответить, почему MoE показывает хорошие результаты по World Knowledge, но уступает в математике и логических рассуждениях по сравнению с плотной моделью.
- YandexGPT 4 — звёзд с неба не хватает, но и прогресс есть.
- Github Copilot на подъёме — новые фичи и поддержка актуальных LLM. Наконец-то достойный конкурент Cursor.
- Дайджест по LLM провайдерам — вышло много обновлений, собрал все в одном посте. Даже случайно слили o1 (уже не превью), OpenAI дали общий доступ на пару часов, лол.

Генеративные модели
- Recraft.ai — «Тёмная Лошадка» обошла Flux на арене. Респект ребятам!
- Adobe Max — большой дайджест по презентации Adobe, где показали много реально полезных инструментов. Must-read для дизайнеров.

Прочее
- О ценности PhD — так что, ребят, продолжаем рисерчить.
- Ещё -1 в OpenAI — Chief Research Officer Боб МакГрю ушёл в безвеременный отпуск. Денег он уже набрал достаточно и вертел всю эту «Игру престолов». Коллективно понимаем...

> Читать дайджест #42

#дайджест
@ai_newz

эйай ньюз

02 Nov, 15:49


Тут за последние пару дней было несколько новых фич от LLM провайдеров

Легко было что-то упустить, поэтому я собрал всё в один пост.

OpenAI выпустили в публичный доступ SearchGPT - всё ещё отстаёт от Perplexity по качеству, зато довольно быстрый, да и обычные пользователи про Perplexity и не слышали. Но всё ещё иногда начинает искать в интернете, когда это совсем не нужно (если кто-то знает, как можно отключить эту функцию, напишите, пожалуйста, в комментариях).

Почти одновременно с SearchGPT они выпустили возможность дистиллировать модели. То есть сначала можно отвечать моделью вроде o1 либо 4o, а потом дистиллировать их ответы для вашего конкретного юзкейса в модель поменьше, например 4o-mini. Чтобы вы могли оценить, насколько хорошо это работает, добавили возможность создавать собственные методы оценки моделей. Цены соответствуют стандартным для файнтюнинга.

Ещё случайно сделали доступной полноценную o1 на пару часов - видимо релиз близко. В добавок к возможности загружать файлы и картинки, она заметно умнее o1-preview - та заметно проседает в математике и кодинге и отстаёт в этом даже от o1-mini. Кстати не первый раз случайно дают не те права доступа к модели, но раньше это было с внутренними моделями для тестирования. Интересно, GPT-5 так утечёт?

Anthropic выпустили приложение Claude для Mac и Windows — в принципе, похоже на мобильное, возможно, готовятся к релизу функции computer use для подписчиков. Ну и глобальный шортакт для вызова клода удобный.

Кроме того, теперь Claude может понимать изображения в PDF. Однако контекст для обычных пользователей всё ещё ограничен 200к токенами (против 500к у корпоративных пользователей), поэтому пользоваться, не выходя за пределы контекста, сложно.

Google добавили Grounding для Gemini в AI Studio и API. Теперь запросы к LLM можно привязывать к результатам поиска. Стоимость — $35 за тысячу запросов.

Чем из этого вы уже пользовались? Как вам?

@ai_newz

эйай ньюз

02 Nov, 13:30


На днях стали известны итоги прошедшего ML Prize. Заявлено всего было 160 работ, из которых выделили 14 самых значимых. Победители получили денежную премию в зависимости от номинации и ещё гранты в Yandex Cloud для расчетов + остальные плюшки. Пейперы worth to check out, особенно если сами планируете двигать ML. Отобрал неплохие бумаги, вот парочка:

Вот пытаются сделать децентрализованную многоагентную навигацию для робо-роя, исследование на dissercat. Кроме всяких футуристичных штук, полезно в складской логистике.

Ещё разрабатывают методы обучения генеративных моделей на основе теории оптимального транспорта. Планируют применять для проектирования (как ни странно) транспорта, а также материалов и лекарств.

Ещё об оптимизации децентрализованных систем и асинхронных вычислений.

Было еще много всего про многоагентные системы и оптимизации. Ну и здесь стоит добавить, что премия выдавалась не за конкретные пейперы, а по категориям. Подробнее здесь

@ai_newz

эйай ньюз

02 Nov, 11:45


Еще один миллиардер мульти-миллионер вышел из OpenAI на пенсию.

Chief Research Officer уволился из OpenAI. Не знаю, чем именно он там занимался, но за свои восемь лет работы, он явно заработал несколько сотен миллионов $$$. Обычно такие ребята зарабатывают от нескольких миллионов в год акциями до нескольких десятков миллионов. Учитывая 10x рост оценки OpenAI c $15 млрд до $157 млрд только за последние 4 года, легко оценить что Бобу больше не нужно будет работать никогда.

И вертел он все эти политические игры в руководстве и перестройку компании с non-profit в for-profit.

@ai_newz

эйай ньюз

01 Nov, 13:02


Уже пару недель прошло с выставки Adobe MAX, а только сейчас дошли руки посмотреть, что там они наворотили. Все потому, что презентация шла аж три дня, и новости поступали постепенно. Причем нигде нет какого-то списка нововведений, поэтому я собрал свой дайджест новых фич с упором на GenAI, чтобы убедиться, что вы ничего не пропустили.


Photoshop

1. Firefly 3. Генерит картинки получше. Юзается в Generative Fill и почти во всем, что идет далее.

2. Project Clean Machine. Чистит картинки от всех артефактов и мусора (включая людей). Выделяет мусор автоматически.

3. Harmonize. По сути, релайт, но удобно встроенный в Photoshop. Теперь композить ничего не стоит.

4. Substance 3D. Можно открывать 3D-файлы, крутить их, вращать и менять как материалы, так и освещение. Кроме того, Adobe научили Photoshop генерить гауссиан сплаты, которые потом можно апгрейдить до юзабельного состояния через встроенный img2img рефайнер.

5. Generative Work Space. Встроенный интерфейс Midjourney. Можно генерить картиночки. Из приколов — знакомый нам IP Adapter на стиль и новый Composition Reference, ну и всякие пресетики для ньюбисов.

6. Project Concept. Прикольный поисковик референсов на основе ИИ. Мудборды теперь делаем только там. Кроме того, можно мешать картинки по целому списку параметров: стиль, фон, цвет, освещение и объект. Можно указать, что тебе нравится на референс-картинке, а потом еще и удобным ползунком их смешать. Там же — realtime генерация с перемещением картинок как в Krea. Короче, упор не в промптинг, а в смешивание картинок через img2img или IP-адаптеры всех мастей.


Premiere Pro / After Effects

7. Firefly Video и Generative Extend. Можно продолжить клип на пару секунд. Зачем? Ну, наверное, спасти всратый футаж, ну и видосики генерить.

8. Project Super Sonic. Такого мы еще не видели. Генерирует аудиоэффекты на основе голосового наброска. Короче, рычишь в микрофон своим тоненьким голоском, а на выходе получаешь рык дракона. Весело будет поиграться. (Демо как раз показано на видео в этом посте)

9. Также улучшили выделение объектов по типу как в Segment Anything Video. (Гринскрин больше не нужен). А вот про трекинг новостей вроде бы не было.


Illustrator

10. Gen Shape Fill. Generative Fill для Illustrator. Делаешь набросок формы, а оно его закрашивает и добавляет деталей. И все это вектор. Наверное, лучший txt2svg, но нужно тестить.

11. Rotatable Vectors. Немного ломает мозг — SVG-шки (2D-векторы) крутятся! Зачем — хз, сразу норм нарисовать, не? Хотя выглядит клево.

12. Layout Variations. Мало того, что сам постер нарисовали со скетча от руки, так потом еще и дергают его во все стороны, меняя соотношение сторон, а постер сам подстраивается. Удобно!

Ну и вишенка на торте для тех, кто все еще переживает за авторские права: все это абсолютно легализовано и лицензировано. Так что вот, наслаждаемся.Часть инструментов уже доступна на сайте Adobe, но большинство непонятно когда выпустят.

В целом довольно интересно. Часть решений, конечно, уже год валялись в опенсорсе, но здесь заметен скачок в качестве (всё-таки есть и данные, и железо), и даже показали пару новых фич.


P.S. Примеры смотрим в комментариях.

@ai_newz

эйай ньюз

31 Oct, 12:45


Вот еще мой непредвзятый тест Recraft v3 c одним и тем же промптом и 8-ми разными стилями. Текст тоже хорошо рисует.

На каждый стиль я сгенерил по 2 картинки и выбрал одну лучшую, так что тут минимальный черипик. Одна генерация занимает от 8 до 14 секунд.

@ai_newz

эйай ньюз

31 Oct, 12:42


Ого! Кто-то посмел побить Flux 1.1 Pro на text2image арене.

Ребята из стартапа Recraft.ai выпустили свои модель V3, которая прям очень хорошо генерит картинки. Еще они очень круто обучились разным стилям, включая Vector Art, на котором у стартапа и был изначальный фокус.

Кстати, респект ребятам, кто тренил модель! Напишите в комментах (или в лс), если кто-то из вас читает канал:)


Потестить можно на Recraft.ai (50 бесплатных генераций)

@ai_newz

эйай ньюз

30 Oct, 10:19


Github Copilot начинает серьёзно конкурировать с Cursor

На Github Universe показали новые фичи Copilot, похоже после продолжительного застоя компания всерьёз взялась за конкуренцию.

Добавили поддержку новых моделей - Gemini, Claude Sonnet (нужно отдельно включать в настройках) и o1-preview с o1-mini. Модельки будут раскатывать в течении следующих пары недель. У меня уже есть Sonnet и o1, жду Gemini.

Наконец-то добавили multi-file editing.

Кастомные промпты для моделек - наконец-то в чате не нужно будет повторяться каждый раз чтобы добиться нужного результата. Вот инструкция по конфигурации.

Copilot теперь доступен в Xcode и Windows Terminal.

Code Review - теперь коммит можно заревьювить с помощью ИИ прямо в редакторе.

Показали и Spark - платформу для создания и хостинга миниапок с помощью ИИ. Записаться в waitlist можно тут.

Большая часть показаных фич уже доступна, правда некоторые лишь в превью.

@ai_newz

эйай ньюз

29 Oct, 15:56


Mixture of Parrots: Experts improve memorization more than reasoning

Авторы замечают, что когда они проводили абляции моделей с одинаковым количеством параметров на разных задачах, MoE модель при таком же количестве параметров, как и dense модель, показывает себя хорошо на World Knowledge, но сильно проседает по математике и reasoning по сравнению с dense моделью.

Чтобы объяснить, почему возникает такое расхождение на бенчмарках для разных задач, авторы тренируют ряд моделей на синтетических тасках. Для оценки того, как модель может запоминать, генерируется синтетическая телефонная книга, и оценивается какую её часть модель может запомнить. Возможности к рассуждению оцениваются через поиск кратчайшего пути на графе.

Авторы доказывают, что достаточно широкая dense модель может решить задачи на графах, которые параметрически и по глубине заматченная MoE решить не может из-за недостаточной широты, что подтверждают и эксперименты. В то же время способность к запоминанию телефонной книги у модели с таким же количеством параметров не страдает из-за малой широты модели.

Лично мне хотелось бы чуть больше абляций с разной глубиной плюс абляций reasoning с одинаковой широтой модели, но время у авторов пейпера не бесконечное. Скорее всего, увидим это в каких-то follow-up.

Пейпер

@ai_newz

эйай ньюз

29 Oct, 12:32


Я довольно внимательно слежу за русскоговорящими ЛЛМ. Кому-то может показаться, что в этом мало смысла, ведь GPT от OpenAI или какой-нибудь Claude будут всегда лучше, хотя бы просто из-за больших размеров и количества компьюта, потраченного на обучение. Но здесь есть пара нюансов.

Во-первых, модели, у которых русский — это первый язык, которого в тренировочных данных больше чем других, должны говорить на нем как носители, что-ли. Я бы, сколько английский ни учил, говорить как какой-нибудь чел из Бруклина никогда не смогу. Так вот, нативно русскоязычные модельки могут в каких-то уникальных случаях справляться со своей задачей лучше. Ну, навскидку, в каких-нибудь устойчивых выражениях или каламбурах. Про знание всяких ГОСТов и местных законов я вообще молчу.

А во-вторых, мне просто по приколу наблюдать, что там на рынке локальных моделей происходит.

Так вот, недавно вышла YandexGPT 4 в PRO и Lite версии. По внутренним тестам смотрится неплохо, но бенчам доверять, как всегда, не стоит. Хотя Яндекс и не слишком задирают нос, а ставят вполне адекватные цели — добраться до уровня LLaMA 70B, что у них почти получилось. Хотя, если взглянуть на RuArenaGeneral — это chatbot arena для русскоговорящих моделей, где судья GPT-4 — то уровень YandexGPT 4 PRO сейчас на уровне адаптированной и дообученной LLaMA 3 8B. Однако те фишки нативно русскоязычных моделей все еще в силе, так что правда где-то посередине.

Модельку можно потыкать в Yandex Cloud, по API либо через чатовый интерфейс (тут) для рядовых пользователей. Но цель у них явно работа по API для каких-то продуктовых решений.

Еще из приколов — увеличили контекст с 8 до 32к токенов и даже сделали какой-то намек на Chain of Thought. Но, как я понял, они его просто немного подтюнили на рассуждения. Кстати в облаке можно дообучить модельку под свою нужды.

1M токенов обойдется в $12.3. Причем для input/output цена одна. Правда у них там такая мудренная формула для расчета. Можете сами глянуть.

Пока еще не SOTA на русском, но потенциал есть. Для саммари отзывов и результатов выдачи сгодится. А дальше посмотрим.

@ai_newz

эйай ньюз

29 Oct, 09:20


И смешно и грустно. Увидел тут в ленте линкедина как выпускник магистратуры из ETH Zurich жалуется, как трудно найти интересную ML работу в Европе, если нет PhD. Все меньше ML вакансий, где не требуется узкая специализация и PhD (кроме стартапов). Нужно чтобы ваше резюме действительно выделялось, чтобы вас звали на собесы.

Да, что уж там - даже с PhD это еще не гарантия, что вы будете на расхват у рекрутеров. Нужно качать скилы и своё публичное портфолио. У PhD студента в это плане слегка больше инструментов, так как можно показать свои статьи, если они качественные и релевантные.

Как видите ценность глубоких специалистов возрастает. Так что занимаемся постоянным обучениеи, делаем пет-проекты и прокачиваем свой публичный рабочий профиль. А если есть возможность – публикуем статьи.

@ai_newz

эйай ньюз

28 Oct, 16:04


Посмотрите как робот чуть больше часа учится играть в дженгу хлыстом полностью в реальной жизни, без всяких симуляций. По-моему результаты под конец впечатляющие. Настолько быстро учиться выходит из-за того что человеческие демонстрации и исправление ошибок встроено прямо в RL пайплайн.

Кроме дженги подход работает на куче других задач, например разные этапы сборки ПК и мебели, на обучение уходит до двух с половиной часов.

Сайт проекта

@ai_newz

эйай ньюз

28 Oct, 14:00


Привет, я Ярослав, окончил МФТИ и рассказываю в канале моей студии о хардкорном внедрении AI в корпорациях и производствах)

Я не выкладываю новости из мира AI и генерации Миджорни, только суровый ентерпрайз, рассказываем о технических и бизнесовых нюнсах наших проектов, например, как:
- Внедряли AI для литья стали;
- Выявляли окллюзии головного мозга;
- Узнавали период овуляции у свиней по видео)

Контент будет интересен разработчикам и продукт-овнерам, которые внедряют ИИ у себя.

Подписывайтесь, если интересно реальное внедрение Ai в корпорации: @r77_ai

#промо

эйай ньюз

28 Oct, 12:07


На прошлой неделе мы зарелизили мою последнюю статью на PhD - CoTracker3, следующую версию модели для трекинга точек на видео CoTracker (не спрашивайте где CoTracker2 - мы сами не поняли).

TLDR такой: мы сильно упростили архитектуру модели и дообучили ее на реальных видео с помощью псевдо-лейблинга другими моделями (прошлая модель обучена только на синтетических данных). У нас получилось обойти конкурирующую модель от DeepMind с X1000 раз меньше реальных видео, чему мой научрук был очень рад.

Нас даже успели потроллить по поводу того, что мы сами не знаем, кому и зачем эта модель нужна. Изначально это было слабо понятно, сейчас чуть лучше - трекинг точек оказался полезным для обучения роботов с помощью imitation learning. Тут, тут и тут используют нашу первую модель как раз для этого. Еще одно неожиданное применение - контролируемая видео генерация: раз, два, три.

https://www.linkedin.com/feed/update/urn:li:activity:7252361677868826624/?actorCompanyId=35482514

эйай ньюз

27 Oct, 19:56


Нейродайджест за неделю (#41)

LLM
- Computer от Anthropic. Вышло обновление моделей и почти автономный агент Computer, который может использовать интерфейс ПК. Пока сыровато, но какой потенциал!
- Jarvis. Почти тот самый! Вслед за Anthropic гугловские решили анонсировать их конкурента, правда, доступ будет только в Хроме.
- Натренеруй свой GPT-2 Small за 12 минут. Процесс настолько заоптимизировали, что теперь это стоит 5 баксов на 8xH100. Как? Подробнее в посте.
- API Grok 2. По деньгам дороговато: $5 input/$15 output на миллион токенов.
- Квантизированные Ламы. Официальные и лучшие сжатые модели на 1 и 3B.
- Llama 70B на 2200 токенов в секунду. Cerebras уже не впервые ставит рекорды скорости.

Подготовка к интервью
- Cracking the coding interview. Скоро релиз новой версии одной из лучших книг по подготовке к собесам. Рекомендасион!

Генеративные модели
- Movie Gen в Голливуде. Блюмхаус получил в руки нашу модельку и вовсю её тестит.
- Stable Diffusion 3.5 Large. Ну не SOTA, но хоть выложили, раз уж обещали.
- Voice Design. Первая text2voice модель. Не просто читает текст, а генерит именно тембр голоса по запросу.
- Бой Маска и Цукерберга. Жалко, что всё это только в латентном пространстве...

> Читать дайджест #40

#дайджест
@ai_newz

эйай ньюз

27 Oct, 06:11


Google готовит к релизу Jarvis

Заказать билеты на самолёт, отменить подписку или сделать какую-то мелкую монотонную работу скоро за вас сможет ИИ агент на основе Gemini. В отличие от Anthropic, которые научили Claude использовать весь компьютер, Jarvis будет ограничен браузером и как-то интегрирован с Chrome. С одной стороны это меньшая гибкость, с другой - таким образом надёжность агента будет заметно выше, что очень важно для релиза на сотни миллионов человек.

Показать могут уже вместе с Gemini 2.0, в декабре. А вот попользоваться, скорее всего, сначала дадут лишь маленькой группе пользователей.

Rabbit нужно было всего лишь подождать годик с релизом

@ai_newz

эйай ньюз

26 Oct, 20:19


Скорость Llama 3.1 70B выросла в 4 раза

Cerebras резким рывком обогнали всех конкурентов и довели скорость инференса Llama 70B до безумных 2200 токенов в секунду по замерам Artificial Analysis (всего пару месяцев назад они хвастались 450 в секунду). Лично при моём запросе скорость была в 2600 токенов в секунду, а в твиттере люди хвастаются вообще более чем 4к токенов в секунду. Скорее всего, вместе с дополнительными оптимизациями они используют спекулятивный декодинг, так что на простых промптах скорости бешеные. На промптах посложнее скорость может проседать, насколько - непонятно.

Но есть у них и значительная проблема - длина контекста, она тут всего 8к. Конкуренты в лице Groq и SambaNova поддерживают 128к контекста и 64к контекста соответственно. С грядущей, после релиза o1, модой на inference time scaling, важность скоростных провайдеров сильно вырастет. o1 часто думает больше минуты, что не позволяет использовать её во многих контекстах, так что спрос на сокращение времени инференса будет огромным. Но если провайдер просто не может обеспечить необходимые для размышлений десятки тысяч токенов контекста - поучаствовать в этой золотой лихорадке не удастся.

Попробовать можно тут.

@ai_newz

эйай ньюз

25 Oct, 12:17


Вы ждали бой Илона и Марка в октагоне? Вот вам бой. Смотреть со звуком и до конца (никто не ожидал такого исхода).

@ai_newz

эйай ньюз

25 Oct, 10:17


Люблю пасту карбонара. И не очень, когда такие же спагетти у меня в репо.

В Сбере придумали угарный конкурс красоты для кода. Признайтесь, всегда хотелось стать Мистером или Мисс Вселенная 😗. Если вы уверены, что вашему коду подходит звание «Эталонный», а вам — звание «Автор самого красивого кода», то вам на Конкурс красоты кода 2.0 за призы от Сбера: iPhone 16 и умную колонку SberBoom.

Эксперты определят победителей в пяти категориях: Backend, Frontend, DevOps, AI и Mobile, — а награждение пройдёт на ключевом IT-событии HighLoad в Москве, 2 и 3 декабря.
Ну а кроме шуток, более 40-ка участников прошлого конкурса стали частью команды Сбера. Возможно, следующим станете именно вы — переходите по ссылке (ссылка) и изучайте подробности!

#промо

эйай ньюз

24 Oct, 16:53


Meta выпустила официальные квантизированные версии Llama 3.2 1B и 3B практически без потерь в качестве. Модели стали более чем в два раза меньше, от 2 до 4 раз быстрее и используют на 41% меньше памяти.

Вышло добиться этого через умные схемы квантизации плюс quantization-aware training. Без этого средняя потеря в качестве от квантизации — почти 20%, а так вышло добиться потери в 8% на более быстрой квантизации SpinQuant и чуть больше 1% при квантизации с QLoRa.

Важное отличие от обычной квантизации — то, что тут квантизированы не только веса, но и активации. Это позволит запускать эти модели на NPU, которые куда лучше работают с 8-битными вычислениями. NPU в наше время есть во всех смартфонах и в последних поколениях всех десктопов и ноутбуков (AMD, Apple, Intel, Qualcomm); их использование позволит ещё сильнее ускорить модели при более высокой энергоэффективности.

Другим компаниям провернуть такое было бы крайне сложно, так как нет доступа к такому количеству ресурсов и изначальному процессу тренировки, и очень легко накосячить, особенно учитывая тот факт, что Llama 3 — это одна из самых сложных моделей для квантизации.

Веса (если уже есть доступ к Llama 3.2, ещё раз просить не нужно)
Блогпост

@ai_newz

эйай ньюз

24 Oct, 11:33


Настоящий автономный (почти) агент и обновление Claude.

Claude обновили Sonnet 3.5 и релизнули Haiku 3.5 (которая теперь мощнее Opus 3, хотя и является "ускоренной" версией), это не прям прорыв, но производительность знатно улучшится.

Антропики пишут, что теперь Sonnet даже лучше o1-preview. Но правда, вот на табличке с бенчмарками её почему-то нет...

Но не это главное, а новый Computer. Дали на вход скриншоты экрана, прикрутили виртуальную клавиатуру и мышь. И всё, пошла жара. С лёгкими задачами справляется на ура. Но я бы сказал, что на уровне первых версий GPT-3 в математике. С задачей справляется лишь в 20% случаев, так что пока быстрее сделать дело вручную. Но если у вас много рутинной работы, которую хотелось бы автоматизировать, то с пары попыток бота можно вполне обучить делать что-то полезное.

Я сейчас не открою какую-то тайну, но агенты были и до этого. Но все они работают через API. А это значит, что для работы таких агентов нужно задействовать дополнительные ресурсы. Делать второй "интерфейс" для агента, а потом ещё писать код для самого агента. Как-то не очень хочется этого в 2024 году. Нам подавай всё по текстовому запросу да с первого раза. Так что революция, если и не произошла, то попытка засчитана.

Мне нравится вектор развития Антропиков. Они не гонятся во всём за OpenAI, а реализуют своё видение. Тот же Artifacts — это пушка, во всяком случае для не-программистов. А Computer — это шаг к автономным агентам, которые как личные ассистенты смогут скоро планировать вам поездки и бронировать билеты и отели.

Кстати, о похожем функционале ещё в апреле мечтали Apple с их Apple Intelligence. Агент тоже должен был сканировать экран и взаимодействовать с интерфейсом, вот почитайте.

Подробнее здесь.

@ai_newz

эйай ньюз

23 Oct, 16:36


😮 Новая фича ElevenLabs позволяет создавать голоса по текстовому запросу. Ребята показывают, кто на рынке главный, и служат прекрасным примером, как небольшой стартап может легко побить гигантов, которые просто боятся делать такой продукт.

Как думаете, когда выйдет первая опенсорсная Text to Voice модель?

@ai_newz

эйай ньюз

22 Oct, 14:39


Stable Diffusion 3.5 Large

Stability наконец-то выпустили 8B модельку, которую тизерили ещё в феврале. Идёт в двух версиях - обычная и Turbo (которой нужно всего 4 степа). Ещё обещают обновённую Medium завезти, но только 29 октября, через неделю.

По качеству полная моделька, по заявлениям Stability находится между FLUX.1 dev и schnell. Turbo - чуть хуже schnell. До FLUX.1 Pro обоим далеко. Зато хвастаются что SD 3.5 лучше всех в понимании промптов.

Доступны по комьюнити лицензии - то есть если у вас годовая выручка до миллиона долларов, ничего платить не нужно. А вот если больше, то попросят раскошелиться на энтерпрайз лицензию.

После фиаско с Medium 3.0 (которая была ошибкой), к релизу отношусь настороженно.

Не жду, что Stability когда-либо сможет выпустить новую SOTA, т.к. все основные авторы SD ушли.

Веса
Turbo версия
Код
Блогпост

@ai_newz

эйай ньюз

22 Oct, 10:07


Наша модель Movie Gen засветилась в Голливуде!

Короткометражка от Аниша Чаганти, одного из режиссёров Blumhouse (это крупнейшая студия, которая выпустила такие фильмы, как «Сплит», «МА», «Крик» должны были делать «Крик 5» и другие ужастики), где он использует MovieGen для того, чтобы дать вторую жизнь старым кринжовым футажам. Вышел милый видос про детство автора, в котором он вспоминает, как любил творить и фантазировать, а теперь может снова это делать с MovieGen.

Думаю, когда генеративки проникнут в кино, мы все знатно выпадем от их возможностей в хоррорах.

Кстати, Аниш не единственный получил доступ, возможно нас ждет еще пара короткометражек от фильммейкеров студии. Интересно, что чуваки придумают с нашей моделькой. Также в будущем планируют запартнёриться с другими контентмейкерами (блогерами?). До следующего года MovieGen пока еще не будет в продуктах для общего пользования.

Приятно видеть такой импакт от проекта, над которым работал! 😊

MovieGen
Про Blumhouse и MovieGen.

@ai_newz

эйай ньюз

22 Oct, 06:31


В январе выйдет продолжение культовой книги "Cracking the coding interview". Книгу обновили, добавили новые темы и задачи + дополнительные главы например про то, как торговаться за Total Comp (зп) при получении оффера.

Первую версию этой книги я читал еще в 2014 году, когда готовился к своему первому интервью в FANNG - в Google. Я тогда хоть и зафейлил кодинг, но зато понял, что мало готовился :) И вместо гугла пошел делать PhD, о чем ни капли не жалею.

Книгу думаю все же заказать в свою коллекцию. Надеюсь, там будут какие-то инсайты, о которых я еще не знаю.

#books #interviews
@ai_newz

эйай ньюз

22 Oct, 06:08


Advanced Voice для ChatGPT теперь доступен в ЕС!

А также Швейцарии 🕺, Исландии, Норвегии и Лихтенштейне. Поздравляю всех с этим, welcome to the future. Лимиты всё ещё час разговора в сутки, поиграться можно, но постоянно использовать - нет.

@ai_newz

эйай ньюз

21 Oct, 18:39


XAI запустили API

Пока доступна только большая Grok 2. Mini-моделька есть в документации, но доступ к ней пока не дают. Ещё есть пустая секция с моделями для эмбеддингов, которая намекает на будущие релизы.

Цены довольно высокие — $5 input/$15 output за миллион токенов. У всех моделей-конкурентов цены заметно дешевле (дороже только o1, но Grok 2 до неё очень далеко). К тому же у конкурентов часто есть context caching и Batch API, которые помогают заметно снизить стоимость использования.

Важно понимать, что это бета-продукт, который сделали 6 человек за 4 месяца. Дальше наверняка будут добавлять новые функции, больше моделек и снижать цены. Как он будет соотноситься с конкурентами через полгода - вопрос открытый.

@ai_newz

эйай ньюз

21 Oct, 07:19


Эквивалент GPT-2 Small теперь тренируют за 12 минут

Тюнинг процесса тренировки и архитектуры сократил количество токенов до определённого лосса почти в 4 раза - на 8xH100 тренировка занимает чуть больше 12 минут и стоит меньше 5 долларов.

Поменяли функцию активации на relu^2, а норму - на RMSNorm.
Новый оптимайзер - Muon. Использует меньше памяти, чем Adam, при этом тренируется в полтора раза быстрее по сравнению с Adam. Правда, использует чуть больше компьюта на степ (wallclock падает меньше чем на 2 процента).
Projection matrices инициализируют теперь нулями.
Добавили норму к QK-проекциям.
Паддят эмбеддинг-матрицу до размерности, кратной 64.

Пока полный сетап тестили только на 125M модели, оптимайзер - на моделях до 1.5B. Учитывайте, что трюки для маленьких моделек часто не реплицируются при скейле, но экстремальная оптимизация всё равно полезная.

Код для тренировки, кстати, всего 500 строк.

https://github.com/KellerJordan/modded-nanogpt

@ai_newz

эйай ньюз

20 Oct, 18:23


Нейродайджест за неделю (#40)
Юбилейный) 🎉

LLM
- Ministral. Борьба в сегменте мобильных LLM набирает обороты.
- Turbo Alignment. Библиотека для быстрого тюнинга LLM.
- Chatbot Arena для кодеров. Копайлот от лучшего бенчмарка, предназначенный для оценки эффективности моделей в написании кода.

Другие модальности
- Гайд по запуску Voice Mode ChatGPT. Классный метод обхода ограничений, который работает.
- tost.ai. Бесплатный сервис для генерации и тренировки LoRA на Flux.

Другие новости

- Месть подается холодной. История о том, как саботировать два месяца работы техногиганта. Надо было всем выделять GPU!
- DGX B200. Монстр от NVIDIA за 500 тысяч долларов.

> Читать дайджест #39

#дайджест
@ai_newz

эйай ньюз

19 Oct, 20:23


В ByteDance стажёр обиделся и два месяца саботировал тренировочные раны соседней команды, причём весьма изощрёнными методами:

Загружал чекпоинты с бекдором, через который проносил скрипт, который рандомно убивал джобы на ноде (ckpt - это pickle файл, они могут содержать произвольный код на питоне)

Специально добавлял баги в форк PyTorch, который запускался на кластере

Портил чекпоинты, чтобы результаты экспериментов не сходились

При всём этом он участвовал в митингах, где пытались отловить проблему, слушал, как коллеги пытаются решить её, и на основе услышанного придумывал новые способы саботажа. В итоге поймали по логам, но два месяца и усилия почти 30 человек пропали впустую. А у вас что-то такое было?

П.с. кроме шуток, мощный чел оказался.

@ai_newz

эйай ньюз

18 Oct, 11:35


Запускаем Voice Mode ChatGPT если вы не из США 😆

и устанавливаем официальную апку на андройд.

Недавно интернет заполонили тесты новой фичи OpenAI, которую (наконец-то!) раскатили для всех платных подписчиков аккурат перед презентацией Meta, ведь там тоже показали голосовой режим.

Но потестить новый функционал в OpenAI удалось далеко не всем, потому что большинство русскоговорящих пользователей используют чат в браузере, где Voice Mode не работает, а приложения в плейсторе нет.

#гайд ChatGPT из Play Market и как пользоваться им без VPN.

Шаг 1. Самый муторный.
Меняем страну аккаунта Google на США.

(Можно попытаться пропустить этот шаг и скачать apk с какого-нибудь зеркала, но, скорее всего, это не сработает)

1.1 Открываем payments.google.com > Настройки.

1.2 Создаём новый платёжный профиль в США. Жмём на карандаш рядом с пунктом «Страна», см. скрин.

1.3 Переходим на сайт bestrandoms.com и генерируем американский адрес.
(Желательно в Аляске — если вдруг что-то будете оплачивать с карты US, не будет налога. Аналогично можно сгенерировать адрес для других стран и карт)

1.4 Для надёжности можно удалить старый non-US профиль.

1.5 Заходим в Google Play (Play Market) > Настройки > Общие > Настройки аккаунта и устройства. В разделе «Страна и профили» меняем страну на США.

Плеймаркет обновится не сразу, так что если не получилось с первого раза, подождите ещё суток, и приложение появится. (По крайней мере вышло именно, так когда мы тестировали)


Шаг 2. Кайфовый.
Включаем Private DNS.

2.1 Открываем настройки устройства, вводим в поиске «Private DNS» и вписываем туда адрес сервиса DoT от Comss (подробнее здесь).

2.2 Идём в Настройки > Подключение и общий доступ > Частный DNS сервер и вставляем туда адрес: comss.dns.controld.com.

2.3 Всё! Теперь ChatGPT (а также Bing, Bard и Claude) будет работать без VPN. К тому же, это избавит от большей части рекламы на сайтах и в приложениях, ещё и повысит безопасность сети.

Шаг 3. Финальный.
Устанавливаем приложение ChatGPT из Google Play.

3.1 Установили.

3.2 Вошли.

Готово! Если у вас есть подписка, то Voice Mode уже должен быть доступен. Делитесь своими экспериментами в комментах.

Warning: данные шаги нарушают гугловский EULA.

Источник 4PDA

@ai_newz

эйай ньюз

18 Oct, 09:35


Только технологии, только хардкор!
 
24 октября состоится IT-конференция от компании Cloud․ru, посвящённая облачным решениям и искусственному интеллекту в России — GoCloud Tech!
 
Что вас ждёт:

Четыре технологических направления:
1️⃣  Практические сценарии применения облачных решений.
2️⃣ «Внутренняя кухня» и особенности разработки облачных сервисов.
3️⃣ Развитие искусственного интеллекта и актуальные тренды в области Data Science в России.
4️⃣ Обзор новых сервисов и обновлений платформы.
 
Бонусный трек — Networking:
Открытые дискуссии о возможностях open source, преимуществах и сложностях миграции в облако.
Мастер-класс о том, как эффективно выстраивать нетворкинг и использовать контакты, полученные на конференции.
 
Демонстрационные зоны сервисов Cloud․ru Evolution:
Мы расскажем и покажем вам флагманскую платформу Cloud․ru Evolution и платформу для создания частного и гибридного облака Cloud․ru Evolution Stack.
 
Afterparty:
Вечеринка с диджеями и турниром по beer pong’у! Отличный способ расслабиться и пообщаться с сообществом. Знакомьтесь, обменивайтесь опытом и заводите полезные контакты. Гарантированы инсайты и атмосфера праздника.
 
Регистрируйся, чтобы не пропустить!

#промо

эйай ньюз

17 Oct, 16:16


Авторы Chatbot Arena выпустили расширение для VS Code для оценки моделей для кодинга. По сути, это бесплатный копайлот, где предлагают выбирать из нескольких вариантов, сгенеренных разными моделями. Это должно позитивно повлиять на оценку моделей для кода, ведь именно автодополнение никто больше не бенчит. Отдельная арена тут может помочь до какой-то степени, пока разработчики на неё не оверфитнулись. А дальше придётся придумывать новые бенчи.

Если хотите попользоваться, учтите, что ваш код будут отправлять хостерам моделек на арене, что допустимо для опенсорс разработок и каких-то личных проектов. А вот для коммерческой разработки, конечно же, такое использовать не стоит.

Скачать

@ai_newz

эйай ньюз

16 Oct, 21:24


Mistral выпустили линейку новых моделей - Ministral.

Идут в двух размерах - 3B и 8B. Слегка лучше Llama 3.1 в тех же весовых категориях. К сожалению, публикуют веса лишь большой модели и только под research-only лицензией. Понятно что компании нужно кормить, но всё равно грустно.

Бенчами как всегда манипулируют, так что даже не буду постить таблички. К примеру, Base модель вообще не сравнивают с Gemma 9B PT, которая на 5+ поинтов обгоняет Ministral 8B Base почти на всех бенчах.

Из приятного - заметьте как разгорается соревнование в 3B моделях. Сначала это была лишь StableLM, а сейчас есть уж несколько конкурирующих моделей (Gemini Nano-2, Llama 3.2, StableLM, Apple Intelligence, Phi) и постоянно выходят новые.

@ai_newz

эйай ньюз

16 Oct, 19:16


Turbo Alignment - файнтюны LLM для народа

Для создания продуктов на основе LLM готовые API часто не подходят. Причин для этого может быть море - как приватность, так и качество генерации. Маленькие затюненные модели часто обгоняют даже SOTA LLM по качеству, но непрофильные команды часто не могут затюнить модельки из-за отсутствия необходимой экспертизы. И хорошо если есть уже готовый пайплайн для каждого этапа работы над LLM в продуктах: SFT, preference tuning, инференс, анализ полученных моделей и др. Я как раз сегодня заметил, что Т-Банк зарелизил либу Turbo Alignment - это библиотека специально для файнтюна уже готовых моделек с полезными фичами:

Поддержка SFT, DPO, CPO, IPO, KTO и других оффлайн-методов алаймента

Готовые end-to-end пайплайны для тюнинга без написания кода

Multi-GPU и Multi-Node тренировка

Обучение и инференс мультимодальных моделей и RAG

Широкий набор метрик для анализа методов алаймента: Self-BLEU, KL-divergence, diversity и др.

Либа была создана с участием ребят из лаборатории T-Bank AI Research. Говорят, что с такой либой проверять продуктовые и исследовательские гипотезы получится намного быстрее, потому что разработчики библиотеки этот путь прошли на своем опыте уже немало раз. В будущем её ещё будут улучшать - обещают имплементацию RL методов.

https://github.com/turbo-llm/turbo-alignment

@ai_newz

эйай ньюз

15 Oct, 17:30


😮 А вот подъехала и первая публичная цена на DGX B200. За него придётся отдать чуть больше полумиллиона долларов.

Серваки с H100, для сравнения, стоят где-то в районе 300к (для больших компаний явно дешевле, но они покупают их десятками или даже сотнями тысяч).

@ai_newz

эйай ньюз

15 Oct, 15:30


Если любишь музыку и AI, то самое время залететь на хакатон XLabs AI, который пройдет с 2 по 17 ноября! (Это те, которые сделали первый IP-adapter для FLUX.1).

Цель — научить нейронку петь на русском языке по текстовому промпту, с потенциалом на другие языки.

Тебя ждут:
👉 Уникальная задача и 2 недели на разработку решения совместно с экспертами AI индустрии.
👉 Призовой фонд 2 миллиона рублей!
👉 Возможность стать сотрудником в передовой AI-лаборатории и выступить на международной конференции в Минске.

Скорее собирай команду до 5 человек или ищи будущих тиммейтов, которые готовы объединиться и победить в чате ✌️

Подай заявку до 1 ноября 23:59 и стань частью революции в мире музыки! 🔥

#промо

эйай ньюз

13 Oct, 19:30


Нейродайджест за неделю (#39)

Нобелевская премия
- Нобелевка в физике machine learning. Впервые премию вручили за метод обратного распространения ошибки для тренировки нейросетей.
- AlphaFold. Вторая в истории "нобелевка" по AI за предсказание структуры белков.

Генеративные модели
- Pixtral-12B. Тех-репорт с подробным описанием архитектуры, полезно почитать.
- Midjourney Describe. Они очень старались спрятать эту кнопку на сайте, но я её нашёл. И немного мыслей про копирование стиля с референса.
- Imagine Flash. Запись моего доклада с Цюрихского AI+X саммита про то, как мы ускоряли наши диффузионные модели для картинок и видео.

Роботех
- Роботы-стриптизёры и машины без водительских мест. Учимся закатывать вечеринки у Илона Маска.

Career advancements
- Ищем ментора и как не быть кринжом на желанном созвоне. Рассказал о своем опыте поиска ментора и о том, как я смотрю на своих менти.
- 🚨Final call на интенсив. Через пару часов закрываю регистрацию. Спасибо всем, кто присоединился. Ну, а у остальных ещё есть последняя возможность ;)

> Читать дайджест #38

#дайджест
@ai_newz

эйай ньюз

13 Oct, 17:47


Мой доклад про Imagine Flash

На прошлой неделе я делал доклад на Цюрихском AI+X саммите про модель Imagine Flash (пост). Выкладываю запись доклада.

Если вам давно хотелось узнать, как мы ускоряли диффузионные модели, то вот повод глянуть.

Youtube: тык

#personal
@ai_newz

эйай ньюз

12 Oct, 19:28


Ну что, 13-го октября (завтра) в 23:59 CET подходит к концу набор на интенсив по карьере в AI/ML.

Все 1:1 разобраны. Charity spots разыграны и выданы лучшим кандидатам.

К комьюнити присоединилось уже более 200 человек: Есть много людей, у которых 5+ лет опыта, а также те, кто только начинает свой путь в AI. От студентов до синьоров+ в FAANG. Причем участники географически распределены по всему миру.

Ребята уже бурно общаются по разным темам и обмениваются техническим опытом. А на следующий неделе мы начинаем наш двухнедельный интенсив с четырьмя стримами, которые помогут мотивированным ребятам стать сильными кандидатами на такие роли как Data Scientist, ML Engineer, Research Engineer или Research Scientist.

Уже писал в бота, но скажу еще раз здесь. Я не планирую повторять эту программу в ближайшем будущем. Время ограничено, проектов у меня много, но при этом менторить толковых людей, продвигаться в сфере AI и обмениваться опытом мне очень нравится.

Сейчас это интересный эксперимент для меня и возможность поделиться ценной информацией со своими ребятами в формате, который я ещё не видел.

🚨Осталось совсем немного времени, чтобы присоединиться. Если вы хотите
1) перейти в AI и понять как стать сильным кандидатом, а также успешно проходить собеседования;
2) увидеть как проходят разные интервью в FAANG на AI позиции и получить обратную связь,
3) нетворкать и общаться в комьюнити cо мной, с людьми вашего уровня и спецами уровнем выше,

то присоединяйтесь к нам, чтобы двигаться по карьерной лестнице в сфере AI: @ai_newz_intensive_bot

#карьера
@ai_newz

эйай ньюз

12 Oct, 17:48


Live stream finished (44 minutes)

эйай ньюз

12 Oct, 17:06


Пост для чата стрима про менторинг.

@ai_newz

эйай ньюз

12 Oct, 17:04


Live stream started

эйай ньюз

12 Oct, 17:00


Live stream scheduled for

эйай ньюз

12 Oct, 16:30


Live stream scheduled for

эйай ньюз

11 Oct, 18:25


Как найти ментора по карьере и AI - Стрим в субботу

Многие наверное слышали про такое явления как менторинг. Кроме постоянного самообразование в нашей сфере очень помогает иметь старшего товарища, который может направить в правильную сторону и подскажет советом как поступать в той или иной ситуации. Это действительно дорогого стоит, ведь не все актуальные знания изложены где-то на бумаге или в лекциях, плюс личное общение с человеком, который заинтересован помочь развиваться дает тебе гораздо более сильный толчок.

Про менторство мы по чуть-чуть поговорили на недавнем большом стриме. Но я хотел бы по-подробнее обсудить эту тему.

Позтому в субботу в 19:00-19:30 CET проведу небольшой стрим, где поговорим именно про менторинг:
- Почему это полезная штука для роста по карьере как для ресерчеров так и для инженеров. Какие преимущества вам это принесет.
- Советы как получить наибольшую пользу от работы с ментором.
- Где и как можно искать подходящих менторов.
- В чем интерес для ментора прокачивать других людей.
- Еще расскажу про свой опыт менторинга ребят, и как я сам учусь и где нахожу менторов для себя, которые дальше меня по карьере.

Жду вас на стриме завтра в 18:30 19:00 CET! (передвинул на 30 минут)
Добавляйте в календарь: ссылка

@ai_newz

эйай ньюз

11 Oct, 05:13


Добро пожаловать в киберпанк - Маск провёл презентацию Tesla

Показал пару прототипов новых тачек в стилистике Cybertruck вообще без водительских мест - Cybercab (робо-такси) и Robovan (робо-маршрутка). Когда выйдут - непонятно, обещает "до 2027", но с дедлайнами у Маска так себе.

Но вы только посмотрите на этих танцующих роботов Optimus! Они ещё стояли у бара, играли в камень-ножницы-бумагу и вообще всячески взаимодействовали с посетителями. Правда, скорее всего, ими управляли живые люди удалённо.

@ai_newz

эйай ньюз

10 Oct, 20:28


Если вы активно пользовались MidJourney, возможно, заметили, что галерея на сайте в последнее время состоит из картинок с очень коротким промптом и каким-то рандомным sref-кодом.

Мало того, что это просто неинтересно, так ещё и повторить результат совершенно не получается без конкретного сида, так как такой короткий промпт оставляет модели слишком много свободы и не содержит конкретного описания, что грустно, если хочешь сделать что-то похожее.

Вот если проблема со стилем кое-как решается через местный ip-adapter (--sref), то с содержимым придётся помучиться, и это я не говорю о том, что злоупотребление аргументами cref, sref и personalization чревато артефактами и непослушным промптом.

Крутой штукой была команда /describe. Это одна из команд бота в Дискорде: отправляешь ему картинку, а MidJourney Vision выдаёт тебе описание в четырёх вариантах. Собственно, так они и размечают датасеты для тренировки, судя по всему. Но сейчас как-то даже стремно заходить в Дис, когда есть сайт, но там такой команды так и не появилось.

Зато недавно я обнаружил вот такую иконку (см. картинку 1). Кликаем — и вуаля, полное описание картинки по категориям. Берём и лепим свой собственный промпт. Метод, скажем так, для ленивых или тех, кто не обладает широким искусствоведческим вокабуляром. Пользуемся!

Кстати, художники, я знаю, вы тут есть. Как там вообще MidJourney поживает? Не съел его еще Flux?

@ai_newz