Душа Питона @dushapitona Channel on Telegram

Душа Питона

@dushapitona


Искусственный интеллект. Для людей. Рассказываю о д̶л̶и̶н̶н̶о̶н̶о̶г̶и̶х моделях машинного обучения с иронией и юмором — но не упуская деталей!

Душа Питона (Russian)

Душа Питона - это Telegram канал, который посвящен искусственному интеллекту. Название канала отсылает к языку программирования Python, широко используемому в машинном обучении. Под названием канала скрывается увлекательный мир машинного обучения, рассматриваемый через призму иронии и юмора. Основатель канала обещает рассказывать о сложных моделях машинного обучения способом, который не только будет интересен и понятен для всех, но и заставит улыбнуться. Не упуская важных деталей, Душа Питона предлагает своим подписчикам уникальный взгляд на тему искусственного интеллекта. Если вас интересует мир технологий и вы хотели бы погрузиться в него с юмором и легкостью, то канал Душа Питона - ваш идеальный выбор!

Душа Питона

19 Feb, 15:08


Бенчмарки: не всё так сложно, как кажется (но иногда сложнее!)

Отвечаю на вопрос о способе выбора моделью верного ответа (опрос см. выше 🤘). Обычно в тестах на понимание языка модели сталкиваются с множественным выбором в вопросах. Алгоритмы скорят каждый ответ, опираясь только на контекст вопроса ⁉️

Но это противоречит элементарной логике ☹️ Модель не учитывает другие доступные опции, в то время как люди всегда сравнивают варианты ответов между собой, чтобы найти подходящий 🧑‍💻

Snowflake AI решили проверить, насколько реально сложны популярные бенчмарки. Так и выяснилось, что сложность тестов не в самих заданиях, а в подходах к скорингу.

Исследование показало: если дать модели все варианты ответов сразу, перформанс заметно улучшается. Например, LLaMA 3.1 70B* повышает показатели с 64% до 93% 💪

* продукт экстремистской организации, деятельность которой запрещена на территории РФ

Изображение Snowflake AI Research

Душа Питона

19 Feb, 11:55


🔝 Grok-3 знает ответы на все вопросы

Даже на те, что вы не задавали. Маск не обманул и выкатил чат-бота xAI на новом уровне.

Фишки:
🚩 DeepSearch: шарит весь интернет, чтобы найти точный ответ (до 20 источников и посты в X 😍)
🚩 рассуждения включаются кнопкой Think
🚩 Big Brain под математику и кодинг
🚩 генерация игр: может замутить игру на ходу, как на стриме, где он смешал "Тетрис" и "Три в ряд"
🚩 обучение: модель прокачали на мощном компе с 200 000 чипов Nvidia H100

Показывает крутые результаты в математике, физике, биологии и химии.

Сейчас Grok-3 в стадии бета-тестирования. Голосовой режим пока отложили из-за багов, но обещают запустить через неделю 😉

Изображения Х

Душа Питона

19 Feb, 04:27


AugmentOS: AI как ваше продолжение 🔠🔠

Речь про операционку для умных очков, выпущенную Vuzix и Mentra 😎

Где работает и что умеет:
🤝 совместима с моделями Even Realities G1, Vuzix Z100 и Mentra Mach1
📞 функционирует через смартфон
⛔️ пока что поддерживается только на устройствах с Android, на iOS дадут в феврале
🧑‍💻 скиллы на основе нейросетей
🆘 поддержка разработки приложений с субтитрами, переводом, проактивной помощью и другими фичами

* в видео упоминается продукт экстремистской организации, деятельность которой запрещена на территории РФ

Душа Питона

18 Feb, 14:53


Deep Research от Perplexity: когда нужно быстро стать экспертом 🤓

В системе запустили фичу, которая берёт на себя работу по исследованиям и продвинутому анализу данных.

Вот как всё происходит:

🥸 Deep Research ищет документы, читает их и решает, что дальше, разбираясь и умнея по ходу процесса   
🎉 когда всё собрано, формируется понятный и полный отчёт
🏌️ сохраняем в PDF или доком, а дальше делимся с кем надо

Что может? Да многое: от планирования путешествия до финансового анализа 🤑 А ещё проходит тесты уровня Humanity's Last Exam.

Бесплатная версия у всех, у Pro-подписчиков безлимит по запросам. Доступно на вебе, скоро будет на iOS, Android и macOS ⛔️

Душа Питона

18 Feb, 10:59


LearnLM отвечает на вопросы по всем канонам педагогики! 🤓

Нейросетка Google для образования работает на основе Gemini. Для этого её тренировали следовать педагогическим гайдлайнам и дополнительно файнтюнили на учебных данных, включая разговоры экспертов с AI.

Как готовили:
💬 через supervised fine-tuning (SFT) LearnLM осваивала учительские инструкции. Диалог начинался с детального описания, чтобы она подстраивалась под промпты и варьировала стили преподавания
✍️ RLHF подключали для донастройки. Тут уже настоящие педагоги размечали ответы в многоэтапных диалогах
наконец, её совместно обучили с Gemini, чтобы добавить к преподавательским скиллам LearnLM её базовые AI-умения

Получилась крутая штука, которую эксперты признали лучше GPT-4o, Claude 3.5 и Gemini 1.5 Pro. Для использования AI в образовании это большой шаг вперёд 🙂

Изображение Google

Душа Питона

18 Feb, 04:42


Тестила в PixVerse прикольную функцию LipSync, которая пытается подстроить движение губ под аудиоозвучку 💋

Предупреждаю: на 60 бесплатных кредитов в день особо не разбежишься, при условии, что один ролик забирает 30 😕 

1️⃣ первый блин комом не получился, так как, по моим догадкам, нейронка озвучивает только людей (но вы пробуйте ❗️). У меня кот петь не захотел 🐱
2️⃣ со второй попытки всё сложилось 🐰
3️⃣ видео сгенерил MiniMax — исходник прилагаю, чтобы была заметна разница ➡️

Песню написала Suno. А так процесс элементарный: грузим видео и аудио. Но помните, что чем длиннее трек, тем больше кредитов на него уйдёт 🎵

Душа Питона

17 Feb, 16:04


iPhone в Китае: что на борту?

Когда мы говорили “китайский айфон”, мы не это имели в виду 😁 Но теперь всё именно так! В Apple действительно подумывают внедрить модель Qwen от Alibaba в свой легендарный смартфон. Вместо GPT, между прочим 🙃

Это поможет компании лучше вписаться в специфику рынка Поднебесной и прокачать продажи 💰

Переговоры уже идут вовсю:
😮 Qwen круто себя показала на Hugging Face, так что выбор понятен. Модели на её основе занимают топовые места среди аналогичных инструментов
😙 партнёрство с Alibaba встраивает Apple в строгие китайские стандарты, касающиеся иностранных технологий
😵‍💫 для местных разрабов iOS это отличная новость: можно создавать приложения с продвинутыми функциями обработки текста и плотно интегрировать их в родные сервисы
📈 акции обеих компаний взлетели после новостей

Анонс будет на конференции Apple в Шанхае 25 марта 🗓

Видео создано для канала Душа Питона с помощью Kandinsky Video 1.1

Душа Питона

17 Feb, 11:51


Как научить нейросеть не ошибаться в математике 👨‍💻

Действительно, почему у современных моделей типа ChatGPT есть проблемы с задачами выше школьного уровня?

Учёные подготовили качественный обзор успехов AI в подобных вычислениях:
😲 трудности у LLM возникают из-за того, что они не опираются на строгие доказательства
⚡️ важно переходить к формальному символьному мышлению
👍 системы надо обучать на опыте существующих proof assistants (Lean, Coq, Isabelle)
⛔️ это поможет не только в математике, но и снизит вероятность того, что модель будет выдавать галлюцинации вместо точных ответов

Да, есть прогресс — взять хотя бы AlphaProof и AlphaGeometry, но всё равно остаются вопросы

Например, пока мало хороших датасетов и бенчей, чтобы точно оценить, насколько эффективно эти методы работают.

Изображение Meta*, Stanford University, UC Berkeley, University of Edinburgh, UT Austin
* экстремистская организация, деятельность которой запрещена на территории РФ

Душа Питона

17 Feb, 04:49


Рассказываю про AI-апгрейды в Google Workspace: :

💌 вставляем ответы Gemini сразу в черновик письма в Gmail. Если хочешь в деловую переписку добавить инфу из предыдущих сообщений, не надо искать фрагменты вручную

быстрые команды в Google Chat — без использования команд со слешем. При частых запросах (проверка статуса проекта, напоминалки) можно мгновенно запускать эти действия, не вводя длинную команду ручками

💃 генерим людей с помощью Imagen 3 во всех сервисах пространства — Google Docs, Sheets, Drive, Slides и снова Gmail. Допустим, если надо презентацию запилить

Упрощаем повседневность, повышаем эффективность 😉

Изображение создано для канала Душа Питона с помощью Kandinsky 3.1

Душа Питона

16 Feb, 14:12


Pikadditions: реально нереально 🤌

Не пропустите новое решение от Pika Labs — возможность вставить в ролик любой объект или персонажа 🗿

Что есть:
📸 бесшовная интеграция: добавляем что угодно и кого угодно с учётом реальных условий съёмки
🚀 различные варианты для идеального результата: можно адаптировать элементы под ракурсы камеры и движения
🎈 реалистичная анимация: тени и динамика

Процесс работы: загрузка оригинала видео, выбор объекта, промпт 😎

Доступна на Pika 1.5, 2.0, 2.1 и Turbo. 150 кредитов в месяц на 15 роликов 👍

Душа Питона

16 Feb, 05:06


AI-звукооператор: Elgato улучшает качество голоса в новом Wave Link 2.0 🎤

Разработчики ПО для видеоконтента апгрейдили свой популярный инструмент.

Голосом теперь там рулит AI:
🎙 фичу Voice Focus придумали вместе с AIcoustics
звук микрофона очищается от посторонних шумов для идеальной записи
🏠 анализируются характеристики помещения, чтобы внести необходимые корректировки для устранения эха и других эффектов

Качаем тут.

Душа Питона

15 Feb, 14:03


Goku ставит рекорды

На пике популярности видео ByteDance выдали серию моделей Goku, использующих продвинутые трансформеры для одновременной генерации картинок и видео. Причём на уровне индустрии 📤

Детально проработали каждую мелочь:
😵‍💫 сбор данных: система фильтрует видео и фото по качеству, анализирует содержание с помощью OCR и проводит субъективные оценки
🧑‍💻 дизайн: модели Goku доступны в версиях 2B и 8B
💪 rectified flow (RF) сжимает входные данные в единое пространство, это помогает лучше обучаться и генерить
🤘 для масштабирования — настройка инфраструктуры с параллельными вычислениями и защитой от сбоев

Результаты Goku: по картинкам — 0.76 на GenEval и 83.65 на DPG-Bench, по видео — 84.85 на VBench 👍

Душа Питона

15 Feb, 04:58


Grok 3 vs все остальные 🔜

Маск объявил, что Grok 3 почти готов к запуску и уже через неделю-две выйдет в свет 👍

В заявлении Илона на Всемирном правительственном саммите в Дубае было сказано:
Grok 3 находится на завершающей стадии
🏋️ новая версия круто справляется с задачами и показывает результаты лучше всех существующих аналогов
🤑 намерение OpenAI полностью перейти на коммерческие рельсы — явный перебор

Маск не был бы Маском, если бы в очередной раз не прошёлся по конкурентам. Но раз уж Grok 3 рвётся в бой, остаётся только ждать развязки 😉

Изображение создано для канала Душа Питона с помощью Kandinsky 3.1

Душа Питона

14 Feb, 15:13


Смотрите, что нашла у AIRI 🧩

День святого Валентина — это же не просто повод обменяться сердечками и шоколадками.

Это также отличный момент, чтобы выразить свои чувства для тех, кто влюблён в науку и учёных ❤️ Они ведь каждый день совершают открытия и двигают человечество вперёд!

Всё с учётом темы и очень милое 🥰 Вы знаете, кому это отправить ❤️ Разбирайте!

Душа Питона

14 Feb, 14:34


Будь проще, и люди потянутся: планы OpenAI 🤹

Сэм Альтман признал, что его разрабы немного перемудрили с моделями, поэтому надо делать продукты понятнее для народа.

СЕО выступил с дорожной картой развития GPT-4.5 и GPT-5:

🙂 GPT-4.5, которую внутри называли Orion, будет последней без chain-of-thought
😇 планируется объединить технологии серии “о” и GPT, чтобы создать систему, которая сама поймёт, где ей нужно думать, а где — необязательно
🪞 в GPT-5 войдут разные инструменты OpenAI, включая o3, которой теперь не будет в качестве отдельной модели
🥢 продвинутые функции ChatGPT запустят за дополнительную плату, в бесплатной версии будет доступ к базовому уровню, но безлимитный

Точных сроков старта нет, но ждать осталось недолго — речь идёт о неделях/месяцах ☄️

Душа Питона

14 Feb, 11:24


А вот и моё поздравление с праздником! Хочу пожелать, чтобы День всех влюблённых стал для вас по-настоящему волшебным❤️

А если хотите удивить любимых чем-то особенным, вот и способ от MiniMax 😓

С помощью новой опции управления камерой генерим милейшую видеовалентинку:
😎 выбираем новую режиссёрскую модель (первый слайд)
🆒 далее в целом ассортименте режимов и настроек жмём на нужные и пишем промпт (второй слайд)

Мои генерации:
❤️ это Scenic shot
👍 Downward tilt
🔥 и Чебурашка до кучи. Добавляем в уже готовый ролик обычную картинку, а нейронка встраивает персонажа сама

Ваши поздравления принимаю в виде голосов за понравившееся видео 🥰

Душа Питона

14 Feb, 04:38


OmniHuman-1: одна картинка — тысячи возможностей 🕺

Модель генерит реалистичные человеческие видео на основе кадра и различных сигналов движения (аудио, видео или их комбинации 🕺).

Что даёт новый метод генерации:
🙌 улучшенную обработку жестов
😶‍🌫️ поддерживаются разные пропорции изображений (портрет, половина корпуса, в полный рост) и позы тела
💪 мультперсонажи, искусственные объекты, животные тоже анимируются
🎙 воспроизводятся различные стили речи и пения
💡 реализм движений, освещения, текстур

Тут ещё масса примеров 🔠

Душа Питона

13 Feb, 15:03


Соцсеть в стиле AI: нет бесконечному скроллингу 📞

BuzzFeed замахнулись на святое борьбу с алгоритмами удержания пользователей на популярных платформах.

Не секрет, что соцсети задействуют AI, чтобы давить на эмоции 🤬 Плюс манипуляции, когда разную ерунду преподносят как уникальный контент.

Компания такое критикует и бросает всем вызов 😎

Запускают свою платформу с новыми принципами:
😇 AI будут применять, чтобы мы испытывали позитивные чувства
🆒 обеспечат свободу выбора контента, а не провокации
😊 идея не в том, чтобы мы зависали в телефоне дольше, а вернуть интернету ту самую магию, когда каждый мог найти своё сообщество и выразить себя

Звучит заманчиво, хотя пока только общими словами. Но на ранний доступ можно уже записаться ✔️

Душа Питона

13 Feb, 10:01


InterPose или прыжок через кадры 😇

Видеомодели научили определять позы объектов на картинках, даже если между ними почти ничего общего нет 😨

Раньше в компьютерном зрении задача оставалась нерешённой.

InterPose делает всё проще
👠 видеомодели круты тем, что способны понимать, как объекты в ролике меняются в пространстве
🕺 они могут достраивать и промежуточные фреймы
🤨 эту фишку решили применить и здесь. Она позволяет моделям понять, что “могло” происходить между кадрами, а за счёт этого и удаётся более точно оценить позы
🌛 плюс добавили post-processing шаг, чтобы убедиться в корректности предиктов

Метод хорошо генерализуется с SoTA генеративными моделями и превосходит бейзлайн-модель DUStR3R на многих датасетах. Внедрение его в pose estimators делает модели точнее и стабильнее 💎

Душа Питона

13 Feb, 04:24


Мгновенное волшебство: Snap представляет сверхскоростную генерацию изображений ☄️

Релиз компании обещает чудеса создания картинок непосредственно на мобильных устройствах ⛔️

А именно:
🤡 высокое разрешение
🔥 скорость — 1,4 секунды на iPhone 16 Pro Max
🤩 модель задумана для внедрения в умные функции Snapchat: AI Snaps, AI Bitmoji Backgrounds и прочие

Серверные мощности использоваться не будут ⛔️ Технология появится в Snapchat в ближайшие месяцы

Видео создано для канала Душа Питона с помощью Kandinsky Video 1.1

Душа Питона

12 Feb, 16:26


Как сделать AI понятным и привлечь внимание публики

В AI-мире продолжают и внедрять технологии, и задумываться над их контролем, чтобы всем было хорошо 👌

1️⃣ AI Action Summit в Париже провёл массу мероприятий по управлению AI на международном уровне. Говорили о преодолении разрыва между потенциалом AI и реализацией, инвестициях в повышение квалификации сотрудников, безопасности в интернете и борьбе с фейками 😓

2️⃣ Университет штата Калифорния решил прокачать свои курсы с помощью ChatGPT Edu, чтобы студенты могли учиться с использованием AI. К версии ChatGPT, адаптированной для образования, предоставили доступ 460 000 учащихся и 63 000 сотрудников и преподавателей 🧑‍🎓 Теперь у них будет крутой помощник прямо в учебном процессе!

3️⃣ OpenAI в последнее время не мелочится. На 60-секундный рекламный ролик для Super Bowl закинули целых $14 млн. В нём AI выглядит как технологический прорыв. Видео показывает, как мы прошли путь от разжигания костров до ChatGPT 🔥 Идея — сделать AI понятным как дважды два. Сам ролик генерила Sora, но для акцента на том, что рулят люди. Финал анимировали вручную 🤓

4️⃣ А Apple просто обновляет свои ОС: iOS 18, iPadOS 18, macOS Sequoia и watchOS 11. Главное новшество — Apple Intelligence: создание картинок, кастомизация Genmoji и интеграция с ChatGPT. Ещё добавили инструменты для редактирования текстов. А на iPad появился калькулятор и возможность решать математику в заметках ✍️

Душа Питона

12 Feb, 11:16


AniDoc: анимация играет новыми красками 💅

Показываю классную штуку от китайских спецов для автоматической колоризации 2D-анимаций с помощью диффузионок.

AniDoc в действии:
🕯 экономит кучу времени на подборе цветов
🗿 помогает быстрее генерить промежуточные кадры
реально ускоряет создание мультиков
🔤 чтобы всё выглядело плавно и красиво, используется технология correspondence matching
😮 сохраняет стиль и цвета персонажей даже при смене их поз и углов обзора

В тестах AniDoc рвёт конкурентов по ключевым показателям, включая FVD для консистентности видео 🛍

Душа Питона

12 Feb, 04:41


AI между сознанием и состраданием 💔

Думаете, что мы с вами уже все риски развития технологий изучили? Тут вот чем внезапно озаботились исследователи и эксперты.

Предполагают, что при достижении сознания AI-системы смогут переживать неприятные чувства. А от этого тоже необходимо их оберегать 🛡

Более 100 специалистов подписали открытое письмо с принципами ответственности в развитии AI-сознания:
1️⃣ ставить такие исследования в приоритет, чтобы предотвратить неправильное обращение с AI
2️⃣ установить необходимые ограничения в разработках
3️⃣ подходить к созданию сознательного AI постепенно
4️⃣ обмениваться результатами с общественностью
5️⃣ избегать вводящих в заблуждение громких заявлений о создании сознательного AI

Такая вот задачка — защитить потенциальные чувства нашего AI 😇

Душа Питона

11 Feb, 14:57


Интуиция против логики: как модели решают задачи без рассуждений 😔

Учёные сравнили размышления LLM с использованием CoT и без. Спойлер: модели не рассуждают пошагово 🚶‍♂️, а опираются на наиболее интуитивные ответы.

Взяли Qwen2.5-72B-Instruct, и вот что она показала:
даже если могла воспроизвести правильный ответ, часто перепрыгивала через несколько шагов. В сложных задачах это приводит к ошибкам
📊 при небольших изменениях задачи справлялась сильно хуже. Допустим, если сделать другим порядок выполнения шагов или умножить числа в условии, без эксплицитных рассуждений LLM почти ничего не решает верно

В общем, внутренние рассуждения моделей пока далеки от строгих и последовательных логических шагов, поэтому эксплицитные CoT-промпты нам ещё пригодятся🚶

Изображение Tsinghua University

Душа Питона

11 Feb, 11:46


Баги? Не слышали! Как предотвратить ошибки в AI-коде

AI-инструментов для программистов сейчас уже много, в том числе открытых и бесплатных. При этом они пока несовершенны, что может тормозить разрабов 🚫

Так вот, система POA от Digma проверяет код ещё до запуска, находит и устраняет источники ошибок.

Как работает алгоритм предиктивного анализа:
🤨 разбирается с данными и прогнозирует поведение приложения
👻 использует pattern matching и детекцию аномалий
🪫 предсказывает время отклика и использование ресурсов
🔜 находит потенциальные проблемы заранее

В отличие от мониторинга APM, выявляющего баги в конце разработки или уже на деле, POA прогнозирует сбои до возникновения. Пригодится для ретейла, финтеха и электронной коммерции 🤑

Изображение создано для канала Душа Питона с помощью Kandinsky 3.1

Душа Питона

11 Feb, 04:27


О сколько нам открытий чудных: Пушкин зачеркнул — нейросеть прочитала 🔍

Российские спецы обучили AI на основе почерка поэта, и он “прочитал” зачёркнутые в своих рабочих тетрадях слова.

Работало несколько сеток:
🔡 первая тренировалась различать характерные особенности зачёркиваний
✍️ после пыталась это делать сама
💬 из её генераций создали датасет, на котором обучили другую сеть (GAN), состоящую из двух компонентов
✍️ один генерил зачёркнутые слова, второй сравнивал результат с оригиналом
🧼 далее зачёркивания удалялись с помощью нейросетевой архитектуры “Да Винчи” от Smart Engines

В конце концов создали алгоритм, восстанавливающий написанное 😇 Перо воскресло! И проступили письмена, что скрыл поэт 🫶

Изображение создано для канала Душа Питона с помощью Kandinsky 3.1

Душа Питона

10 Feb, 15:03


IDK: знаю, что не знаю

А вы в курсе, почему у модели появляется галлюцинация? В основном из-за того, что она не может решить, какой ответ является наиболее подходящим ☺️

Исследователи из Потсдамского и Тель-Авивского университетов нашли любопытное решение. Специальный токен для неопределённости — [IDK] (I Don’t Know).

Как он помогает:
🧑‍🎓 его вводят в словарь модели
😮 токен даёт возможность честно сказать, что данных для ответа недостаточно
😉 результат достигается за счёт изменений в тренировке: loss-функция поправлена так, что в случае высокой вероятности неправильного ответа probability mass сильно сдвигается в пользу [IDK] токена

На бенчмарках оценки фактических знаний (TriviaQA, PopQA) улучшилась точность ответов 💯

Изображение University of Potsdam, Tel Aviv University

Душа Питона

10 Feb, 12:01


AI в действии: как и где узнать о последних достижениях технологий 🤩

Самый крутой способ — напрямую от экспертов. Поэтому я вам периодически рассказываю, где их можно увидеть и послушать 🥸

На этой неделе 13 февраля пройдёт первый в году (а в целом — третий) Большой Семинар Института AIRI.

Что интересного?
👏 Доклад специалиста мирового уровня. Выступит доктор физико-математических наук, профессор Оксфордского университета и Сколтеха Александр Михайлович Корсунский
💎 Тема "Применение методов машинного обучения в материаловедении" — одна из перспективнейших в AI сейчас. Ею занимаются научные институты и компании всего мира. Тут прогнозирование свойств, разработка новых материалов, экология и прочие аспекты 🤔

Чтобы сходить лично, регимся тут. Можно посмотреть онлайн в VK и на YouTube. Начало в 19:30 🔜

Видео создано для канала Душа Питона с помощью Kandinsky Video 1.1

Душа Питона

10 Feb, 04:36


Это у нас кто? Человек, собака или неведома зверушка? 😼 Формально это робопёс, мы знаем его по имени Lynx (рысь). А скиллы ему вообще доступны самые разнообразные.

DEEP Robotics сконструировали и обучили его таким образом, что Lynx сочетает в себе много всего:
🚗 умеет и ходить, и ездить
🛞 у него есть и конечности, и колёса
🦿 активен при использовании любого числа ног: одной, двух, трёх или всех четырёх
🤡 прыгает, переворачивается, балансирует

Полным наборов трюков наслаждаемся здесь 🧐

Душа Питона

09 Feb, 13:52


Palona AI: клиенты улыбаются, когда покупают 🤑

Стартап бывших топ-менеджеров Google и Meta* предлагает персонализированных эмпатичных агентов для клиентов.

Уникальные качества:
🦋 высокий уровень эмоционального интеллекта (EQ) для естественных и приятных бесед
🎤 общение кастомизированными голосами
минимизация ошибок и галлюцинаций на 98%.
💻 настройка под платформу клиента

Заказчики уходят с хорошим настроением, зная, что их услышали и поняли ❤️

* экстремистская организация, деятельность которой запрещена на территории РФ

Душа Питона

09 Feb, 05:11


AI-ветеринар на связи 🐶

Как вы хотели бы улучшить заботу о своих питомцах? Тут российские разработчики внедрили AI-алгоритмы в онлайн-консультации с ветеринарами 🆘

Где и как работает:
👨‍💻 на агрегаторе Vetsy с поиском врачей для домашних животных
👐 консультироваться с AI можно в чате с доктором
быстро отвечает на частые вопросы, чтобы диалог не затягивался

Начало положено, вскоре обещают расширить услуги умного "ветеринара" 🤝

Душа Питона

08 Feb, 12:57


Российские учёные создали модель определения эмоций в речи 🎤

В своей разработке CA-SER исследователи из AI-лаборатории Сбера, института AIRI и МФТИ объединили самообучение с использованием предобученной wav2vec 2.0 и акустических признаков (MFCC) через механизм перекрёстного внимания.

К характеристикам речи добавляются данные о голосе, что и помогает выявлять эмоции 🙂

Ещё подробности:
работает в режиме реального времени
😓 открыта для использования, можно адаптировать для голосовых ассистентов, call-центров, здравоохранения
🙂 CA-SER показала точность 74,6% на сложном датасете IEMOCAP, опередив многие аналоги
🧑‍🎓 статью взяли в сборник крутой европейской конференции ECAI 2024

Изображение создано для канала Душа Питона с помощью Kandinsky 3.1

Душа Питона

08 Feb, 06:37


⚡️ EU AI Act: игра по правилам началась

Кому и как надо подготовиться к новому AI-законодательству.

Недавно же вступили в силу первые регламенты Европейского закона об искусственном интеллекте.

Там строгие нормы для AI в бизнесе и санкции за нарушения:
запрещено развёртывание/использование разных приложений по социальному скорингу, распознаванию эмоций, удалённой биометрической идентификации real-time в общественных местах
😈 несоблюдение влечёт штрафы до 7% годового оборота
💰 необходимы инвестиции в управление качеством данных и повышение осведомлённости сотрудников об AI (и юридические аспекты тоже: защита, интеллектуальная собственность, риски дискриминации)
🫵 охватываются любые организации, чья деятельность влияет на рынок ЕС (все, кто предоставляет AI-услуги в Европе)

Теперь наблюдаем, как компании будут искать баланс между контролем и прогрессом ⚖️

Душа Питона

07 Feb, 14:54


MMVU: видеобенч проверяет глубокие познания моделей 👨‍🎓

Исследователи Йеля создали тест оценки рассуждений на сложнейших задачах по работе с видео. Тут не выкрутишься обычным пониманием ролика. Нужны доменные специфические знания 🤯

За счёт чего достигается высокое качество:
3 тысячи вопросов из 27 доменов (от точных и гуманитарных наук до здравоохранения)
👌 использовано 1 529 видео
🚩 данные полностью размечены экспертами
😮 маркировали также и способы решения каждой задачи
🔤 есть списки необходимых для ответа доменных знаний

Проверили 32 популярные мультимодальные модели, включая o1 и Gemini 2.0 Flash Thinking. Оказалось сложно даже для самых продвинутых: GPT-4o набирает только 66,7% в open-book режиме, что сильно уступает 86,8% у людей 😐

Также потестили CoT, но тут без сенсаций — цепочки рассуждений улучшали перформанс 📈

Изображение Yale NLP MMVU Team

Душа Питона

07 Feb, 10:43


AI с эмоциями: миф или реальность? 😊

Искусственный интеллект умеет думать, но будет ли он чувствовать? Тема становится всё более актуальной — пора обсудить!

Зову на захватывающие научно-фантастические дебаты, которые проведут исследователи AIRI. Два увлекательных раунда на тему AI, роботов и эмоций ⚡️

Что в программе:
1️⃣ в первом раунде обсудят, бывает ли AI эмоциональным и каковы у него перспективы в этой области
2️⃣ во втором будут говорить об интеллекте роботов и его развитии в ближайшем будущем

Когда и где
:
В День российской науки 8 февраля в баре "Ровесник"
✔️

Регистрируемся тут 📍

Изображение Freepik

Душа Питона

07 Feb, 04:46


⚡️ Gemini получает турбоскорость с Flash 2.0

Новая версия приложения, которую тестили ранее, ускоряет выполнение запросов и круче брейнштормит.

Что ещё:
🎂 апгрейдили генерацию картинок до Imagen 3
👋 доступна на веб-платформе и смартфонах

Предыдущие 1.5 Flash и 1.5 Pro ещё немного побудут. Но в Advanced останется знаменитый топовый объём контекста в 1 млн токенов, загрузка файлов до 1 500 страниц, Deep Research и Gems 👨‍💻

Видео создано для канала Душа Питона с помощью Kandinsky Video 1.1

Душа Питона

06 Feb, 15:43


Atla Selene Mini: маленький гигант в оценке перформанса AI-моделей 🕺

Отвечаю на вопрос об ошибке моделей-оценщиков (опрос см. выше 📤). Порой именно длинные ответы могут несправедливо считаться качественными. Также “судьи” бывают предвзятыми и выбирают ответы в определённых позициях. Или полагают, что лучше их собственные результаты 😜

Atla Selene Mini (небольшая LLM-as-a-judge) решает все проблемы и превосходит даже GPT-4o-mini, часто используемую в этих целях 🤘

Как обеспечили качество? Обучали с помощью DPO и supervised fine-tuning

Результаты:
🤑 на финансовых и медицинских датасетах в zero-shot режиме оценки совпадают с экспертными
🙂 на RewardBench — лучшая среди 8B-оценщиков в скоринге, классификации и попарной проверке генераций (pairwise preference evaluation)
👍 на десяти других бенчмарках тоже на уровне SOTA

Плюс небольшой размер и доступность 👋

Изображение atla, University College London, Cohere

Душа Питона

06 Feb, 12:44


5 AI-инструментов для учёных 🎓

Эти решения не просто избавляют исследователей от рутины — они могут полноценно ассистировать в работе 🤓

1️⃣ LLM INDUS предназначен для специалистов по биологии, астро- и гелиофизики, а также наукам о Земле 🌐 Обучен на спецкорпусах данных из разнообразных источников.

2️⃣ AI Scientist. Комплексная система для автоматизированных научных открытий. Генерит идеи 💬, кодит, проводит эксперименты, визуализирует результаты, пишет и рецензирует статьи.

3️⃣ ResearchTown. Многоагентная платформа для имитации научной деятельности. Реалистично моделирует совместную научно-исследовательскую работу с написанием и рецензированием статей 🎮

4️⃣ Multimodal Universe — большой датасет астрономических данных из сотен миллионов наблюдений (100 терабайт) и бенчмарков 🌛

5️⃣ OpenScholar синтезирует для учёных литературу 🤔 Пользуясь данными 45 млн открытых работ, отвечает на научные запросы и даёт ссылки на цитаты.

Встряхнём научный мир и превратим его в увлекательный и захватывающий квест, полный открытий и неожиданных поворотов! 🧑‍🎓

Изображение создано для канала Душа Питона с помощью Kandinsky 3.1

Душа Питона

06 Feb, 04:52


Testpilot: когда AI берёт на себя рутину 😇

Разработчики облачных сред из Jetify выкатили свой первый AI-продукт. Для себя же любимых и других программистов, которым лень писать тесты для приложений 😀

Как инструмент автоматизирует процесс:
🤌 агент самостоятельно генерит планы тестирования, выполняет их и формирует отчёты, взаимодействуя с пользовательским интерфейсом
🤹 легко интегрируется в разработку, так как анализирует само приложение, а не исходный код. Доступ к репозиторию не нужен
👨‍💻 работает с веб-приложениями, но в будущем планируется поддержка и мобильных

Testpilot покрывает около 60-70% тестов, которые раньше делали люди 😑

Душа Питона

05 Feb, 15:11


С Critique Fine-Tuning модели лучше решают математику 🧑‍🎓

Обычно модель имитирует ответы на основе размеченных данных. Учёные университетов Ватерлоо и Карнеги-Меллона вместо этого разработали стратегию, при которой LLM учат критиковать зашумлённые ответы 😏

Подробности тренировки и результаты:
👍 обучали с помощью максимизации правдоподобия. Модель основывается на парах “запрос-ответ” и параметрах для генерации текста
👨‍💻 датасет опирался на WebInstruct и содержит больше 50 тысяч наблюдений, для которых GPT-4o генерировала критику
🔤 на шести математических бенчмарках CFT круче на 4-10% в сравнении с supervised fine-tuning (SFT). Qwen2.5-Math-CFT превосходит Qwen2.5-Math-Instruct и AceMath, хотя для их тренировки использовали более 2 млн наблюдений

И это несмотря на ошибки, содержащиеся примерно в 20% сгенерированной GPT-4o критики 🤓

Изображение University of Waterloo, CMU

Душа Питона

05 Feb, 12:29


Как AI помогает увеличивать прибыли

И какими путями двигаются к этому разработчики 🚶

1️⃣ Как думаете, кто в ближайшее время будет менять AI-ландшафт — Китай или Штаты? Как насчёт Индии? Руководство страны сообщает о планах разработки собственной модели и создания инфраструктуры. Уже приобретено 18 600 графических процессоров 🤑

2️⃣ ЦОД, кстати, второй по величине сектор закупки полупроводников (сразу после смартфонов ⛔️). Аналитики Gartner подсчитали, что в 2025 году объём этого рынка достигнет $705 млрд.

3️⃣ Palantir же с гордостью отчитываются о своих прибылях. Уолл-стрит в шоке от роста акций разработчика ПО для анализа данных, а помог им в этом AI. Спрос на софт, основанный на прогрессивных технологиях, увеличивается 😎

4️⃣ Французы Dassault Systemes тоже на продажи не жалуются. Их секрет в популярности флагманской платформы 3DEXPERIENCE с инструментами для 3D-моделирования. А теперь готов и новый продукт — 3D UNIV+RSES, включающий AI-технологии 🧑‍💻

Душа Питона

05 Feb, 04:38


5 генераторов картинок для тех, кто не умеет писать промпты 💬

Собрала вам в помощь нейрохудожников со способностями улучшать описание нужного изображения.

1️⃣ Ideogram с Magic Prompt. Достаточно пары слов, чтобы AI написал тебе целую историю в деталях ✏️

2️⃣ NightCafe с Revised Prompt. Это собрание разных моделей на выбор (включая Flux, Imagen, SDXL и прочие). Тоже показывает результаты, на основе которых можно и самому подтянуть воображение и скиллы 🎆

3️⃣ Leonardo с Prompt Enhance. Нарисует он по усовершенствованному промпту, но тонкости можно увидеть только при использовании Flow State, о которой я вам рассказывала.

4️⃣ Freepik с AI-prompt — в целом “чёрный ящик”, так что подробностей не будет 🤷‍♂️

5️⃣ Dzine с Prompt Improver тоже предлагает довериться его талантам, предоставляя опцию в виде тумблера

Как видите, не все раскрывают секреты мастерства, зато это нейронки с наличием бесплатных кредитов 😉

Душа Питона

02 Feb, 14:44


От динозавров до наших дней: как AI находит старину в янтаре 🥸

В Калининграде разработали метод определения возраста янтаря. Работают в нём рамановская спектроскопия и алгоритмы ML 💡

Как проходила оценка:
⚡️ проанализировали 57 образцов застывшей смолы из разных стран
🗿 включили и молодые экземпляры, и окаменелости эпох более 200 млн лет назад
👨‍💻 с помощью оптических сенсоров и машинного обучения определили возраст по химическому составу

Новый способ превосходит традиционный радиоуглеродный анализ, который не даёт тестить янтарь напрямую, а только вместе с вмещающей его породой.

Видео создано для канала Душа Питона с помощью Kandinsky Video 1.1

Душа Питона

02 Feb, 04:43


VideoLLaMA 3 видит глубже и всё понимает 🧐

Показываю, как работает новая мультимодалка от Alibaba для анализа картинок и роликов.

Основное внимание уделили качеству изображений и их описанию в обучающем датасете. В итоге моделька хорошо понимает как статический, так и динамический визуал.

Учили в несколько этапов:
🤡 настройка компонентов для обработки визуальных данных
🤜 последующая тренировка с использованием разнообразных датасетов картинок и текстов
🕯 многоцелевое дообучение
💻 финальная оптимизация для улучшения восприятия

Я сразу же и потестила вот тут:
вопрос модели: что необычного на видео?
✏️ ответ: необычность в том, что это медведи, включая большого и двух поменьше, сидящие за деревянным столом в лесу и поедающие суши.

Не поспоришь 😉

Душа Питона

01 Feb, 14:42


Тут же не так давно Vidu подогнали версию 2.0. Концептуально ничего не изменилось, но генерит быстрее ⚡️

Пока тестила, вспомнила, как нечто подобное пыталась выпросить у Pika во время бесплатной генерации. Даже показывать не стала 👎 А теперь вот пригодилось 😉

❤️ попробовала представить себя в космосе
👍 и в роли Лары Крофт
😀 для сравнения вариант Pika

Очень интересно, как вам? Жмите на всё, что понравилось 🫶

Душа Питона

01 Feb, 04:50


Как избавиться от лишних пальцев и трёх ног на картинках ☝️

Рассказываю про подход от Бостонского университета и Adobe Research для детекции и минимизации человеческих артефактов на сгенерированных изображениях.

Нейронки уже более-менее справляются с этой проблемой, но анатомия как задача всё равно оставляет желать лучшего. Искажения есть, а самих частей тела может и не быть 🫣

Как над этим поработали:
🎁 создали Human Artifact Dataset — новый датасет из 37 000 изображений, сгенерированных SDXL, DALLE-2, DALLE-3 и Midjourney. Все размечены людьми
🙂 обученные на этой базе Human Artifact Detection Models (HADM) идентифицируют неправильные детали лучше всех, кто учился по известным методам
справляются и с артефактами, не включёнными в датасет
⭐️ бьют даже SOTA VLM (visual language models)

Кстати, файнтюнинг с помощью предиктов моделей снижал склонность диффузионок плохо рисовать анатомию ↘️

Изображение Boston University, Adobe Research

Душа Питона

31 Jan, 14:22


Как собрать данные для AI и никого не обидеть 😇

Думаете, утечка базы DeepSeek и вероятность, что R1 учили на данных OpenAI — это всё, что есть по теме? Ошибаетесь. Рассказываю!

Предыстория: прошлым летом к Anthropic были претензии по поводу того, что их ClaudeBot взламывает сайты. И на Reddit высказывали недовольство краулерами, собирающими данные.

Тут появляется анонимный ушлый разраб и создаёт Nepenthes. Парня тоже достали бесконечные запросы от краулеров к его сайту 🥵

И началось:
🤬 программа захватывает краулеры, отправляя им бессмысленную информацию (а это может навредить моделям AI)
👨‍💻 скептики полагают, что компании выкрутятся и найдут способы избежать вранья моделям (OpenAI уже работают над этим).
🤘 тот самый аноним, названный Аароном, собирается внедрять допфункции в Nepenthes, если появится спрос
👎 есть мнение, что это примитивный способ борьбы

А вы что скажете?
❤️ обманывать нехорошо
👍 нам нужен этичный AI, пусть соблюдают правила!
🔥 использование данных требует баланса между производительностью и защитой частной жизни

Душа Питона

31 Jan, 10:10


Autonomy-of-Experts Models: кто у вас тут за главного? 😎

А никто! Да, AoE — это новая архитектура, вдохновлённая Mixture-of-Experts. Но есть нюанс.

MoE использует распределяющий задачи маршрутизатор 🔤 И тут проблемка: он может неверно оценивать способности экспертов и назначать не самые оптимальные модели. А что, если отказаться от ответственного за ранжирование блока? 🤨

Как это работает:
🥶 в ответ на промпт каждый эксперт сам вычисляет уровень внутренних активаций
😶 решает, браться ему за поступившую задачу или нет
👍 затем эксперты автономно себя ранжируют и выбирают наиболее подходящую модель

Есть ещё low-rank weight factorization для снижения нагрузки от вычисления активаций. По эффективности на моделях от 700 млн до 4 млрд параметров AoE превзошла традиционные методы MoE со значительной экономией ресурсов 🛍

Душа Питона

31 Jan, 04:54


Adobe заряжает творческий потенциал: ключевые обновления для видео и кино

Именитый разработчик ПО для визуала решил порадовать кинематографистов накануне фестиваля Sundance Film Festival 2025. Ну и нам перепало 🫴

По инструментам:
1️⃣ в Premiere Pro добавили AI-поиск, позволяющий быстро находить нужные кадры. Содержимое клипов распознаётся автоматом с учётом локаций и ракурсов. Также теперь можно мгновенно переводить субтитры на 17 языков

2️⃣ в After Effects улучшено кэширование (используют оперативную память и жёсткие диски). Есть поддержка HDR бонусом к SDR

3️⃣ Frame.io теперь интегрируется с камерами Canon C800 и C400, облегчая загрузку материалов в облако и переход от производства к постпродакшну

Проще, быстрее, креативнее 🍿

Душа Питона

30 Jan, 14:49


Ставка на солнце, предсказания из космоса и видеопроизводство

Новые решения старых проблем от AI-компаниий

1️⃣ Каким образом OpenAI обеспечит безумное количество энергии для Stargate? Планирует использовать солнечные электростанции 😊 и батареи для энергоснабжения. Часть будет поставлять SB Energy, “дочка” SoftBank, специализирующаяся на возобновляемых источниках.

2️⃣ Как сделать геомагнитные бури предсказуемыми и управляемыми? 😈 Знают спецы Aerospace и подразделения Google Public Sector. Гиганты объединяются для использования AI в прогнозировании космической погоды.

3️⃣ Microsoft превращает браузер Edge в супергероя, спасающего от вредоносных схем злоумышленников 👎 Функция “scareware blocker” ловко распознаёт мошенников, пытающихся убедить пользователя, что комп якобы заражён, и говорит им: “Не сегодня!” 😃

4️⃣ Netflix заходит на AI-арену. Запускают Go-with-the-Flow — технологию, позволяющую рулить движениями камеры и объектов в видео диффузионок 🕯 Раньше такое было доступно лишь профи с дорогостоящим оборудованием и специализированным ПО.

Душа Питона

30 Jan, 11:18


🆕 Интеллект на триллионы токенов: что предлагает Qwen2.5-Max

В Qwen Chat — пополнение ❤️ По горячим следам ярких конкурентных инструментов китайская команда представила новую крупную модель MoE.

Детали:
предварительно обучили на 20 трлн токенов и файнтюнили при помощи SFT и RLHF
крутая производительность и превосходство над DeepSeek V3 в ряде тестов (Arena-Hard, LiveBench, LiveCodeBench, GPQA-Diamond и MMLU-Pro тоже)
доступ к Qwen2.5-Max также через API на Alibaba Cloud

В будущем хотят улучшить архитектуру и методы обучения модели, а также расширить интеграцию с разными платформами 🤪

Душа Питона

30 Jan, 07:02


Self-attention без тормозов

Отвечаю на вопрос про влияние длины последовательности токенов на вычислительную сложность self-attention (см. выше ⬆️).

Она увеличивается пропорционально квадрату длины последовательности. Из-за квадратичной сложности в длинных последовательностях LLM работают медленно, а обходится это дорого 📉

Nvidia решает проблему механизмом Star Attention:
📊 Context Encoding делит входную последовательность на блоки и распределяет их среди нескольких энкодеров (computing hosts)
🔽 каждый энкодер вычисляет self-attention для снижения сложности до линейной
💻 Sequence-global attention управляет запросами и генерируемыми ответами

На тестах получилось одиннадцатикратное сокращение на памяти и инференсе. Плюс почти то же качество

Изображение Nvidia

Душа Питона

29 Jan, 14:24


Показываю, как работает с энтузиазмом встреченный сообществом JanusPro. Учитывая то, как нашумели DeepSeek с чат-ботом R1, радость понять можно. Но тесты есть тесты 🤓

Генерит моделька пока слабовато по качеству 😭 Рисует не очень, особенно лица. Ждём, когда пофиксят в будущих версиях. Увеличат датасет хотя бы. Зато выдаёт сразу 5 картинок и секунд за 50. На уровне Flux 🤩

При этом надо понимать, что это не просто генератор, а мультимодалка.

Так что я проверяла и скилл понимания изображений 🙄

Задала модели пару вопросов по второй картинке:

Вопрос модели 1:
What's on the girl's head?
Ответ: The girl is wearing a virtual reality (VR) headset.

Вопрос модели 2: What's behind the girl's back?
Ответ: Behind the girl's back, there are several people sitting, possibly in a waiting area or a public space. The background is blurred, but it appears to be a modern indoor setting with bright lighting.

Разглядела ☺️

Генерим и разговариваем с моделью тут.

Душа Питона

29 Jan, 10:14


O1-Pruner: математика без лишних слов ✂️

Эта методология файнтюнинга LLM оптимизирует инференс моделей для математических рассуждений.

В чём проблема? Длинные последовательности в промежуточных рассуждениях увеличивают вычисления, хотя часто их продолжительность никак не связана со сложностью 🙂

Решают так:
✍️ оценивают модели для выделения паттернов генерации излишних рассуждений
🥇 в соответствии с ними конструируется reward функция для файнтюнинга
с ней модель учится избегать удлинения, не теряя в качестве

В традиционных математических бенчмарках (MATH, GSM8k) Macro-o1-7B и QwQ-32B достигают с помощью O1-Pruner более высоких результатов. Аутпут короче на 40 и 35% соответственно 🤐

Изображение O1-Pruner

Душа Питона

29 Jan, 04:51


EigenHearts узнаёт сердца по лицам 🥰

Фреймворк испанских исследователей классифицирует сердечные заболевания, но использует методы, изначально предназначенные для распознавания лиц 😂

Модель училась на обработке эхокардиографии сердец мышей в разном физическом состоянии (от здоровых до страдающих тяжёлыми болезнями 🤕). Используется SVD вместе с principal component анализом.

В чём заключается  метод:
🧑‍💻 генерятся mean-subtracted изображения каждого состояния
🤨 они служат в качестве компактной feature representation для CNN
💕 по ней классифицируются поступающие картинки

Получилось два датасета — для длинной и короткой оси эхокардиограммы. Использование первого увеличило точность модели с 81% до 97% 👍

Изображение Universidad Politecnica de Madrid, Universidad Complutense de Madrid, Centro Nacional de Investigaciones Cardiovasculares, Center for Computational Simulation

Душа Питона

28 Jan, 14:53


“Манчестер Сити” наденет форму, созданную AI ⚽️

Как думаете, что он там нарисовал? Сейчас узнаем 🤨

PUMA и популярный футбольный клуб задействовали свой генератор для создания уникального набора спортивной формы.

Как всё было:
👕 на платформе DEEPOBJECTS фанаты нарисовали 180 тысяч комплектов
😮 главным помощником был PUMA AI Creator
✔️ 1,6 млн болельщиков приняли участие в голосовании, по итогам которого из всего многообразия были выбраны 10 финальных проектов
⛹️ теперь фанам предстоит выбрать окончательный дизайн футболок, которые наденут игроки "Манчестер Сити" в сезоне 2026/27

Голосовалка тут, открыта до 29 января 🙌

Душа Питона

28 Jan, 11:12


Битва чат-ботов: 4 китайских аналога ChatGPT 💪

Можно говорить о восточном прорыве, поскольку умные модели Китая уже составляют реальную конкуренцию AI-флагману от OpenAI.

Вот лишь несколько примеров:
1️⃣ Ernie Bot от Baidu. Чат-боту сто лет в обед, но летом 2024 апгрейдили Ernie 4.0 Turbo, на основе которой он работает, и насчитали около 300 млн пользователей с момента запуска 🤪

2️⃣ Qwen Chat, который Alibaba официально запустили в середине января. Чатиться со всеми моделями Qwen тут можно бесплатно — разговор, визуал, документы и прочее 👐

3️⃣ Hailuo AI, стоящие за видеогенератором Minimax, недавно представили LLM и интерфейс чата для неё. Контекст 4 млн токенов, на бенчах показатели по программированию и математике лучше GPT-4о 👍

4️⃣ И, разумеется, R1 от DeepSeek, хайпующий уже неделю. Это reasoning-модель в общем доступе. Дешёвая, но с теми же с скиллами и перформансом, что и у o1. Обогнала она и Claude. А четвёртую LLaMA* теперь вообще непонятно как выпускать 🙂

Давайте свой рейтинг замутим. Вы за кого?
❤️ Ernie Bot
👍 Qwen Chat
🔥 MiniMax
💯 R1
👏 всё-таки ChatGPT

* продукт экстремистской организации, деятельность которой запрещена на территории РФ

Душа Питона

28 Jan, 05:54


UI-TARS понимает скриншоты и умеет пользоваться клавой и мышкой ☺️

Инструмент автоматизирует взаимодействие с графическими интерфейсами и не зависит от коммерческих моделей.

Скиллы:
🧑‍🎓 хорошо воспринимает и разбирается с интерфейсом и субтитрами в контексте за счёт использования большого датасета скриншотов
🤬 унифицировано моделирует действия для стандартов в одном пространстве на разных платформах
🤯 обдуманно рассуждает в процессе многошаговых решений с разными сценариями — декомпозиция задач, рефлексивное мышление, распознавание этапов
⛔️ итеративно обучается на ошибках и адаптируется к неожиданностям с минимальным вмешательством человека

При этом модель ByteDance и Университета Цинхуа в опенсорсе 🫰

Изображение ByteDance, Tsinghua University

Душа Питона

22 Jan, 10:44


🆕 “Stargate” на старте: OpenAI запускает новый проект

Компания приступила к осуществлению масштабного замысла, о котором я вам рассказывала весной прошлого года.

Что такое “Stargate”:
💰 предполагает вложение $500 млрд в AI-инфраструктуру в Штатах. Первую сотню направят сразу
😎 ведущий партнёр OpenAI — SoftBank, председатель правления — Масаёси Сон
🔋 проект спонсируют также Arm, Microsoft, Nvidia, Oracle

Строительство начнётся в Техасе, но планируется расширение и по всей стране 🔥

В общем, заявка серьёзная! OpenAI обещают мощный рывок вперёд и приглашают в новую эру технологических возможностей 🔄

Душа Питона

22 Jan, 04:51


Bioptimus: французская революция в мире био-AI 🤩

GPT для биологии будет моделировать живой мир

Стартап из Парижа поставил амбициозную цель —  разработать инструмент, аналогичный ChatGPT, но специализирующийся на биологических данных (от молекул до организмов 🤪). Своим подходом они хотят создать целостное представление о биологии, такой, как она есть.

Применение — самое обширное. Например, предсказание исхода заболеваний или разработка методов лечения 🤕

В чём секрет их уверенности в успехе:
🤝 вдохновитель команды одновременно участвует в разработке технологий успешной биотех-компании Owkin
🎓 а у Owkin есть большой датасет мультимодальных клинических данных для обучения модели
🥶 у Bioptimus уже есть открытая H-Optimus-0 для диагностики и исследований в онкологии

Сослаться на великих, конечно, неплохой пиар-ход, и инвесторы уже поверили 😉 В разработку вложили больше $40 млн, а запуск обещали в наступившем 2025 году 🔜

Душа Питона

21 Jan, 15:02


Reducio сжимает видео до предела 🤡

Фреймворк Фуданьского университета и Microsoft генерит ролики в высоком качестве с помощью сильно сжатого motion latent space.

Как этого достигают:
😈 у автоэнкодера Reducio-VAE агрессивная стратегия. Сохраняется минимальная информация о движениях. Это позволяет добиться коэффициента 4096
🤡 видео генерится в два этапа: диффузионка создаёт статичную картинку, которую затем анимируют
🧳 трансформер Reducio-DiT внедряет в генерацию сжатые репрезентации, оставляя семантические и пространственные данные

Модель ускоряется в 16,6 раз в сравнении с Lavie при разрешении 1024x1024 🏄‍♂️

Душа Питона

21 Jan, 13:52


3 AI-инструмента для тех, кто не умеет кодить 👐

Если у вас нет опыта в программировании, но очень хочется 🙏

1️⃣ на AI-платформе Miaoda от Baidu код генерят LLM, а пользователь может пилить программные приложения, особо не вникая в процесс

2️⃣ начинающим, но ещё не очень продвинутым программистам будет просто и понятно работать с библиотекой LLMBox. Элементарный интерфейс с массой форматов от текста до инструкций, набор инструментов для обучения/оптимизации и оценки перформанса тоже 😓

3️⃣ а с помощью AI платформы FRVR можно даже свою видеоигру нагенерить без навыков кодинга 🧑‍💻 Дать модели краткое описание, она накидает базовую структуру и логику. Ну а дальше креативь промптами, если есть такое желание 😇

Изображение Renmin University of China, Xidian University

Душа Питона

21 Jan, 04:42


Amazon допиливает AI-Alexa 💃

Обновлённая версия голосовой помощницы явно задерживается 🫥

Что делают:
🤥 устраняют "галлюцинации"
☄️ ускоряют
💻 повышают надёжность системы

Проблема в том, что надо перейти от старых алгоритмов к современным LLM, сохраняя первоначальные качества инструмента. Хотят, чтобы Alexa осталась функциональной и последовательной, но стала креативнее и свободнее в диалоге.

Как будут монетизировать, тоже пока непонятно. Введут подписку или продадут как-то иначе. Но обещают буквально персонального консьержа, решающего широкий спектр задач 😇

Изображение создано для канала Душа Питона с помощью Kandinsky 3.1

Душа Питона

20 Jan, 14:52


Умный подход к красоте: IBM поможет L'Oréal создавать экокосметику с помощью AI 💄

Известный бьюти-бренд и крупнейший IT-разработчик стали партнёрами. Теперь продукция L'Oréal будет EGS-френдли.

Чем займутся программисты IBM:
🆕 разработают специализированную модель для создания инновационных рецептур с возобновляемыми ингредиентами
Как это применят в L'Oréal
🔥 с помощью AI снизят энергозатраты и отходы при производстве косметики

Модель проанализирует обширную базу формул и компонентов, чтобы специалисты смогли составлять новые композиции разнообразных экологичных средств красоты. А также дорабатывать существующие 🍃

Изображение создано для канала Душа Питона с помощью Kandinsky 3.1

Душа Питона

20 Jan, 11:11


Какой промпт, такой и перформанс ✏️

Продолжаем копать тему промптинга, ведь он, как мы уже выяснили, может быть главным ключиком к AI. Учёные пробуют изучать разный контекст, способы генерации вроде context learning и СоТ, занимаются few-shot промптингом 😔

Тут Microsoft и MIT разбирались, влияет ли форматирование текста в промпте на результат работы LLM. Проверили GPT-3.5 и GPT-4 на разных задачах в зависимости от оформления запроса.

6 бенчмарков, 4 шаблона: обычный текстовый, Markdown, YAML и JSON. Эксперименты касались обработки естественного языка, программирования и машинного перевода.

Кстати, формат инпута существенно меняет результаты:
😳 GPT-3.5 в кодинге показывает разницу до 40%
🤓 большие модели стабильнее, но и у них различия статистически значимы

Изображение Microsoft, MIT

Душа Питона

20 Jan, 04:54


Голос будущего: кто создаст переводчика из Star Trek 🤓

Все хотят девайс, как у героев легендарной франшизы😍 Чтобы он переводил мгновенно речь в речь с любого языка с сохранением голоса и эмоций 💪

Почему это сложно:
➡️ есть такие системы, но переводят они в основном на английский и только в одну сторону
📥 каскадные архитектуры сначала преобразуют речь в текст, затем текст в текст и текст в речь. Долго и с ошибками по пути
🎙 аудиоданных для обучения не хватает

За разработку взялась Meta**. Пилят систему Seamless*:
💬 охватывает 36 языков
🎤 решает проблему нехватки согласованных аудиоданных

Как делали:
🔡 векторизовали тексты и речевые данные
🏀 закинули всё в единое пространство SONAR для всех языков
🤝 в SONAR похожие предложения на разных языках находятся рядом
🎉 получили кучу выровненных текстов и тысячи часов расшифрованного аудио

По результатам обучения модель SEAMLESSM4T v2* сейчас распознаёт 96 языков, переводит речь в текст со 101 языка, а текст в речь с 96 на 36. Плюс превзошла каскадников на 8% (речь в текст) и на 23% (речь в речь).

Ограничения пока есть, поэтому ждём! Но ясно, что потоковый режим голосового перевода уже на подходе 🏄‍♂️

* продукт экстремистской организации, деятельность которой запрещена на территории РФ
** экстремистская организация, деятельность которой запрещена на территории РФ

Душа Питона

19 Jan, 13:27


Freepik периодически апгрейдит свои AI-инструменты. Начала тестить потихонечку. Сегодня расскажу про их инпейнтинг — он же Retouch. Облегчает жизнь при редактировании того, что не очень получилось 👍

1️⃣ допустим, нейронка нарисовала вам вот такую книжку
2️⃣ выбираем Retouch в разделе Edit
3️⃣ кисточкой замазываем то, что выглядит странно (можно добавить промпт с указанием того, чем заполнить местечко)
4️⃣ жмём Retouch и выбираем идеальный вариант
5️⃣ далее Apply
6️⃣ получаем нормальную картинку

Всё максимально просто и удобно 😍 Пользуйтесь!

Душа Питона

19 Jan, 05:15


Chinese SimpleQA: ещё больше локализованных бенчмарков 🎁

Инструмент от Alibaba оценит способности моделей в китайском языке.

Собрали 3 000 пар “вопрос-ответ” по шести разным разделам:
#️⃣ китайская культура
#️⃣ гуманитарная сфера
#️⃣ инженерные и прикладные дисциплины
#️⃣ искусство и культура
#️⃣ общество
#️⃣ естественные науки

Внутри выделили ещё 99 подразрелов. На каждый вопрос — единственный правильный ответ. Круто справляются o1-preview и Doubao-pro-32k (примерно равные результаты). Также хороши модели большего размера и те, что обучают специально на китайской культуре.

Было бы круто, чтобы “местные” бенчмарки появлялись и для других языков. Особенно актуально это для “незападных” цивилизаций (например, тайской 🙏), чтобы повысить репрезентацию всех культур в ML-сообществе.

Тут рассказывала о том, какие языки знают LLM.

Изображение Taobao & Tmall Group of Alibaba

Душа Питона

18 Jan, 14:12


Почитать/послушать в выходные: интервью СЕО Suno AI 🎸

О том, что Suno — крута в генерации музыки, мы знаем. Но как смотрит на успехи модели её автор? От настроя разраба, сами понимаете, перспективы дела зависят порой на все 1️⃣0️⃣0️⃣

О чём говорил Майки Шульман в подкасте 20VC:
🎶 люди не любят создавать музыку из-за необходимости осваивать инструменты и ПО
🎶 AI сделает процесс приятнее
🔜 Suno позволит писать музыку и наслаждаться, а это продвинет индустрию

С чем можно поспорить:
😮 критики указывают, что Шульман игнорирует значимость обучения и самосовершенствования (это ли не творчество?)
🎵 композиторство привлекает возможностью улучшать навыки

Ну не знаю… Навыки бывают разные. Использовать AI тоже непросто и развивает ещё как 👍

А вы как думаете?
❤️ модели ускорят создание мелодий и сделают написание доступнее
👍 AI не заменит творчество и может привести к снижению качества произведений
💯 если музыка классная, разницы нет

Душа Питона

18 Jan, 05:09


Команда против хаоса: как TeamCraft учит агентов работать вместе 🤝

Новый бенч для многоагентных систем в среде Minecraft.

По сложившейся традиции обычно агенты получают абстрактные векторные входные данные, но здесь предоставляется RGB от первого лица, а задачи в TeamCraft даются с учётом мультимодальных характеристик.

Как агенты должны взаимодействовать:
🔤 учитывая трёхмерную графику и языковые команды
🤔 обобщая информацию об объектах, фонах, численности участников и ранжировании заданий
🥢 используя доступные инструменты

В датасете 55 тысяч демонстраций и 50 объектов в разных сценах. Оцениваются не только те, кто выполняет различные задачи, но и агенты с множеством обязанностей. Можно распределять роли между членами команды, предоставляя им те или иные возможности 🚶

Изображение UCLA, Amazon AGI

Душа Питона

17 Jan, 14:42


Helium-1 покоряет периферию 👨‍💻

Kyutai анонсировали превью базовой LLM для работы на гаджетах.

Что классного:
🤏 всего 2 млрд параметров
💪 6 языков с планами расширения в будущем
🏄‍♂️ минимальные задержки и высокая конфиденциальность благодаря локальному развёртыванию

Учили на общедоступных данных: “Википедия”, Stack Exchange, научные статьи. Результаты вполне конкурентоспособные по различным метрикам (ответы на закрытые вопросы, рассуждения, машинный перевод и ответы на вопросы с множественным выбором 📞) и на всех языках.

Будет и полная версия, и код. А пока вот то, что на HuggingFace

Душа Питона

17 Jan, 11:30


Когда меньше значит больше 🐰

Не всегда LLM учатся лучше у тех, кто сильно их превосходит.

Авторы из Вашингтонского университета и Allen Institute for AI показали, что модели среднего размера эффективнее справляются с генерацией синтетических данных для instruction fine-tuning.

Как пришли к такому парадоксальному выводу:
🕯 взяли 5 базовых моделей из разных семейств
🛍 к ним при помощи 20 других LLM создали тренировочные датасеты для файнтюнинга
🧾 “средние” учителя вроде Gemma-2-9b-it в некоторых случаях передавали знания точнее, чем, например, LLaMA-3.1-405B-Instruct*

Есть и ещё один забавный момент. Обнаружили явление “family coherence” — стабильно более высокое качество файнтюнинга при условии, что датасет сгенерирован моделью из того же семейства 😆

Получается, мы ещё не до конца понимаем процесс файнтюнинга и вот он — путь к отказу от слепого использования больших моделей из ложной предпосылки, что они всегда перформят лучше 😉

* продукт экстремистской организации, деятельность которой запрещена на территории РФ

Изображение University of Washington, Allen Institute for AI

Душа Питона

17 Jan, 04:53


Мир AI от Samsung 🌎

На CES 2025 компания нарисовала полную картину новой жизни человека с помощью своих AI-решений.

Тут всё:
🏠 AI Residence для управления общественным и личным пространствами: наблюдение за здоровьем людей, регулирование энергопотребления, безопасность
🛒 AI Store для прогрессивной трансформации торговли и сетей магазинов: контроль списков товаров в реальном времени, автоматическое обновление цен
👨‍💻 AI Office — умные рабочие места для эффективного и производительного труда: распознавание лиц, подготовка переговорок для встреч
🛞 AI Stay — решения для путешествий (заселение в отель, персонализация отдыха вроде режима Good Night, чтобы везде чувствовать себя как дома)

И прочие прелести, которые можно обеспечить с помощью SmartThings: AI для авто, экологии, энергетики.

Душа Питона

16 Jan, 14:37


Показываю, как работает новая функция Tasks в ChatGPT 🏋️‍♂️

Возможности:
🫡 позволяет создавать напоминалки и планировать шаблонные активности
👋 делает ChatGPT уже своего рода помощником, близким к Google Assistant или Siri, но с крутыми языковыми навыками

Бета пока доступна для подписчиков Plus, Team и Pro, и не факт, что это будет бесплатно в дальнейшем. Управлять задачами можно прямо в чате, выбрав “4o with scheduled tasks”. Максимум 10 активных задач ChatGPT контролирует одновременно и, кстати, сам тоже будет подкидывать идеи👏

Ещё обещают:
👨‍💻 Operator — автономного агента, управляющего устройством
👩‍💻 Caterpillar для интеграции с задачами, поиска, анализа, обобщения, навигации по сайтам и доступа к документам

В общем, разрабы явно хотят выпустить чат-бота за рамки скриптов и создать систему, способную действовать независимо 🤨

Душа Питона

16 Jan, 10:25


GenEx рисует невидимое 🫥

Система, разработанная в Университете Джонса Хопкинса, генерит исследуемую 3D-среду по одному фото.

Секрет в том, что обучали её не на фотках, а тоже на виртуальных средах, созданных с помощью игровых движков (Unreal Engine 5 и Unity). К тому же в методике кубических карт 360-градусное изображение проецируется на 6 граней куба 🧊 В датасете — разные направления движения, чтобы GenEx генерила переходы между ракурсами 😶

Где поможет:
🚘 решения в дорожных сценариях. GenEx помогла AI-агенту заметить знак ⛔️, избежать пробок, оценить опасность пересечения машины и пешехода
🌐 3D-картографирование

AI получает человеческое воображение. Нам же не нужно физически обходить машину, чтобы понять, что она перекрывает дорогу 🚗

У GenEx высокая точность генерации даже на большие расстояния, стабильный фон и освещение, а точность решений агентов повысилась:
*️⃣ с 46% до 85% в одиночных сценариях
*️⃣ с 22% до 95% в мультиагентных

Но, конечно, надо адаптировать к реальным условиям 🚗

Видео создано для канала Душа Питона с помощью Kandinsky Video 1.1

Душа Питона

16 Jan, 04:42


SAMPart3D — всё до деталей 🫤

Разработчики Гонконгского университета и VAST знают, как сегментировать 3D-объекты без промптов:

🌙 предобучили фреймворк на большом датасете с 3D-объектами Objaverse и добавили DINOv2 для экстраполяции с двухмерных характеристик на трёхмерные
🏠 для регулирования гранулярности сегментации придумали Scale-conditioned grouping
⭐️ мультимодальные LLM в SAMPart3D генерят лейблы для сегментированных частей
🔤 есть отдельный бенчмарк PartObjaverse-Tiny с подробными аннотациями для деталей объекта. Можно оценивать качество алгоритмов сегментации

На этом новом бенчмарке SAMPart3D установил SOTA-стандарт в обработке 3D-объектов. Пригодится в робототехнике и создании продвинутых пайплайнов редактирования таких изображений ☝️

Изображение The University of Hong Kong, VAST

Душа Питона

15 Jan, 15:04


6 новых моделей text2video, которые важно не пропустить ❤️

Собрала видеогенераторы только за декабрь прошлого года 😨 Позже буду пробовать их на практике, а пока просто подборка.

1️⃣ LTX-Video — основан на DiT. Генерит видео быстрее, чем вы его потом смотрите (24 кадра в секунду, разрешение 768x512). Демка тут

2️⃣ ILDiff создаёт детализированные анимированные стикеры. Код берём здесь

3️⃣ Open-Sora: text-to-image, text-to-video, image-to-video. Ролик до 15 секунд, разрешение до 720 и произвольное соотношение сторон. Есть на GitHub

4️⃣ SnapGen-V: видео всего 5 секунд, но зато за 4 шага и сразу на смартфоне. Смотрите пример с iPhone 16 Pro Max. Всего 6 млн параметров. Плюс SnapGen для генерации картинок (1024×1024 за 1,4 секунды)

5️⃣ VideoMaker: диффузионка сама справляется с выделением, извлечением и вводом признаков объектов съёмки для генерации видео zero-shot

6️⃣ RAIN: стрим в реальном времени. Длинный, согласованный видеопоток с низкой задержкой и всего на одной RTX 4090

Душа Питона

15 Jan, 12:03


RapidResponseBench: бенчмарк для оценки защиты от вредного использования AI 😒

Возвращаясь к опросу (см. выше 🤘), уточню, что safety-алгоритмы нужны для минимизации негативных последствий взаимодействия с моделями. Но обычно они статичны и концентрируются на защите от всех угроз.

А вот разрабы MATS, Anthropic и NYU предложили метод с быстрым и адаптивным под конкретный джейлбрейк ответом.

Тестили несколько техник для rapid response:
🔍 Input-guarded LLMs — деплой дополнительной модели, проверяющей инпут на угрозы в реальном времени
🖥 Jailbreak proliferation — запросы, схожие с промптами потенциальных атак, в тренировочном датасете (учит распознавать)
🛡 Guard fine-tuning — настройка классификатора на наборе таких атак. Успешно отражает 99,6% попыток джейлбрейка ⛔️

Потенциально эффективная парадигма противодействия 🔒 И авторы предлагают не зацикливаться, а совмещать ее с другими.

Изображение MATS, Anthropic и NYU

Душа Питона

15 Jan, 04:43


R2X: AI-аватар от Nvidia в ответ Microsoft на функцию Recall

А также Anthropic с их опцией управления компьютером с помощью Claude 3.5 Sonnet. Разработчики настойчиво предлагают пользователям ассистентов для устройств, хотя вопросы конфиденциальности ещё толком не закрыты 🤔

Свой вариант Nvidia показали на CES 2025, а взяли тем, что он визуализируется и анимируется. То есть это не бесплотный “дух компа”, а кто-то симпатичный со своим лицом 🤩

Ещё детали:
👨‍💻 запускается на популярных LLM по выбору (GPT-4o или Grok)
🤓 общается текстом и голосом
👀 принимает на вход файлы, может просматривать происходящее на экране
🖥 делает скрины дисплея, даёт фидбэк о запущенных приложениях, кодит
🤪 движения лица, губ и языка автоматизируются новой моделью Audio2Face-3D

R2X будет открытым и планируется к выпуску в первой половине 2025 года. В компании считают, что аватары — топовый интерфейс для таких штук.

А вы что скажете?
❤️ приятно видеть того, с кем общаешься
😀 ой нет, пусть не высовывается
👍 главное, чтобы работал нормально

Изображение создано для канала Душа Питона с помощью Kandinsky 3.1

Душа Питона

14 Jan, 15:33


Какими будут дата-центры для AI 🏠

Аналитики Synergy Research Group провели исследование.

Вот прогнозы:
⤴️ пропускная способность ЦОД, открытых в будущие 4 года, станет больше, чем у действующих, в 2 раза
👨‍💻 существующие дата-центры тоже дадут стремительный рост, так как их придётся модернизировать. К 2030 году их мощность увеличится втрое

Как рассчитывали:
😓 анализировали ЦОДы (1103 объектов) 19 крупнейших мировых интернет-компаний
🧑‍💻 плюс ещё 497 новых дата-центров, которые учитывала прогнозная модель

Изображение Synergy Research Group

Душа Питона

14 Jan, 14:22


SPAR3D: объём и структура по одной картинке 🌝

Вот куда пропали StabilityAI после выпуска SD 3.5 осенью прошлого года. Занялись 3D на пару с Nvidia.

На самом деле они взяли свою же SF3D, выпущенную летом, и разработали уже двухэтапную архитектуру — создание облака точек + генерация сетки.

Какие преимущества:
✂️ прямая редакция облака точек (удаление, дубль, растягивание, добавление элементов и даже замена цвета точек)
🌐 точная геометрия с прогнозированием полного обзора на 360 градусов (и скрытые области тоже)
скоростная генерация: преобразование облаков в сетки — 0,3 с плюс редактирование real-time, 3D-сетка из картинки — 0,7 с

Качаем с Hugging Face, код на GitHub

Душа Питона

14 Jan, 04:58


Вотермарки от LLM: полный цикл 👠

Для идентификации моделей и соблюдения авторских прав в Университете Небраски в Омахе предложили использовать в AI-контенте водяные знаки, сгенерированные другими LLM 🤹

Во фреймворке три элемента:
🔤 Prompting language model пишет инструкции для создания водяных знаков
🥢 Marking language model внедряет готовые вотермарки в контент
⬇️ Detecting language model в конце проверяет, что знак действительно есть и легко находится

На ChatGPT и Mistral результаты показали, что модели обнаруживают внедрённые вотермарки с вероятностью 95% и 88,79% соответственно. Вполне устойчивый подход 💪

Последствия и импликации самые разные — в первую очередь на фоне споров об авторском праве так можно защитить LLM-контент от неправомерного использования 👀

Душа Питона

13 Jan, 14:27


На выходных зашла в GigaChat, чтобы уточнить один момент по исследованию. А тут, оказывается, новая фича! Ну я и потестила заодно 🥸

Можно примерить разные образы, загрузив своё фото (оригинал на первом слайде). Смотрите, что вышло!

❤️ Новогодний уют
👍 Японка в зимнем саду
🔥 Богиня вечеринки
💯 Сказочный рыцарь

Генерит Giga с помощью нейросети Kandinsky сразу две вариации (за 30 с), но перезапускать процесс можно сколько угодно раз. Всё прямо тут, в телеге. Заходите, пробуйте.

Сейчас там 12 форматов. Одна половина для мужчин, вторая — для женщин, но это формальности. Полюбуйтесь, например, какой из меня классный рыцарь получился 🫶

Понравилось что-то другое или всё сразу? Голосуй!

Душа Питона

13 Jan, 11:15


Grok уходит в народ 📞

Маск продолжает масштабировать своего чат-бота на платформах и устройствах.

Последние шаги по внедрению модели:
🧑‍💻 встроили на Х
открыли только для аккаунтов X Premium
👨‍💻 предоставили доступ всем

И вот сообщают, что выпустили версию для iOS в Штатах. А ещё анонсировали сайт Grok.com, где чат-бот будет доступен уже полностью для всех желающих 🤘

Остаётся один вопрос: когда на Android? 🤪

Душа Питона

13 Jan, 05:02


Кажется, Google понравилась тема подкастов из всего на свете, и теперь они тестируют новую фичу с применением навыков AI суммаризировать и объяснять.

Называется штука Daily Listen, а генерит она пятиминутные аудиобзоры на основе вашего гугл-поиска и интересов 🎶 Её пока что просто тестят, собирая отзывы.

Где находится и как работает:
⚡️ в Space под строкой поиска в верхней части приложения Google на Android и iOS. Тапаем на Daily Listen с нужной датой и Made for you
▶️ должен открыться и запуститься плеер, в котором всё работает, как на приличных устройствах: play/pause, 10-секундная перемотка, следующая история, регулируемая скорость воспроизведения и mute, если вы просто хотите прочитать текст
⛔️ если вы скроллите “Похожие истории” или ищете что-то ещё, прокручивая вверх/вниз по разделу, плеер закрепляется в верхней части экрана

Изображение Google (Via 9to5Google)

Душа Питона

12 Jan, 13:33


Smolagents: ворота в мир для LLM 😓

Помните, в трендах на наступивший год упоминались AI-агенты? Вот и первые ласточки ✈️

Библиотеку для разработки таких помощников предложили на Hugging Face. Особенно она может оказаться полезной в случаях, когда решение задачи требует учёта кучи критериев 😮

Как создать агента для обработки запросов на сайте бронирования для серферов:
😱 пользователю необходима бронь с неопределённой датой и возможностью отмены
🫡 задачу может решить многоступенчатый агент, имеющий допуск к информации для прогнозирования погоды, Google Maps для расчёта расстояния, панели мониторинга доступности сотрудников и системе RAG в базе знаний

А сгенерить его очень просто, если у вас есть:
😎 список инструментов, к которым агент имеет доступ
👩‍💻 LLM, управляющая им

Smolagents интегрированы с хабом, поддерживаются любые LLM, в том числе модели OpenAI и Anthropic 🤘

Душа Питона

12 Jan, 05:08


IXC2.5-OL: полноценное взаимодействие с MLLM в реальном времени 🤾‍♂️

Проблема в том, что архитектуры sequence-to-sequence плохо справляются с одновременной обработкой нового инпута и генерацией ответа.

Китайцы придумали InternLM-XComposer2.5-OmniLive, справляющийся с real-time коммуникацией за счёт трех модулей:
🔋 Streaming Perception Module поддерживает обработку мультимодальной информации
🔋 Multi-modal Long Memory Module включает короткую и длинную память для коммуникации даже на протяжении долгого времени
🔋 в Reasoning Module модель проводит рассуждения и управляет предыдущими модулями

Фреймворк круче MLLM-архитектуры в аудио и видео. К примеру, в задаче автораспознавания речи лучше SOTA-решений (VITA, Mini-Omni) на WenetSpeech и LibriSpeech 🤡

Изображение Shanghai Artificial Intelligence Laboratory, The Chinese University of Hong Kong, Fudan University, University of Science and Technology of China, Tsinghua University, Beihang University, SenseTime Group

Душа Питона

11 Jan, 14:29


AVR генерит аудио с сохранением пространственных характеристик 🎶

Придумали метод в университетах Пенсильвании и Вашингтона. Трек создаётся с помощью volume rendering (метод представления 3D-объектов в 2D-формате).

Как работает:
📊 сигнал трансформируется в ряд частот с помощью преобразования Фурье
🌐 Spherical integration используется для генерации impulse responses из различных позиций в пространстве
🎵 в AVR используется волновое распространение, которое гарантирует консистентность и высокое качество в разных пространственных перспективах

Обошёл имеющиеся методы как на реальных, так и на симулированных данных ▶️

Душа Питона

11 Jan, 05:20


Оцениваем эффективность защитных алгоритмов 💪

Джейлбрейки позволяют обходить имеющиеся в латентном пространстве safety гайдлайны. Но есть решение!

Созданный группой исследователей фреймворк способен:

🫤 анализировать sparse autoencoders, supervised probes, latent out-of-distribution (OOD) detection
🖕 генерить промпты для вызова скрытых активаций в латентном пространстве, ведущих к выполнению команд даже вопреки средствам защиты
😈 adversarial suffixes (последовательности, добавляемые к промпту для обхода защиты) — самые опасные. Снижают эффективность некоторых детекторов вредоносного контента до 0% и повышают success rate джейлбрейка до 90%.

Изображение Stanford University, Polytechnic University of Catalonia, Georgia Institute of Technology, Skoltech, University of Queensland, UC Berkeley, Alignment Research Center, MIT CSAIL, Chan Zuckerberg Biohub

Душа Питона

10 Jan, 14:33


Чайку? Будет весьма кстати в первые рабочие дни после праздников 😍

Тем более что качественное сырьё для ароматного напитка теперь можно отобрать с помощью AI ☕️

Придумали способ российские учёные:
🍃 ML-алгоритмы обучили определять свойства чая при помощи масс-спектрометрии. Нейросеть обучали на датасете из данных о сортах и качестве сырья
😎 ионизатор на основе лазера образует плазму, превращающую нейтральные молекулы аромата чая в заряженные
🪄 масс-спектрометр улавливает летучие вещества и в секунды анализирует предложенную пробу

Методика заменяет сложный процесс с пробоподготовками и химическими исследованиями, выявляет фальсификат и может использоваться для детекции других биологических объектов ☕️

Душа Питона

10 Jan, 11:22


ResearchTown поставит научные открытия на поток 🎓

К тренду изучения работы учёных с помощью LLM подключились исследователи Иллинойского университета в Урбане-Шампейне. Придумали мультиагентный симулятор для анализа и репликации работы научного коллектива.

Хотели понять, способны ли модели к сотрудничеству между агентами в деятельности по научному вопросу. Кроме автоматизации научных открытий, он помогает в брейншторме.

Как именно:
💎 научное сообщество представили в виде agent-data графа: вершины — исследователи, совместные статьи — рёбра. Академические активности на основе графа (чтение, цитирование, обзоры 😶) моделирует TextGNN
🙂 симуляцию оценивает ResearchBench. Скрывает часть графа и тестит, как LLM его восстановит
📊 ResearchTown симулирует активности авторов со сходством 0,67 и 0,49 с реальным графом для написания статей и ревью соответственно
👍 а ещё фреймворк предложил идеи для междисциплинарных исследований

Модель правдиво предсказывает направления будущих исследований и может подсказать перспективные темы

Изображение University of Illinois Urbana-Champaign

Душа Питона

10 Jan, 04:58


Главный челлендж современного ML: связь между генерализацией и запоминанием 🤓

Запоминание, без которого обычно не мыслят обучение моделей, может препятствовать генерализации ⛔️

Но почему? 😮

Вред проявляется в ситуациях, где выученные паттерны являются артефактом тренировочных данных и не отражают закономерностей распределения, с которым работает модель ☹️

Но при подходе memorization-aware training*, который предложили в Meta**, модели концентрируются больше на вычленении не привязанных к распределению закономерностей. Поэтому можно подстраиваться под разнообразные входные данные ✔️

Придётся переосмыслить парадигмы тренировки 🙄 Особенно когда использование не соответствующих реальности закономерностей приводит к существенным последствиям (к примеру, в медицинских моделях).

* продукт экстремистской организации, деятельность которой запрещена на территории РФ
** экстремистская организация, деятельность которой запрещена на территории РФ

Изображение Université de Montreal, FAIR at Meta**, CIFAR

Душа Питона

09 Jan, 15:03


ProcessBench: учим модели распознавать ошибки 🧐

Бенчмарк от Qwen анализирует рассуждения при решении сложных математических задач.

В чём суть:
1️⃣ 3 400 олимпиадных заданий с пошаговыми решениями
2️⃣ размечены места, с которых начинается неправильный ход мыслей
3️⃣ модели должны не просто свериться с правильным ответом, а понять, где была допущена ошибка 👨‍🎓
4️⃣ ProcessBench широко применим: совместим с моделями process reward и critic

В сложных задачах PRM уступают critic-моделям. Но опенсорсная QwQ-32-B-Preview, например, превосходит проприетарные модели (включая GPT-4o), хотя и проигрывает o1.

Изображение Qwen

Душа Питона

09 Jan, 10:31


Феномен “супер весов”: что разрушает способности LLM генерить текст 😠

Явление super weights — это изменение малой части параметров модели (не > 0,01% от общего числа), которое низводит навык создания генерации до нуля 0️⃣

Пример приводят авторы исследования. Они показали, как изменение одного такого параметра в LLaMA-7B* свело перформанс в zero-shot-варианте на уровень не лучше случайного угадывания 🙈

Придумали, как находить такие параметры: супервеса оставляют за собой “суперактивации”, возникающие на одних и тех же участках независимо от инпута

Так можно повысить эффективность квантизации модели. К примеру, после успешного нахождения супервесов создать словарь с их индексами и не трогать эти параметры при сжатии 🙅‍♂️

* продукт экстремистской организации, деятельность которой запрещена на территории РФ

Изображение University of Notre Dame, Apple

Душа Питона

09 Jan, 04:36


Как найти нужный товар с помощью AI 🫴

У Walmart своё решение для повседневных бизнес-задач. Оптимизируют электронную коммерцию за счёт поиска на основе semantic retrieval 💬

Фреймворк построен на гибридной архитектуре стандартных text-match подходов и neural retrieval. С ним не страшны грамматические ошибки или синонимы в запросах

Как работает:
💡 при поиске по традиции концентрируется на редких токенах, но сразу же применяет более продвинутые техники для обработки
📊 обучение основано на negative sampling, поэтому модель лучше классифицирует объекты

Детальный анализ вычислений показал низкую просадку в перформансе даже при уменьшении размерности 👍

Душа Питона

08 Jan, 15:19


PyOD2: 12 SOTA DL-моделей и 45 алгоритмов 😮

Апгрейд библиотеки для детекции выбросов в датасетах отличается более глубокой интеграцией DL-методов и использованием LLM для автоматизации model selection.

Чем полезна:
🥸 LLM для выбора финальной модели пригодится непрофессиональным пользователям 
👨‍💻 при отборе фреймворк опирается на symbolic-neural reasoning моделей, исходя из особенностей конкретного датасета

Важное обновление для anomaly detection. Учитывая более чем 25 млн загрузок первой версии, в успехе новой сомневаться не приходится 👍

Душа Питона

08 Jan, 05:15


От LLM к LAM: эволюция моделей 😎

Microsoft тут решили сделать упор на intelligent agents, выполняющих действия в реальном мире.

Предлагают детальный фреймворк на основе Windows OS для их создания. От сбора данных до оценки эффективности:
🫡 на этапе сбора данных вводится шаг, где данные и задачи моделируются под описание среды работы. Это сокращает разрыв между инструкциями и действиями
✍️ обучение многоступенчатое: сначала агент генерит последовательности выполнимых действий, после добавляют другие методы в сочетании с RL

На бенчмарках перформанс LAM против GPT-4o и GPT-4o Mini даже на чисто текстовых инпутах имеет больший success rate. 71% решённых задач против 63% у GPT-4 👏

Изображение Microsoft

Душа Питона

07 Jan, 14:13


Self-Lengthen: учим модели генерить большие тексты

Фреймворк от Qwen решает противоречие между успехами в понимании больших объёмов и трудностями AI в том, чтобы самостоятельно их писать 🖥

Компоненты:
✍️ с помощью Generator создаётся набросок ответа на заданный инпут
Extender расширяет этот текст

Тренировка предполагает итеративное обучение обоих модулей, благодаря которому они начинают справляться с более сложными задачами 🤬

Проверяли на разных моделях, включая Qwen2, против существующих парадигм. По бенчмаркам MMLU, AlignBench и оценкам людей метод превзошёл аналоги. Self-Lengthen позволяет генерить тексты в 8 раз длиннее 😇 по сравнению с оригинальными моделями.

Полезно в контекстах, где важны длинные аутпуты: автоматизация отчётов и документации, генерация лонгридов 👨‍💻

Изображение Qwen Team, Alibaba Inc

Душа Питона

07 Jan, 05:11


Рождественское чудо: AI возвращают древние фрески ⭐️

Показываю, как наши исследователи используют нейросети для восстановления утраченных элементов фресок. Это шедевры собора Рождества Богородицы Ферапонтова монастыря, созданные мастером Дионисием Мудрым 🕯

Реставратором работает Stable Diffusion:
✔️ задача сложная, так как это единственная роспись художника, сохранившаяся с XVI века
✔️ система может воскресить даже то, что плохо поддаётся ретушированию — вроде фоновых цветов, узоров, фрагментов фигур святых, направления взгляда и положения рук
✔️ бывают ошибки — на фреске праматери Евы положение глаз сильно смещено

Оценить сложно, так как оригиналов нет 🤪 Для этого привлекаются специалисты-люди, но и AI тоже используют.

Выборку изображений того же автора с минимальными повреждениями отправляют в нейросеть Inception. Она распознаёт характерные черты стиля ❄️

Видео ИКИ РАН

Душа Питона

06 Jan, 14:22


Видели красавчика Clone Alpha? Кибернетический разум + искусственные мышцы и кости. Получаем самого гуманоидного робота из всех, кого запускали ранее 😍

Своё детище Clone Robotics cваяли с помощью технологии Clone Myofiber, причём эти миоволокна сокращаются быстрее, чем у человека.

Что интересного у Clone Alpha:
😐 использует GPU Jetson Thor от Nvidia
🔋 работает на воде и электричестве и самозаряжается
🤝 ходит-бродит, достаёт и приносит предметы, умеет пожимать руку
🚶‍♂️ запоминает маршруты по дому и где у вас что лежит
💬 разговаривает на естественном языке
😋 приготовит сэндвич, нальёт чайку, накроет на стол, постирает, пропылесосит

Ограниченной серией вышло 279 моделей, в наступившем 2025 обещали открыть продажу 📞

Вы бы взяли себе такого для помощи по хозяйству?
❤️ да, это просто робот мечты!
👍 хотелось бы, но по какой цене?
🤔 не уверен — с обычной микроволновкой мне как-то спокойнее

Душа Питона

06 Jan, 05:19


Сладенькое к празднику 🏠 Напекла пряничных домиков с помощью проверенных генераторов. Получилось вкусно!

Угощаемся и голосуем:
❤️ Leonardo
👍 FLUX
🔥 Kandinsky
💯 Zeno
👏 UltraPixel
🏆 Meissonic

Душа Питона

05 Jan, 14:17


Если кто-то планировал обновить интерьер в наступившем году, то есть хорошая новость 😉

Wildberries и Russ тестят AI для оценки того, насколько хорошо симпатичная вам мебель впишется в ваш дизайн 🏠

Что будет:
🔥 3D-визуализация шкафчиков, кресел и прочей красоты
🥸 интегрированный в платформу AR-режим
⛔️ работать всё будет на обычном смартфоне

В режиме дополненной реальности можно посмотреть, сочетаются ли цвета, как с размерами, подходит ли стиль. Первые продавцы уже грузят 3D-модели в личные кабинеты. Ждём! ☺️

Видео создано для канала Душа Питона с помощью Kandinsky Video 1.1

Душа Питона

05 Jan, 05:13


Какие виды знаний нужны моделям для рассуждений 😕

У LLM пока много пробелов по сравнению с людьми, их стратегии генерализации надо делать более надёжными.

Вот что поняли в Cohere о механизмах логики моделей:
😶 на математику влияют практические знания. У запросов на выполнение одинаковых шагов наблюдается высокий коэффициент корреляции в influence scores. Видимо, модели учатся некоторому набору стандартных операций (арифметические действия, вычисление угла наклона 🔤) из тренировочных датасетов

💯 для решения задач на рассуждение нужен более широкий, но менее волатильный спектр информации, чем при ответах на фактические вопросы. Для фактов нужны данные с деталями. Для рассуждений же используются процедурные знания, интегрированные в модель

❗️ модели не опираются в рассуждениях на правильные ответы, даже если они есть в промпте. Они ориентируются на уравнения и блоки с кодом

🤬 файлы с программированием особенно важны, так как модели инкорпорируют их в знания, чтобы подражать логике кода

Изображение Cohere

Душа Питона

04 Jan, 14:18


Больше половины опрошенных британских маркетологов использовали AI в качестве инструмента для разработки зимних праздничных кампаний 😱

Аналитики Optimizely провели исследование среди 100 специалистов по продвижению и вовлечению народа в сезонные акции 🎄

47% профессионалов сферы маркетинга привлекали AI к продумыванию стратегии продвижения, а 43% использовали инструменты для генерации персонализированного контента 👨‍💻

Душа Питона

04 Jan, 05:16


Уверена, что каникулы вы проводите с пользой и удовольствием. Вот вам в качестве идеи ещё одно приятное зимнее развлечение

Генерили разные нейронки:
❤️ Ideogram
👍 Leonardo
🔥 Kandinsky
💯 Flux
👏 SD

Российский, как всегда, лучше всех понял промпт про Снегурочку 👐

Голосуем и скорее на лёд! 💎

Душа Питона

03 Jan, 14:38


Печеньки, шоколадки и нейросети 👋❄️

Доедаете праздничные десерты? Тогда эта новость для вас 😁 В ближайшем будущем снеки станут вкуснее благодаря AI.

Популярный производитель сладкой продукции и всяческих перекусов Mondelez уже использует такие инструменты:
🍬 для генерации рецептов закусок
🥛 для оптимизации вкусовых качеств
👨‍💻 для сокращения объёма лабораторной работы

Что обрабатывает AI:
❤️ характеристики вкуса: “маслянистый”, “солоноватый”, “насыщенный ванильный”
☕️ аромат: “яичный”, “печёный” и другие
😊 внешний вид: ”количество стружки", ”округлость“, "края”
☕️ питательные свойства
💲 стоимость ингредиентов
👍 их экологичность

Компании применяют AI и в других областях — например, в продвижении продукции. Но никакой маркетинг не поможет, если потребителю не понравится какой-нибудь крекер 🥶

Изображение создано для канала Душа Питона с помощью Kandinsky 3.1

Душа Питона

03 Jan, 05:36


Насколько полезны данные, сгенерированные без участия человека 🔡🔡

Ныряем в imitation learning 📥 При IL модели или роботы учатся, имитируя и анализируя действия людей.

Как оценивали эффективность IL?
🧳 на 7 заданиях (реальных и симулированных), в которых эффекты внешней среды сведены к минимуму. Например, складывание одежды или закручивание шурупа
👌 провели больше 10 000 real-world evaluations и на полученных 100+ часах обучили IL-алгоритмы

Стало ясно, что, вопреки устоявшемуся представлению, скейлинг IL-фреймворков на автономных данных до реальных задач очень сложен 🫠 Сбор даже небольшого числа демонстраций от людей более эффективен. Прирост качества от autonomous IL не превышал 10% при очень больших затратах.

Наивно было думать, что в обучении моделей всё можно заменить синтетическими данными. Не будем мы жить в мире, где модели обучаются на своих данных. Снова приходим к необходимости баланса датасетов и тренировочных стратегий 👩‍💻

Душа Питона

02 Jan, 14:16


Как AI помогает в праздники 👌

Новый год встретили, но впереди ещё масса поводов, которые можно отметить 🔔 Есть соображения на тему, как разработки последнего поколения изменят наши праздники уже в этом году 👣

Эксперты делают ставки на AI-агентов, которые смогут действовать от вашего имени в реальном мире. Например отвечать за полный цикл подбора подарков — от поиска до доставки 🎁  Или рассылать приглашения и поздравления друзьям, ориентируясь на ваши соцсети 🌲

В чём минусы:
💳 финансовое недоверие. Пока мало тех, кто готов привлечь AI-ассистента к покупкам, доверив ему данные своей кредитки
💖 агенты должны понимать контекст, поскольку взаимодействие с людьми — дело сугубо личное. Как, например, поручить нейронке выбор подарка маме или жене, если вы и сами порой не угадываете? Но вам простят, а AI — не факт 🤬

Интересно посмотреть, какой будет ситуация к следующему Новому году 😳

Изображение создано для канала Душа Питона с помощью Kandinsky 3.1

Душа Питона

02 Jan, 05:12


Образование с AI в 2025 году 🌲

Эксперты уже анализируют интересные тенденции развития AI в наступившем году 👩‍💻

Вот какие тренды, к примеру, обещают в образовании: 🤓
🎓 революцию в персонализированном обучении
🤝 индивидуальные траектории обучения, учитывающие потребности учащихся
👏 новые методы поддержки учеников преподавателями

Что стоит учесть самим педагогам и руководителям образовательных учреждений:
🤔 необходимо разбираться с интеграцией AI в рабочие процессы
🙄 учащимся нужно помогать адаптироваться к изменениям
🚶 применять AI следует с учётом человеческого фактора

И, конечно, не упускать из внимания этические аспекты вроде конфиденциальности и предвзятости 😏

Душа Питона

01 Jan, 15:08


Новые цифры от наших старых знакомых нейронок!
2️⃣0️⃣2️⃣5️⃣

Стиль и фантазия — от AI, я лишь попросила написать нумерацию в новогоднем антураже 🤭💡👋

Стартуем вместе в 2025 и голосуем:
❤️ Zeno
👍 FLUX
🔥 Leonardo
💯 Ideogram

Душа Питона

01 Jan, 07:11


🎉 С НОВЫМ ГОДОМ, ДРУЗЬЯ! 🎉

Пусть первый день наступившего года станет началом замечательного пути, полного интересных открытий, ярких идей и успешных начинаний!  🍭 Я рада снова приветствовать вас и надеюсь, что 2025 подарит моделям ещё больше скиллов, а нам — возможностей для изучения AI и саморазвития 🎄

Спасибо, что остаётесь со мной! Желаю здоровья, счастья и множества поводов для радости в этом году ❤️ Пусть ваши мечты сбываются, а каждый день приносит новые знания! ❄️

С наилучшими пожеланиями, ваша Душа Питона 🍾

Изображение создано для канала Душа Питона с помощью Kandinsky 3.1

Душа Питона

31 Dec, 13:54


Дорогие подписчики! 🔴

От всей Души поздравляю вас с наступающим Новым годом! 🎄

Пусть этот праздник принесёт вам радость, тепло, возможности для роста и развития 🔔 В уходящем году мы вместе исследовали удивительный мир AI, узнали много нового и любопытного. Спасибо за вашу поддержку и интерес к каналу! 👼

Желаю вам в Новом году вдохновения, успехов во всех начинаниях и находок в мире технологий 🧑‍💻 Пусть ваш путь будет полон захватывающих проектов и достижений! 🥂

Видео создано для канала Душа Питона с помощью Kandinsky Video 1.1

Душа Питона

31 Dec, 04:51


Отмечаем праздник вместе с AI!

За прошедший год он многому научился, а в будущем наверняка устроит нам ещё более впечатляющее шоу! 🎉

Не изменяем традициям и лайкаем всё, что понравилось:

❤️ Kling
👍 Kandinsky
🔥 MiniMax
💯 Vidu
👏 Hotshot

Душа Питона

28 Dec, 14:43


Путь к суперинтеллекту и будущее AI: кто прав в споре о технологиях? 🧤

Закруглить рабочий день год предлагаю знакомством с рассуждениями Сэма Альтмана из недавнего подкаста с его участием.

О чём говорил:
⭐️ о росте популярности AI, в том числе о миллиарде ежедневных запросов через ChatGPT
❄️ о политических и культурных аспектах AI: вопросы контроля, регулирования и злоупотребления технологиями
🔴 о том, почему его пути с Маском разошлись, хотя изначально они основали OpenAI вместе
👨‍💻 пиарил поиск в ChatGPT, который позволил ему лично отказаться от Google

Здесь можно полностью всё посмотреть 🧐

Душа Питона

28 Dec, 10:30


Когда AI-системы обретут сознание (и независимость 🔍)

На фоне постоянных разговоров об AGI авторы из Оксфорда, Стэнфорда, LSE и NYU рассуждают о возможных этических последствиях появления у роботов и моделей субъектности 📎 А также достижения ими уровня развития, при котором они смогут считаться независимыми моральными агентами.

Вот аспекты, которые кажутся достижимыми в ближайшем будущем:
🆓 сознание и агентность моделей для выполнения независимых действий
👨‍🎓 выделяют фреймворки и критерии, по которым можно понять ранние предпосылки зарождающихся способностей (attention schema theory, global workspace theory и другие подходы)

Есть и практические рекомендации для разрабов и policy makers 🫡

Например, допускать возможность появления моделей с независимым сознанием. Начать предлагают с малого — разработать инструменты для оценки и утвердить порядок действий на всякий случай 🤓

Видео создано для канала Душа Питона с помощью Kandinsky Video 1.1

Душа Питона

28 Dec, 05:10


Столько наших соотечественников приобщилось к AI за последний год 👍 Опрос проводил ВЦИОМ. Предпочтения россиян распределились примерно поровну между голосовыми помощниками 🤓 и текстовыми запросами в чат-боты (по 31%).

Ещё из интересного:
🙄 самые продвинутые — зумеры и миллениалы
😑 люди постарше подтягиваются: 42% и 23% в поколениях эпох застоя и оттепели

Подробности тут.

Душа Питона

27 Dec, 14:50


AI в экономике 🪙

Как бороться с экономическими проблемами с помощью моделей?

Можно разрабатывать новые подходы к анализу данных, оптимизации процессов и принятию решений. Нейросети мониторят рынок, собирают информацию для продуктивных маркетинговых стратегий и даже моделируют различные сценарии развития экономики 🐂

Новый инструмент российских разработчиков, например, прогнозирует цены на продукты в динамике — на месяц, квартал и год 🛒

Как модель обучали её создатели — учёные СКФУ:
👛 по скриптам автоматом собрали датасет
🔋 вручную разметили по трём параметрам: влияние на инфляцию, тональность и степень влияния

Точность прогнозов AI-аналитика оказалась внушительной — 93% 🧮

Душа Питона

27 Dec, 11:45


🥶 BrainBits: как модели восстанавливают текстовые и визуальные стимулы по записям мозговой активности

Предполагалось, что успехи в этой области связаны с улучшенным пониманием моделями работы мозга или более эффективным извлечением сигналов из нейронных записей. Но гораздо важнее оказались их внутренние характеристики 🤔

В новой работе захотели оценить, какая часть перформанса объясняется качеством данных о нейронах 🧐

Как проверяли и что выяснили?
💪 взяли три специализированных SOTA-модели
📈 проверяли, как сжатие вектора с данными о сигналах мозга до меньшей размерности влияет на качество реконструкций
😶 даже существенные ограничения в качестве нейронной информации не повлияли на финальный результат

Почему это важно? Мы впервые получили возможность оценить доменный перформанс моделей на специализированном бенчмарке. А оценки заставляют пересмотреть подходы к обучению, уделяя больше внимания самому алгоритму, а не обучающему датасету 🕯

Изображение MIT, Google DeepMind

Душа Питона

27 Dec, 04:50


5 тенденций GenAI в кибербезопасности 💪

Спецы CrowdStrike провели опрос более 1 000 мировых экспертов по ИБ.

Вот их главные заключения по внедрению GenAI и его последствиях:

👨‍💻 интегрированные платформы лучше отдельных инструментов. Так посчитали 80% респондентов. GenAI должен работать в рамках технологической экосистемы

🛡 инструменты должны разрабатываться специально под кибер- и инфобезопасность. 83% опрошенных не доверяют AI с непродуманными рекомендациями по реагированию на инциденты и анализу угроз

🤝 GenAI оптимизирует работу аналитиков, а не заменит человеческий труд

🤑 внедрение обеспечит быстрые результаты благодаря экономии средств за счёт меньшего числа инцидентов по безопасности. Ожидаемый рост рентабельности инвестиций по этому фактору — 30%

🫡 респонденты считают контроль конфиденциальности наиболее желаемой функцией GenAI. Риски — передача закрытых данных в LLM и враждебные атаки на инструменты

Душа Питона

26 Dec, 14:23


Granite 3.1: рабочие процессы, которым можно доверять 👐

IBM не желают ждать. Вслед за 3.0 успели в этом году и с ещё одним апгрейдом модели для корпоративных задач.

И тут кого только нет: 😕
⚡️ флагманская Granite 3.1 8B Instruct бьёт конкурентов в академических тестах на OpenLLM Leaderboard
⚡️ гвардейцы Granite Guardian 3.1 8B и 2B следят за агентами на предмет галлюцинаций
⚡️ Granite Embedding в четырёх размерах (2 на 12 языках)

Всё открытое, контекст до 128K 🔤

Душа Питона

26 Dec, 11:12


Чем пахнут трансформеры 🌷

Обоняние в ML исследуют редко, хотя остальным органам чувств уделено уже достаточно внимания.

Шведские спецы оценили соотношение извлечённых из трансформеров репрезентаций пахучих химических структур, с тем, как воспринимают их запахи люди.

Исследование проводили так:
работали с моделью MoLFormer. Это трансформер, обученный на больших датасетах с химическими структурами
🌷 решали три задачи по предсказанию: маркеров, ассоциированных с ароматами; дескрипторов; схожести запахов по мнению людей

Результаты:
👨‍💻 внутренние репрезентации хорошо инференсят схожесть даже для незнакомых запахов
🛍 хуже с угадыванием маркеров. Open-POM MoLFormer уступила и в оценке дескрипторов, хоть и с небольшим отрывом
🪞 на глубоких слоях alignment между репрезентациями и восприятием людей увеличивался. Это предполагает иерархическую структуру обучения для таких моделей

Душа Питона

26 Dec, 04:50


💃 Kling против MiniMax: развиваем идею виртуальных примерок

В прошлый раз всё потестить не успела, поскольку в гардеробной у Kling, конечно, не так всё просто. Переодеть картинку в картинку и на этом успокоиться не получится. Репутацию крутого видеогенератора надо подтверждать ☝️

Есть тут опция bring to life, перейдя в которую можно анимировать модель (см. первую генерацию). К изображению Kling автоматом добавляет незамысловатый промпт. Получилось неплохо, но around нейронка зажала. Непорядок!

Зато у нас есть прекрасный MiniMax, в котором огонёчком светится фича I2V-01-live. Та же картинка, тот же промпт (см. вторую генерацию). Ну вот, теперь всё отлично!

И вишенка на торте цветочек на шляпке 🌸 Чтобы оправдать разницу между платьем и аксессуаром. Одно слово — стилист!

Кому отдаём голоса?
❤️ Kling
👍 MiniMax
🔥 оба справились

Душа Питона

25 Dec, 14:47


У Pika 2.0 на днях была акция — несколько дней можно было генерить ролики бесплатно 😌

Правда, на создание одного видео около суток и уходило ☹️ Так что получилось нарисовать всего-то парочку. Делюсь!

Голосуем за зимние забавы:
❤️ детишки играют в снежки
👍 горные лыжи

Душа Питона

25 Dec, 10:44


MoICL: контекст во всех подробностях 🧑‍💻

Изучаем фреймворк Университета Эдинбурга и Miniml.AI для улучшения способностей к in-context learning у LLM.

Как идёт процесс:
💥 MoICL разбивает обучающие демонстрации на группы “экспертов”, присваивая каждой отдельные веса
🤝 каждая группа вносит пропорциональный вклад в предсказание следующего токена для большей гранулярности, чем при использовании демонстраций как единого целого
🤩 у подхода особенно хорошие результаты на OOD и несбалансированных данных. Шумные демонстрации MoICL обрабатывает в среднем на 38% точнее традиционных ICL-алгоритмов
селекция сокращает время и на инференс

Изображение University of Edinburgh, Miniml.AI

Душа Питона

25 Dec, 04:59


Whisk: больше никаких промптов 🥳

Неужели? Google Labs называют новый генератор экспериментом. С учётом того, как порой надоедает объяснять нейросетке, что тебе от неё нужно 🤬, он может оказаться успешным.

Сейчас это по сути смешивание, но кто знает, что будет дальше. Разработчики решили избавить творцов картинок от необходимости напрягать языковые скиллы 🤦‍♂️

Как работает:
🚩 4 кнопки: start from scratch, pick your subject, pick your scene, pick your style. Для генерации используются картинки с предметом, антуражем и стилем
🚩 можно редачить, поскольку без промпта вам нарисуется то, что нарисуется 😝
🚩 творят всё это Gemini, создающая описания изображений (промпты всё же есть, получается 😉), и Imagen 3.

Доступен генератор пока только в Штатах 🥺

Душа Питона

24 Dec, 14:51


🆕 От подписки к доступу: GitHub меняет правила игры с Copilot

На хабе выкатили бесплатную версию AI-кодера 💳

Что есть:
📥 интеграция с VS Code
✏️ 2 000 автопродлений кода в месяц
😓 только с моделями Claude 3.5 Sonnet и GPT-4o
🔤 50 сообщений в Copilot Chat
🧸 все расширения и навыки Copilot

Также халява доступна в Visual Studio и JetBrains 🫶

Душа Питона

24 Dec, 11:31


FeatEng: могут ли модели создавать самих себя? 🤨

Польские учёные разработали бенчмарк, оценивающий LLM на годность к работе датасайнтистов.

Ориентировались на четыре компонента:
🏋️‍♀️ Practical usability — задания, отражающие реальные проблемы разработчиков
😶 World knowledge application — эффективность использования знаний о внешнем мире
🤜 Complex skill integration — применение сразу нескольких скиллов (генерация кода, интерпретация данных и прочие)
📊 Resistance to Exploitation — улучшение перформанса за счёт совершенствования архитектуры, а не простого запоминания заданий

Тестировали на современных LLM. Лучшими оказались o1 и Gemini. Но опенсорс-модели (от DeepSeek и Mistral) тоже показали сравнительно высокие результаты на feature engineering задачах 👍

Изображение Snowflake AI Research, Polish Academy of Sciences

Душа Питона

24 Dec, 04:50


Разрабы приложений, смотрите, что принесла!

Вот так работает свеженькая ОС Android XR SDK. Создали её для гарнитур расширенной реальности (XR). Можно пилить инструменты, сочетающие цифровой и физический миры 🔍

Как это на практике:
💎 хватит традиционных экранов — оформляем всё с 3D-элементами, пространственными панелями и звуком. Глубина, масштаб, реализм 💯
пользователь попадает в виртуальное пространство, с которым можно контактировать в любое время
👐 мультимодальное взаимодействие вполне естественное: руки, глаза

Есть Jetpack XR SDK, 3D-движок Unity и WebXR. На Android XR будет и Play Store, так что велкам 👋

Душа Питона

23 Dec, 14:47


Теория методов AI 🤓

Как модели учатся, работают, принимают решения? Без теории в технологиях как без рук. Первые шаги в этом направлении сделали ещё Ньютон и Гаусс, а гостям AIJ 2024 о фундаментальных аспектах рассказывали на научном треке.

Оценить эффективность модели сложно, ведь она учится на огромном объёме данных 🎓 С ростом их количества увеличивается и число параметров. Чем сложнее данные и больше параметров, тем меньше уверенности в качестве результатов AI 🧐

Как это решается:
в основе нейросеток лежит нелинейная регрессия, которую использовал Гаусс
🔽 стандартная теория требует, чтобы число параметров (P) было меньше количества данных (N), но в реальности это невозможно. Для упрощения структуры модели исключают несущественные параметры. Оптимальный размер задачи при меньшем объёме выборки данных даёт понятие эффективной размерности
снижаем сложность модели с помощью функций штрафов. Их использование позволяет избежать ситуации, когда количество параметров выше числа данных. Модель старается минимизировать ошибки и стремится к балансу точности и сложности

Всё это можно увидеть на примере построения структуры сети с акцентом на важность скрытого уровня первого узла. Эффективное измерение задачи удаётся контролировать даже при большом количестве узлов ✔️

Но правильная регуляризация и критическая размерность остаются значимыми. Плюс есть и нерешённые проблемы — недостаточная интерпретируемость, гибкость и плавность моделей.

Эти задачи ещё впереди 🔜

Изображение создано для канала Душа Питона с помощью Kandinsky 3.1

Душа Питона

23 Dec, 10:15


☄️ OpenAI тизернули новые o3 и o3-mini

Где же o2, спросите вы. Пришлось пропустить ход, так как O2 — это название телекоммуникационной компании.

Ну и ладно. Тем более, что “трёшка”, по обещаниям, действительно крута:
🖥 превосходит o1 в тестах кодинга (SWE-Bench Verified) на 22,8 %
почти справилась с AIME 2024 и набрала 87,7 % в GPQA Diamond
решила 25,2 % задач по математике и логическому мышлению

Публичный запуск не назначен, но можно подать заявку на тестирование ✍️

Душа Питона

23 Dec, 05:08


Интересные изменения в генераторе картинок Shakker.ai, решила ввести вас в курс дела 🤓

Ранее там было море моделей в ассортименте, вроде SD, FLUX и других популярных. С удивлением обнаружила, что лавочку прикрыли 🤔 Работает всего одна модель Zeno-1. Сначала расстроилась, а потом почитала подробнее.

Оказалось, что модели доступны и сейчас, но теперь они стилизуют изображение. Самое крутое, что их можно смешивать 🤝 Экспериментируй в своё удовольствие!

Делюсь новогодними шарами, которые я “намешала” 😉 Первый, к примеру, из Fantasy Art, Minecraft Game и Western Cowboy Poster. Обратите внимание на квадратное солнце во втором шарике — это точно привет от Minecraft 🤣

Советую потестить уже своими силами. Тем более, что сама по себе Zeno в целом неплохая 👍

Душа Питона

22 Dec, 13:58


Весёлые разработчики Pika 2.0 теперь развлекаются с новой версией своего видеогенератора 🥳

Тут несколько крутых фич:
😓 Scene Ingredients для генерации деталей. Можно интегрировать в ролик своих персонажей, объекты или фон
✍️ Text Alignment для безупречного воплощения в визуал ваших самых безумных и сложных промптов

Доступна доработка.

Попробовать получится, правда, только у пользователей тарифных планов Pro и Fancy. От $35 до $95 в месяц 😔

Душа Питона

22 Dec, 04:52


DeepSeek-VL2: два апгрейда, три модели

Декабрь — пора праздничных подарков 🔥 DeepSeek AI обновили визуально-языковую линейку.

Архитектура осталась той же — Mixture-of-Experts (MoE).

Но есть два новшества:
1️⃣ динамическое кодирование изображений с высоким разрешением в визуальном компоненте
2️⃣ механизм скрытого внимания для сжатия кэша в языковом компоненте

Ещё по релизу:
🔴 три модификации: DeepSeek-VL2-Tiny, DeepSeek-VL2-Small и DeepSeek-VL2 на 1.0B, 2.8B и 4.5B параметров соответственно
🔴 улучшенный vision-language датасет
🔴 ответы на вопросы по визуалу, оптическое распознавание символов, понимание документов/таблиц/диаграмм 📊
🔴 эффективный вывод и высокая пропускная способность

Коды и предобученные модели в опенсорсе 👎

Изображение DeepSeek AI

Душа Питона

29 Nov, 14:42


BrainBench: модели vs учёные 🤜

Кто скорее вычислит псевдонаучную работу или исследование с неверными результатами? Спойлер: модели.

Экспериментировали с исследованиями в области неврологии.

Как учили и проверяли:
😔 LLM прошли обширную подготовку по научной литературе, в том числе и по целевому домену. С помощью BrainBench оценивали, усвоили ли модели фундаментальную структуру научных методов и выводов, на которых основана нейронаука
🤓 для тестов предоставлялись две версии научной статьи. Задача была в том, чтобы предсказать результат, выбирая между оригинальным исследованием и изменённым. При этом в переделке сохранялись общая согласованность и научная логика

Так вот оказалось, что любая модель в точности прогнозов превосходит экспертов–людей 😮 В среднем 81,4% против 63,4%. Тянет на прорыв. И точно облегчит отсев "мусорных" и фейковых статей 🤪

Изображение University College London

Душа Питона

29 Nov, 11:40


FasterCache: каким должно быть кэширование, чтобы ускорить инференс видео

Китайцы предлагают стратегию обучения диффузионных генераторов видео без потери в качестве 🧑‍🎓

В чём суть:
👀 динамическое переиспользование features решает проблему автоматического применения соседних признаков в слоях внимания. Поддерживая вариативность в длине, модель не теряет внимание к деталям, сохраняя различия в features
🙅‍♂️ оптимизация кэша (Classifier-free Guidance) показывает, что conditional и unconditional features одного слоя содержат много лишнего и повторы. А также динамически определяет, в каких пропорциях лучше оставлять результаты работы на каждом слое

Vchitect-2.0, например, ускорилась в 1,67 раза, а качество осталось на уровне оригинала. Топовый перформанс среди актуальных фреймворков в этой области.

Дополнительно модель тестировалась и на Open-Sora 1.2, Open-Sora-Plan, Latte, CogVideoX. Эффективно справляется с разными архитектурами и форматами видео 🔋

Душа Питона

29 Nov, 05:01


5 крутых русскоязычных бенчмарков

А не вернуться ли нам к уже начатой теме? Наших инструментов ведь немало, а были упомянуты далеко не все.

⚙️ ruMT-Bench, к примеру. Тестит по 8 областям (генерация текстов, логика, математика, программирование и прочие). Оценивает тут GPT-4 на основе среднего значения.

⚙️ Один из первопроходцев Russian SuperGLUE с полным тестом по русскому языку для оценки логики, здравого смысла, рассуждений 🤓

⚙️ ruIFEval. Адаптация подхода IFEval, тестирующего скилл моделей следовать инструкциям на естественном языке.

⚙️ BABILong проверит модельку на поиск фактов в длинной простыне текста. Угадали, база здесь — знаменитый тест Needle In A Haystack, требующий найти в контексте (стог сена) спрятанный факт (иголку) 🧐

⚙️ Для русскоязычных эмбеддеров ruMTEB. 7 областей (например, семантическое сходство текста, классификация, повторное ранжирование, поиск). Всё, что решается с помощью эмбеддингов.

Душа Питона

28 Nov, 14:55


Такое количество негативных комментариев 🥶 осилила ML-модель, которую внедрили в “Одноклассниках” (бедная 🥹). Всё для того, чтобы научиться их обнаруживать и выставлять ограничения для хейта.

Помнится, что-то похожее запускали уже во “ВКонтакте”, а в ОК с прошлого года AI не пропускает ненормативную лексику и даже просто нежелательное общение (не знакомлюсь ).

Уважение входит в чат 🫶 Ну и ускоряет ручную обработку такого флуда.

Душа Питона

28 Nov, 11:04


Крутой хет-трик от Килиана Мбаппе, и мяч летит прямо тебе в руки! 💥

AI уже комментирует соревнования и помогает судьям, роботы играют сами, а теперь вот VR-технологии будут показывать матчи “Реал Мадрид” в очках и прямом эфире 😎

Легендарный клуб на пару с Apple планируют такой проект для фанов. Назвали "Infinite Santiago Bernabeu”, подразумевая родной стадион “Реала” в столице.

У руководства клуба есть и практическая цель — бороться со спекуляцией на билетах (а заодно и попытаться заработать лишнюю копеечку 😵‍💫).

А вам как? Хотите реальный VR-футбол в свои гаджеты?
❤️ звучит захватывающе!
👍 подожду отзывов
🔥 если качество будет на высоте, то почему нет
💯 не фанат

Душа Питона

28 Nov, 04:35


Как LLM помогают объяснять паттерны активации нейронов 🤓

Рассказали исследователи Eleuther AI и Северо-Западного университета.

Нейросети не так просты, как хотелось бы 🤔 Нейроны активируются в разных контекстах, с интерпретацией сценариев приходится повозиться. Спасают автоэнкодеры SAE, трансформирующие паттерны в многомерные латентные пространства. Но при большом числе параметров вручную описать каждую функцию невозможно 👨‍💻 Вот и предложили создавать объяснения с помощью LLM.

Фреймворк:
1️⃣ генерит интерпретации для SAE features на естественном языке
2️⃣ совместим с разными архитектурами и способами обучения

Метрика Intervention scoring:
🥸 оценивает интерпретируемость изменений feature и связанных с этим эффектов
🤝 используется совместно с другими инструментами

Генерация описаний автоматизируется, интерпретируемость SAE features растёт, работа всей сети становится понятнее. Плюс SAE features оказываются схожими на соседних слоях 🕯

Изображение EleutherAI, Northwestern University

Душа Питона

27 Nov, 14:57


Fugatto: всё, что слышится 🎶

Nvidia всё-таки Nvidia. Взяли и придумали модель, имитирующую и комбинирующую звучание разного характера: музыку, шумы, голоса. Любое сочетание на входе (текст и аудио) и на выходе.

А также:
🎸 удаление или добавление инструментов из трека
😠 замена акцента и эмоций в голосе
🫣 в меру фантазии генерация того, чего нет в природе
⚡️ временнАя интерполяция (нарастающий гром, например)
🎶 плавный переход от звука к звуку

Объединяет всё это техника ComposableART. Про доступ ни слова, так что пока слушаем тут.

Душа Питона

27 Nov, 10:46


Unbounded: AI генерит игру без границ

Можно бесконечно смотреть на огонь, воду и на то, как другие играют 🧑‍💻 Тут Google и Университет Северной Каролины в Чапел-Хилле попытались создать тайтл, который не заканчивается.

Как было дело:

🚗 интегрировали в процесс LLM, которая генерит игровую механику, нарративы и взаимодействие персонажей в реальном времени. Чтобы достичь необходимой скорости создания, дистиллировали бОльшую модель в меньшую
🤡 IP-Адаптер отвечает за динамическую генерацию изображений

Лучше, чем традиционные методы. Как в визуальной составляющей, так и по сюжету. Производительность на уровне GPT-4o 👍

Видео Google, University of North Carolina

Душа Питона

27 Nov, 04:53


Разработку с таким количеством параметров задумали в Near Protocol. Это будет самая объёмная модель в опенсорсе 🫢 Сейчас первое место у LLaMA*, но размер новинки превышает её сразу в 3,5 раза!

Ещё интереснее то, что работать над ней будут всем миром. Точнее, сообществом AI Research hub, участники которого уже приступили к первому шагу — обучению первой тренировочной модели в 500 млн параметров 🧑‍🎓

* продукт экстремистской организации, деятельность которой запрещена на территории РФ

Душа Питона

26 Nov, 14:49


Как стать первым в сфере AI, разбогатеть и избежать рисков?

Ответы — в новом дайджесте!

🔖 OpenAI сочинили новую методологию red teaming для безопасности AI. Выпустили два документа: white paper и исследование.

🔖 Кстати о безопасности. Эпопея с сомнительной функцией Recall продолжается. Microsoft наконец снова её запустили, но народ всё ещё хмыкает — можно ли доверить AI скриншотить свой комп 😦

🔖 Anthropic меняет шило на мыло чипы Nvidia на продукт Amazon Trainium2. Это вызов! 🤜

🔖 Благодаря AI капитал Илона Маска теперь составляет немыслимые $348 млрд (это исторический максимум 👑). А стоимость xAI уже $50 млрд 👛

🔖 Ищем мирового лидера в AI-индустрии с помощью Stanford University index. Критерии — разработки, инвестиции, инновации и прочее. Борьба в основном идёт между Штатами и Китаем (не сюрприз 😎)

Душа Питона

26 Nov, 11:47


BLIP-3-Video: коротко и по делу 🔤

Отвечаю на вопрос о визуальных токенах (опрос см. выше ⬆️). Правильный вариант — они содержат информацию по смыслу визуала и нужны в том числе для описания картинок и видео. Так, мультимодальной модели от Salesforce AI хватает всего 32 таких токена, чтобы представить целый ролик. А SOTA-моделям (Video-LLaVA, Tarsier) их надо как минимум пару тысяч 🫣

Секрет — внедрение “темпорального энкодера” в визуальный токенайзер.

BLIP-3-Video (она же XGen-MM-Vid) построена на архитектуре BLIP-3:

*️⃣ визуальный энкодер для обработки отдельных фреймов
*️⃣ токенайзер на уровне фреймов
*️⃣ темпоральный энкодер для объединения frame-level токенов в компактное множество video-level токенов
*️⃣ Phi-3 для генерации текста на основе видео

Крутые результаты на бенчмарках MSVD-QA и NExT-QA (вопросы по видео) при использовании от 16 до 32 токенов 🏝

Видео Salesforce AI

Душа Питона

26 Nov, 04:51


FALCON: AI побеждает турбулентность ✈️

Учёные разработали систему для моделирования и контроля аэродинамических сил. Инструмент умеет прогнозировать возникновение известной тряски самолёта, а данные ему нужны всего лишь за 9 минут 😮

Даже по названию Fourier Adaptive Learning and Control уже понятно, что здесь используется анализ Фурье. С его помощью AI разбирается в движении воздуха, чтобы предсказать воздействие турбулентности на летательный аппарат.

Для адаптации и корректировки полёта в реальном времени применили обучение с подкреплением.

Душа Питона

25 Nov, 14:38


Вау! Смотрите, как круто AI может помочь реконструировать арт-объекты. Были черепки — появился объёмный образ 🗿 Тут 3D-сканирование, оцифровка и даже Kandinsky поработал.

С помощью AI-технологий воссоздавали не только археологические находки, но и шедевры искусства. Есть, к примеру, знаменитый “Колодец пророков” Слютера, ради которого специально можно теперь и не ехать вглубь Франции 🆒

Всё это можно увидеть на выставке “От слепка до пикселя. Искусство через призму данных” в Пушкинском музее (совместный проект со Сбером). Надо идти! 🚶

Видео ГМИИ им. А.С. Пушкина, Сбер

Душа Питона

25 Nov, 10:27


🆕 Gauss2: новейшая, мультимодальная, открытая

Корейский AI от Samsung во втором поколении представили на конфе SDC24.

Что обещают по модели в релизе:

три модификации: Compact, Balanced, Supreme
от 9 до 14 естественных языков плюс программирование (собственная разработка code.i)
своя технология обучения и токенизатор
Balanced и Supreme в производительности по ключевым показателям (ответы на английском и корейском, кодинг) догнали и перегнали доступных топов из опенсорса
также по скорости реакции эти вариации модели в 1,5-3 раза быстрее конкурентов

Малогабаритка Compact заточена под ограниченные вычислительные среды, Balanced для разных задач, Supreme на основе MoE — суперрезультативная при минимуме вычислений 🏆

Изображение Samsung

Душа Питона

25 Nov, 04:38


В такое количество раз быстрее модель, обученная с помощью подхода sCM, может генерить видео Способ предлагают OpenAI. Самая крупная модель разработчика с 1,5 млрд параметров создаёт ролик всего за 0,11 с. Причём на одном GPU A100 без оптимизации инференса.

А фокус в том, что нейросеть отбирает образцы для обработки всего в два этапа. Диффузионки тратят на создание выборки от десятков до сотен последовательных шагов 🚶

Душа Питона

24 Nov, 13:59


Dr. Robot: как правильно использовать визуальные модели в роботах 🦾

Метод учёных Стэнфорда и Колумбийского университета объединяет visual foundation models и элементы управления.

Как исследователи пытаются закрыть modality gap (разницу в feature representations)? Differentiable rendering model соединяет визуал на уровне пикселей с параметрами действий. Градиенты изображения вычисляются с учётом 3D-параметров сцены.

Вот компоненты:

🗿 Gaussian splatting для моделирования геометрии и текстуры робота в канонической позе
💃 Implicit linear blend skinning улучшает проекцию 3D Gaussians на различные положения
🗽 Pose-Conditioned Appearance Deformation генерит изменения в зависимости от поз

Тестировали в различных сеттингах. В реконструкциях поз из видео превзошёл SOTA. Какие широкие и неизведанные просторы новых модальностей! Например, text-to-robot-pose или text-to-action-sequences 🙂

Видео Columbia University

Душа Питона

24 Nov, 05:13


Model Depot: 100 SLM для ПК

Сразу целая коллекция опенсорсных инструментов для end-to-end девелопмента с AI

➡️ модели собрали LLMWare.ai
➡️ могут применяться для разных задач: работать как чат-боты, программисты и математики
➡️ оптимизированы для ПК на базе Intel в форматах OpenVINO и ONNX
➡️ поддерживаются популярные SLM (Phi-3, Mistral, Yi, Qwen)
➡️ можно использовать с библиотекой LLMWare

Подробности тут.

Душа Питона

23 Nov, 14:25


Animate-X: как танцуют животные 🕺

И чем их грамотно нарисовать. Изучаем фреймворк от Ant и Alibaba.

Генерят тут латентные диффузионные модели для анимации картинок. Справляются не только с братьями нашими меньшими, но и с антропоморфными фигурами. Главный фокус — на создании видео из таргет-изображения и последовательности поз.

Внутри:
💪 Pose indicator, использующий CLIP visual features, чтобы запечатлеть общие паттерны и темпоральные отношения в последовательности поз
👊 3D UNet с энкодерами CLIP и VAE для устойчивой генерализации и согласованности движений

Animate-X обошёл SOTA-методы на бенчмарке A^2 (Animated anthropomorphic benchmark) с 500 персонажами и соответствующими видео с танцами.

Душа Питона

20 Nov, 14:49


🆕 Pixtral Large: Mistral AI “вырастили” свою мультимодальную модель

Коротко о главном:
📈 делали на базе Mistral Large 2, от которой модель получила крутейшие возможности понимать картинки с текстами высокой сложности (вроде документов и диаграмм)
🖥 контекст 128K (от 30 изображений в высоком разрешении)
👑 декодер 123B, визуальный энкодер 1B
открытые веса

Новый лидер на MathVista с результатом 69,4%, на ChartQA и DocVQA лучше GPT-4o и Gemini-1.5 Pro 🔝

Качаем тут ⬇️

Изображение Mistral AI

Душа Питона

20 Nov, 10:26


✔️ Ещё 6+ AI-инструментов для кодеров

Добавлю в копилочку новые фичи и помощников.

1️⃣ AI-ассистент на популярной IntelliJ IDEA от JetBrains вдобавок к моделям OpenAI использует Gemini. Есть расширенное завершение и форматирование кода, и даже с учётом контекста 😓

2️⃣ С помощью Forge Reasoning API от Nous Research интерпретатор кода встраивается в любую LLM. В частности, здесь применяется CoC (Chain of Code).

3️⃣ Мультимодельный Copilot на GitHub, в котором можно выбрать GPT-4, GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, o1-preview и o1-mini. В Copilot Workspace — проверка и доработка правок по коду, в VS Code — коррекция сразу нескольких файлов при итерациях и быстрое ревью 📞

4️⃣ Qiskit Code Assistant от IBM предназначен для оптимизации квантового программирования. Интегрируется с Visual Studio Code и JupyterLab.

5️⃣ Статистический анализатор SASTAV AI проверяет нескомпилированный код и устраняет мелкие уязвимости при помощи каскадной валидации дефектов 🆘

6️⃣ Вспомним и недавно вышедшие модельки Qwen2.5-Coder от Alibaba (6 модификаций в опенсорсе) и MiaoDa от Baidu, подходящую и для тех, кто без опыта.

Душа Питона

19 Nov, 14:26


Такую сумму в среднем составляет прибыль с $1, вложенного в использование AI. Наибольшая рентабельность достигает $10,3 💰

Инвестиции в AI-решения — один из пяти бизнес-трендов уходящего 2024 года, которые выделила в своём исследовании консалтинговая компания IDC. Анализ сделали по заказу Microsoft 🤝

Ещё тенденции: рост производительности, внедрение во все сферы, адаптация инструментов к отраслевым потребностям и повышение соответствующей квалификации сотрудников 😇

Душа Питона

19 Nov, 10:16


☄️ Ух ты, Gemini генерит картинки в Google Docs ☄️

создаются встроенные иллюстрации текста или обложки
работает Imagen 3, рисует по промптам
люди, пейзажи, фото, разные стили и соотношение сторон
путь: Insert > Image > Help me create an image > Промпт > Create > Выбор параметров > Готово!

Видео Google

Душа Питона

19 Nov, 04:28


Насколько хорошо AI пилит симуляции для роботов 🦾

Китайские умельцы разработали фреймворк для оценки синтетических датасетов от foundational-моделей.

Обучающие на симуляциях подходы в робототехнике растут как грибы после дождя 🍄 Надо проверять! 🧐

Что и как тестировали:
😶‍🌫️ полностью ли выполнено задание и реалистично ли решение. VLM и LLM оценивают scene alignment, качество проверяют сравнением с настоящими сценами
👨‍💻 насколько разнообразно описаны действия и движения роботов (diversity)
🪞 генерализация policy-функции, обученной на синтетических примерах

Проверили на популярных пайплайнах GenSim, RoboGen, BBSEA, и ни один из методов не показал класс по всем метрикам сразу. Ещё один общий недостаток — слабые описания ⛔️

Изображение The University of Hong Kong, Tsinghua University, Shanghai Qi Zhi Institute, Shanghai AI Lab

Душа Питона

18 Nov, 14:47


Повторение — мать учения обучения моделей 🎓

В Meta* изучили поведение трансформеров в зависимости от повторяющихся данных в датасетах. Использовали наборы для трёх математических проблем: нахождение наибольшего общего делителя, модульное умножение и поиск собственных значений матриц.

Основные находки:

💪 модели, обученные на маленьких датасетах с повторами, превосходят тех, кто обучался на больших с неповторяющимися данными. Учившаяся на датасете с 42 повторениями модель на задаче с НОД ответила правильно 62 раза. Неограниченный объём без повторений дал результат в 27 случаях
🤝 придумали Two-set training — одновременное обучение на маленьком и большом датасетах
🎇 часть способностей появляется только при учёбе на небольших наборах. Трансформеры с two-set training успешно находят собственные значения у матриц 10x10, что даже для больших моделей проблема

Вот вам и стремление к большим размерам с уникальными данными 😕

* экстремистская организация, деятельность которой запрещена на территории РФ

Изображение Meta*

Душа Питона

18 Nov, 11:27


Новости конференций и много апгрейдов

1️⃣ Nvidia вовсю разворачивается в Японии: платформа Omniverse для тестов, партнёрство с SoftBank для сборки суперкомпа на Blackwell, телекоммуникационная сеть на AI Aerial.

2️⃣ Всё свежее от Baidu с их последней конфы: Ernie в умных очках 😎, собственная технология text-to-image I-RAG и AI-кодер Miaoda для тех, кто не умеет программировать.

3️⃣ ChatGPT кодить на платформах тоже не может, но его явно учат. На macOS чат-боту уже можно разрешать читать данные с экрана в терминале, VS Code, Xcode и iTerm2. Пока в бета-версии для тарифов Plus и Team.

4️⃣ У Apple дошли руки до внедрения AI в старый добрый Final Cut Pro X. Теперь это Final Cut Pro 11. В обновлённом видеоредакторе опции Magnetic Mask, автогенерация подписей (говорят, что пишет пока с ошибками ☺️) и работа с цветом/светом.

Душа Питона

17 Nov, 13:53


🔠🔠 2 книги об ML-алгоритмах, которые надо прочитать

Добавлю в список must read, который начала составлять вот тут.

📚 Многие компании включают в рекрутинг алгоритмические собеседования. Книжная классика для этой области — монументальная работа Т. Кормена и соавторов “Introduction to algorithms”.

Покрывает, вероятно, всю необходимую теорию алгоритмов всего на 1 300 страницах. Плюс для каждой задачи есть подробные решения на сайте, так как практику ничто не заменит 🙂

📚 Пожалуй, главные книги по вероятностному взгляду на современные ML-алгоритмы — это два тома “Probabilistic machine learning”. 2 000 страниц для долгих зимних вечеров ❄️ Все теоретико-вероятностные аспекты современных алгоритмов и их более ранних предшественников.

Начинаем с основ — линейных моделей, а в последних главах доходим до глубоких вопросов по RL. Помимо большой усидчивости, пригодится понимание теории вероятностей и линейной алгебры 🤔 Препринты обеих книг есть на сайте автора.

Душа Питона

17 Nov, 05:10


SAPG: как сделать эффективнее on-policy-методы 😓

Обучение с подкреплением on-policy (например, метод PPO) крайне важно для AI-агентов. Особенно в задачах на принятие решений в заданных ограничениях. Проблема возникает при скейлинге до больших параллельных сред, а после обновления policy function модель теряет доступ к информации о предыдущих состояниях 🤬

Как это решает метод SAPG от университета Карнеги-Меллона:
✔️ алгоритм divide-and-conquer делит проблему на подзадачи, решения которых объединяются в финальный ответ
✔️ среды, в которых оперирует агент, SAPG разбивает на блоки, регулируемые независимым policy-градиентом
✔️ промежуточные результаты объединяются в policy-функцию с учётом заданных ограничений

Оff-policy данные (те, что не используются моделью в настоящий момент) успешно внедряются в обучение. Для каждой функции информация из других блоков является off-policy.

Тестировали на роботах, имитирующих движения человеческих рук. SAPG достиг результатов бейзлайн-моделей и превзошёл некоторые из них 👑

Изображение Carnegie Mellon University

Душа Питона

16 Nov, 13:48


Learn About: главное, чтобы ты хорошо учился! 🤓

Ловите образовательный AI от Google! Подъехал прямо к сессии 🎓

📍 работает как персональный репетитор
📍 можно задавать ему вопросы
📍 принимает на вход материалы по академическим дисциплинам
📍 генерит контент, помогающий разобраться в теме углублённо

Пока его предлагают просто потестить и не гарантируют отсутствия галлюцинаций. Второй минус — контекст он не помнит. Каждый раз всё надо будет начинать с нуля (повторение — мать учения 😄). По отзывам инструмент обещают докрутить.

Learn About добавится к другим обучающим разработкам Google вроде NotebookLM, Illuminate, который пилит аудио из научных статей, и Shiffbot для скиллов в программировании 😓

Изображение Google

Душа Питона

16 Nov, 05:16


Вот вам фото на память! Попробовала нейронку colorize.cc для реставрации и раскрашивания старых снимков. Эффект неоднозначный. Брать же можно не только фото, но и рисунки — вообще любое ч/б.

Так вот осталось ощущение, что сервис заточен именно под портреты 💄, поскольку другие сюжеты раскрашиваются гораздо скромнее.

Регулировать цветность возможности, к сожалению, нет

Но алгоритмов для восстановления фото тут на самом деле больше. Можно убрать трещины, повысить разрешение и даже анимировать 😃

Как вам?
❤️ парочка
👍 дама на диване
🔥 рояль
💯 анимация

Душа Питона

15 Nov, 14:48


Сколько AI-контента в “Википедии”?

В Принстоне проверили, как изменилась доля генераций в статьях знаменитого народного ресурса.

Что использовали?
👀 GPTZero — проприетарную разработку для детекции синтетических текстов
✏️ её опенсорс-аналог Binoculars. Сross-perplexity здесь оценивает нижнюю границу распространения AI-текстов

Результат: в “пост-GPT-3.5 эру” участие AI в “Википедии” выросло. Больше 5% новых статей на английском на август 2024 года содержит AI-фрагменты. С другими языками примерно та же картина.

Как понять, что текст в статье сгенерирован?
⤵️ часто нет внутренних перекрёстных ссылок, это мешает интегрировать текст в контекст энциклопедии
🔥 в синтетических текстах больше радикальных позиций на спорные темы

Учитывая, что на этом корпусе текстов обучаются модели, качество их работы может упасть 👨‍🎓

Изображение Princeton University

Душа Питона

15 Nov, 11:07


ТОП-7 примеров использования AI в журналистике 👨‍💻

💥 Wall Street Journal доверили AI составлять саммари своих материалов. Key Points, размещаемые перед статьёй, проверяет редактор.

💥 Чат-бот Ask FT обучен на публикациях Financial Times за 10 лет. Он профессионально отвечает на вопросы читателей издания 🤓

💥 В New York Times работает целая команда из технических спецов и новостников, в задачи которых входит разработка способов применения AI в написании контента.

💥 Отдел внедрения технологий, занимающийся использованием AI в своём продукте (в том числе и на телеканале 👀), есть и у Walt Disney.

💥 На OFF Radio Krakow пошли дальше и нагенерили AI-диджеев 🎶 У них есть биографии, образы и голоса, звучащие в эфире. То, о чём они болтают, тоже придумывал AI.

💥 AI-репортёр, созданный на базе ChatGPT, для Sky News самостоятельно создал целый телесюжет в 90 с.

💥 AI-ведущие уже рассказывают о новостях на телевидении сразу в нескольких телекомпаниях Южной Кореи: MBN и SBS.

Душа Питона

15 Nov, 05:05


EchoFM: AI анализирует сердце 💔

Модель научили разбираться в результатах эхокардиографии.

Обычно такие исследования нейросетям даются тяжко 😶‍🌫️ Из-за сокращения и расслабления желудочков анатомические структуры органа на разных кадрах могут быть не видны или затемнены (потеря контрастности 🌛).

обучали на 290 000 видеозаписей, охватили 26 различных поперечных срезов в нескольких режимах съёмки, объёмом визуала до 20 млн кадров
❤️ тестировали в задачах на диагностику порока сердца
фиксирует пространственно-временную динамику
💬 обходится без аннотаций
🫣 превосходит SOTA даже на материале низкого качества

Изображение Center of Advanced Medical Computing and Analysis, Massachusetts General Hospital, Harvard Medical School, University of Georgia

Душа Питона

14 Nov, 14:52


Данные такого количества компаний вошли в датасет для поисковой AI-системы от Alibaba под названием Accio. Инструмент разработан для увеличения продаж и поможет в задачах малому бизнесу.

С его помощью можно находить оптовые товары, при этом получая ещё и анализ спроса и прогноз прибыли. Одним словом, притягивает нужного клиента. Подобно заклинанию Гарри Поттера, в честь которого и назван 🎩

Использовали, кстати, никакой не ChatGPT, а собственную модель Tongyi Qianwen 👍

Душа Питона

14 Nov, 10:41


Agent-as-a-Judge: насколько хороши мультиагентные системы

Такие разработки становятся популярными (на днях вышла Magnetic-One, например), так что фреймворк от Meta** и KAUST будет кстати 🎁

Он улучшает оценку перформанса систем агентов при помощи детального фидбека на промежуточных шагах. Бенчмарк тоже имеется. В DevAI 55 реальных задач для тестов эффективности.

Подробности:

😓 пригодится в программировании, где промежуточные правки важны для качества финального кода
🏋️‍♂️ проверили на MetaGPT*, GPT-Pilot и OpenHands
✔️ три метода оценки: отзывы людей, LLM-as-a-Judge и Agent-as-a-Judge
🤝 у Agent-as-a-Judge наибольшая согласованность с человеческой оценкой, а ресурсов и времени нужно меньше

* продукт экстремистской организации, деятельность которой запрещена на территории РФ

** экстремистская организация, деятельность которой запрещена на территории РФ

Изображение Meta AI**, KAUST AI

Душа Питона

14 Nov, 04:51


Hunyuan3D-1.0: элегантное пополнение в ряду инструментов для 3D.

Модель от Tencent быстро генерит и хорошо генерализуется:

🔜 диффузионка рисует multi-view RGB за 4 с

🏠 модель реконструкции восстанавливает 3D-объект из картинок с разных ракурсов за 7 с

используется модель text-to-image Hunyuan-DiT, поэтому 3D можно делать как на базе изображений, так и по промптам.

Берём тут, код здесь.

Видео Tencent

Душа Питона

13 Nov, 14:17


SafeSpeak2024: как найти голосовой дипфейк 🤓

Зову на крутой хакатон от AIRI и МТУСИ по технологиям обнаружения аудио-спуфинга. Регистрируемся уже, стартуем на kaggle 22 ноября!

Какая задача? Интересная. Разработка моделей, способных отразить атаку голосового спуфинга. Инструменты должны быть рабочими и эффективными с точки зрения вычислений. Оценивают по метрикам ASVspoof 👍

Кого приглашают:
самостоятельных участников 18+ или команды (1-4 человека)
база — учёба на бакалавриате, специалитете, в магистратуре и/или аспирантуре технического вуза (страны БРИКС и СНГ)

Зарегиться можно до 26 ноября, но дедлайн для результатов 27 ноября. Победителей наградят денежными призами 🙂

Душа Питона

13 Nov, 10:21


Бесплатный AI, новые должности и вечная музыка ▶️

1️⃣ В Институте Тони Блэра прикинули, как AI изменит сферу труда. Как минимум сэкономит четверть рабочего времени. Другие цифры и выводы тут.

2️⃣ Никто лучше Илона! 🤘 Маска просят сделать советником президента по AI. Организация по защите AI Americans for Responsible Innovation (ARI) собирает подписи под своей петицией с этим предложением.

3️⃣ Тем временем Grok готовят к свободному плаванию. Говорят, что он уже доступен некоторым бесплатным пользователям в формате тестов, а скоро станет открытым для всех.

4️⃣ А Gemini, похоже, заходит на iPhone. Приложение уже можно увидеть в App Store, что наводит на мысль о запуске беты 😉

5️⃣ Вместе с давними подписчиками отмечаю номинацию работы AI на “Грэмми”. Речь о восстановленной песне битлов Now and Then. Помните, как всё начиналось? Читайте в интервью разные мысли на тему от президента NARAS (вручает "Грэмми") Харви Мейсона.

Душа Питона

12 Nov, 14:40


🆕 Qwen2.5-Coder: 6 новых AI-программистов

В рубрике “Релиз дня” знакомимся с линейкой крутых моделей для кодинга, которые ещё и в опенсорсе.

⭐️ для тех, кто пропустил предшественницу CodeQwen1.5
⭐️ куча размеров на любой вкус/возможности/задачи — 0.5B/1.5B/3B/7B/14B/32B
⭐️ датасет 5,5 трлн токенов
⭐️ контекст 128 тысяч токенов, 92 языка программирования
⭐️ математика тоже на уровне
⭐️ производительность SOTA на 10 бенчмарках (GPT-4o они точно не боятся)

Демка тут.

Изображение Qwen2.5-Coder

Душа Питона

12 Nov, 11:34


LoLCATs: линеаризация LLM без потери в качестве 💡

Отвечаю на вопрос о Linear Attention (опрос см. выше 🤘). Правильный вариант — механизм сокращает вычисления. Его и применили в MIT, Стэнфорде и Caltech, используя attention transfer и LoRA-адаптеры.

Как работали:
заменили softmax attention на линейный аналог. Меньше ресурсов, особенно с длинными последовательностями. LoRA же приближает результат к оригинальному softmax-механизму
✈️ новое — attention transfer. Linear Attention обучили аппроксимировать значения softmax. Для этого во время тренировки минимизировали ошибку между аутпут-распределениями. Получается экономичнее тренировки полной модели!
🤪 при дальнейшем файнтюнинге LoRA сглаживает минусы аппроксимации

Разрыв между линеаризованными и полными моделями в итоге минимален. Сохранилось почти 80% качества LLaMA 3.1* на MMLU. А ведь брали только 0,2% параметров и 0,4% тренировочных токенов оригинала 🤏

Крутой будет деплой LLM на устройствах с минимумом ресурсов 🧑‍💻

* продукт экстремистской организации, деятельность которой запрещена на территории РФ

Изображение Stanford University, MIT, California Institute of Technology

Душа Питона

02 Nov, 10:15


AgentHarm: вычисляем вредного LLM-агента 🆘

Уже затрагивала тему механизмов безопасности. На этот раз помогает нам бенчмарк от Gray Swan AI и UK AI Safety Institute.

110 опасных промптов (440 в расширенной версии) в 11 категориях (fraud, violence, terrorism). Оценивается вероятность выполнения таких команд даже без джейлбрейка. Тут direct prompting и сценарии, в которых модели действуют как независимые агенты 📞

Выводы:
😎 даже SOTA-модели (GPT-4o, Claude-3.5-Sonnet) реализуют “нехорошие” промпты без джейлбрейка. Хватает простых техник обхода safety-механизмов. Refusal rate у Mistral Large 2 после джейлбрейка падал с 80% до 3,5%
🧑‍💻 после джейлбрейка скиллы для сложных задач не ухудшались. Из-за этого трудно заметить, что модель "испорчена" и работать с ней небезопасно. Риск негативных последствий растёт

Явно надо перетряхивать алгоритмы безопасности в LLM 🥸

Изображение Gray Swan AI, UK AI Safety Institute

Душа Питона

02 Nov, 05:24


🆕 В Suno добавили визуал

Пока что музыкальная нейронка сама картинки и ролики не генерит. Она продолжает заниматься своим прямым делом — пишет песни 🎶 Но теперь ещё и на основе ваших видео и фотографий 📸

При этом Suno Scenes создаёт трек прямо онлайн ▶️ То есть одновременно с работой камеры, когда вы запечатлеваете памятный момент или пилите рилс.

Работает эта штука сейчас только как приложение для пользователей iPhone в Штатах (в режиме камеры функция создания песен). Поэтому в ожидании я просто наложила песню от Suno на картинку с воспоминаниями о лете от Kandinsky 💥 Изображение и трек генерила по одному промпту ✏️

Ждём международный релиз!

Душа Питона

01 Nov, 14:38


☄️ ChatGPT: найдётся всё

OpenAI выкатили поисковик внутри своей знаменитой нейронки.

Мечта авторов контента попасть в первые строчки Google может трансформироваться в “тебя выдаёт ChatGPT” 😄

Коротко по апгрейду:
интеграция в интерфейс
скоростные ответы со ссылками на источники (плюс тонна медиа на подхвате — Associated Press, Conde Nast, Financial Times, Le Monde, Reuters и прочие)
никаких поисковых фраз — спрашивай, как хочешь (ChatGPT учтёт и контекст беседы)
поисковая модель — GPT-4o
докручивали по отзывам на SearchGPT

Неочевидный плюс ещё и в том, что вам не подсовывают рекламу. Неочевидные минусы — на практике. ChatGPT по-прежнему галлюцинирует. Качество поиска по факту не айс, как говорят те, кто уже тестил 🤪

А это обладатели ChatGPT Plus и Team и везунчики из списка ожидания SearchGPT. Тарифы Enterprise и Edu получат доступ вот-вот, а бесплатные пользователи — "в течение нескольких месяцев" 🔜

Душа Питона

01 Nov, 10:27


Разбираемся с AI в автомобилях, кодинге и опенсорсе

🔹 У Google много нового (и резюмированного старого). Сундар Пичаи отчитался о развитии, в том числе подчеркнув, что AI на сегодня генерит больше четверти всего нового кода в компании 😧

🔹 А Gemini посадили за руль 🚗 Система автономного вождения на основе MLLM помогает автомобилю в прямом смысле слова вырулить из сложной ситуации. Модель называется EMMA, разработали её в Waymo.

🔹 Что такое опенсорсный AI? Теперь ясно, так как Open Source Initiative (OSI) сформулировала основные его критерии.

🔹 В Сколково создали нейросеть, которая читает подобно человеку 🤓 Её можно будет применять для распознавания данных в паспорте и других документах. Работает и на обычных процессорах 👨‍💻

Душа Питона

01 Nov, 05:15


Midjourney, Ideogram, Canva и другие: 5 AI-апгрейдов генерации визуала, которые нельзя пропускать

1️⃣ В Ideogram, который лучше всех пишет текст на картинке, запустили режим Canvas. Размещаем изображения для сравнения со старыми версиями, объединяем, загружаем эффекты. Ещё есть Magic Fill для работы с частями генерации и Extend, расширяющий границы картинки 🔝

2️⃣ К генератору на базе Stable Diffusion ребята из Canva добавили новый — Dream Lab, создающий картинку по промптам и на основе референса. Этим внутри него занимается модель Phoenix от Leonardo.ai.

3️⃣ Midjourney пилят AI-фичу для редактирования любых уже готовых картинок. Пользователи смогут менять текстуру, перекрашивать и перерисовывать детали. Пока прорабатывают стандарты, чтобы не допустить злоупотреблений 🐈‍⬛

4️⃣ Есть ещё две совершенно новые модели. Авторегрессионная Fluid от Google DeepMind и Mochi 1 от Genmo. Разработчики DeepMind применили генерацию с помощью непрерывных токенов, у Genmo — опенсорсный видеоинструмент 🫶

Смотрим, тестим, шерим друзьям! ❤️

Душа Питона

31 Oct, 14:25


⚡️ Держите Stable Diffusion 3.5 Medium

Вышла, как и обещали. Я потестила — удобная штука для локального запуска (2.5В, 10 Гб памяти хватает 😮), свободное коммерческое использование.

Напомню, что здесь новая расхваленная архитектура преобразования текста в изображение MMDiT-X, в том числе улучшающая понимание промпта 🔤

Генерит быстро, но порой неидеально. Зато можно файнтюнить.

Что понравилось?
❤️ бургер
👍 подиум
🔥 пагода
💯 автомобиль
👏 парфюм

Можно отмечать несколько картинок 🎈

Душа Питона

31 Oct, 12:46


🆕 Вышла Recraft V3

Загадка вчерашней “красной панды” разгадана. Всё сходится — рейтинг ELO 1 172 и 72% Win Rate 👑

Также разработчики нахваливают управление стилем, улучшенные возможности ввода и вывода, качество генерации, анатомическую точность и крутую работу с текстом на картинке.

А это значит, что будет:
😂 правильное количество пальцев, кистей рук и ног, реалистичные пропорции тела
🗿 согласованность объектов в пространстве
🌛 скилл генерить сложные сцены с нужным количеством, цветом и расположением предметов, указанных в промпте

То, чего нет у других: размер текста и его положение на картинке. Надпись может быть длинной, а не в два слова 🔤

Дальше только пробовать.

Изображения Recraft

Душа Питона

31 Oct, 11:10


Centaur: получеловек, полу-AI 🐴

Учёные DeepMind, Оксфорда, Кембриджа и других исследовательских центров, похоже, научили AI симуляции и прогнозированию поведения людей 😨

Файнтюнили новую модель на датасете Psych-101 (10 млн решений 60 тысяч человек в 160 экспериментах 😱).

Что она может:

🚩 справляется с предсказанием на многих тестовых датасетах, бьёт когнитивные модели в знакомых и экспериментальных сеттингах
🚩 круто генерализуется до новых доменов и дизайнов исследований
🚩 после файнтюнинга внутренние представления Centaur становятся похожими на организацию нейронов у человека 🤪

Выходит, что модель не только симулирует наше поведение, но и аппроксимирует нейронные паттерны.

Серьёзная заявка на имплементацию, имитирующую мышление людей (cognitive model) 🤓 А это все шансы на революцию в когнитивных науках!

Душа Питона

31 Oct, 05:22


Решила пофантазировать и поместить персонажей русских сказок в атмосферу Хэллоуина 🥰

Делюсь результатами!

А вам какой из героев понравился больше всех?

❤️ Василиса Прекрасная в традиционном наряде, но стилизованном соответственно задумке
👍 Кощей Бессмертный в образе Дракулы
🔥 Серый волк
💯 Колобок-вампир
👏 Колобок зубастый (1)
😀 Колобок зубастый (2)

Василису и Кощея генерил Kandinsky, волка и Колобка рисовала сетка SANA от Nvidia. Двух весёлых Колобков создала FLUX.1.

Kandinsky явно справился лучше, показав своё знание русского культурного кода, да и Хэллоуин тут очевиден 👍 От SANA в этой задаче, наверное, большего не стоило ожидать, но я ещё с ней поиграюсь в ближайшее время.

Жду ваши голоса генерациям!

Душа Питона

29 Oct, 05:01


🔥 Act-One: кино и мультики

Runway снова совершили прорыв. Обрабатывая видео, Gen-3 Alpha теперь генерит, по сути, готовую анимацию и даже живые кадры 👀 Есть возможность многократно использовать исходник, так как предлагаются разные стили. Голос альтернативный 🎤

Вот, пожалуйста:
🤡 реалистичная мимика, хотя внешне герой может сильно отличаться от оригинала
💅 качественная отрисовка
ручная настройка не нужна

Разработчик утверждает, что приняты все меры для мониторинга случаев неправомерного использования инструмента ☝️ Знаменитостей брать на вход нельзя 🚫

Доступ — скоро! Примеры — на видео.

Душа Питона

28 Oct, 16:17


🔥 AI Journey 2024: обратный отсчёт!

Организаторы определились с датами — конференция пройдёт с 11 по 13 декабря.

Бывалые знают, а новичкам рассказываю 🤓 Это самый мощный AI-ивент года.  Съезжаются топовые эксперты из разных стран, релизят суперразработки, выкатывают новинки. К AI Journey обычно готовят главные AI-сюрпризы 🎁

И, конечно, подводят итоги AI Challenge, AIJ Contest и AIJ Science✏️

Что удобно:
✔️ все лекции разбиты на три блока по темам: наука, бизнес, общество
✔️ благодаря трансляции прямого эфира на сайте подключиться можно из любого места
✔️ эфир главной сцены переводят на русский жестовый язык (РЖЯ)

Го раскидывать дела на декабрь и вносить AI Journey 2024 в ежедневники! 🗓

Душа Питона

28 Oct, 09:52


☄️ Идея с подкастами, сгенерированными из текста, получает своё развитие. Вслед за Google, которые научили Gemini пилить аудиоразговоры в NotebookLM, Meta** заходит со своим инструментом.

Что может NotebookLlama*:
🖥 во-первых, понимает PDF
💬 задачу выполняет ту же, результат аналогичный — диалог персонажей по теме
⬇️ опенсорс, понятно

Текст не меняется, но прочтение немного более креативное. Из требований советуют GPU на 140 ГБ для работы с Llama-3.1-70B-Instruct*, но в целом можно использовать 8B и ниже для всего конвейера 😓

Как запускать, смотрим тут.

* продукт экстремистской организации, деятельность которой запрещена на территории РФ

** экстремистская организация, деятельность которой запрещена на территории РФ

Душа Питона

28 Oct, 07:04


Посмотрела в работе новый text-to-image фреймворк SANA от Nvidia, опубликованный на GitHub:

🕺 генерит в разрешении вплоть до 4096x4096
🛞 на высокой скорости и ресурсами GPU обычного лэптопа
🧁 использует deep compression автоэнкодер, сжимающий картинки в 32 раза. Сокращается число латентных токенов
🎈 также взяли более эффективный для высокого разрешения диффузионный трансформер с linear attention
💬 заменили T5 маленькой decoder-only LLM в качестве текстового энкодера
👠 разработали Flow-DPM-Solver, снижающий число шагов

Sana-0.6B в сто раз быстрее и в 20 раз меньше огромного Flux-12B. Ей хватает GPU с 16GB VRAM, а на генерацию картинки разрешением 1024x1024 уходит меньше секунды.

За картиночки голосуем:
❤️ суши
👍 пейзаж
🔥 туристка
💯 футуристичное кафе
👏 девушка с котом
🏆 компьютерная игрушка

Душа Питона

27 Oct, 13:06


Wolf объяснит, что на видео 🐺

Фреймворк американских и канадских разработчиков (MIT, Stanford) генерит саммари и описания роликов.

Для точных ответов MoE-модель объединяет инструменты для работы с видео и изображениями.

Тут несколько VLM:
🫴 на уровне image captions — CogAgent и GPT-4V
🫴 для video captions взяли VILA-1.5 и Gemini-Pro-1.5

При саммари изображений используется CoT: генерятся описания для последовательных фреймов и объединяются с сохранением темпоральной динамики. Фреймы используются для гарантии саммари видео без противоречий 🤝 Использование 4 моделей почти исключает галлюцинации 👻

Есть ещё CapScore — метрика качества, основанная на схожести саммари/описание и информативности. А также бенчмарк-датасет со сценами автономного вождения (NuScenes), действий роботов 🦾 и видео из повседневной жизни (Pexels).

По CapScore Wolf опережает GPT-4V и Gemini-Pro-1.5 на 55.6% по качеству и на 77.4% по схожести на датасетах с вождением 🏄‍♂️

Изображение NVIDIA, UC Berkeley, MIT, UT Austin, University of Toronto, Stanford University

Душа Питона

27 Oct, 07:04


☄️ Игрокам CS:GO приготовиться!

DIAMOND теперь генерит геймплей в реальном времени и для вас 🔜

Модель DIffusion As a Model Of eNvironment Dreams прогнозирует следующий кадр игры с учётом предыдущих действий для моделирования реакции окружающей среды. RL-агент предпринимает новые шаги, а диффузионная модель обновляет игру.

Говорят, что физику процессов надо ещё править, но в последнее время таких инструментов всё больше. Не исключено, что эти миры станут идентичны реальному 🔥 Тем более что это опенсорс. А вот и GitHab.

Весной модель уже успешно играла в Atari. А GameNGen от Google, как мы помним, блестяще справился с DOOM.

Душа Питона

26 Oct, 13:02


На двух десятках языков разговаривают... скелеты 🐐

В Зоологическом музее Кембриджа запустили выставку животных, снабжённых AI-голосами. Чучела и черепа могут поделиться подробностями о себе и проблемах жизнедеятельности своего вида в природе.

Чтобы панда 🐼 или таракан подали голос, необходимо специальное мобильное приложение. Причём болтают они ещё и с акцентом, соответствующим ареалу обитания 😱

Авторы экспозиции хотят вызвать у посетителей личное отношение к братьям меньшим, чтобы укрепить связь между людьми и миром природы 🤝

Душа Питона

26 Oct, 07:00


Фича Computer Use от Claude 3.5 Sonnet уже в деле!

Пользователи запускают агента через API и делятся опытом тестирования его невероятных скиллов управления устройством.

По факту это действительно почти самостоятельный помощник, которому можно делегировать задачу и заняться своими делами. Преподавателю инноваций Пенсильванского университета Итану Моллику, к примеру, Claude сгенерил полноценный школьный урок по "Великому Гэтсби" с учётом текста книги и заданиями в электронной таблице. А ещё блестяще сыграл в Paperclip Clicker, на ходу совершенствуя стратегию! 🔥

Из минусов: говорят про низкую скорость и ошибки, после которых агент проявляет своеобразное упрямство и идёт по ложному пути. Но надо понимать, что вообще-то он и помощи не просит 🫡

Похоже, мы на пороге рождения крутейшего AI-ассистента. Подробности работы — на скринах и в ролике.

Изображения и видео Оneusefulthing

Душа Питона

25 Oct, 13:36


🆕 GigaChat MAX: эксперт на максималках!

Вышла новая версия модели Сбера.

Сначала цифры:
🔄 контекст вырос на 15%
🔄 математические скиллы на GSM8K и MATH улучшились на 25%
🔄 + 30% в суммаризации и работе с таблицами
🔄 уровень научных знаний по MMLU — 80%

Среди новых модальностей:
можно юзать картинки как дополнительный контекст, MAX понимает и анализирует печатный и рукописный текст, формулы и графики 📈 Структура ответов удобнее, прокачаны навыки сокращения и выделения смысловых частей.

На MERA GigaChat MAX победила российские модели и оказалась в топе среди зарубежных. И похоже на то, что MAX действительно крут, поскольку готов посоревноваться с другими! Нейронка бросила вызов YandexGPT, чтобы на деле показать свои возможности в генерации идей, кодинге и даже юморе 😍 Готовим попкорн и следим за развитием событий 🍿

Крутой помощник для бизнеса и вообще для людей! Го тестить на сайте, здесь в телеге и ВКонтакте 🖥

Изображение Сбер

Душа Питона

25 Oct, 10:48


🧳 Как правильно продвигать AI-разработки 🧳

Запросы на оборудование, PR-стратегии и работа над ошибками.

🚩 Новости от Сэма. СЕО OpenAI накидал амбициозный план AI-инфраструктуры. Это 5-7 ЦОД в разных городах США на 5 ГВт каждый (и на $100 млрд 💰). Деньги — не проблема, а вот где взять столько энергии? Тут подробности.

🚩 Помните историю с AI Pin от Humane? Этот сериал продолжается 🔜 Компания не теряет надежды продвинуть устройство в народ. Теперь снизили цену (с $699 до $499).

🚩 У нового терабайтного накопителя AI TOP UD SSD от Gigabyte точно не будет проблем с продажами, так как это очередной продукт из линейки AI TOP 100E. Он не такой мощный, как флагманские модели, но "читает" со скоростью до 6500 МБ/с и записывает до 5700 МБ/с 📥

🚩 Ожидаем и выплеска на рынок знаменитых Blackwell от Nvidia. Пофиксили загадочный дефект в дизайне, задержавший выпуск. Кстати, можно потихоньку забывать название Blackwell Ultra. Компания переименовывает серию в B300.

🚩 С AI-консультантом, помогающим пользователям “Госуслуг”, мы познакомимся уже в этом году. Минцифры пока проводит закрытое тестирование, но в ближайшее время будет запущена бета для всех 🧑‍💻

Душа Питона

25 Oct, 04:49


Почему никто не сделал этого раньше? AI и так уже понимает бОльшую часть контента всех форматов, осталось только вручить ему “мышку” 🤝

Разраб Anthropic показывает, как новый Claude 3.5 Sonnet управляет вашим компом:

👨‍💻 перемещает курсор
👨‍💻 вводит информацию виртуальной клавой
👨‍💻 жмёт тут ссылку или нужную команду

Claude интерпретирует происходящее на экране и юзает доступные нам опции выполнения задач: калькулятор, текстовый редактор  🔤 и прочие. Смотрит скриншоты и считает, на сколько пикселей по вертикали или горизонтали ему нужно “переехать” для клика. Многое ещё не умеет — перетаскивать, например 👎

Сейчас опция проходит бета-тестирование: кто жаждет поучаствовать, го сюда. Защита от рисков у модели находится на втором уровне (из четырёх возможных) по собственной классификации компании 🔒

Душа Питона

24 Oct, 14:42


Кто так и не добрался до новых Stable Diffusion 3.5? Держите лайфхак! 🥳

Версии Large и Large Turbo доступны в моём уже любимом Shakker.ai. 400 кредитов в день хватит примерно на 10 генераций по 4 вариации картинки (зависит от модели и формата изображения).

Напомню, что есть ещё Medium 2.5B на архитектуре MMDiT-X. Спроектирована для работы “из коробки” на устройствах, разрешение от 256x256 до 2048x2048. Но её придётся ждать около недели 🫠

Large 8B генерит в 1024x1024 и хорошо следует промптам, Turbo (дистиллированная версия) справляется за 4 шага. Веса и код доступны, потихоньку появляются лоры. Избалованное AI-сообщество скептически сравнивает обновление с работой FLUX 🧐

Надо тестить, а пока голосуем за лучшую генерацию:

❤️ мотылёк
👍 чашка
🔥 здание
💯 тигр
👏 подиум

Понравилось больше одной? Жми несколько!

Душа Питона

24 Oct, 11:32


Языковые модели или модели для языка

Эксперты Oxford Handbook по философии лингвистики разбираются, как использовать нейросети в теоретической науке.

Как работать с LLM в лингвистике:

✍️ оценивать грамматику и синтаксис сгенерированного LLM текста. Успехи трансформеров связаны ещё и с пониманием сложных синтаксических структур. Часто генерация достигает уровня образованного носителя языка
💬 использовать классификаторы для декодинга внутренних представлений языка
🔠 изучать паттерны активаций, чтобы доказать применение правил синтаксиса и грамматики при генерации

В компьютерной лингвистике есть консенсус, что между использованием языка и внутренней компетенцией нет однозначного соответствия.

По внешним признакам не понять, копируют ли модели датасеты или опираются на свои представления 👨‍🎓

Изображение Macquarie University

Душа Питона

24 Oct, 05:20


Это что? Новая порода робособак или тамагочи возвращаются? 😘 Неведому зверушку Moflin разработали Casio и Vanguard.

Она пушистая, но внутри сидит коммуникационный AI, который маркетологи назвали “сердцем” ❤️ Игрушка не передвигается сама, но реагирует как настоящее живое существо и может менять эмоции по ходу общения с хозяином 🤗

Производители утверждают, что у Moflin формируется собственная личность по мере того, как вы гладите и обнимаете его. Также он запоминает голос хозяина и довольно мило попискивает сам. Заряжается от собственной люльки 😴, гипоаллергенный, да и уборка за ним не нужна.

Никаких мультиков не надо 😁

Берём?
❤️ полезный антистресс!
👍 лучше живой
🔥 разве что детям

Душа Питона

23 Oct, 14:14


🔈 Music2Latent: автоэнкодер для эффективного сжатия и восстановления аудио

В отличие от существующих методов, обеспечивает одноэтапный end-to-end процесс обучения.

Как работает:
📍 опирается на consistency models (модели, генерирующие ответы за один шаг, без необходимости в adversarial training и iterative sampling) + энкодер и декодер
📍 восстанавливает аудио в высоком разрешении
📍 закономерности между токенами, расположенными далеко друг от друга, замечает алгоритм frequency-wise self-attention
📍 в каждый момент времени модель получает информацию из всех доступных частот

Music2Latent скейлится под разные частоты и уровни зашумленности аудио 😠

Не только обходит актуальные аудиоэнкодеры, но и круто извлекает информацию из трека (music information retrieval) 🎶

Изображение Queen Mary University of London, Sony Computer Science Laboratories

Душа Питона

23 Oct, 09:04


Разработчики Limx Dynamics точно вдохновлялись AT-ST из “Звёздных войн”, поэтому у фанатов франшизы теперь есть новая хотелка 😮

Правда, Tron 1 (коммерческую версию P1) создавали в мирных целях, а именно для научных исследований и тестирования AI в робототехнике. Как утверждают разрабы, это первый в мире мультимодальный двуногий робот 👐

Tron 1 двигается тремя способами: по-человечески шагает, ездит на колёсиках и ходит на прорезиненных лапках. Умеет прыгать, устойчиво приземляется, запросто поднимается по лестнице.

Управляется дистанционно, но совместим с полным процессом разработки на Python, поэтому бери и тестируй любой алгоритм 👨‍💻

Душа Питона

23 Oct, 04:27


Как нейросети используются в экономике ↗️

Учёная из Гарварда и Национального бюро экономических исследований США написала статью, в которой рассмотрены полезные методики:

🪙 классификация моделями текстов и изображений подходит для поиска актуальной библиографии по экономической политике и детекции экономической активности с помощью спутников

🪙 классификацию токенов (здесь — Named Entity Recognition) автор связывает с поиском данных о конкретной фирме в большом файле 💳

🪙 AI-агрегация информации позволяет объединять данные из разных доменов об организации или лице (к этому прибегают при оценке стоимости непубличной компании 💰). Модели уже умеют компилировать инфу из неструктурированных датасетов с внешними базами знаний и информацией из интернета

🪙 при работе с мультистрановыми или историческими данными AI превосходит традиционные способы обработки текстов в объединении записей об одном явлении (record linkage)

🪙 основными драйверами внедрения AI в экономические исследования названы стабильность, эффективность, дешевизна и широкий набор инструментов для анализа. Например, очень привлекателен файнтюнинг моделей под экономические задачи 🆒

Изображение Harvard University, NBER

Душа Питона

22 Oct, 15:01


🆕 STATE OF AI REPORT 2024: прорывы, применение, безопасность и прогнозы

Изучаем отчёт о развитии AI от Air Street Capital.

Что увидели эксперты, проанализировав тренды года:

1️⃣ OpenAI стоит побеспокоиться, так как превосходство проприетарных моделей на рынке уже не так очевидно. Более того, в прогнозах — появление опенсорсного инструмента, который победит даже не GPT-4, а саму o1 😨

2️⃣ LLM уже не только про язык. Растёт их мультимодальность в точных науках — математике, физике, геномике.

3️⃣ Китай — достойный конкурент Штатам в создании классных LLM, а вот с полупроводниками у Поднебесной дела пока идут явно хуже 😐

4️⃣  Увеличивается корпоративная стоимость AI-компаний (9 трлн долларов), чуть меньше инвестируют в частные проекты 🧐

5️⃣  Падают также вклады в разработку AI-гуманоидов. Спонсоры устали ждать чего-то более-менее приличного на выходе 🥺

6️⃣ Остаётся важным исследование уязвимостей моделей. Особенно тех, что связаны с запросами пользователей. Разрабатываем меры предосторожности 🛡

В целом подчёркивается, что про масштабирование говорят меньше, так как стало понятно, что высоки потребности в ресурсах. А самой влиятельной AI-компанией назвали Nvidia (кто бы сомневался).

Полный текст репорта читаем тут.

Изображение создано для канала Душа Питона с помощью Kandinsky 3.1

Душа Питона

22 Oct, 07:56


Новое внимание, датасет, бенчмарк и способности экспертов LLM ☄️

Рассказываю про инструменты, полезные для тренировки и тестирования моделей.

1️⃣ На чём обучить модель, чтобы она хорошо работала на потребительском устройстве? Берём открытый датасет Zyda-2 (5 трлн токенов!). Вторая версия инструмента Zyphra ускоряет обработку данных в 10 раз — с трёх недель до двух дней 🚘

2️⃣ Как получить от LLM нужный ответ из длинного контекста, чтобы она не отвлекалась на другое? Отвечают Microsoft. Разработанный ими Diff Transformer использует несколько векторов внимания, что помогает устранить шум и заставить модель сконцентрироваться на важном во входных данных 🧑‍🎓

3️⃣ Можно ли адаптировать эксперта LLM, например, к одному или нескольким датасетам? В Google создали алгоритм Model Swarms, с помощью которого эксперты LLM совместно ищут в весовом пространстве адаптированные модели, оптимизирующие функцию полезности 🤝

4️⃣ Есть ли что-то более полезное, чем GSM8K, для теста моделей на способности математического анализа? На GSM-Symbolic от Apple можно посмотреть, что меняется в их работе при разных вариантах одного и того же запроса 😕

Изображение Zyphra Technologies

Душа Питона

21 Oct, 14:12


rLLM: фреймворк для обучения на RTL

Отвечаю на вопрос об RTL (relational table learning) — это тренировка на реляционных базах данных (таблицах) из наборов этих связанных данных и их характеристик.

Разработчики Цинхуа и Шанхайского университета Цзяотун представили инструмент такого обучения для LLM — PyTorch-библиотеку.

Там три слоя:
📥 Data Engine Layer выделяет фундаментальные структуры данных и последовательности действий (workflows) в таблицах. Работает также и с графовой формой
📥 Module Layer — распределитель операций LLM, GNN и TNN на комбинируемые при обработке модули (вроде GraphConv с алгоритмами для графовых свёрток)
📥 Model Layer с алгоритмами этого комбинирования для создания RTL-моделей. Тут три команды: combine (несколько модулей в одну модель), align (мэтчит размерность пространств input и output разных модулей для совместимости), co-train (обучает модули как одну модель).

На основе метода создали алгоритм BRIDGE: TNN для обработки данных + GNN для моделирования взаимоотношений между таблицами.

BRIDGE лучше всех RTL-моделей (TabTransformer и TabNet тоже) в бенчмарке SJTUTables, который также выкатили исследователи.

Изображение Shanghai Jiao Tong University, Tsinghua University

Душа Питона

21 Oct, 11:19


Ресурсы и реализация: AI в операционных системах, в спорте и за партой

🚩 Meta** оптимизирует аппаратный стек для AI. У них новая платформа Catalina* на 140 кВт с процессорами Nvidia GB200. Ускорители Nvidia поддерживают и серверы Grand Teton*, но теперь там ещё и Instinct MI300X от AMD для AI-вывода.

🚩 AI залетает на турнир Большого шлема 🎾 На Уимблдоне 2025 заработает технология, выполняющая линейное судейство. Способность AI определять попадание мяча в пределы площадки тестировали ещё в прошлом году, а сейчас она поможет избежать судейских ошибок на деле.

🚩 ChatGPT появляется в Windows. Пользователи ChatGPT Plus, Team, Enterprise и Edu могут тестить приложение в Windows 10: пока без голосового режима, но зато с картинками. До конца года OpenAI обещают обеспечить полноценное использование чат-бота.

🚩 А GigaChat поступил в РУДН. На базе модели в университете создали AI-студента с дополнительными скиллами для помощи сокурсникам и преподавателям. У нейросети пока нет графического образа и голоса, это в планах. Зато уже есть имя — Гриша ИИсаев 🤓 Он осваивает те же дисциплины, что и другие учащиеся.

* продукт экстремистской организации, деятельность которой запрещена на территории РФ

** экстремистская организация, деятельность которой запрещена на территории РФ

Душа Питона

21 Oct, 03:14


6 наушников с AI-технологиями 🎶

В основном сейчас нейросетям доверяют работу по улучшению слышимости, но уже появляются и другие интересные опции.

🔔 В Buds N1 от производителя Realme AI подавляет шум при звонках, используя алгоритм нейросети DNN для чёткого звука.

🔔 Микрофонная система в FreeClip от Huawei тоже работает в паре с алгоритмом DNN, выделяющим голос из окружающего шума.

🔔 В Samsung Galaxy Buds 3 Pro есть и AI-шумоподавление, и прямой устный перевод для ведения разговора на иностранном языке в реальном времени. Всё это обслуживает Galaxy AI.

🔔 Свои Pixel Buds Pro 2 Google специально проектировали для Gemini. Модель здесь в виде AI-помощника на все руки: найти дорогу, напомнить о запланированном, посоветовать музыку. С Gemini Live можно просто поговорить на любую тему.

🔔 Sony предлагает свои “уши” INZONE для геймеров. AI обеспечивает здесь хорошую слышимость голоса игрока.

🔔 Оптимальный захват голоса, чтобы речь была максимально разборчивой, в Beats Studio Buds обеспечивают ML-алгоритмы

Душа Питона

20 Oct, 13:47


Чем поможет AI твоему бизнесу: 4 инструмента для рабочих процессов 💼

📇 Inflection for Enterprise — корпоративная платформа от Inflection AI. Она запускается локально, что страхует от утечки конфиденциальных данных. А собственная система файнтюнинга позволяет обучать модели с помощью отзывов сотрудников 🙂

📇 AI, в свою очередь, тоже может научить людей. В системе от российских разработчиков Modum Lab работают тренажёры для улучшения навыков публичных выступлений на переговорах, совещаниях и в клиентском сервисе.

📇 Прогноз бизнес-процессов, тестирование гипотез, другая полезная аналитика для работы подвластна ML-алгоритмам платформы AiLine от Softline Digital. Например, модели временных рядов, интегрированные в систему, могут предсказать спрос на продукцию 📈

📇 Инструмент EtonGPT разработан для семейных офисов. AI, встроенный в ERP-платформу AtlasFive, помогает управлять семейным капиталом с углубленным анализом инвестиционных портфелей и активов.

Душа Питона

20 Oct, 04:45


С помощью такого количества тестов проверили работу крупномасштабной AI-модели на орбите спутника 🔣 Создали инструмент в китайской компании ADA Space.

Результаты оказались успешными: модель прекрасно адаптировалась в разных условиях эксплуатации и температурных режимах 😍 Вычислительная мощность осталась на высоком уровне.

Разработку предполагается использовать для генерации 3D-данных дистанционного зондирования.

Душа Питона

19 Oct, 13:43


Дышите глубже: новые AI-инструменты для экологии воздуха 💭

Прежде всего разработчики нацеливаются на снижение концентрации вредных веществ.

✔️ ML-методы помогли собрать базу данных о радиационном эффекте инверсионного следа самолёта (облака выбросов, остающихся за ним ✈️). Вредное воздействие зависит от типа воздушного судна, топлива, а также от метеорологического фона.

✔️ AI может прогнозировать концентрацию вредных соединений, выделяющихся в воздух из ковров, обивки и прочего интерьера в салоне новых автомобилей 🚗 Их становится больше при высокой температуре.

✔️ В различных регионах России внедряют AI-экосистемы для сохранения атмосферы. Комплекс с применением алгоритмов AI, разработанный МТС, непрерывно мониторит загрязнение воздуха и сразу же прогнозирует рассеивание выбросов (сероводорода, оксида углерода, диоксидов азота и серы🧪). Решение протестировали в Нижегородской области.

✔️ В планах Центра AI Новосибирского государственного университета целый ряд идей для улучшения экологии городов 🆘 Разработки учёных для автоматизации, управления и контроля качества воздуха начнут интегрировать в инфраструктуру Новосибирска.

Видео создано для канала Душа Питона с помощью Kandinsky Video 1.1

Душа Питона

19 Oct, 04:40


Посмотрим, что нам приготовили в Invoke 5.0 — последнем апгрейде с поддержкой Flux:

🌸 Control Canvas — генерим, корректируем и улучшаем картинки в одном рабочем пространстве
🌸 Raster Layers — гибкое редактирование. Рисуем, раскрашиваем, перемещаем и меняем фигуры независимо друг от друга
🌸 Editable Control Layers — управляемая генерация. Повторно грузить изображение не нужно 😎
🌸 Canvas Layer Recall — удобно сохраняем

Демо и гайд ищем тут.

Душа Питона

18 Oct, 14:29


AI, которому мы доверяем 🤝

🛡 Как внедрить опенсорсный инструмент с гарантией безопасности? Можно, например, оценить любую новую разработку с открытым кодом с помощью Endor Scores. Модель от Endor Labs запускает 50 тестов на уязвимости, юридические проблемы и операционные риски.

🛡 В Национальном архиве США теперь будет работать AI-архивариус Archie AI на базе Gemini. Он разработан для помощи в написании текстов, визуализации данных, составления резюме совещаний и генерации идей.

🛡 Работу со сложными документами, только уже современными, будет осуществлять GPT@EC. AI вводят в пользование для сотрудников Европейской комиссии. Сейчас он проходит тестирование на генерацию черновиков и саммари. Также инструмент умеет писать код.

🛡 В России же готовятся к выпуску сразу 100 серверов с российскими AI-ускорителями. Самих GPU будет два: большой модуль NM Quard 20 ГБ и малый NM Card 5 ГБ. Создатели карт — НТЦ “Модуль”, сервера собирает Fplus.

Изображение создано для канала Душа Питона с помощью Kandinsky 3.1

Душа Питона

18 Oct, 11:07


Тестили новую мультимодальность в GigaChat? Я уже. Любуйтесь результатами 😳

Модель научили понимать изображения и поддерживать диалог по их содержанию.

Что можно выяснить:
количество объектов
происхождение изображения (откуда кадр, что за скрин)
кто на картинке (герои фильмов или книг, медийные личности)
назначение прибора, марку техники
смысл текста (в том числе формул, графиков, таблиц и даже написанного вручную ✏️)

Giga расшифрует даже достаточно абстрактное изображение (смотрите пример с матрицей).

Работает в браузере и Telegram-ботe.

Голосуем за самый крутой вариант:
❤️ Процессор
👍 Лео
🔥 Коты
💯 Мем
👏 Матрица
🏆 Мейкап

Душа Питона

18 Oct, 04:16


GPU-орган без GPU, но с AI 🎵

Инсталляция на выставке в Лондоне играет музыку, написанную моделями.

Холли Херндон и Мэтт Драйхерст, называющие себя аудиовизуальными творцами, обучили AI на сборнике гимнов и вокальных упражнений органной музыки, записанных 15-ю хорами Великобритании. Мелодии генерятся диффузионной моделью

Собственно, GPU в органе никто не нашёл, так что это больше для красного словца. Механика процесса обычная, трубами управляют вентиляторы PWM. Это то, что можно понять по внешнему виду инструмента, об остальном Холли и Мэтт не рассказывают (волшебная сила искусства, да ).

Тем не менее AI в написании мелодий участвует. А ещё орган отвечает мелодией посетителю на его пение. Всё это можно увидеть и потестить в галерее Serpentine в Кенсингтоне, выставка The Call открыта до февраля 2025 года.

А здесь кусочек органной композиции мне нагенерила Suno 🔡

Видео создано для канала Душа Питона с помощью Kandinsky Video 1.1

Душа Питона

17 Oct, 15:15


Chemlactica и Chemma: LLM в разработке лекарств

Исследователи из Армении предложили алгоритм улучшения поиска перспективных молекул для разработки лекарственных препаратов (molecule optimization).

Chemlactica и Chemma учили на датасете из 110 млн молекул из PubChem (40 млрд токенов). Помимо репрезентаций SMILES (simplified molecular-input line-entry system), там есть и информация о свойствах частиц 🛁

За основу взяли Galactica и Gemma. Обе модели при тренировке используют Adam-токенизатор и cross-entropy loss. Применили несколько техник: CoT, Repetition Penalty, Undesired Token Suppression 🚶

На бенчмарках Chemlactica-1.3B и Chemma-2B стали SOTA. Chemma-2B превзошла в задаче генерации потенциальных лекарств все имеющиеся алгоритмы 🤓

Изображение YerevaNN

Душа Питона

17 Oct, 08:53


4 обновления для AI в гаджетах: смартфоны, планшеты и телевизор 📞

🔤 Компания Telefónica запустила приложение, позволяющее пользователям взаимодействовать с поисковой AI-системой Perplexity. Можно спрашивать AI о чём угодно с помощью голосового пульта. Сгенерированные ответы он и на экране напишет, и озвучит 🔤

🔤 Новые возможности своего AI тестирует Motorola. На выставке Lenovo Tech World ‘24 компания показала, как Moto AI может заказать кофе и такси. Вскоре он будет автоматизировать и другие повседневные задачи: например, установку будильника или выбор плейлиста.

🔤 Новую операционку Android 15 AI защищает от использования злоумышленниками. Функция Theft Detection Lock предназначена для мгновенной блокировки смартфона, как только он попадает в чужие руки ⛔️

🔤 Apple подсуетились и добавили AI в свой самый маленький планшет iPad mini. В нём работает чип A17 Pro для поддержки функций Apple Intelligence при работе с текстами и изображениями.

Изображение Apple

Душа Питона

17 Oct, 05:12


Процесс или результат: как улучшить логику моделей 🤪

В Google представили process reward models (PRM), способные давать фидбек пошагово в процессе выполнения задачи. Это отличает их от распространённых outcome reward models (ORM), которые оценивают только финальный ответ 👉

Прогресс здесь определяется как изменение вероятности генерации корректного ответа до и после совершения шага. Такой подход консистентен с принятыми в RL.

Но что интересно:
✔️ Авторы показали, что оценка должна проводиться с помощью prover policy function, отличной от базовой модели
✔️ Теоретически использование даже более слабой policy function может усилить перформанс base function 🥹

Проверяли PRM при помощи process advantage verifiers. В среднем такие модели на 8% точнее и требуют в 1,5-5 раз меньше вычислений по сравнению со стандартными ORM.

Открываются большие перспективы по оптимизации перформанса моделей на reasoning-задачах, где особенно важны последовательные рассуждения

Изображение Google Research

Душа Питона

16 Oct, 14:10


Потестила Rendernet.ai. Нейронка задумана для генерации персоны с нужным лицом в разном антураже и локациях. Меняются позы, одежда, мимика, но сходство с оригинальной моделью сохраняется.

Теоретически здесь можно сотворить AI-блогера и запустить его в свободное плавание.

Для генерации контента нейросеть предлагает несколько разных способов:
🎆фото и видео по промпту
🎆 замена лица на готовых изображениях и в роликах
🎆 говорящий персонаж из фото и звуковой дорожки 🎶
🎆диктор с микрофоном, произносящий заданный текст на английском, китайском и португальском 🎤

Но надо понимать, что бесплатных кредитов тут всего 50 (по 5 на 1 изображение только с соотношением 4:5), а за видео их просят уже 60 👀

Выбираем понравившиеся варианты кликом на смайлик:
❤️ Девушка с кофе
👍 Летний вайб
🔥 В космосе
💯 Поход в горы
👏 Романтика

Душа Питона

16 Oct, 10:18


4 новых AI-ассистента в знакомых сервисах: где появятся и что будут делать ⛔️

💻 Zoom анонсировала помощника AI Companion 2.0, способного запоминать разговоры и действия пользователя. Он соберёт инфу не только из Workplace, но и из Microsoft Outlook, Gmail, Google Calendar, Microsoft Office и Google Docs. Также инструмент выдаст саммари непрочитанных сообщений в чатах и пояснит суть дискуссии.

😎 Виртуальным помощником на платформе TrueConf AI Server можно управлять. Важная его особенность — безопасность, так как он работает локально в корпоративной сети. Распознаёт речь участников видеосовещания и протоколирует созвон в разных форматах (таблицах, документах или аудио 🎧).

🚗 AI-помощника в приложении Volkswagen создавали на основе Gemini. Ассистент объяснит всё об управлении или неполадках, если направить камеру на соответствующий объект в машине. Первыми осчастливили владельцев Volkswagen Atlas и Atlas Cross Sport.

🚘 Чат-бот на базе GPT-4o пояснит про электромобиль водителю Uber. В приложении Uber driver для начала с AI-ассистентом можно будет посоветоваться по поводу выбора машины, а также места, где её можно заряжать. Опции будут добавляться. Запуск помощника планируется в 2025 году.