1

AINews | Нейросети

23 Dec, 14:35

Мы тут часто дискутируем о новых интерфейсах AI, ведь если не только перепечатывать новости, но и генерить самому, появляется ощущение, каким должен быть AI-майндсет, чтобы генераторы перестали быть технологиями, а превращались в продукты.
Знакомые из AI Mindset запускают футуристичную лабораторию, где вместо чтения про AI вы начнете его реально использовать.

🤖 AI Mindset Lab — это 4 недели интенсивной практики, в которых вы свяжете знакомые инструменты в полноценные рабочие решения. Вот несколько примеров того, что создали участники предыдущей лабы:

• ассистент для рефлексии: дневник настроения с голосовым вводом и анализом эмоциональных паттернов. stack: ChatGPT, SuperWhisper
• smart meeting assistant: автоматическая транскрипция звонков и генерация саммари с отправкой в Telegram. stack: Zoom, Zapier, Whisper
• умный поиск по базе знаний: интеллектуальный поиск и рефлексия на базе заметок из своей базы знаний. stack: Obsidian, Windserf, Cursor
• ассистент для творческих задач: генерация идей, создание музыкальных аранжировок, генерация изображений и видео. stack: Midjourney, Suno, RunwayML и др.
• языковой тренер: адаптивная система обучения с генерацией персональных упражнений. stack: Claude, local LLMs, Gemini
• market research AI: автоматический сбор и анализ данных о рынке и конкурентах. stack: GPT, Perplexity, Consensus

Никакой воды и теории — только живая практика, реальные кейсы и взаимодействие в сообществе единомышленников. Вы научитесь не только использовать инструменты, но и мыслить как AI-исследователь.

🗓 старт: 21 января
📰 формат: 2-3 онлайн-встречи в неделю + практика

[подробнее о лаборатории]

по коду mindset скидка 10% до конца года

P.S. для тех, кто хочет глубже погрузиться в тему управления знаниями с AI, есть расширенный поток с фокусом на создание "второго мозга" в Obsidian + AI – AI Mindset [knowledge]

почитать о других проектах ребят можно на их канале

1

AINews | Нейросети

23 Dec, 10:50

LTX Video2Video реально неплох.
149 кадров на 4090 занимают 20 секунд(!).

1

AINews | Нейросети

Pika 2.0 — мечта всех рекламщиков

Pika продолжают исследовать возможности для контроля видео и на этот раз представили Scene Ingredients.

Фича позволяет создавать видео с реальными людьми (0:37) и объектами, а затем поместить их всех в какое-то место действия. По сути, это IP-Adapter на стероидах для видео. Конечно, тут ничего на лету не обучается, просто на вход сетки подаются дополнительные эмбеддинги референсных объектов. Но это может не очень стабильно работать.

- Подписка за $35 даёт кредитов на 40 видео в месяц (это очень мало).
- За $95 можно получить уже 120 видео.

Видео с Ingredients используют в два раза больше кредитов. Так что подписки даже за 95 баксов на нормальный видос не хватит 🤭

Большой упор сделали на рекламщиков. А-ля: загрузи фотку модели и фотку какой-то вещицы — и вот держи, пожалуйста, модный промо-видосик! Но не совсем понятно, насколько это на самом будет хорошо работать и слушаться промпта.

Kling вот недавно тоже сделали шаг в этом направлении, неожиданно релизн...

782

AINews | Нейросети

14 Dec, 15:20

Grok Aurora & Kandinsky

Цензура? Нет, не слышали..

Сора: а чо так можно было?

808

AINews | Нейросети

14 Dec, 15:20

Это уже AGI?

Началось?

💀👋😈👋🫢

722

AINews | Нейросети

14 Dec, 13:26

Kandinsky Video, Gigachat Music и народный датасет.

У Кандинского вышла новая модель 4.0 для генерации видео и местами там очень неплохие результаты.

А Gigachat запустил свой генератор музыки. Длина трека полторы минуты, но есть также генератор тестов песен.

И кстати про тексты и датасеты. Сбер в 2025 году начнет собирать "Народный датасет" для обучения моделей GigaChat и Kandinsky - в нем могут поучаствовать все желающие, приведя информацию о небольших регионах, о городской специфике, малых народах или устоявшихся выражениях. Своеобразный национальный краудсорсинг информации новой модели.
Подробности тут.

744

AINews | Нейросети

14 Dec, 13:26

Реалтаймовый path tracing в UE5.

Честно говоря, звучит как изобретение квантового рейтрейсинга или применение квантовых компьютеров для рендеринга. Ну не может такой кадр считаться в 60fps, я хорошо помню из прошлой жизни, что такие сцены считаются сутками. На кадр.

Если интересно как это возможно, поглядите видео. Как я понял, вместо миллиардов лучей испускаются миллионы(звучит иронично, но экономия в тысячи раз) и испускаются локально, только там где надо(блидинг, софт шедоу и пр).

И там хорошие три вопроса, один из которых про потерю качества при таком подходе. Ответ - ее почти нет.

Явшоке. Подробности ниже.

А я вспоминаю недавние посты про генерацию, а точнее про рендеринг игр нейронками, которые знать не знают про path tracing и физическую корректность, и думаю, а что важнее - дофамин или физически корректный свет? И где предел качества картинки, после которого пользователю уже все равно на качество?

https://youtu.be/JYI1srodjeg?si=8VxmZyglPqGCjVOa

696

AINews | Нейросети

13 Dec, 22:40

OpenAI 7: проекты в chatgpt

Очень полезная штука. Можно такие папочки создавать, в которых все необходимые документы, инструкции, чаты. Причем не только на потрындеть, но и код пописать. Наконец-то можно будет разложить все аккуратно и контекст сохранять. Тут рабочая стратегия, тут путешествия организация и так далее. Раскатывают прямо сейчас
https://www.youtube.com/live/FcB97h3vrzk?si=xjUjA8kQxsJLMglh

663

AINews | Нейросети

13 Dec, 17:01

Ну, за подкасты.
Не очень понятно зачем теперь нужны кожаные блогеры, влогеры, инфлюматьихенсеры.

Я тут смотрел, как народ упарывается в NotebokLM, создавая аудио-подкаст из текста, потом вырезает в аудасити звук для каждого голоса, потом огородит с хейгеном и звуком, и тд.

Все.

Одна кнопка.
Сделать красиво.
Тупо, но красиво.
А зачем еще это все?

Хейген, похоже, сами не понимают, как они троллят интернет.

768

AINews | Нейросети

13 Dec, 09:11

BLENDERGPT
Держите вам еще один 3Д-генератор.

Несмотря на название это НЕ плагин к Блендору, это просто еще один облачный сервис за 10 долларов в месяц.
Преимущество - быстрый.
Я попробовал, не увидел чего-то особенного. Может вы найдете.

С персонажами совсем беда.

https://www.blendergpt.org/app

700

AINews | Нейросети

13 Dec, 09:10

У меня в телеге все разбито на папки. Каналы в одной папке, активные каналы в другой, рабочие чаты в третьей, персональные сообщения в четвертой, ну и тд. Проблема в том, что когда кто-то делает новый чат с тобой и кем-нибудь еще, то этот чат попадает в папку All, а там тысячи непрочитанных. И все это улетает вниз. Не нашел как с этим бороться, а также, как искать ТОЛЬКО в личных сообщениях или только в сообщениях их определенной папки, или только pdf-ы. На итоге постоянно теряю кого-то или что-то. И тут мне пишет подписчик Илья, который с помощью ИИ забабахал бота, который решает часть таких проблем.
Смотрите ниже
⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️

791

AINews | Нейросети

12 Dec, 16:03

Sora vs Minimax
Как иллюстрация к предыдущему экзальтированному посту.

Вот смотрите, есть две картинки.

По первой, Сора НАОТРЕЗ отказывается генерить видео. Орёт: вижу людей! тревога! не могу! не буду!
По второй генерит реальную хрень, явно желая выйти в прокрустово ложе датасета, привычную лыжню камеры и псевдо-3Д стиль.
При этом Минимакс (видео без лого) кушает все это как родной. Понимая и про людей, и про стиль (что это мультик) и про камеру.

Как еще надо поломать мозги Соре, чтобы стало понятно, что это тупик?

Спасибо Максу и подписчикам, атомный чат у меня в коментах, конечно

836

AINews | Нейросети

30 Nov, 10:44

За озвучку. Пост

У всех этих видеогенераторов есть общая черта.

Они генерят видео без звука.
Я уже постил разные работы, где по видео, например, гитариста, озвучивают то, что он играет.

Но, похоже, в этой области дальше всех продвинулся Адобченко (ибо мает датасеты, стоки, софт для звука).

Анонсировали забавную штуку MultiFoley (точнее обновили свои же работы).

Теперь ИИ не только восстанавливает звук из молчаливого видео, но и умеет его продолжать.
Также, теперь можно не только текстом описывать, как вы хотите озвучить, точнее, что вы хотите услышать на вашем немом видео, но и можно на вход подавать референсное аудио.
Поглядите пример с собакой: типа, хочу, чтобы псина на видео лаяла как мой мопс, вот запись мопса.
https://ificl.github.io/MultiFoley/

Привет с печатной машинкой, которая издает звуки клавесина, тоже впечатляет.
ИИ сам разбирается, как попасть в пальцы.
В общем у нас тут этакий металипсинк, где вместо лип - ворлд.

Ни о каком коде речь не идет. Это Адобченко. И это идеально ляжет к ни...

789

AINews | Нейросети

30 Nov, 05:09

Играем в Бога с LLM

Провел интересный эксперимент над QwQ-32B-Preview – языковые модели предсказывают следующие токены и от этого пишут внятные предложения; я подумал, а что если самой модели рассказать:

– Что она LLM
– Что она пишет следующее токены на основе вероятностей
– Попросить модель «угадать» токен который она напишет следующим
– Но при этом, запретить ей писать слова которые она загадала, заставляя писать всегда неправильные слова
– И попросить модель разобраться что же происходит, почему ошибки

В итоге, получился залипательный эксперимент где модель написала примерно ~20 тысяч слов пытаясь понять, что же происходит - скрины можно не читать если лень, там примерно такое:

– Сначала она просто возмущалась, что не может угадать слово
– Через пару минут, она решила что проблему нужно изучить глубже и сделала список слов которые загадала и что написалось, попробовала подобрать алгоритм предсказаний
– Модель предположила, что каждое слово которое она загадывает, инвертируется, но находится в той ...

686

AINews | Нейросети

Прошло 6 месяцев и в коде для приложения chatGPT наконецто заметили кусочки кода для Live Camera.

Помните, как на демо все общались с телефоном, как будет у него есть не только уши (voice mode), но и глаза(лайв-камера).

Код обнаружен в v1.2024.317 и там есть:
—Live camera functionality
—Real-time processing
—Voice mode integration
—Visual recognition capabilities

Когда и кому раскатают в первую очередь?

<string name="video_nux_beta_label">Beta</string>
<string name="video_nux_description">Tap the camera icon to let ChatGPT view and chat about your surroundings.</string>
<string name="video_nux_title">Live camera</string>
<string name="video_warning">Don't use for live navigation or decisions that may impact your health or safety.</string></code?

https://x.com/AndroidAuth

1

AINews | Нейросети

22 Nov, 08:19

🤖 Золотая коллекция авторских каналов про нейросети, сохраняйте!

Собрал для вас редкие и полезные каналы про нейронки:

НероProfit — авторский канал с проверенными инструментами для бизнеса, учебы и работы. Конкретика, кейсы и пошаговые инструкции – все, чтобы вы смогли использовать ИИ эффективно уже сегодня.

Tips AI | IT & AI — пишет про интересные сервисы AI и IT технологий! Всегда актуальное, проверенное и немного с юмором.

Бурый — коллекционер нейросетей, тестит всё на себе и делится лучшими бесплатными нейронками.

Силиконовый Мешок — Авторский канал нейроиспытателя Артема Субботина про искусственный интеллект приносящий прибыль.

Сергей Булаев AI 🤖 - создание полезного контента и продуктов с помощью ИИ. Открываем эру миллиардных компаний из трёх человек.

792

AINews | Нейросети

21 Nov, 21:20

Black Forest Labs: выпустили Tools, набор моделей для тонкой работы с генерацией изображений.

В него входит:
* FLUX.1 Fill: модель для инпейтинга и аутпейтинга, позволяющая вписывать/менять объекты на картинках или расширять кадр.
* FLUX.1 Depth: изменение картинки на основе карты глубины.
* FLUX.1 Canny: изменение картинки на основе карты очертаний.
* FLUX.1 Redux: адаптер для получения вариаций изображения.

Canny и Depth идут в двух вариантах: полных моделях с максимальным качеством, и лоры (Canny Lora плюс Depth Lora) на основе Dev для упрощенной разработки.

Данные решения от BFL показывают себя лучше, чем контролнеты собранные сообществом, вроде варианта от Alibaba (хотя в анонсе ссыль ведёт на альфа версию контролнета, а уже есть обновлённая бета). Также пишут, что картинки на выходе лучше других моделей, но на их бенчах нет Recraft V3.

В целом, BFL молодцы, что работают и на комьюнити, продвигая опенсорс, и себя не забывают с платными фишками по API.

Анонс
Хаггинг
Гитхаб

681

AINews | Нейросети

21 Nov, 14:19

Тестируем SANA локально.

Первое - она реально быстрая. Причем ей наплевать на разрешение. Она молотит 2048х2048 почти с такой же скоростью что и 1024х1024. Более того, 4096х4096 тоже не сильно отличается по скорости.
Для тестирования промптов, разрешений, параметров - это просто рай. Ты не ждешь вообще.

Второе - установка. Тут вам придется помучиться. Поддержки Комфи пока нет. В инструкциях у них есть пара ошибок. Один pyhton вместо python чего стоит. Но у них есть градио морда, которую таки можно запустить и тестировать локально.

Третье. Качество. И тут мы быстро усмиряем ожидания и помним, что главное преимущество - скорость, нетребовательность и тренируемость.
Если вкратце:
Промпт понимает лучше чем SDXL, но хуже чем Флюкс или SD3.
Качество - среднее между SDXL и SD15. Трудно сказать однозначно, большой разброс по качеству. Но точно не Флюкс или Идео. До них очень далеко.
Кожа и лица - пластик, но с хорошими деталями в портретах. Глаза и зубы - очень нестабильно.
Из интересного - НЕ любит короткие...

942

AINews | Нейросети

21 Nov, 14:19

SANA и цензура.

Когда будете устанавливать SANA у вас будут ошибки из-за того, что код пытается скачать модель Gemma как текст енкодер, а доступ на хаггинг фейс требует логина. Вам нужно будет добыть логин токен и прописать его в конфиги модели (yaml).
Но самое интересное, что Гемма используется для цензуры!!!
Она пасет ваши промпты и если видит глупости, то шлет вам сердечки.
Зацените картинку и не забудьте выпилить цензуру из кода.

https://github.com/NVlabs/Sana

926

AINews | Нейросети

20 Nov, 10:29

Теперь все узнают, куда он смотрел.

DimensionX, конечно, огонь. Причем первые такие работы я видел года три-четыре назад, но они предсказывали обратную сторону одного объекта в сцене.
Сейчас нейросеточки пытаются распутать весь наш мир по ОДНОЙ картиночке.

За последние два дня у меня минимарафон в ленте на эту тему. Но чтобы нормальные читатели не увяли, решил сделать что-то более мемное, а то все когвидео да когвидео..

Также попытался прогнать результат через facefusion - все-таки DimensionX делает довольно черновое качество.
Интересно, что если принудительно попросить facefusion улучшить ВСЕ лица, то магия заблюренной leady in red теряется. Кинул вам разных вариантов, первый - это без улучшайзинга.

Ну и для гиков и не только - вот демоспейс DimensionX - можете сами попробовать сделать альтернативную версию реальности.
https://huggingface.co/spaces/fffiloni/DimensionX

660

AINews | Нейросети

Я тут подсобрал все, что нарендерил с помощью CogVideo V1.5 и сделал колбасу.

Там первая минута - это в основном image2video, потом text2video. Осторожно, в конце малость nsfw, смотрите на свой страх и риск.

Нет, это не Comfy, это ручками, в основном через SAT версию CogVideo-5B-1.5

Памяти - 40гиг врам, просчет 15 минут для 5 секунд на A100.

707

AINews | Нейросети

18 Nov, 23:40

Кидаешь в chatGPT просто кусок кода из репозитария CogVideo:

def generate_video_interface(
    prompt: str,
    model_path: str = "THUDM/CogVideoX1.5-5B",
    lora_path: str = None,
    lora_rank: int = 128,
    num_frames: int = 81,
    width: int = 1360,
    height: int = 768,
    image_or_video_path: str = "",
    num_inference_steps: int = 50,
    guidance_scale: float = 6.0,
    num_videos_per_prompt: int = 1,
    dtype: str = "bfloat16",
    generate_type: str = "t2v",
    seed: int = 42,
    fps: int = 16,
    output_path: str = "./output.mp4",
):

919

AINews | Нейросети

30 Oct, 21:08

Anthropic тоже запустил возможность в интерфейсе при ответе писать и запускать код, и на ее основе выпустил инструмент анализа данных - https://www.anthropic.com/news/analysis-tool

Вот что пишут:
- Маркетологи могут загружать данные о взаимодействии с клиентами на всех этапах воронки продаж, и Claude выявит возможности для повышения конверсий.
- Продавцы могут загружать глобальные данные о продажах, и Claude предоставит анализ производительности по странам.
- Продакт-менеджеры могут загружать данные о вовлеченности пользователей, и Claude поможет спланировать спринты и определить приоритеты разработки.
- Инженеры могут загружать журналы производительности серверов, и Claude определит области для оптимизации использования ресурсов.
- Финансовые команды могут загружать ежемесячные финансовые данные, и Claude создаст финансовую панель для отображения ключевых тенденций и поддержки принятия решений.

853

AINews | Нейросети

24 Oct, 22:23

OmniGen в режиме text2image. Часть 2.

Вот так он видит Марго Робби и Илона Маска (кстати узнаваем). И Барака Обаму. Это если просто текстовым промптом. Делайте выводы.

50 шагов похоже его оптимальный режим. Седой мужик посчитан в 50 и 100, есть больше деталей, но несильно.

И он мыльный. Но как только на вход даешь картинку, все стразу меняется.

Но об этом уже завтра. Он меня укатал.

946

AINews | Нейросети