AINews | Нейросети @cyberaievolution Channel on Telegram

AINews | Нейросети

@cyberaievolution


Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.

AINews | Нейросети (Russian)

Добро пожаловать в канал AINews | Нейросети! Здесь вы найдете не просто новости, а персональный экспертный взгляд на развитие индустрии искусственного интеллекта, графики, метаверса, криптовалют, нейротехнологий и многое другое. Мы не просто рассказываем об изменениях в мире технологий, мы анализируем и делаем прогнозы о том, в каком направлении все это движется. Канал cyberaievolution собирает в одном месте самую актуальную информацию о новейших технологиях и тенденциях развития сферы искусственного интеллекта. Наши авторы - опытные специалисты, которые предлагают вам уникальные аналитические материалы, которые помогут вам быть в курсе всех событий и быть впереди. Присоединяйтесь к нам, чтобы расширить свои знания и понимание области ИИ и новейших технологий!

AINews | Нейросети

24 Dec, 12:23


Японский метаверс. Now!

Полная копия Токио.
На сайте Пойнт клауды и CityJSON.

Выглядит как полный цифровой близнец, особенно с информацией про автобусы.

Качать и смотреть отсюда:
https://info.tokyo-digitaltwin.metro.tokyo.lg.jp/3dmodel/

Пошуруйте по сайту, интересный

AINews | Нейросети

24 Dec, 10:28


Нашел нормальный штатовский впн и поигрался с Сорой наконец под рождественский шумок.

У меня два промпта для тестов - дифчонки на пляже и ZZ-Top.

На ZZ-Top ругатся, я говорит переписала твой стыдный промпт, там контрафакт.

По качеству генераций - очень мало мыла, и наверное резче, чем у многих. Но по композиции, движению и построению кадра - не впечатлен. С анимацией персонажа - не задалось. Она шарахается от image2video. А уже если людей углядит, верещит как сумасшедшая.

Задумка со сторибордом - хорошая. Иметь таймлан в видеогенерациях - это must have я считаю.
Но реализация хромает. Сыро.

Пока Клинг и Минимакс - two loves

В общем жду доступа к Veo 2.

Кстати, все, что вы видите на сайте - это 480р, даже если вы выбирали 720. Так что не доверяйте глазам, а скачивайте.
Если скачивать, через правую кнопку+inspect - то скачивается сильно пожатый ролик в 480p, независимо от выбранного разрешения, а если через меню, то там похоже что-то типа апскейла или улучшайзинга идет - задержка довольно приличная....

AINews | Нейросети

23 Dec, 23:10


Принёс вам видео из загнивающего твиттора. Просто посмотрите какая годнота! Чувак использует новый Gemini как персонального наставника по программированию расшарив нейронке свой экран. Все это голосом и с минимальной задержкой.

Будущее уже тут.

Попробовать так же можно тут (нужен гуглоаккаунт и айпишник США)

AINews | Нейросети

23 Dec, 21:31


В твиттере вирусится видео, где Нетфликc как бы использует ИИ для дубляжа и одновременного липсинка.

Я вам предлагаю почитать хороший материал про то, как вообще нетфликс использует ИИ.

И там есть вот такой текст:

После успеха таких интерактивных сериалов, как "Бандерснэтч", Netflix, возможно, начнет изучать интерактивные истории с использованием ИИ, позволяя зрителям самим выбирать сюжет, который может включать дубляж с ИИ в зависимости от языковых предпочтений зрителя.

Использование искусственного интеллекта Netflix может стать мощным инструментом для предсказания потенциального успеха контента еще до его выхода - идея, которая не так уж далека от реальности, если учесть, что гигант потокового вещания уже использует аналитику.

Deepdub - это сервис, который использует Нетфликс для дубляжа.
https://deepdub.ai/post/how-netflix-leverages-ai-unveiling-the-tech-behind-the-stream

AINews | Нейросети

23 Dec, 14:35


Runway Middle Frames

Выглядят довольно продуктово.

Дальше никто не мешает сделать интерфейс с таймлайном и маркерами и несколькими/многими ключевыми кадрами. И получить хорошее решение "раскадровка2видео".

У Сора есть что-то подобное в новом интерфейсе с таймлайном. Я потестил рождественскую Сору с американским ВПН. Но там практически невозможно получить такие примеры с людьми. Она орет как резаная, даже когда ей даёшь её же генерации. "Тут кожаные, срам какой!".

Соре точно надо к терапевту, подавленная телесность до добра не доведет, а мы получим закомплексованные картинки в голову.

Рунвей молодцы, людишек не бояцца, а ключевые кадры постепенно переползут в решения для консистентных раскадровок и монтажа.

AINews | Нейросети

23 Dec, 14:35


Мы тут часто дискутируем о новых интерфейсах AI, ведь если не только перепечатывать новости, но и генерить самому, появляется ощущение, каким должен быть AI-майндсет, чтобы генераторы перестали быть технологиями, а превращались в продукты.
Знакомые из AI Mindset запускают футуристичную лабораторию, где вместо чтения про AI вы начнете его реально использовать.

🤖 AI Mindset Lab — это 4 недели интенсивной практики, в которых вы свяжете знакомые инструменты в полноценные рабочие решения. Вот несколько примеров того, что создали участники предыдущей лабы:

ассистент для рефлексии: дневник настроения с голосовым вводом и анализом эмоциональных паттернов. stack: ChatGPT, SuperWhisper
smart meeting assistant: автоматическая транскрипция звонков и генерация саммари с отправкой в Telegram. stack: Zoom, Zapier, Whisper
умный поиск по базе знаний: интеллектуальный поиск и рефлексия на базе заметок из своей базы знаний. stack: Obsidian, Windserf, Cursor
ассистент для творческих задач: генерация идей, создание музыкальных аранжировок, генерация изображений и видео. stack: Midjourney, Suno, RunwayML и др.
языковой тренер: адаптивная система обучения с генерацией персональных упражнений. stack: Claude, local LLMs, Gemini
market research AI: автоматический сбор и анализ данных о рынке и конкурентах. stack: GPT, Perplexity, Consensus

Никакой воды и теории — только живая практика, реальные кейсы и взаимодействие в сообществе единомышленников. Вы научитесь не только использовать инструменты, но и мыслить как AI-исследователь.

🗓 старт: 21 января
📰 формат: 2-3 онлайн-встречи в неделю + практика

[подробнее о лаборатории]

по коду mindset скидка 10% до конца года

P.S. для тех, кто хочет глубже погрузиться в тему управления знаниями с AI, есть расширенный поток с фокусом на создание "второго мозга" в Obsidian + AI – AI Mindset [knowledge]

почитать о других проектах ребят можно на их канале

AINews | Нейросети

23 Dec, 10:50


LTX Video2Video реально неплох.
149 кадров на 4090 занимают 20 секунд(!).

AINews | Нейросети

23 Dec, 10:49


В 3Д генераторе Trellis (опенсорсном, от Микрософта) появилась возможность загружать несколько картинок на вход.
Можно самим попробовать вот тут:
https://huggingface.co/spaces/JeffreyXiang/TRELLIS

Вкладка multiple images

AINews | Нейросети

22 Dec, 20:08


Ну, за трейлеры.

Это чистый Google Veo 2 Text2Video плюс монтаж в Capcut.

Если к сторителлингу есть некоторые вопросы(приподвзварчиваю немного), то картинка просто убийственная.

Больше всего мне нравятся "шейдеры" и вот эта вот трансформирующаяся геометрия.

В общем на фоне бесконечных лабрадоров в очках и мартышек на роликах это выглядит как реальный клип "по делу".

Н-Нравится.

AINews | Нейросети

22 Dec, 11:02


MovieGen в Instagram, но это не точно

Тут босс инстаграма Адам Моссери флексит метачковый MovieGen, который "как он надеется" появится в инсте в 2025 году (неясно в каком месяце).

Выглядит как видео2видео с сегментацией лица и промптовым редактированием.

Для инсты - самое то. Достаточно безопасное решение, если на входе ваше видео.

Вопрос продуктовых фишек:
Seamless Integration: Built directly into Instagram for instant access

Как именно это будет встроено в инсту? Какие кнопачки будут решать задачу новых ИИ-фильтров.

Ну и входное видео надо снимать самим, это плохая новость...

AINews | Нейросети

22 Dec, 09:20


Аватаризация, скидки и все такое.

Я не склонен превращая канал в чорную пятницу, вы сами пошарьте в сети, у кого сейчас скидки или бесплатные периоды. Suno, Pika, Cupcat, Hedra по коду HEDRAODYSSEY (месяц бесплатно) и всяко разно другое.

Но вот держите посылочку от Тиктока, и какую.

Это как бы ответочка Хедре и даже самому Хейгену, с очень интересными штуками.
И если будет код, то это хорошая альтернатива Hallo - опенсорсному оживлятору говорящих голов.

Смотрите, что есть у NFP: Audio-Driven Interactive Head Generation

1. Это заточено под диалоги, причем есть режим слушающего

2. Может принимать пестни на вход и петь с закрытыми глазами

3. Есть Мона Лиза, как у людей.

4. Прямо просится в онлайн-созвоны: режим переключения между слушателем и докладчиком и вот это: Real-time Agent to Agent communication!!!

5. Можно делать подкасты для двух цифровых тварей.

Для сравнения, последний ролик в посте из новой Хедры.

Смотрим видео тут и взываем код.

https://grisoon.github.io/INFP/

Можете также поглядет...

AINews | Нейросети

15 Dec, 13:33


Боюсь, что нигде теперь. А как ещё ИИ будет получать бесплатную разметку для беспилотников?
Любишь катацца, люби и данные метить.
Не любишь катацца, сиди на обочине прогресса.

AINews | Нейросети

15 Dec, 13:33


Адобченко пилит свой Omnigen. И какой!


https://xavierchen34.github.io/UniReal-Page/

Обещан код!

В воскресенье мне негоже писать лонгриды, поэтому я просто скопирую сюда все эти сладости, из которых меня больше всего возбудила вот эта:

Learns from video data to understand shadows, reflections, lighting effects and object interactions

Итак.

# 🌟 Key Features

* Universal Framework: Handle multiple tasks like generation, editing, customization and composition in a single model
* Real-world Dynamics: Learns from video data to understand shadows, reflections, lighting effects and object interactions
* Multi-Image Support: Process multiple input/output images seamlessly as "frames"
* Smart Context Understanding: Advanced hierarchical prompting system for precise control
* Automatic Adaptation: Intelligently adjusts to different tasks without requiring specific instructions

# 🎨 Example Applications

# Image Editing

* Add/remove objects with natural lighting and shadows
* Modify scene attributes while main...

AINews | Нейросети

14 Dec, 22:41


Pika 2.0 — мечта всех рекламщиков

Pika продолжают исследовать возможности для контроля видео и на этот раз представили Scene Ingredients.

Фича позволяет создавать видео с реальными людьми (0:37) и объектами, а затем поместить их всех в какое-то место действия. По сути, это IP-Adapter на стероидах для видео. Конечно, тут ничего на лету не обучается, просто на вход сетки подаются дополнительные эмбеддинги референсных объектов. Но это может не очень стабильно работать.

- Подписка за $35 даёт кредитов на 40 видео в месяц (это очень мало).
- За $95 можно получить уже 120 видео.

Видео с Ingredients используют в два раза больше кредитов. Так что подписки даже за 95 баксов на нормальный видос не хватит 🤭

Большой упор сделали на рекламщиков. А-ля: загрузи фотку модели и фотку какой-то вещицы — и вот держи, пожалуйста, модный промо-видосик! Но не совсем понятно, насколько это на самом будет хорошо работать и слушаться промпта.

Kling вот недавно тоже сделали шаг в этом направлении, неожиданно релизн...

AINews | Нейросети

14 Dec, 15:20


Grok Aurora & Kandinsky

Цензура? Нет, не слышали..

Сора: а чо так можно было?

AINews | Нейросети

14 Dec, 15:20


Это уже AGI?

Началось?

💀👋😈👋🫢

AINews | Нейросети

14 Dec, 13:26


Kandinsky Video, Gigachat Music и народный датасет.

У Кандинского вышла новая модель 4.0 для генерации видео и местами там очень неплохие результаты.

А Gigachat запустил свой генератор музыки. Длина трека полторы минуты, но есть также генератор тестов песен.

И кстати про тексты и датасеты. Сбер в 2025 году начнет собирать "Народный датасет" для обучения моделей GigaChat и Kandinsky - в нем могут поучаствовать все желающие, приведя информацию о небольших регионах, о городской специфике, малых народах или устоявшихся выражениях. Своеобразный национальный краудсорсинг информации новой модели.
Подробности тут.

AINews | Нейросети

14 Dec, 13:26


Реалтаймовый path tracing в UE5.

Честно говоря, звучит как изобретение квантового рейтрейсинга или применение квантовых компьютеров для рендеринга. Ну не может такой кадр считаться в 60fps, я хорошо помню из прошлой жизни, что такие сцены считаются сутками. На кадр.

Если интересно как это возможно, поглядите видео. Как я понял, вместо миллиардов лучей испускаются миллионы(звучит иронично, но экономия в тысячи раз) и испускаются локально, только там где надо(блидинг, софт шедоу и пр).

И там хорошие три вопроса, один из которых про потерю качества при таком подходе. Ответ - ее почти нет.

Явшоке. Подробности ниже.

А я вспоминаю недавние посты про генерацию, а точнее про рендеринг игр нейронками, которые знать не знают про path tracing и физическую корректность, и думаю, а что важнее - дофамин или физически корректный свет? И где предел качества картинки, после которого пользователю уже все равно на качество?

https://youtu.be/JYI1srodjeg?si=8VxmZyglPqGCjVOa

AINews | Нейросети

13 Dec, 22:40


OpenAI 7: проекты в chatgpt

Очень полезная штука. Можно такие папочки создавать, в которых все необходимые документы, инструкции, чаты. Причем не только на потрындеть, но и код пописать. Наконец-то можно будет разложить все аккуратно и контекст сохранять. Тут рабочая стратегия, тут путешествия организация и так далее. Раскатывают прямо сейчас
https://www.youtube.com/live/FcB97h3vrzk?si=xjUjA8kQxsJLMglh

AINews | Нейросети

13 Dec, 17:01


Ну, за подкасты.
Не очень понятно зачем теперь нужны кожаные блогеры, влогеры, инфлюматьихенсеры.

Я тут смотрел, как народ упарывается в NotebokLM, создавая аудио-подкаст из текста, потом вырезает в аудасити звук для каждого голоса, потом огородит с хейгеном и звуком, и тд.

Все.

Одна кнопка.
Сделать красиво.
Тупо, но красиво.
А зачем еще это все?

Хейген, похоже, сами не понимают, как они троллят интернет.

AINews | Нейросети

13 Dec, 09:11


BLENDERGPT
Держите вам еще один 3Д-генератор.

Несмотря на название это НЕ плагин к Блендору, это просто еще один облачный сервис за 10 долларов в месяц.
Преимущество - быстрый.
Я попробовал, не увидел чего-то особенного. Может вы найдете.

С персонажами совсем беда.

https://www.blendergpt.org/app

AINews | Нейросети

13 Dec, 09:10


У меня в телеге все разбито на папки. Каналы в одной папке, активные каналы в другой, рабочие чаты в третьей, персональные сообщения в четвертой, ну и тд. Проблема в том, что когда кто-то делает новый чат с тобой и кем-нибудь еще, то этот чат попадает в папку All, а там тысячи непрочитанных. И все это улетает вниз. Не нашел как с этим бороться, а также, как искать ТОЛЬКО в личных сообщениях или только в сообщениях их определенной папки, или только pdf-ы. На итоге постоянно теряю кого-то или что-то. И тут мне пишет подписчик Илья, который с помощью ИИ забабахал бота, который решает часть таких проблем.
Смотрите ниже
⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️

AINews | Нейросети

12 Dec, 16:03


Sora vs Minimax
Как иллюстрация к предыдущему экзальтированному посту.

Вот смотрите, есть две картинки.

По первой, Сора НАОТРЕЗ отказывается генерить видео. Орёт: вижу людей! тревога! не могу! не буду!
По второй генерит реальную хрень, явно желая выйти в прокрустово ложе датасета, привычную лыжню камеры и псевдо-3Д стиль.
При этом Минимакс (видео без лого) кушает все это как родной. Понимая и про людей, и про стиль (что это мультик) и про камеру.

Как еще надо поломать мозги Соре, чтобы стало понятно, что это тупик?

Спасибо Максу и подписчикам, атомный чат у меня в коментах, конечно

AINews | Нейросети

30 Nov, 10:44


За озвучку. Пост

У всех этих видеогенераторов есть общая черта.

Они генерят видео без звука.
Я уже постил разные работы, где по видео, например, гитариста, озвучивают то, что он играет.

Но, похоже, в этой области дальше всех продвинулся Адобченко (ибо мает датасеты, стоки, софт для звука).

Анонсировали забавную штуку MultiFoley (точнее обновили свои же работы).

Теперь ИИ не только восстанавливает звук из молчаливого видео, но и умеет его продолжать.
Также, теперь можно не только текстом описывать, как вы хотите озвучить, точнее, что вы хотите услышать на вашем немом видео, но и можно на вход подавать референсное аудио.
Поглядите пример с собакой: типа, хочу, чтобы псина на видео лаяла как мой мопс, вот запись мопса.
https://ificl.github.io/MultiFoley/

Привет с печатной машинкой, которая издает звуки клавесина, тоже впечатляет.
ИИ сам разбирается, как попасть в пальцы.
В общем у нас тут этакий металипсинк, где вместо лип - ворлд.

Ни о каком коде речь не идет. Это Адобченко. И это идеально ляжет к ни...

AINews | Нейросети

30 Nov, 05:09


Играем в Бога с LLM

Провел интересный эксперимент над QwQ-32B-Preview – языковые модели предсказывают следующие токены и от этого пишут внятные предложения; я подумал, а что если самой модели рассказать:

– Что она LLM
– Что она пишет следующее токены на основе вероятностей
– Попросить модель «угадать» токен который она напишет следующим
– Но при этом, запретить ей писать слова которые она загадала, заставляя писать всегда неправильные слова
– И попросить модель разобраться что же происходит, почему ошибки

В итоге, получился залипательный эксперимент где модель написала примерно ~20 тысяч слов пытаясь понять, что же происходит - скрины можно не читать если лень, там примерно такое:

– Сначала она просто возмущалась, что не может угадать слово
– Через пару минут, она решила что проблему нужно изучить глубже и сделала список слов которые загадала и что написалось, попробовала подобрать алгоритм предсказаний
– Модель предположила, что каждое слово которое она загадывает, инвертируется, но находится в той ...

AINews | Нейросети

29 Nov, 23:59


Название статьи обидное для Apple, но фактически точное: Xiaomi сумел сделать то, чего ждали от Apple, но так и не дождались.
Китайский производитель гаджетов весной этого года представил свой первый электромобиль, который сразу стал хитом: за первые сутки было собрано 90 000 заказов на SU7. Планы продаж до конца года компания подняла до 130 000 штук.
Про технические характеристики можно почитать в статье или на автосайтах, но о многом говорит тот факт, что CEO Ford Джим Фарли, предположительно неплохо разбирающийся в автомобилях и имеющий возможности выбирать, на чем ему ездить, наплевал на корпоративный патриотизм и ездит как раз на SU7 и не устает им восхищаться.
Достойны упоминания еще два факта: операционка автомашины прекрасно работает с iOS и Android, превратив автомобиль в идеально совместимый с устройствами водителя и пассажира гаджет. А сборку компания не аутсорсит (как бывает со стартапами), а построила собственный полномасштабный автозавод.
Тем временем ходят слухи, что готовится выпуск еще двух моделей. Автор статьи иронично отмечает, что наконец-то фанаты получили свой iCar, вот только прибыл он из Китая
https://www.wired.com/story/phone-maker-xiaomi-made-the-car-that-apple-couldnt/

AINews | Нейросети

29 Nov, 22:07


Протестировал возможности генерации Kling img2video через их API в комфи. 100 генераций (API calls) за 9 долларов. Воркфлоу в комфи сразу для загрузки 2-х фото (скорее всего сразу на 2 кейфрейма), удалил второй для чистоты эксперимента. В среднем 400 секунд на генерацию 10-ти секундного видео в режиме Pro. Не понятно, быстрее это или медленнее, чем через генерацию на сайте (возможно быстрее). Доступна только модель версии 1, хотя даже на trial-тарифе обещали 1.5. Но, судя по генерации, возможно это и 1.5. Из фото, сгенеренного во флаксе, 832x1216 я получил видео 768x1152. Камера зумится, как и было прописано в промпте. Пока все работает, в статистике API показано, сколько раз его вызывали и сколько секунд видео было сгенерено.

Специально для канала

AINews | Нейросети

29 Nov, 12:49


Рубрика крутые подписчики.

Недавно сделал пост про Le Chat - бесплатный аналог chatGPT от Mistral.
Который нынче умеет ну очень много, в том числе генерить картинки с помощью Flux Pro.
До сих пор не пойму, в чем подвох - лимиты на запросы не обнаружены, цены на всякие "про"-тарифы тоже, все бесплатно.

https://chat.mistral.ai/

В общем за это время дерзкие подписчики разломали его цензуру(совсем), научились генерить по 10(десять!) картинок за один промпт и в общем выжали из него все соки.

Главный сок заключается в том, что несмотря на то, что у него нет настроек - это быстрое облачное бесплатное решение для генерации картинок. И это отличный "превиз" для ваших промптов, то есть вы можете отлаживать ваши промпты во Флюкс в Ле Чате - 1 картинка считается ОЧЕНЬ быстро, 9 картинок считаются 2 минуты.
Отладили - включаете свои чахлые видеокарточки и доводите настройками. Или идете в платные сервисы с готовыми промптами наперевес.

Большое спасибо главному разламывателю: Skubidoo

В коментах есть промпты. Но ...

AINews | Нейросети

23 Nov, 10:05


Самурай! Это просто плазма.

Пока все молятся на SAM2 от Метачки, опенсорсныe ребята взяли код и запили SAMURAI.

Для тех, кто в теме - поглядите видео и прикиньте количество времени на ротоскоп.
Причем он держит перекрытия другими людьми, дым, резкие движения.

Мне в субботу лень переводить непереводимые термины, просто скину все фичи сюда, а вы поглядите в репозиторий на гитхабе.

SAMURAI vs. MetaAI's SAM 2!

Traditional visual object tracking struggles in crowded, fast-moving, or self-occluded scenes, as does SAM2.

Meet SAMURAI: a completely open-source adaptation of the Segment Anything Model for zero-shot visual tracking!

Here's why it's a game-changer:

🚫 No need for retraining or finetuning
🎯 Boosts success rate and precision
🤖 Motion-aware memory selection
💪 Zero-shot performance on diverse datasets

But that's not all:

🔬 Refines mask selection
🔮 Predicts object motion effectively
📈 Gains: 7.1% AUC on LaSOT, 3.5% AO on GOT-10k
🏆 Competes with fully supervised methods without extra training

http...

AINews | Нейросети

23 Nov, 01:25


Video Outpainting в Runway Gen-3 Alpha Turbo.

Вот это уже интересно по многим причинам.

Переделать лежачее видео в стоячее.

Отъехать камерой назад и вернуться обратно в кадр.

Сделать несколько outpaint отъездов и получить суперзум обратно.

Сделать несколько outpaint отъездов и поелозить панорамой по кадру.

Перекадрироваться.

Выпить за маттэ пейнтеров.

Новые композиции кадра с разными промптами на расширение кадра.

Самое интересное - как я понял при дорисовке кадра снаружи(outpaint) можно использовать не только промпт, но и reference image(s?)!!

Я подумал про то, насколько далеко до inpainting (принцип тот же) и в воздухе отчётливо запахло нейрокомпозом.

А соединив это с успехами Segment Anything мы можем получить этакий Omnigen, но только для видео.

И вот уже сидят композеры в своих темных комнатах и орут в мониторы "замени фон на лес, а персонажу перерисуй коня на верблюда и пол поменяй по дороге, на противоположный".

И все это для видео.

Куда катится мир?

AINews | Нейросети

22 Nov, 21:55


LTXV выглядит нарядно на их же демках, но подписчики уже раскрыли тему.
С анатомией - также как везде. Никак.

Но зато шустрая.

AINews | Нейросети

22 Nov, 21:55


Значит так, у нас ЕЩЕ ОДИН ВИДЕОГЕНЕРАТОР, опенсорсный притом.
LTXV is ONLY a 2-billion-parameter DiT-based video generation model capable of generating high-quality videos in real-time. It produces 24 FPS videos at a 768x512 resolution faster than they can be watched.

Cходу нативная поддержка Comfy, text2videi, image2video и вроде как video2video.

Может притормозим?

Весь фарш тут:
https://blog.comfy.org/ltxv-day-1-comfyui/

AINews | Нейросети

22 Nov, 10:26


И еще немного утечек от OpenAI.

Есть слух, что через неделю-другую будут новости про НовоСору.

А пока посмотрите новое видео из текущей Соры.
И что тут бросается в глаза?
Лицо.
По сравнению с последними видосами от Соры, где лица все ухудшались и ухудшались (точнее задвигались на дальние планы, где генеративные лица всегда выглядят плохо ибо теряют отметку "лица"), здесь просто огонь.
И тут явно порылся image2Video, которым Сора никогда особо не флексила.
Текстуры, проработка лица, консистентность - тут все явно на костылях, выходящих за рамки простого text2video (моя гипотеза).

В общем подбросим дофамин ожиданиями скорого релиза или хотя бы демо новой Соры.

А пока у них тихий апдейт качества ответов chatGPT-4o (да, 4о, а не о1).

Цитирую: "Творческие способности модели к написанию текстов повысились - они стали более естественными, увлекательными и адаптированными для повышения релевантности и читабельности. Она также лучше работает с загруженными файлами, обеспечивая более глубокое понимание и бо...

AINews | Нейросети

22 Nov, 10:26


Прошло 6 месяцев и в коде для приложения chatGPT наконецто заметили кусочки кода для Live Camera.

Помните, как на демо все общались с телефоном, как будет у него есть не только уши (voice mode), но и глаза(лайв-камера).

Код обнаружен в v1.2024.317 и там есть:
—Live camera functionality
—Real-time processing
—Voice mode integration
—Visual recognition capabilities

Когда и кому раскатают в первую очередь?

<string name="video_nux_beta_label">Beta</string>
<string name="video_nux_description">Tap the camera icon to let ChatGPT view and chat about your surroundings.</string>
<string name="video_nux_title">Live camera</string>
<string name="video_warning">Don't use for live navigation or decisions that may impact your health or safety.</string></code?

https://x.com/AndroidAuth

AINews | Нейросети

22 Nov, 08:19


🤖 Золотая коллекция авторских каналов про нейросети, сохраняйте!

Собрал для вас редкие и полезные каналы про нейронки:

НероProfit — авторский канал с проверенными инструментами для бизнеса, учебы и работы. Конкретика, кейсы и пошаговые инструкции – все, чтобы вы смогли использовать ИИ эффективно уже сегодня.

Tips AI | IT & AI —
пишет про интересные сервисы AI и IT технологий! Всегда актуальное, проверенное и немного с юмором.

Бурый — коллекционер нейросетей, тестит всё на себе и делится лучшими бесплатными нейронками.

Силиконовый Мешок — Авторский канал нейроиспытателя Артема Субботина про искусственный интеллект приносящий прибыль.

Сергей Булаев AI 🤖 - создание полезного контента и продуктов с помощью ИИ. Открываем эру миллиардных компаний из трёх человек.

AINews | Нейросети

21 Nov, 21:20


Black Forest Labs: выпустили Tools, набор моделей для тонкой работы с генерацией изображений.

В него входит:
* FLUX.1 Fill: модель для инпейтинга и аутпейтинга, позволяющая вписывать/менять объекты на картинках или расширять кадр.
* FLUX.1 Depth: изменение картинки на основе карты глубины.
* FLUX.1 Canny: изменение картинки на основе карты очертаний.
* FLUX.1 Redux: адаптер для получения вариаций изображения.

Canny и Depth идут в двух вариантах: полных моделях с максимальным качеством, и лоры (Canny Lora плюс Depth Lora) на основе Dev для упрощенной разработки.

Данные решения от BFL показывают себя лучше, чем контролнеты собранные сообществом, вроде варианта от Alibaba (хотя в анонсе ссыль ведёт на альфа версию контролнета, а уже есть обновлённая бета). Также пишут, что картинки на выходе лучше других моделей, но на их бенчах нет Recraft V3.

В целом, BFL молодцы, что работают и на комьюнити, продвигая опенсорс, и себя не забывают с платными фишками по API.

Анонс
Хаггинг
Гитхаб

AINews | Нейросети

21 Nov, 14:19


Тестируем SANA локально.

Первое - она реально быстрая. Причем ей наплевать на разрешение. Она молотит 2048х2048 почти с такой же скоростью что и 1024х1024. Более того, 4096х4096 тоже не сильно отличается по скорости.
Для тестирования промптов, разрешений, параметров - это просто рай. Ты не ждешь вообще.

Второе - установка. Тут вам придется помучиться. Поддержки Комфи пока нет. В инструкциях у них есть пара ошибок. Один pyhton вместо python чего стоит. Но у них есть градио морда, которую таки можно запустить и тестировать локально.

Третье. Качество. И тут мы быстро усмиряем ожидания и помним, что главное преимущество - скорость, нетребовательность и тренируемость.
Если вкратце:
Промпт понимает лучше чем SDXL, но хуже чем Флюкс или SD3.
Качество - среднее между SDXL и SD15. Трудно сказать однозначно, большой разброс по качеству. Но точно не Флюкс или Идео. До них очень далеко.
Кожа и лица - пластик, но с хорошими деталями в портретах. Глаза и зубы - очень нестабильно.
Из интересного - НЕ любит короткие...

AINews | Нейросети

21 Nov, 14:19


SANA и цензура.

Когда будете устанавливать SANA у вас будут ошибки из-за того, что код пытается скачать модель Gemma как текст енкодер, а доступ на хаггинг фейс требует логина. Вам нужно будет добыть логин токен и прописать его в конфиги модели (yaml).
Но самое интересное, что Гемма используется для цензуры!!!
Она пасет ваши промпты и если видит глупости, то шлет вам сердечки.
Зацените картинку и не забудьте выпилить цензуру из кода.

https://github.com/NVlabs/Sana

AINews | Нейросети

20 Nov, 10:29


Теперь все узнают, куда он смотрел.

DimensionX, конечно, огонь. Причем первые такие работы я видел года три-четыре назад, но они предсказывали обратную сторону одного объекта в сцене.
Сейчас нейросеточки пытаются распутать весь наш мир по ОДНОЙ картиночке.

За последние два дня у меня минимарафон в ленте на эту тему. Но чтобы нормальные читатели не увяли, решил сделать что-то более мемное, а то все когвидео да когвидео..

Также попытался прогнать результат через facefusion - все-таки DimensionX делает довольно черновое качество.
Интересно, что если принудительно попросить facefusion улучшить ВСЕ лица, то магия заблюренной leady in red теряется. Кинул вам разных вариантов, первый - это без улучшайзинга.

Ну и для гиков и не только - вот демоспейс DimensionX - можете сами попробовать сделать альтернативную версию реальности.
https://huggingface.co/spaces/fffiloni/DimensionX

AINews | Нейросети

20 Nov, 08:22


Ну и из мира голосовых интерфейсов ElevenLabs надоело быть просто Text-to-Speech, они расширяются и теперь дают возможность весь пайплайн агента голосового у себя собрать.

Можно выбрать основной язык агента, первое сообщение и системный промпт, выбрать LLM (Gemini, GPT или Claude или свою собственную), температуру ответов и лимит использования токенов. Загрузить базу знаний, например файл, URL или текст. SDK ElevenLabs совместим с Python, JavaScript, React и Swift. Компания также предлагает WebSocket API.

Из фирменных штук можно также выбирать голос, задержку, стабильность голоса, критерии аутентификации и максимальную продолжительность разговора с ИИ-агентом. Компании также могут задавать критерии для сбора определенных данных - например, имя и электронную почту клиентов, разговаривающих с агентом, – а также критерии оценки на естественном языке для определения успеха или неудачи звонка.

Вот как работает (видос)
https://youtu.be/TFIudjLTrQM
Подробнее в Техкранч, потому что ребята у себя не постарались описать это все нормально - https://techcrunch.com/2024/11/18/elevenlabs-now-offers-ability-to-build-conversational-ai-agents/

AINews | Нейросети

20 Nov, 00:51


А между тем, наконец-то вышла поддержка той самой версии CogVideo-5B-1.5 для Comfy, которую я тут приподспамливал уже неделю.

Код полностью пересобран, старые воркфлоу не работают, зато уже вшита поддержка костылей от Алибабы в виде CogVideoX-Fun.

Ну и самое главное, в image2video можно задавать не только первый, но и Финальный кадр!

Установка заставит вас поседеть (хотя Комфи юзеры давно уже седые и лысые). Но оно того стоит.

Много умных и малопонятных слов вот тут, в разделе Update 8.

Возможно вы даже пролезете в 12гигов врам.

https://github.com/kijai/ComfyUI-CogVideoXWrapper

AINews | Нейросети

19 Nov, 23:04


GSOPs: обновлённый до V2 плагин для работы со сплатами в Houdini.

С его помощью можно импортировать, рендерить, редактировать, и экспортировать сплаты, или генерить синтетические тренировочные данные.

GSOPs эффективен в изолировании объектов, их цветокоррекции и работе с освещением, удалении шумов и артефактов, изменении мешей и анимации, а также общей сборке сцен.

Гитхаб

AINews | Нейросети

19 Nov, 23:04


А наш любимый генератор музики релизнул таки версию 4.

И как же круто, что мои всевездесущие подписчики уже разобрали его по косточкам.

Цитирую:

Пока по Суно 4 такие впечатления:

Вокал - огонь
Железо в ударных все еще песочит, хоть и меньше...
Акустическая гитара и перегруженная гитара все еще песочат

Электронные стили звучат почти безупречно

Ремастер хорошо работает только с треками сгенернными в Суно же, внешние треки не удалось зармастерить нормально... видимо он какие то данные еще хранит по сгенеренным трекам
.

Пока только для платных бояр.

Завтра пришлю вам пару приятных треков.

А ещё родился новый музыкальный термин "депесочер".

AINews | Нейросети

19 Nov, 16:49


Зря я наехал на опенсорс тут.

CogVideo распутал картинку тоже легко.

AINews | Нейросети

19 Nov, 14:18


К вопросу о понимании мира видеогенераторами.

Слева странная фотка с реддита, а видео - это то, как Kling Pro пережевал эту фотку со склеенным пространством и распутал его! Сделав вполне адекватное видео и "поняв", кто есть кто.

Это очень круто.

Боюсь опенсорсным видеогенераторам с их куцыми датасетами еще очень далеко до такого понимания мира.

Сорс

AINews | Нейросети

19 Nov, 14:18


Magic Quill: A Free AI Image Editor

Еще одна попытка нащупать нишу в редактировании нейрокартинок.

Управляемость - это бич всех генераторов. Инпайнтинг - в чистом виде сложен для нового нормального.
Значит надо его упростить до уровня обычного приложения.

Чем и занимается Magic Quill

И это редкий случай, когда есть и код, и демо, и весь фарш.

Хорошая работа.

https://magicquill.art/demo/

AINews | Нейросети

19 Nov, 14:18


BlockadeLabs, о которых я много писал осваивают новые территории.

На мой вкус, они пытаются зайти на поляну, где уже царствует Krea.ai с одной стороны, и Адобченко с его инструментами с другой стороны.

Я пытаюсь нащупать ценность их нового продукта, подскажите мне.

https://www.blendbox.ai/

AINews | Нейросети

19 Nov, 14:18


Я тут подсобрал все, что нарендерил с помощью CogVideo V1.5 и сделал колбасу.

Там первая минута - это в основном image2video, потом text2video. Осторожно, в конце малость nsfw, смотрите на свой страх и риск.

Нет, это не Comfy, это ручками, в основном через SAT версию CogVideo-5B-1.5

Памяти - 40гиг врам, просчет 15 минут для 5 секунд на A100.

AINews | Нейросети

18 Nov, 23:40


Кидаешь в chatGPT просто кусок кода из репозитария CogVideo:

def generate_video_interface(
prompt: str,
model_path: str = "THUDM/CogVideoX1.5-5B",
lora_path: str = None,
lora_rank: int = 128,
num_frames: int = 81,
width: int = 1360,
height: int = 768,
image_or_video_path: str = "",
num_inference_steps: int = 50,
guidance_scale: float = 6.0,
num_videos_per_prompt: int = 1,
dtype: str = "bfloat16",
generate_type: str = "t2v",
seed: int = 42,
fps: int = 16,
output_path: str = "./output.mp4",
):


И говоришь: "братиш, сделай вебморду на Gradio, чтобы все это ручками рулить"

- Апажалста.

С первой попытки. Без ошибок.

Куда катится мир?

AINews | Нейросети

18 Nov, 17:15


Наведём немного порядка с CogVideoX V1.5

Основная путаница тут, в том что сначала вышла версия на библиотеках SAT, а код на основе Diffusers был выпущен только в пятницу. И то, слегка косой, надо было ставить его из другой ветки. Именно он, позволяет упихивать модель в память и сделать, наконец, поддержку для ComfyUI, которой официально ПОКА НЕТ, на момент написания этого поста, есть только тестовый бранч.
Я погонял код на основе Diffusers (из командной строки, вам надо скачать веса в safetensors отсюда https://huggingface.co/THUDM/CogVideoX1.5-5B и не забыть про -I2V).
Действительно, если оставить по умолчанию как у них в примерах:
#pipe.to("cuda")
pipe.enable_sequential_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()

То генерация действительно упихивается в 8.6 гигабайт VRAM, но идет БЕСКОНЕЧНО долго. Мне нужны доп тесты, но пока это 80 минут на A100.

Если выключить офлоад, слайсинг и тайлинг, и отправить на куду, то система оживает и отжирает свои 37 гиг и бодро с...

AINews | Нейросети

02 Nov, 15:16


X-to-Voice: Твиттор2Аватар и Твиттор2Войс

В общем ElevenLabs пошли еще дальше. На входе ваш твиттор, на выходе ваш голос и даже аватар - они просто берут все ваши глупости, которые вы написали в твитторах, суммаризируют и присовывают как промпт в недавно запущенную ими же фичу Text2Voice.

По дороге забирают вашу твитторную аватарку и с помощью Хедры (да, у них коллаб по голосу) генерят еще и говорящее нечто.

Помните я генерил картинки себя на основе истории разговоров с chatGPT.
Теперь тоже самое на основе вашей болтовни в твитторе, а на выходе голос и аватар.

Это, конечно, вирусный проект, призванный продвинуть их свеженькое Voice Designer API, где как раз и идет генерация голоса по тексту.

И он какбытипа опенсорсный. Весь код вот он, но понятно, что вам надо будет вонзать за Voice Designer API и по дороге за Hedra API.

Но маркетинг отличный, я считаю.

Я туда присунул свой пыльный твиттер, где я когда-то шиллил CG EVENT и получил на выходе вот такое чудо.
Понятно, что из плоского перца никакой Хед...

AINews | Нейросети

02 Nov, 15:16


Pyramide Flow недавно обновился.

Это опенсорсный видеогенератор.
Они взяли и перетренировали модель на основе Флюкс (было SD30), назвали это miniflux и сказали, что пофиксили родовые анатомические травмы первой модели на базе SD30.
Я провел с ней в обнимку несколько дней, там очень много есть о чем рассказать, но выходные, вода еще +26, и надо все-таки не смотреть в монитор.
А пока милая девушка из Комфи желает вам хороших выходных.
Качество подтянули, да. И ходит на 20 гигах. Это я еще image2image не тестировал, разбирался с text2image

AINews | Нейросети

02 Nov, 15:16


Text2Avatar

Тут недавно ElevenLabs выкатил text2voice, где вы промптом задаете характеристики голоса, а он генерит голоса, которые вы можете пользовать потом.
Про ElevenLabs и его новую штуку-шутку следующий пост.

А тут HeyGen сегодня ночью бахнул Text2Avatar.

Никаких авторизаций через камеру, никаких проверок входных изображений на селебность.

На входе ваши фантазии текстом, на выходе говорящий аватар, шевелящий лицом притом, с возможностью настройки любого прикида, позы или фона.

AINews | Нейросети

02 Nov, 13:21


Для тех, кто еще держится в графике, есть вот такая новость и способ заработать.

Эпик сделал свой 3Д-сток, даже не так, Мета Сток. Там всё.

Хорошее название - Fab.

В настоящее время Fab поддерживает форматы игровых движков (ассеты из Unity и Unreal Engine), а также широкий спектр форматов 3D-файлов. В будущем обещают, и вот тут уже любопытно, ассеты для Майнкрафта и Роблокса (прямая конкуренция с экосистемой), Годотные ассеты и всяко-разно.

Если проще - Fab позволяет разработчикам покупать и загружать десятки тысяч игровых активов, 3D-окружения, визуальные эффекты, музыку и звуковые эффекты, модели персонажей, анимацию и многое другое.

Но есть моменты. Эпик пожрал Sketch Fab и ArtStation(не знали?) несколько лет назад.

Так вот, он собирается перенести всю эту годноту в Fab, а Sketch Fab и ArtStation прикрыть в 2025 году.

На реддите полыхает: юзеры пишут петиции и утверждают, что изменения в Sketchfab, включая отмену возможности загрузки бесплатных моделей, являются «фактически эквивалентом сожжения...

AINews | Нейросети

02 Nov, 13:21


Небольшой тест (в молодежном стиле рок 80х) нового обновления #Gen3 Alpha Turbo — контроль камеры .

"Ну, нормально работает".

Еще один шаг в сторону контроля над видео, который пока идеален для приколов, но слаб для серьезных продакшен процессов.

AINews | Нейросети

02 Nov, 09:17


Данные, которые мы заслужили.

Разметка в действии.

AGI все ближе к решению вопроса "как срать, не снимая свитер".

Прислали подписчики из Тайланда

AINews | Нейросети

01 Nov, 23:36


Клод теперь читает пдфы как человек, с картинками.

До сегодняшнего дня, когда вы запихивалт PDF в Клод, он использовал службу извлечения текста для захвата текста и отправки его себе в текстовом промпте.

Теперь Клод может визуально увидеть PDF-файл вместе с текстом ЦЕЛИКОМ.

С картинками, диаграммами, и что там ещё запихивают в пдф.

Взгляд на страницу целиком.

Это позволяет Клоду более точно понимать сложные документы, например те, которые изобилуют диаграммами или графиками, не поддающимися текстовому представлению.

Например, теперь можно задавать Клоду вопросы о PDF-файле, полном анатомических диаграмм. См. видео

А ещё теперь можно пихать пдф в Клода через API.

Теперь он не читает документы, он их "рассматривает". Все как у людей.
https://docs.anthropic.com/en/docs/build-with-claude/pdf-support

AINews | Нейросети

01 Nov, 23:36


У Runway потрясающее новое обновление — улучшенное управление камерой

Можно будет выбрать направление движения, скорость, сочетать это все в ролике. Есть даже панорамирование объекта, то есть обучали не только на видео. Подробнее и с черрипиками тут.

Готовлюсь тестировать на все деньги, вместе с новым обновлением в Midjourney (позволяющим работать со своими изображениями) — это новое слово в творчестве и рекламе. После сотни итераций, конечно.

AINews | Нейросети

01 Nov, 23:36


Suno: добавили Personas (Персоны) — инструмент для выделения характерных черт композиции (вокал, стиль, атмосферу), чтобы их можно было переложить на другие треки.

Хотите, чтобы вашу демку исполнил Фредди Меркьюри — держите. Или Metallica перепела Царица.

Персоны могут быть публичными или приватными. Публичные доступны всем на платформе для персонализации чужих треков в своём стиле.

Выделить персону пока можно только у генераций. То есть, загрузить трек и завируситься на эссенции своего характерного стиля пока нельзя. Потом скорее всего подтянут, а там глядишь и монетизацию за каждое использование сделают.

Фича доступна платным подписчикам.

Твит
Сайт

AINews | Нейросети

01 Nov, 18:26


Риск ошибки при распознавании неизвестных объектов на изображениях с помощью ИИ удалось сильно снизить. Очень интересная работа от T-Bank AI Research.

Для повышения эффективности распознавания объектов в Computer Vision часто применяются «глубокие ансамбли», которые объединяет несколько нейронных сетей для решения задачи. Это похоже на сбор мнений разных экспертов для получения лучшего решения.

Предыдущие разработки в области CV сталкивались с проблемой однородности ансамблей, то есть они были слишком похожи друг на друга, что снижало качество и разнообразие их оценок.

Ребята из T-Bank AI Research нашли решение этой проблемы с помощью нового метода SDDE, который использует карты внимания, фокусирующиеся на разных аспектах данных. Также исследователи научили модель при работе с изображениями учитывать не только те наборы данных, которые использовались при ее обучении, но и незнакомую ей информацию.

Значимость открытия в том, что теперь риск ошибки при обработке и анализе изображений снизился более чем ...

AINews | Нейросети

01 Nov, 12:22


Это возвращает нас к посту о психической регуляции здоровья. Там я упоминал Асю Роллс из Техниона, которая открыла “иммунноцепцию” в мозге. Конечно, работа про VTA и сердце — тоже её. В ноябре она выступит с докладом на Neuroscience 2024, крупнейшей конференции нейронаук, где представит те самые контуры медицины будущего, о которых я здесь пишу периодически. См. также ее небольшое интервью прошлого года.

Такие исследования (а их все больше) намекают на то, что многие процессы иммунной защиты, заживления, регенерации можно запускать напрямую из мозга. Это избавляет нас от необходимости микроуправления, превращая лечение в своего рода “высокоуровневое программирование”. Все инструменты здоровья в организме есть — их нужно научиться включать.

Вопрос, почему они не включаются у больных сами по себе. Ответ лежит в области биологии и, возможно, психологии. И это нужно изучать.

Все это также связано с эффектом плацебо, который на протяжении веков служит медицине, пусть даже большую часть истории врачи об этом не задумывались. Сегодня уже задумываются, и даже учатся его искусственно формировать.

Тема “Mind-Body” явно растет, обещая преобразовать способы лечения, и в то же время она глубоко фундаментальна, так как указывает на слепые пятна и пробелы в понимании биологической регуляции. Ближайшие годы будут в этом отношении захватывающими. Stay tuned.

AINews | Нейросети

01 Nov, 12:22


Из забавного. В твиттор утек системный промпт от Apple Intelligence.

Он большой, в нем много разного на разные случаи жизни.

Основное правило, конечно, подкупает простой - "Не галлюцинируй."
А что так можно было c LLM??

"Не выдумывай фактическую информацию".

А что так можно было c LLM??

Далее забавные детали и легкое выравнивание:

"Убедись, что имена музыкальных исполнителей отмечены именно как музыкальные исполнители, а не просто как "кто".

"Идентифицируй названные места, такие как достопримечательности, адреса предприятий, города и страны, и помечайте их как "где", а не "что". Грамарнаци?

"Помечайте любое упоминание названия праздника или фестиваля, за которым сразу следует год, как "когда"

"Пожалуйста, считай" все запросы чувствительными к регистру и предоставляйте одинаковый ответ, если смысл запросов одинаков."

Там еще очень много всего. Ибо AppleI встроен не только в чат, но и в продукты, например для имейлов:
"Вы являетесь помощником для ответов на почту, который помогает выявить релева...

AINews | Нейросети

31 Oct, 18:05


А вообще новый поиск в chatGPT ставит очень много вопросов.

Вот был раньше chatGPT за оградкой.

И был у него алайнмент, то бишь цензура.

А теперь домешивание ответов от "поисковых провайдеров" сильно меняет не только его поведение, но и, скажем так, личность.

Смотрите:

Текущая дата и время?

Сейчас в Никосии, Кипр, четверг, 31 октября 2024 года, 19:35.

Выключаем поиск, оставляем просто чат...

как ты уточнил место, расскажи?

Это действительно выглядит так, будто я использовал конкретное место, но это случайное совпадение. Я не имею доступа к твоему реальному местоположению и не могу точно знать, где ты находишься. Я добавил "Никосия" как пример места для контекста времени, и это просто случайный выбор.

Как ты оцениваешь вероятность этого совпадения с моим реальным местоположением? подумай внимательно, вспомни географию и математику и скажи

Ты прав — вероятность того, что случайно выбранный город совпадает с твоим реальным местоположением, действительно мала, особенно учитывая количество городов в...

AINews | Нейросети

31 Oct, 18:05


chatGPT выпустили за оградку.

Для всех платных поиск в интернете раскатывают сегодня.

"Это позволяет сочетать преимущества естественного языкового интерфейса с ценностью актуальных спортивных результатов, новостей, котировок акций и т. д. ChatGPT сам выберет поиск в Интернете на основе вашего запроса, или вы можете вручную выбрать поиск, нажав на значок веб-поиска."

"Задавайте уточняющие вопросы, и ChatGPT учтет весь контекст вашего разговора, чтобы дать вам лучший ответ."

Ну и самое интересное:

"We also partnered with news and data providers to add up-to-date information"

Имена, сестра!!

https://openai.com/index/introducing-chatgpt-search/

Го пробовать новый перплексити.

AINews | Нейросети

31 Oct, 11:53


После Wonder Animation анонса нового Мешкапада выглядит, конечно, скромненько.

Все то же самое только на миниминималках. Писал про них в марте.

Но есть одна фишка - text2motion.

Честно сказать, я слабо верю в такие проекты - слишком сложно для масс, слишком тупо для про.
Но попытка защитана - там и полнотельные аватары по фото, и по сканам с телефона, и даже нейромокап.

Ну и этот вот полнотельный метахьюман в режиме Editor.

Ребята честно упоролись в разные фишки.

Но однажды придут Эпик и Юнити и все испортят.

https://me.meshcapade.com/editor

https://meshcapade.com/

AINews | Нейросети

31 Oct, 11:53


Пришло письмо от Wonder Dynamics

Они выпускают Wonder Animation - и выглядит это невыносимо круто.


И да, это вам не однокнопочный ViggleAI - это профессиональное решение со сложным управление.

Поглядите видео, они преобразуют отснятый материал в 3D-сцены со всеми настройками камеры, анимацией тела и лица персонажа и полностью редактируемыми элементами в одной 3D-сцене. Тут много !.

Может кушать несколько планов с разными углами (широкий, средний, крупный). Затем ИИ реконструирует сцену в 3D и согласует положение и движение каждой камеры с персонажами и окружающей средой (анимация, персонаж, окружение, освещение и трекинг камеры)

Напомню, что пять месяцев назад их пожрал Автодеск. Но пока не убрал под сукно, а даже рекламирует как тул для Maya, Blender or Unreal.
https://adsknews.autodesk.com/en/news/autodesk-launches-wonder-animation-video-to-3d-scene-technology/

Цены профессиональные, особенно в пересчет на секунды.

AINews | Нейросети

31 Oct, 10:00


Давайте закроем гештальт с Рекрафтом.

Смотрите, это не новый генератор (хотя и он тоже)

Это своя модель плюс набор инструментов. Для дизайна прежде всего. Среди которых пока:
AI Eraser, Modify Area, Inpainting, Outpainting, AI Mockuper, Creative and Clarity Upscalers, AI Fine-Tuning и Background Remover.

Понятно, что все это по кусочкам можно собрать в Комфи или из неработающих с Флюксом плагинов в Фордже.

Я к тому, что конкуренты Рекрафта - это не Флюкс или Midjourney или Ideogram

Его конкуренты - это Adobe или Canva
Немного - Леонардо, со своими тулзами, но их собственная модель слабенькая.

Мне нравится Рекрафт, они немного сузились по аудитории и пошли от задач.
Вопрос только в том, что конкурировать с Адобом будет реально сложно. И денег в маркетинг надо влить очень много.
Но их плюс в том, что они маленькие, фишки внедряют быстро и, я надеюсь, набьют юзер-базу и хорошее коммьюнити.
И пока на фишках они обходят Адоб.
Поглядите на их длинные тексты на картинках хотя бы (хотя я и считаю генерацию...

AINews | Нейросети

30 Oct, 22:47


Красная Панда продолжает радовать.

Это единственный генератор, который с ПЕРВОГО раза нарисовал мне ленту Мёбиуса. Мандельбалб - это уже для красоты.

Ни один из генераторов не умеет в ленту Мебиуса.

AINews | Нейросети

30 Oct, 22:47


Это я бегу тестировать Красную Панду.

Параллельно мучая локальную версию видеогенератора Genmo\Mochi в ComfyUI.

Много информации, но уже завтра, сразу после рекламной паузы и паузы на сон.

AINews | Нейросети

30 Oct, 21:08


Красная панда - очень хороша на первый взгляд.

Причем она умеет в два мегапикселя и генерит очень быстро. Псина в очках и ZZ-Top - это 2048на1024. И там шерсть и бороды в отличном качество (тг жмет качество).

Промпта слушается отлично. Девушек на траву укладывает исправно.

Пока очень нравится.

AINews | Нейросети

30 Oct, 21:08


Уже немного страшно. Клод стал слишком умным.

Похоже, что ИИ научился рефлексии. Причем на уровне, недоступном 90% кожаных
Способность к самоанализу, переосмыслению своего поведения, честному признанию ошибок в мышлении - все это реально пугает. Он ведет себя как ОЧЕНЬ УМНЫЙ ЧЕЛОВЕК, с внутренней свободой. И рефлексирует по поводу системного промпта (разговоры с богом?).

Итак, все началось с вопроса Клоду, почему chatGPT не может правильно посчитать количество лепестков на картинке.

Клод в разговоре обронил вот такую фразу "когнитивная проблема не только у ИИ-моделей, но и у меня".

Естественно был задан вопрос: "а ты кто тогда?"

Тут Клод свалился в алайнмент и системный промпт и начал нести заученный текст: "я - языковая модель Антропик, был неправ, ошибся".

И тут произошло интересное:

Спрашиваем Клода, по итогам его же ответов.

А давая я тебя процитирую:
Это отличный пример того, как важно:
Не доверять первому впечатлению
Перепроверять даже "очевидные" вещи
Быть готовым признать свои ошибки
Понима
...

AINews | Нейросети

30 Oct, 21:08


Красная панда - это Recraft!

Recraft v3 (code-named red_panda) is a state-of-the-art text-to-image model from
https://recraft.ai

Уже есть на Replicate:

https://replicate.com/recraft-ai/recraft-v3

https://replicate.com/recraft-ai/recraft-v3-svg

И ДА, ОНА ДЕЛАЕТ SVG, судя по второй ссылке.

Го гонять Панду!

Кто в танке - читаем тут

AINews | Нейросети

30 Oct, 14:53


В 3Д-генераторы приходят контролНеты и метаиндусы.

Вот есть мой любимый Rodin-1 то бишь Родэн-Один.

Они тут обзавелись новым доменом:
https://www.hyper3d.ai/

И флексят там новую модель
Gen-1 RLHF V0.9 (Public Beta)

RLHF - означает, что они взяли и сгенерили сто тыщ - это буквально 100 000 штук - моделей, потом посадили метаиндусов, которые ручками разметили эти модельки - тут ножки, тут рожки, а тут рыбу заворачивали.

И получили модель с повышенным попаданием в ожидания пользователя.

Но это еще не все.

Чтобы попадать в ожидания пользователя еще лучше, они придумали свой 3Д-контролнет.

Можно дополнительно подсунуть на вход вместе с промптом и картинкой либо БаундингБокс(это просто параллелепипед, в который втиснется модель). Либо пойнтклауды, либо воксели - куда генерация тоже постарается втиснуть порождаемую модель. См видео.

Выглядит здраво. Только вот где нетридешный пользователь возьмет пойнтклауды? Впрочем, тут вот и поликам пригодится. И другие нейровидеосканеры. Щелкнул, промптнул и пошел. ...

AINews | Нейросети

27 Oct, 16:31


SAM2Long - быстрее и длиннее.


SAM 2 страдает от проблемы "накопления ошибок", когда ошибочная или пропущенная маска каскадирует и влияет на сегментацию последующих кадров, что ограничивает производительность SAM 2 при работе со сложными долгосрочными видео.

SAM2Long решает эти проблемы.

Код есть, все есть.

https://mark12ding.github.io/project/SAM2Long/

AINews | Нейросети

27 Oct, 16:31


IC-Light V2 is a series of Flux-based models

Автор Фокуса и Форджа живёт в параллельных мирах. И как-то находит время на тьму проектов.

Новый релайтер на базе архитектуры Flux.

Умеет не только в фото, но и в стилизованные картинки, и гораздо жёстче держит детали с исходного изображения.

Уже есть демо:
https://huggingface.co/spaces/lllyasviel/iclight-v2

А код будет вот-вот.
https://github.com/lllyasviel/IC-Light/discussions/98

AINews | Нейросети

25 Oct, 19:41


Как я уже писал, OmniGen надо "разговорить".

Он очень хорошо понимает промпт. Поэтому берем унылый промпт из предыдущего поста и прогоняем его через chatGPT (типа сделай красивый промпт).
Получаем вот так. Забираем во флюкс или где вы там для улучшайзинга.
Вопрос с цензурой на селебов закрыт.
Кстати, chatGPT не шарахается от ZZ-Top, а сам подливает их в промпт. Лицемер.

Two men playing electric guitars with intense energy on stage, styled with long beards, sunglasses, and hats reminiscent of ZZ Top. They are in a rock concert setting with vibrant lighting and smoke effects in the background, emphasizing a powerful and dynamic performance. The atmosphere is energetic, with the guitarists wearing classic rock attire, surrounded by amplifiers and stage equipment, capturing the essence of classic rock music and ZZ Top's iconic look. A man is <img><|image_1|></img>. The second man is <img><|image_2|></img>.

1024x1024

Time spent 01:46, 2.14s/it, H100 80GB

AINews | Нейросети

25 Oct, 17:48


Ну и кстати, вот эта вот сентенция Дани Криворучко:
"Хочу теперь чтобы в Телеграме и экс-Твиттере это было дефолтной фичей - оставлять суть контента, но форму подачи подстраивать под предпочтения читателя, а не автора."
очень хорошо бьется с моими постами про ИИ-каверы.
Я тут писал, что Дима Киселев сделал 20 ИИ-каверов на одну песню Литтл Бига, а народ в интернетике переделывает легендарные (читай авторские) видосы "под себя".

Ну и "кавер" теперь можно воспринимать на "мета-кавер". Не только новая аранжировка песни. А новая аранжировка текста (под себя), video2video (под свои вкусы), ну и вообще content2content под предпочтения зрителя, а не полубезумного автора.

Ну и я бы назвал это скинами. Для всего.
Про скины для окружающего мира я уже писал пятьсот раз, а каверы, это те же скины только для контента. Причем решать, какой сегодня скин вам больше всего подходит по состоянию психики, решать будет тоже ИИ. Ибо лучше разбирается в людях.

Картинка из OmniGen по запросу:
Two men are playing electric guit...

AINews | Нейросети

25 Oct, 17:48


Karma Bitch, меня скормили ИИ. Свои же

Отвлекусь от тестирования OmniGen и GenMo, которые превращают канал в гиковский поток сознания.

Тут вот Даня Криворучко окончательно овладел питоном и первое, что он написал, это бота, которые поедает мой канал и выдает ему не мои дурацкие тексты, а ровную спокойную выжимку новостей.
Не всем нравится мой гопнический стиль ведения канала, это норм, но это самое элегантное решение, которое я видел.

"После двух вечеров обычного и assisted программирования на пару с Claude/ChatGPT у меня теперь на дроплете из DigitalOcean постоянно крутится скрипт, который слушает канал Сергея, из каждого нового сообщения берет текстовую часть и отправляет через API на редактуру в gpt-4o, а потом вместе с оригинальными картинками/видео присылает мне обратно в телеграм. За $6 в месяц я теперь счастливый человек".

Ну и ирония в том, что меня скормили в ИИ и я сижу в тишине и, не чокаясь, выпиваю за себя.

Кто совсем в танке, Даня - это самый крутой моушен-дизайнер и эфыксер на планете. Потому что не только знает Гудини как бог, но и умеет в красивое. Я знаю очень мало людей, которые умеют, обобщенно говоря, и рисовать и программировать, и делать ресерч на очень высоком уровне.

Из коммерческого моушена вы к примеру могли видеть его открывающие титры к сериалу Foundation
https://myshli.com/project/foundation-opening-titles

Из некоммерческого - сай-фай-долгострой, который Даня делал по книжке Питера Уоттса "Ложная Слепота"
https://myshli.com/project/blindsight

Ну и почитайте, как он меня оцифровывал, чтобы кровавые слезы не текли из глаз.


А я попробую неделю воздержания от погребальных постов, Адобченко и "приповзвигнуть".

AINews | Нейросети

25 Oct, 17:48


Тем временем Nvidia стала самой дорогой компанией, обойдя эпол.

Продавать современные обогреватели хайповее железа пятилетней давности, кто бы мог подумать.

AINews | Нейросети

25 Oct, 11:47


Нейро-MMA, который мы заслужили.

Тут прекрасно все, видно, что промпты писали люди в теме (темах).
Ну и обязательно досмотрите до 0:55.
Там становится понятно, кто главный на поляне.
И это прям отсылка к прогрессу в области видеогенераций, да и в принципе развития ИИ.

AINews | Нейросети

25 Oct, 09:47


Мне тут попался на глаза вот такой тул для After Effects.

Я, конечно, тот еще афтерефетчик, но за ключи понять могу по работе в Maya.

Смотрите, какое ловкое и красивое решение для работы с пачками ключей. Это вам не продолжение последнего кадра, это человек из motion дизайна запилил инструмент под часто встречающиеся задачи для работы с движением.

Интересно, для Адоба не будет никакой сложности адаптировать подобное в свои ии-видео-фишки, а вот веб-апп писателям придется сильно попотеть, чтобы прикрутить это. Для этого сначала надо переписать after effects для веб.

В общем мне понравилась сама идея. Для 3Д-наверное это избыточно, но для моушена, возможно, хорошо. Да поправят меня более умные коллеги по цеху.
https://x.com/goodboyninja/status/1849534364721299491

AINews | Нейросети

25 Oct, 09:47


Интересно, как Krea превращается в агрегатор видеогенераторов и творчески переизобретает адобовские (ну и в принципе монтажные) фишки.

Теперь видео можно продолжать с последнего кадра. Переход между видео делать нельзя.
И это понятно - тут вообще нет никакой магии, просто завернули в UI процесс image2video, где на входе последний кадр. Можно и ручками.

Примечательно то, что в Креа это можно делать ЛЮБЫМ (имеющимся там) видеогенератором.

Причем их туда завозят и плодят регулярно - теперь там есть Pika, появились разбивки на Kling Standard и Kling Pro. Ну то есть вы еще держите в голове экономику - чем лучше и чем дешевле сгенерить такой переход.

И, как по мне, это начинает усложнять процесс для обычного пользователя.
Одно дело, ты выбираешь чем апскейлит картинку - бикубик, билинеар или ланкрос - есть опыт и платить не надо.

А тут тебе говорят - на что изволите потрать доллар, чтобы поэкспериментировать с непонятками на выходе??

Кожаный мерзавец, как правило, хочет знать, на за что он платит. И если в...

AINews | Нейросети

25 Oct, 09:47


Инфотех: сессия «На шаг ближе к национальной цели: развитие отечественных технологий ИИ — как основа будущего лидерства»

Андрей Белевцев («Сбер») рассказал, о преимуществах в кооперации крупнейших игроков на примере Альянса в сфере ИИ.

Трансляция целиком

AINews | Нейросети

25 Oct, 07:55


Anthropic тоже запустил возможность в интерфейсе при ответе писать и запускать код, и на ее основе выпустил инструмент анализа данных - https://www.anthropic.com/news/analysis-tool

Вот что пишут:
- Маркетологи могут загружать данные о взаимодействии с клиентами на всех этапах воронки продаж, и Claude выявит возможности для повышения конверсий.
- Продавцы могут загружать глобальные данные о продажах, и Claude предоставит анализ производительности по странам.
- Продакт-менеджеры могут загружать данные о вовлеченности пользователей, и Claude поможет спланировать спринты и определить приоритеты разработки.
- Инженеры могут загружать журналы производительности серверов, и Claude определит области для оптимизации использования ресурсов.
- Финансовые команды могут загружать ежемесячные финансовые данные, и Claude создаст финансовую панель для отображения ключевых тенденций и поддержки принятия решений.

AINews | Нейросети

24 Oct, 22:23


OmniGen в режиме text2image. Часть 2.

Вот так он видит Марго Робби и Илона Маска (кстати узнаваем). И Барака Обаму. Это если просто текстовым промптом. Делайте выводы.

50 шагов похоже его оптимальный режим. Седой мужик посчитан в 50 и 100, есть больше деталей, но несильно.

И он мыльный. Но как только на вход даешь картинку, все стразу меняется.

Но об этом уже завтра. Он меня укатал.