shonenkov AI @shonenkovai Channel on Telegram

shonenkov AI

@shonenkovai


🎨 + 🤖 + 👨‍🎨 = 🖼

Kaggle GM, author of models IF, ruDALLE (Malevich, Emojich, Kandinsky-1.0), ruDOLPH, ruCLIP. Graduated from MIPT. Working with StabilityAI.

https://linktr.ee/shonenkovAI

shonenkov AI (English)

Discover the world of art and artificial intelligence with shonenkov AI Telegram channel! 🎨🤖👨‍🎨 This channel is curated by Kaggle GM, the author of models IF, ruDALLE (Malevich, Emojich, Kandinsky-1.0), ruDOLPH, ruCLIP. With a background in MIPT and experience working with StabilityAI, shonenkov provides a unique blend of art and technology. Whether you're interested in exploring the intersection of AI and creativity or simply want to stay updated on the latest advancements in the field, shonenkov AI is the perfect channel for you. Join us on Telegram and dive into the fascinating world of AI-generated art! 🖼 Visit our linktree for more information: https://linktr.ee/shonenkovAI

shonenkov AI

10 Oct, 15:04


O, DALLE-3 paper (no commentaries)
https://cdn.openai.com/papers/DALL_E_3_System_Card.pdf

shonenkov AI

20 Sep, 22:20


🦔 OpenAI обучили DALL-E 3

Сложно назвать это релизом, скорее просто неплохая модель, работающая в связке с GPT-4. Мне лично кажется, что следующий Stable Diffusion будет куда умнее и интереснее эстетической точки зрения.

2021 DALL-E 1 — 12B модель, пейпер / API нет
2021 GLIDE — 2B модель, пейпер + опенсорс 300M модели
2022 DALL-E 2 — 2B модель, пейпер unCLIP + API
2023 DALL-E 3 — Хрен пойми что это, но будет интеграция с GPT-4 для подписчиков ChatGPT+


Про DALL-E 3 на сайте OpenAI

shonenkov AI

04 Aug, 18:09


Релизнулась SOTA библиотека для генерации аудио AudioCraft v1.0.0

Я писал раньше о выходе начальной версии AudioCraft, когда Meta AI опубликовали статью MusicGen для генерации музыки по тексту.

Почему новый релиз интересен?
Это стабильный релиз и в него добавили код для трениновки моделей, в том числе несколько новых:

- EnCodec - по сути квантизованый автоэнкодер (VQGAN), который сжимает аудио в серию дискретных токенов.

- AudioGen - генерит по тексту повседневные звуки, типа лая собаки и прочих звуковых эффектов (кроме музыки).

- MusicGen - text2music и midi2musiс синтез. Есть модели от 300M до 3.3B параметров. На 16Gb влезут.

- MultiBandDiffusion - новый декодер, основанный на диффузии, который декодирует токены MusicGen в аудио дорожку. Лучше чем EnCodec.

(Ждите серию постов про каждую из этих моделей)

Еще добавлены веса AudioGen и MultiBandDiffusion.

🔥А теперь представьте, использование этих моделей при монтировании роликов для ютуба.

Блог
Код и веса
Демо в колабе
MusicGen ноутбук

@ai_newz

shonenkov AI

20 Jun, 18:03


В честь 3000 подписчиков расскажу про наш новый препринт, в котором тексты, сгенерированные ChatGPT, детектируются с помощью анализа их внутренней размерности:

https://arxiv.org/abs/2306.04723

Итак, здесь мои коллеги и я продолжили заниматься полюбившейся с 2021 года темой - детекцией сгенерированного контента. Особое внимание, конечно, уделили детекции текста, сгенерированного моделями семейства GPT-3.5 (davinci, chatgpt). А делали мы это с помощью такой интересной штуки, как дробная размерность. Первое знакомство с ней можно осуществить, посмотрев видео 3blue1brown: https://www.youtube.com/watch?v=gB9n2gHsHN4 (рассказ про размерность начинается со второй половины видео).
Хоть введенная в видео размерность и называется "фрактальной", на деле можно получать приближенные оценки такой размерности не только для фракталов, но и просто для облаков точек, если формы облаков достаточно сложные. И вот возник вопрос: а почему бы не построить облако точек по тексту на естественном языке и не посмотреть, какой будет его размерность?

Далее последовательность действий была такая:
1) Брался достаточно длинный текст (написанный человеком либо сгенерированный ChatGPT/другой моделью) с большим количеством токенов;
2) Текст подавался на вход модели RoBERTa;
3) С последнего слоя RoBERTы извлекались эмбеддинги каждого токена текста;
4) Эти эмбеддинги рассматривались как точки в многомерном пространстве - получалось облако точек;
5) С помощью нескольких довольно технически сложных процедур ( вдохновленных https://arxiv.org/abs/1808.01079 ) оценивалась дробная размерность этого облака точек.

Таким образом, каждому тексту сопоставлялось число - эта самая размерность. И - о чудо! - оказывалось, что средняя размерность текстов, сгенерированных с помощью GPT-3.5 (ChatGPT или davinci), была в среднем существенно меньше, чем размерность текстов, написанных человеком. Эта средняя размерность практически не менялась при смене домена и при замене GPT-3.5 на large GPT-2 или OPT (со стандартными параметрами генерации); даже при применении парафразера DIPPER, специально созданного для избегания детекции, размерность менялась не сильно - в среднем примерно на 3%. Благодаря этому нам удалось сделать пороговый детектор по этой размерности, неожиданно устойчивый к атакам.
Теперь любители генерировать тексты могут менять промпты, тематику или даже модель, но наш детектор не проведешь! 😈

При смене домена и модели точность детекции (true positive) по один раз зафиксированному порогу не опускалась ниже 75% при условии, что false positive rate (FPR) оставался не более 1%. При применении DIPPER к генерации GPT-3.5 точность падала до 40%, снова при FPR 1%. Но даже этот результат оказался лучше всех остальных существующих детекторов - в том числе, и от самих OpenAI. 🫡
(Пояснение: мы зафиксировали низкий FPR потому что хотели как можно меньше дискриминировать настоящих людей при детекции).

Кроме прочего, при использовании мультиязычной RoBERTы можно было получать аналогичный детектор не только для английского, но и для других языков. Средняя внутренняя размерность эмбеддингов, соответствующих текстам на других языках, менялась от языка к языку, но размерность искусственных текстов все равно оставалась в среднем ниже, чем человеческих, для каждого конкретного языка по отдельности.

Главной же слабостью нашего детектора является неустойчивость к большим температурам генерации и к примитивным генераторным моделям. У генераторов с высокой температурой (так сказать, бредящих) внутренняя размерность текстов может быть и выше человеческой, поэтому на них этот детектор сломается. С другой стороны, такие генераторы и так детектятся другими методами. Также остается открытым вопрос, является ли RoBERTa оптимальным средством для извлечения эмбеддингов текстов, ведь их можно получать и с помощью других моделей тоже.

#объяснения_статей

shonenkov AI

15 May, 11:28


3D с DeepFloyd-IF выглядит неплохо, модель справилась с рендерингом и генерацией текста на кепке 👀

если вдруг кому-то интересно потыкать, то вот [GitHub с реализацией IF и 3D]

+ в комменты закинул еще несколько 3D анимаций

@shonenkovAI

shonenkov AI

03 May, 05:50


пока что не понял за счет чего, но выглядит так, будто pyTorch-2.1 на А100 ускорил SD модели x2.5, а IF-I-M x5.0 в имплементации Diffusers 🚀


уже встроили в gradio-demo, вот pull-request;
"This PR should speed-up IF stage1 by roughly 30% and stage2 and 3 by roughly 20%"

[Demo] | [GitHub] | [DeepFloyd IF]

shonenkov AI

28 Apr, 20:06


опа, уже обзорчик на ютубе 🍿

https://www.youtube.com/watch?v=4Zkipll5Rjc

shonenkov AI

28 Apr, 16:31


👾 Мы DeepFloyd (Research AI Lab at StabilityAI) зарелизили лучшую Text-to-Image модель DeepFloyd IF

DeepFloyd IF это новая каскадная диффузионная модель основанная на идеи Imagen от Google:
— Текст кодируется T5 XXL v1.1
— Далее интерпретируется в пиксели через IF-I-XL (4.3B UNet), генерирующий изображения в 64х64
— IF-II-L (1.2B кастомный Optimal UNet) апскелит изображения 64х64 в 256х256, используя T5
— Для финальной картинки в 1024х1024, благодаря модульному подходу, можно использовать IF-III-L (пока не опенсорснут) или Stable x4

Благодаря тому, что:
— Модель параметризирована сильнее чем GLIDE, DALL-E 2, Imagen, eDiff-I: 2B против 4.3B у DeepFloyd IF
— Апскейлеры больше и имеют более оптимальную архитектуру в сравнение с Image и DALL-E 2

🏆 DeepFloyd IF выбивает Zero-Shot COCO@30K SOTA, тем самым являсь лучшей Text-to-Image моделью не только в опен-сорсе, но и вообще!

💻 Сайт лабы DeepFloyd
🤖 Страница нейроки DeepFloyd IF
👽 DeepFloyd Дискорд

🖥 GitHub
🤗 HuggingFace

👾 Генерить тут: Demo 👈

shonenkov AI

28 Apr, 16:05


ГО тыкать IF? 👀

https://github.com/deep-floyd/IF

shonenkov AI

26 Apr, 20:54


good morning my deer owls!

shonenkov AI

10 Apr, 21:34


⚡️ Our Astronomy Domine (Daria) and Interstellar Overdrive (Misha) shed light on the DeepFloyd IF's architecture and performance at the Weights & Biases MLOps virtual conference, Fully Connected 2023.

IF LARGE TEXT-TO-IMAGE MODELS WERE OPEN-SOURCE, Fully Connected 2023 (YouTube)

shonenkov AI

28 Jan, 13:47


сильно ждете “IF”?

готовлю в опенсорс фичи из прошлых опросов - оказалось, что IF в zeroshot’е (без дообучения) может делать:

👨‍🎨 перенос стиля/домена

🔧 контролировать степень переноса стиля/домена, как для генерации с нуля, так и для редактирования изображения

🎨 инпейнтинг


отредактировал свою аватарку: добавил НЛО и пурпурное облако в хорошем фотореализме. и селфи в GTA)

P.S. это результаты в текстовом zeroshot, а что же будет, если потюнить на искусстве, сделать смешивание двух картинок, а еще потренить аналогично новому InstructPix2Pix 🍿

@DeepFloydAI