LanDiff – гибридный видеогенератор из LLM и Диффузии
Китайцы не спят, а клепают видеомодели. Этот проект интересен своим необычным подходом и результатами. Пишут, что на VBench в отдельных номинациях бьёт и Kling, и Sora (правда, даже по черрипикам так не скажешь), но для своих 5B параметров и датасета в 200M видео-текст пар — очень хороший результат.
Сначала разработчики запилили семантический токенайзер для видео, то есть запихнули 3D представление видео токенов в дискретные 1D коды, чем сжали датасет в 14 000 раз, оптимизировав процесс тренировки. Теперь LLM переводит промпт юзера в семантические токены. Ну а последняя уже делает видос на их основе. То есть эти токены служат не просто промптом, а высокоуровневыми инструкциями для всего процесса генерации.
Таким образом, авторы надеются взять лучшее от двух подходов: смысловое (семантическое) понимание авторегрессионных LLM и качественную картинку диффузионок, которые таким пониманием не обладают.
Черрипики выше — судите сами. Помните, что это всего 5B параметров.
Project page
Пейпер
@ai_newz
эйай ньюз

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.
Aвтор: @asanakoy
PR: @ssnowysnow
قنوات مشابهة



Тенденции и будущее генеративного ИИ: взгляд изнутри
Генеративный искусственный интеллект (ИИ) представляет собой одно из самых захватывающих направлений современных технологий, которое привлекает внимание исследователей, компаний и широкой публики по всему миру. Этот тип ИИ способен создавать текст, изображения, музыку и даже видео, используя алгоритмы глубокого обучения для анализа и воспроизведения существующих данных. Генеративные модели, такие как GPT-3 и DALL-E, продемонстрировали удивительные результаты, выходя за рамки простого анализа данных и открывая новые горизонты в сфере креативности и инноваций. С каждой новой итерацией мы замечаем не только прогресс в технологиях, но и новые вызовы, связанные с этическими аспектами, правами на контент и последствиями для трудового рынка. Важно понять, как генеративный ИИ меняет нашу жизнь и каковы его перспективы в будущем, чтобы эффективно адаптироваться к этому быстро меняющемуся миру.
Как работает генеративный искусственный интеллект?
Генеративный искусственный интеллект основывается на алгоритмах машинного обучения, которые используют большие объемы данных для создания новых образцов. Эти алгоритмы, такие как генеративно-состязательные сети (GAN) и трансформеры, анализируют паттерны в данных и могут создавать совершенно новые результаты, которые имитируют оригинал. Например, в случае текстового генеративного ИИ, он изучает структуру предложений и контексты, чтобы сгенерировать связный и осмысленный текст на заданную тему.
Важным аспектом работы генеративного ИИ является его способность к самообучению. По мере обработки новых данных модели становятся более точными и разнообразными в своих прогнозах. Это позволяет генеративным моделям не только воспроизводить существующее, но и предлагать оригинальные идеи, которые могут быть применены в различных секторах, включая искусство, науку и коммерцию.
Как генеративный ИИ влияет на творческие индустрии?
Генеративный ИИ значительно изменяет творческие индустрии, предоставляя художникам и дизайнерам новые инструменты для самовыражения. С помощью таких технологий, как DALL-E, художники могут генерировать изображения, которые соответствуют их замыслам, но были бы труднореализуемыми вручную. Это не только экономит время, но и открывает новые возможности для экспериментов и креативности.
Тем не менее, использование генеративного ИИ в творчестве поднимает множество вопросов об авторских правах и оригинальности. Как определить, кому принадлежит созданное произведение — машине или человеку? Этот вопрос остается открытым, и его разработка требует активного участия в обсуждении как технологов, так и юристов.
Каковы основные этические проблемы, связанные с генеративным ИИ?
Этические проблемы, возникающие из-за использования генеративного ИИ, охватывают широкий спектр вопросов. Одним из самых острых является беспокойство по поводу манипуляции информацией и создания поддельных новостей или дезинформации. С помощью генеративного ИИ можно создать убедительные тексты и изображения, которые могут ввести в заблуждение аудиторию, ставя под сомнение достоверность информации в социальных медиа.
Другим важным аспектом является вопрос о приватности и праве на личную жизнь. Генеративный ИИ нуждается в больших объемах данных для обучения, и часто эти данные могут включать личную информацию. Это поднимает вопросы о том, как собрать данные этично и безопасно, чтобы не нарушать права людей.
Какие преимущества предлагает генеративный ИИ для исследовательских целей?
В области науки и технологий генеративный ИИ предоставляет множество преимуществ. Он может ускорить процесс исследования, позволяя ученым быстро генерировать гипотезы и тестировать их в симуляциях. Например, в биомедицинских исследованиях генеративный ИИ используется для разработки новых молекул для лекарств, что может существенно сократить время, необходимое для вывода их на рынок.
Кроме того, генеративный ИИ помогает в анализе больших объемов данных, выявляя закономерности, которые могли бы остаться незамеченными человеком. Это может привести к новым открытиям и инновациям в таких областях, как астрофизика, экология и многие другие.
Каковы перспективы развития генеративного ИИ в будущем?
Перспективы генеративного ИИ выглядят многообещающе, с постоянным развитием технологий, такими как улучшенные алгоритмы машинного обучения и доступ к большим объемам данных. Ожидается, что в будущем генеративный ИИ станет более интуитивным и сможет взаимодействовать с пользователями более естественным образом, что сделает его еще более полезным в повседневной жизни.
Также можно ожидать, что с развитием технологий будут разработаны более строгие нормы и правила использования генеративного ИИ, что поможет решить этические проблемы и защитить права людей. Таким образом, генеративный ИИ может стать не только инструментом для инноваций, но и важным партнером в соблюдении этических стандартов.
قناة эйай ньюз على Telegram
Добро пожаловать в канал "эйай ньюз"! Мы рады представить вам самые актуальные новости из мира искусственного интеллекта. Наш канал культурно освещает как самые важные, так и не самые важные события в сфере AI, обогащая их авторитетными профессиональными мнениями. Наш автор @asanakoy, работающий в качестве Staff Research Scientist в Meta Generative AI в Швейцарии, делится своими знаниями и опытом с нашими подписчиками. Присоединяйтесь к нам, чтобы быть в курсе последних тенденций и достижений в области искусственного интеллекта! Для связи и вопросов по поводу рекламы обращайтесь к PR-менеджеру @kander426.