эйай ньюз @ai_newz قناة على Telegram

эйай ньюз

эйай ньюз
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
71,649 مشترك
1,641 صورة
831 فيديو
آخر تحديث 16.03.2025 05:24

Тенденции и будущее генеративного ИИ: взгляд изнутри

Генеративный искусственный интеллект (ИИ) представляет собой одно из самых захватывающих направлений современных технологий, которое привлекает внимание исследователей, компаний и широкой публики по всему миру. Этот тип ИИ способен создавать текст, изображения, музыку и даже видео, используя алгоритмы глубокого обучения для анализа и воспроизведения существующих данных. Генеративные модели, такие как GPT-3 и DALL-E, продемонстрировали удивительные результаты, выходя за рамки простого анализа данных и открывая новые горизонты в сфере креативности и инноваций. С каждой новой итерацией мы замечаем не только прогресс в технологиях, но и новые вызовы, связанные с этическими аспектами, правами на контент и последствиями для трудового рынка. Важно понять, как генеративный ИИ меняет нашу жизнь и каковы его перспективы в будущем, чтобы эффективно адаптироваться к этому быстро меняющемуся миру.

Как работает генеративный искусственный интеллект?

Генеративный искусственный интеллект основывается на алгоритмах машинного обучения, которые используют большие объемы данных для создания новых образцов. Эти алгоритмы, такие как генеративно-состязательные сети (GAN) и трансформеры, анализируют паттерны в данных и могут создавать совершенно новые результаты, которые имитируют оригинал. Например, в случае текстового генеративного ИИ, он изучает структуру предложений и контексты, чтобы сгенерировать связный и осмысленный текст на заданную тему.

Важным аспектом работы генеративного ИИ является его способность к самообучению. По мере обработки новых данных модели становятся более точными и разнообразными в своих прогнозах. Это позволяет генеративным моделям не только воспроизводить существующее, но и предлагать оригинальные идеи, которые могут быть применены в различных секторах, включая искусство, науку и коммерцию.

Как генеративный ИИ влияет на творческие индустрии?

Генеративный ИИ значительно изменяет творческие индустрии, предоставляя художникам и дизайнерам новые инструменты для самовыражения. С помощью таких технологий, как DALL-E, художники могут генерировать изображения, которые соответствуют их замыслам, но были бы труднореализуемыми вручную. Это не только экономит время, но и открывает новые возможности для экспериментов и креативности.

Тем не менее, использование генеративного ИИ в творчестве поднимает множество вопросов об авторских правах и оригинальности. Как определить, кому принадлежит созданное произведение — машине или человеку? Этот вопрос остается открытым, и его разработка требует активного участия в обсуждении как технологов, так и юристов.

Каковы основные этические проблемы, связанные с генеративным ИИ?

Этические проблемы, возникающие из-за использования генеративного ИИ, охватывают широкий спектр вопросов. Одним из самых острых является беспокойство по поводу манипуляции информацией и создания поддельных новостей или дезинформации. С помощью генеративного ИИ можно создать убедительные тексты и изображения, которые могут ввести в заблуждение аудиторию, ставя под сомнение достоверность информации в социальных медиа.

Другим важным аспектом является вопрос о приватности и праве на личную жизнь. Генеративный ИИ нуждается в больших объемах данных для обучения, и часто эти данные могут включать личную информацию. Это поднимает вопросы о том, как собрать данные этично и безопасно, чтобы не нарушать права людей.

Какие преимущества предлагает генеративный ИИ для исследовательских целей?

В области науки и технологий генеративный ИИ предоставляет множество преимуществ. Он может ускорить процесс исследования, позволяя ученым быстро генерировать гипотезы и тестировать их в симуляциях. Например, в биомедицинских исследованиях генеративный ИИ используется для разработки новых молекул для лекарств, что может существенно сократить время, необходимое для вывода их на рынок.

Кроме того, генеративный ИИ помогает в анализе больших объемов данных, выявляя закономерности, которые могли бы остаться незамеченными человеком. Это может привести к новым открытиям и инновациям в таких областях, как астрофизика, экология и многие другие.

Каковы перспективы развития генеративного ИИ в будущем?

Перспективы генеративного ИИ выглядят многообещающе, с постоянным развитием технологий, такими как улучшенные алгоритмы машинного обучения и доступ к большим объемам данных. Ожидается, что в будущем генеративный ИИ станет более интуитивным и сможет взаимодействовать с пользователями более естественным образом, что сделает его еще более полезным в повседневной жизни.

Также можно ожидать, что с развитием технологий будут разработаны более строгие нормы и правила использования генеративного ИИ, что поможет решить этические проблемы и защитить права людей. Таким образом, генеративный ИИ может стать не только инструментом для инноваций, но и важным партнером в соблюдении этических стандартов.

قناة эйай ньюз على Telegram

Добро пожаловать в канал "эйай ньюз"! Мы рады представить вам самые актуальные новости из мира искусственного интеллекта. Наш канал культурно освещает как самые важные, так и не самые важные события в сфере AI, обогащая их авторитетными профессиональными мнениями. Наш автор @asanakoy, работающий в качестве Staff Research Scientist в Meta Generative AI в Швейцарии, делится своими знаниями и опытом с нашими подписчиками. Присоединяйтесь к нам, чтобы быть в курсе последних тенденций и достижений в области искусственного интеллекта! Для связи и вопросов по поводу рекламы обращайтесь к PR-менеджеру @kander426.

أحدث منشورات эйай ньюз

Post image

LanDiff – гибридный видеогенератор из LLM и Диффузии

Китайцы не спят, а клепают видеомодели. Этот проект интересен своим необычным подходом и результатами. Пишут, что на VBench в отдельных номинациях бьёт и Kling, и Sora (правда, даже по черрипикам так не скажешь), но для своих 5B параметров и датасета в 200M видео-текст пар — очень хороший результат.

Сначала разработчики запилили семантический токенайзер для видео, то есть запихнули 3D представление видео токенов в дискретные 1D коды, чем сжали датасет в 14 000 раз, оптимизировав процесс тренировки. Теперь LLM переводит промпт юзера в семантические токены. Ну а последняя уже делает видос на их основе. То есть эти токены служат не просто промптом, а высокоуровневыми инструкциями для всего процесса генерации.

Таким образом, авторы надеются взять лучшее от двух подходов: смысловое (семантическое) понимание авторегрессионных LLM и качественную картинку диффузионок, которые таким пониманием не обладают.

Черрипики выше — судите сами. Помните, что это всего 5B параметров.


Project page
Пейпер

@ai_newz

13 Mar, 16:38
13,219
Post image

Опубликовали техрепорт о претрейне рускоязычных LLM T-lite и T-pro.

Вышел подробный технический отчет о процессе создания русскоязычных моделей T-lite и T-pro от Т-банка. Часто бывает, что команды скупо описывают свои методики обучения, особенно в части обработки данных, но тут ребята детально раскрыла весь процесс от выбора базовой модели и подбора датасетов, до финальных экспериментов. Вместо обучения с нуля они использовали взяли за основу модель Qwen2.5 (я до сих пор считаю ее одной из лучших моделей, чтобы поверх тренить что-то свое) и продолжили претрейн на русском языке.

Претрейн происходил в две стадии — первая с бюджетом 100 миллиардов токенов и распределением 90% русского и 10% английского языка. Значительную часть датасета (25%) составил код, что согласуется с исследованиями о влиянии кодовых данных на способности рассуждения. Вторая стадия (40 миллиардов токенов) фокусировалась на высококачественных данных, включая инстракт датасеты. По заветам FineWeb-Edu, команда отфильтровала датасет по образовательной ценности (лишь 6% веб-контента получило высшие оценки). Обучались на 256 H100.

По результатам бенчей модели показали заметный прирост в русскоязычных задачах, особенно в направлениях ЕГЭ, RWSD и математических рассуждениях. О деталях посттрейна (SFT и alignment) обещают рассказать в следующем посте.

ТехРепорт на хабре

@ai_newz

13 Mar, 14:26
14,674
Post image

🔥Gemma 3 - новый лидер (второе место) в опен-сорсе

Перфоманс:
- Топ2 среди опенсорса в human preference evaluations на LLM арене, то есть, генерит тексты, которые людям нравятся больше!
- Уделывает и Qwen-2.5-Max и o3-mini, приземлились где-то по середине между DeepSeek-V3 и DeepSeek-R1
- По перфомансу она сравнима (где-то лушче, где-то хуже) с Gemini 1.5 Flash, только зато теперь открытая!

Характеристики
- Контекст 128к токенов.
- 4 размера: 1B, 4B, 12B, 27B.
- Завезли мультимодальность в модели размерах 4-27B. Тут используют SigLIP (это сота CLIP на данный момент) в качестве картиночного энкодера.
- Мультиязычность на стероидах: Поддерживает 140 языков. Гораздо лучше GPT-4o на русском.
- Function Calling & Structured Output:
- 27B влезает в одну H100/A100 GPU в bf16 - и это очень удобно! Ее специально под это оптимизировали.
- На демо показали, что bf16 инференс съедает 20GB VRAM на A100.
- Уже завезли в Ollama и есть официальные квантованные версии.

Моя критика:
- Мультимодальность пока под вопросам. По некоторым бенчам Гемму-27B бьет даже Qwen-2.5-VL-7B, не говоря уже об InternVL-38B-MPO.
- Поговорил с человеком, который делал multimodal pre-training. Внятного ответа не получил. Был ответ в стиле "китайцы и мистраль накручивают бенчи".
- Ждем полноценного появления на VLM лидерборде. И нужно тестить на своих задачах.

В любом случае я рад появлению еще одной сильной модельки в опенсорсе, приближая нас к умному ассистенту у нас в кармане/под столом.

Tech Report
Бесплатное демо онлайн
Hugging Face
GitHub

@ai_newz

12 Mar, 11:08
19,253
Post image

Новые тулы для агентов от OpenAI

🔎 Специальные версии GPT 4o/4o-mini в API теперь могут использовать поиск, прямо как ChatGPT .
🗄 В File Search докинули новых фич — теперь там можно фильтровать по метаданным и добавили способ искать по данным напрямую.
💻 Computer Use API — OpenAI по факту сделали доступным Operator в API, посмотрим как он сравнится с Claude 3.7.

Это всё доступно через новый Responses API, который приходит на замену Assistants API (Assistants API депрекейтнут в 2026). Старый Chat Completions API остаётся и ничего с ним не случиться.

Также OpenAI допилили Swarm — свой фреймворк для создания агентов. Теперь он называется OpenAI Agents SDK и готов к продакшену.

У OpenAI по прежнему ворох моделей с абсолютно разными возможностями, надеюсь они тут возьмут пример с Anthropic и наведут порядок.

@ai_newz

11 Mar, 17:17
20,545