Нейроулей @neurowave_tech Channel on Telegram

Нейроулей

@neurowave_tech


Нейросети - свежие новости. State-of-the-art модели и методы, AI, AGI, Deep learning, Big data, Machine learning

Нейроулей (Russian)

Добро пожаловать в канал "Нейроулей"! Здесь вы найдете самые свежие новости о нейросетях. Мы следим за развитием state-of-the-art моделей и методов в области искусственного интеллекта, таких как AI, AGI, Deep learning, Big data и Machine learning. Наш канал @neurowave_tech призван поделиться с вами уникальными знаниями и информацией о последних тенденциях в мире нейротехнологий. Если вы интересуетесь темой нейросетей, хотите быть в курсе самых актуальных событий и научиться новым методам и моделям, то этот канал - для вас. Присоединяйтесь к нам прямо сейчас и станьте частью сообщества профессионалов и энтузиастов нейротехнологий!

Нейроулей

18 Dec, 12:00


ArtAug - мультиагентный открытый фреймворк для улучшения генерации изображений без добавления вычислительных ресурсов на этапе инференса, представленный исследователями из Alibaba.

В основе ArtAug мультиагентная система Chain of Thought. Неявно усвоенные моделями понимания изображений человеческие предпочтения используются, чтобы давать рекомендации модели генерации изображений. Так улучшается, например, регулировка экспозиции, композиция и объекты окружения. В результате у модели FLUX.1-dev эстетическая оценка улучшилась с 6.35 до 6.81, PickScore вырос с 42.22 до 57.78, а MPS score увеличился с 47.52 до 52.48.

Исходный код и предобученные модели доступны под лицензией Apache 2.0.

#StateoftheArt #Development

Нейроулей

17 Dec, 10:03


На канале MLinside Виктора Кантора вышел подкаст с Алексеем Толстиковым, руководителем ШАДа Яндекса.

Разбирают:

– Какие навыки необходимы для успеха в ML и почему технических скиллов недостаточно
– Могут ли в этой сфере закрепиться люди из совершенно других областей
– Какие знания необходимы для джунов, чтобы найти работу в ML
– Лайфхаки о поступлении в ШАД и как совмещать учебу с работой

Посмотреть подкаст можно тут.

Нейроулей

10 Dec, 08:44


OpenAI презентовала Sora Turbo - модель генерации видео, впервые анонсированную в феврале 2024. Sora Turbo создает видео с разрешением от 480p до 1080p, длительностью от 10 до 20 секунд с вариациями соотношения сторон. Модель принимает на ввод текст, изображения и видео. Интерфейс Sora позволяет заменять, удалять или перегенерировать компоненты внутри сцен с указанием таймингов и деталей.

Техноблогер MKBHD, получивший ранний доступ, отметил впечатляющую реалистичность и высокое качество видео, но также и проблемы с галлюцинациями, неестественной физикой, искаженным текстом и непоследовательностью объектов.

Sora доступна по подписке OpenAI за $20 с ограничением в 50 генераций и 480p, и без ограничений за $200 в месяц.

#AIapps

Нейроулей

27 Nov, 11:21


NVIDIA представила X-MeshGraphNet - открытый Physics-ML фреймворк для создания сложных физических симуляций на основе графовых нейросетей. X-MeshGraphNet - это расширение модели MeshGraphNet от Deepmind, и он доступен в репозитории NVIDIA Modulus.

X-MeshGraphNet простраивает пользовательские графы напрямую из CAD-файлов вместо генерации 3D-мэша на этапе инференса и разбивает графы на halo-области для масштабируемой обработки. Исследователи проверили производительность на трех репрезентативных сэмплах (100, 300 и 500) из датасета DrivAerML: модель успешно предсказала разпределение давления воздуха и паттерны пристеночного сдвигового напряжения.

#StateoftheArt

Нейроулей

16 Nov, 15:04


FinRobot: открытый мультиагентный фреймворк для анализа рынка акций

Исследователи AI4Finance Foundation представили открытую модель FinRobot — фреймворк AI-агентов, разработанный для анализа рынка акций. FinRobot объединяет количественный и качественный анализ через трехуровневый подход Chain of Thought (CoT). Модель опубликована в открытом доступе на Github.

FinRobot обрабатывает отчеты SEC (годовые 10-K и квартальные 10-Q), корпоративные релизы, отчеты о прибыли, отраслевые исследования, новости рынка в реальном времени и использует альтернативные источники данных. Группа аналитиков инвестиционных банков высоко оценила ответы модели в точности - 9.5/10, логичности - 9.4/10 и качестве повествования (8.4/10).

#StateoftheArt

Нейроулей

06 Nov, 13:21


End-to-end multi-objective, совмещенный с дистилляцией - решение для ранжирования от Airbnb.

В контексте долгосрочного роста платформы важно не только предсказание конверсии, но и её исхода. При этом традиционные подходы к ранжированию страдают из-за дисбаланса данных. Решение, которое предлагают исследователи Airbnb, подобно разобрали ML-спецы.

#Stateoftheart

Нейроулей

06 Nov, 10:55


🤗 Hugging Face выпустила SmolLM v.2 — семейство открытых компактых языковых моделей, которые обходят Llama3.2-1B и Qwen2.5-1B на большинстве бенчмарков, например, HellaSwag: 69.3% (Llama3.2: 61.4%), ARC: 60.8% (Llama3.2: 48.3%), PIQA: 77.6% (Llama3.2: 74.4%). Доступны версии модели с 135M, 360M и 1.7B параметров. Модель была обучена на 11 триллионах токенов и 256 H100 GPUs. Выпускается под лицензией Apache 2.0.

SmolLM2 подходит для запуска на мобильных устройствах, поддерживает следование инструкциям, умеет переписывать текст, делать саммари и работать с функциями. Однако модель работает преимущественно с английским языком.

#StateoftheArt

Нейроулей

01 Nov, 14:53


Яндекс вручил научную премию Yandex ML Prize в шестой раз — лауреатами стали 14 учёных с наиболее перспективными исследованиями в различных областях в сфере ML-технологий.

Ежегодная научно-образовательная премия, учреждённая в 2019 году для поддержки научного сообщества, получила в этом году 160 заявок в номинациях «Преподаватели ML», «Научные руководители», «Молодые научные руководители».

Премию получила команда учёных под руководством Артема Лыкова за разработку универсальной когнитивной системы для разных типов роботов и создание робота-собаки, понимающей человеческую речь.

А в номинации «Молодые научные руководители» в числе победителей был Александр Коротин, под руководством которого разрабатываются новые методы обучения генеративных моделей на основе теории оптимального транспорта.

#Development

Нейроулей

31 Oct, 14:19


DeepMind представила SynthID Text — новое открытое решение для маркировки генерируемого нейросетями текста. SynthID уже доступен в библиотеке Hugging Face Transformers v4.46.0+. Этот релиз дополняет ранее выпущенные инструменты DeepMind для индетификации изображений, аудио и видео, созданных ИИ.

SynthID модифицирует процесс генерации токенов с помощью псевдослучайной g-функции. Когда LLM генерирует текст, она предсказывает каждый следующий токен на основе распределения вероятностей. SynthID корректирует эти вероятности, используя настраиваемые параметры, которые балансируют силу водяного знака и качество результата.

Метод был интегрирован в модель Google Gemini и протестирован на 20 миллионах ответах. При этом для обучения модели требуется всего несколько тысяч примеров, что делает ее практичной для внедрения в энтерпрайзы.

#Development

Нейроулей

24 Oct, 14:47


Яндекс выпустил более мощное семейство языковых моделей — YandexGPT 4

Ответы YandexGPT 4 Pro в 70% случаев лучше своей предыдущей версии. Новое семейство моделей умеет обрабатывать более сложные запросы, работать с расширенным контекстом, поддерживает скрытые рассуждения и вызов функций для работы с внешними инструментами. На Хабре разработчики Яндекса уже рассказали, как оценивали качество модели и обучали ее.

#StateoftheArt

Нейроулей

23 Oct, 12:04


Mochi 1 - открытая модель генерации видео с 10 миллиардами параметров от Genmo Ai. Mochi 1 поддерживает только текст-в-видео и генерирует видео с частотой 30 fps длительностью до 5,4 секунд.

Разработчики Genmo AI фокусировались на качестве движений камеры и следовании промту. Качество генерации можно сравнить с первыми версиями коммерческих моделей от Luma и Runway. Доступна под лицензией Apache 2.0 на Hugging Face, Github, а также в веб-приложении.

Модель основана на архитектуре Asymmetric Diffusion Transformer. Вместо использования нескольких предобученных языковых моделей, Mochi использует одну T5-XXL. AsymmVAE сжимает видео в 128 раз с использованием асимметричного энкодер-декодера, что на выходе дает быструю и относительно качественную генерацию, подходящую для задач в реальном времени.

Модель требует как минимум 4 GPU H100.

#Development #AIapps

Нейроулей

16 Oct, 11:29


ReMax — метод обучения с подкреплением

Использование ReMax для обучения модели Mistral-7B показало значительные улучшения. Модель достигла 94,78% успеха на leaderboard AlpacaEval и установила новый стандарт для моделей с 7 миллиардами параметров.

Авторы метода предлагают ReMax как альтернативу популярному алгоритму Proximal Policy Optimization (PPO). NLP-разработчики разобрали метод, по их мнению, он действительно может стать заменой PPO для RLHF-задач, существенно снижая вычислительные затраты и повышая эффективность обучения LLM.

#NLP #Development

Нейроулей

09 Oct, 10:44


В бесплатном генераторе видео HailuoAI появилась функция image2video. Качество генерации не уступает Luma, Runway и Kling.

В первом релизе, который вышел месяц назад, в Hailuo была реализована только функция text-to-video. Теперь это полноценный генератор видео, в котором можно создавать ролики длинее минуты на основе текста, изображения и их комбинаций.

Hailuo принадлежит китайскому стартапу Minimax, за которым стоят мощности Tencent и Alibaba. Как долго доступ будет оставаться бесплатным неизвестно.

Протестировать Hailuo

#AIapps

Нейроулей

03 Oct, 14:25


Под капотом Нейро: от LLM к VLM. Недавно Яндекс обновил свою поисковую систему Нейро, интегрировав в неё передовую VLM для улучшения работы с визуальным контентом.

В своей публикации на Хабре ML-инженер из Яндекса подробно рассказывает о принципах работы визуально-текстовых мультимодальных моделей. Он описывает архитектуру VLM и объясняет процесс обучения, который включает предобучение на миллионах семплов и тонкую настройку.

В статье сравнивается работа предыдущей версии Нейро на базе LLM и функционирование новой системы с VLM. Это наглядно демонстрирует, почему новая версия эффективнее справляется с анализом изображений и связанных с ними запросов.

Интересный факт: Яндекс использует билингвальную модель, способную отвечать на русском и английском языках, что позволяет проводить тесты на англоязычных бенчмарках и проводить SbS-сравнения на русском языке.

#AIapps #Development

Нейроулей

30 Sep, 09:21


MinerU - open-source модель для извлечения и структурирования контента из документов, представленная исследователями из Лаборатории Искусственного Интеллекта Шанхая. MinerU извлекает тексты, формулы, таблицы и изображения из научных статей, учебных пособий, финансовых отчетов (всего 11 типов документов), преобразуя их в форматы Markdown и JSON. MinerU использует многомодульную архитектуру, основанную на PDF-Extract-Kit.

Moneru показала результат 77,6% mAP для научных статей против 52,8% для DocXchain; 87,7% AP50 для научных статей против 60,1% для Pix2Text-MFD; 0,968 CDM против с 0,951 у коммерческой Mathpix.

Проект опубликован на Github.

#StateoftheArt

Нейроулей

26 Sep, 08:12


Molmo — семейство открытых мультимодальных моделей Vision-Language (VLM), разработанных исследователями из Allen Institute for AI и Университета Вашингтона.

Исследователи опубликовали 4 модели:
- MolmoE-1B, основанная на OLMoE-1B-7B mixture-of-experts LLM;
- Molmo-7B-O, на основе OLMo-7B-1024 LLM.5;
- Molmo-7B-D, на основе Qwen2 7B LLM;
- Molmo-72B, на базе Qwen2 72B LLM.

Флагманская модель Molmo-72 набрала 81.2% на 11 академических бенчмарках и заняла второе место по человеческим предпочтениям, уступив только GPT-4o.

Таких результатов удалось достичь во многом благодаря датасету PixMo-Cap, содержащему 712,000 изображений и 1,3 миллиона аннотаций, собранных на основе описаний реальных людей, без использования синтетических данных.

Код и веса моделей доступны на Huggingface. Для доступа к датасету необходимо подать запрос.

#Stateoftheart

Нейроулей

20 Sep, 16:42


В Яндекс Браузер добавился инструмент на нейросетях, который помогает создавать тексты с нуля или улучшать уже написанные, он справляется с профессиональной лексикой и может работать в формате PDF, DOC, TXT.

Исследователи из Яндекса показали, как они улучшили эти модели на базе YandexGPT, оптимизируя процессы редактирования текста с помощью алгоритма поиска LCS-подпоследовательностей. Вместо стандартных методов оценки исправлений они использовали диффалку на Go, что позволило значительно ускорить проверку корректности модели. Переход с архитектуры Decoder на Encoder-Decoder привел к двукратному сокращению времени генерации текста, сохранив качество обработки данных.

Дополнительно был применён подход curriculum learning с сортировкой обучающих примеров по расстоянию Левенштейна. Это позволило модели адаптироваться к разным уровням сложности задач, обеспечив рост качества на +10% по сравнению с предыдущими версиями. Полная поддержка Маркдауна и новые функции, такие как улучшение стиля и генерация, делают н...

Нейроулей

19 Sep, 11:19


🎧 EzAudio — диффузная модель генерации аудио на основе текста (T2A), разработанная исследователями из Tencent AI Lab и Университета Джонса Хопкинса. EzAudio может использоваться для реальных задач генерации музыки и звуковых эффектов. Демо модели и API доступно на Hugging Face. На тестах EzAudio превосходит open-source модели генерации аудио.

EzAudio использует вариационный автокодировщик (VAE) на основе 1D волновой формы, вместо традиционных 2D спектрограмм. В основе модели лежит архитектура диффузионного трансформера для обработки латентных представлений аудиоданных.

📍 Примеры и описание модели

#Stateoftheart