Нейроулей

@neurowave_tech

Нейросети - свежие новости. State-of-the-art модели и методы, AI, AGI, Deep learning, Big data, Machine learning

Нейроулей (Russian)

Добро пожаловать в канал "Нейроулей"! Здесь вы найдете самые свежие новости о нейросетях. Мы следим за развитием state-of-the-art моделей и методов в области искусственного интеллекта, таких как AI, AGI, Deep learning, Big data и Machine learning. Наш канал @neurowave_tech призван поделиться с вами уникальными знаниями и информацией о последних тенденциях в мире нейротехнологий. Если вы интересуетесь темой нейросетей, хотите быть в курсе самых актуальных событий и научиться новым методам и моделям, то этот канал - для вас. Присоединяйтесь к нам прямо сейчас и станьте частью сообщества профессионалов и энтузиастов нейротехнологий!

Нейроулей

18 Dec, 12:00

ArtAug - мультиагентный открытый фреймворк для улучшения генерации изображений без добавления вычислительных ресурсов на этапе инференса, представленный исследователями из Alibaba.

В основе ArtAug мультиагентная система Chain of Thought. Неявно усвоенные моделями понимания изображений человеческие предпочтения используются, чтобы давать рекомендации модели генерации изображений. Так улучшается, например, регулировка экспозиции, композиция и объекты окружения. В результате у модели FLUX.1-dev эстетическая оценка улучшилась с 6.35 до 6.81, PickScore вырос с 42.22 до 57.78, а MPS score увеличился с 47.52 до 52.48.

Исходный код и предобученные модели доступны под лицензией Apache 2.0.

#StateoftheArt #Development

Нейроулей

17 Dec, 10:03

На канале MLinside Виктора Кантора вышел подкаст с Алексеем Толстиковым, руководителем ШАДа Яндекса.

Разбирают:

– Какие навыки необходимы для успеха в ML и почему технических скиллов недостаточно
– Могут ли в этой сфере закрепиться люди из совершенно других областей
– Какие знания необходимы для джунов, чтобы найти работу в ML
– Лайфхаки о поступлении в ШАД и как совмещать учебу с работой

Посмотреть подкаст можно тут.

Нейроулей

10 Dec, 08:44

OpenAI презентовала Sora Turbo - модель генерации видео, впервые анонсированную в феврале 2024. Sora Turbo создает видео с разрешением от 480p до 1080p, длительностью от 10 до 20 секунд с вариациями соотношения сторон. Модель принимает на ввод текст, изображения и видео. Интерфейс Sora позволяет заменять, удалять или перегенерировать компоненты внутри сцен с указанием таймингов и деталей.

Техноблогер MKBHD, получивший ранний доступ, отметил впечатляющую реалистичность и высокое качество видео, но также и проблемы с галлюцинациями, неестественной физикой, искаженным текстом и непоследовательностью объектов.

Sora доступна по подписке OpenAI за $20 с ограничением в 50 генераций и 480p, и без ограничений за $200 в месяц.

#AIapps

Нейроулей

27 Nov, 11:21

NVIDIA представила X-MeshGraphNet - открытый Physics-ML фреймворк для создания сложных физических симуляций на основе графовых нейросетей. X-MeshGraphNet - это расширение модели MeshGraphNet от Deepmind, и он доступен в репозитории NVIDIA Modulus.

X-MeshGraphNet простраивает пользовательские графы напрямую из CAD-файлов вместо генерации 3D-мэша на этапе инференса и разбивает графы на halo-области для масштабируемой обработки. Исследователи проверили производительность на трех репрезентативных сэмплах (100, 300 и 500) из датасета DrivAerML: модель успешно предсказала разпределение давления воздуха и паттерны пристеночного сдвигового напряжения.

#StateoftheArt

Нейроулей

16 Nov, 15:04

FinRobot: открытый мультиагентный фреймворк для анализа рынка акций

Исследователи AI4Finance Foundation представили открытую модель FinRobot — фреймворк AI-агентов, разработанный для анализа рынка акций. FinRobot объединяет количественный и качественный анализ через трехуровневый подход Chain of Thought (CoT). Модель опубликована в открытом доступе на Github.

FinRobot обрабатывает отчеты SEC (годовые 10-K и квартальные 10-Q), корпоративные релизы, отчеты о прибыли, отраслевые исследования, новости рынка в реальном времени и использует альтернативные источники данных. Группа аналитиков инвестиционных банков высоко оценила ответы модели в точности - 9.5/10, логичности - 9.4/10 и качестве повествования (8.4/10).

#StateoftheArt

Нейроулей

06 Nov, 13:21

End-to-end multi-objective, совмещенный с дистилляцией - решение для ранжирования от Airbnb.

В контексте долгосрочного роста платформы важно не только предсказание конверсии, но и её исхода. При этом традиционные подходы к ранжированию страдают из-за дисбаланса данных. Решение, которое предлагают исследователи Airbnb, подобно разобрали ML-спецы.

#Stateoftheart

Нейроулей

06 Nov, 10:55

🤗 Hugging Face выпустила SmolLM v.2 — семейство открытых компактых языковых моделей, которые обходят Llama3.2-1B и Qwen2.5-1B на большинстве бенчмарков, например, HellaSwag: 69.3% (Llama3.2: 61.4%), ARC: 60.8% (Llama3.2: 48.3%), PIQA: 77.6% (Llama3.2: 74.4%). Доступны версии модели с 135M, 360M и 1.7B параметров. Модель была обучена на 11 триллионах токенов и 256 H100 GPUs. Выпускается под лицензией Apache 2.0.

SmolLM2 подходит для запуска на мобильных устройствах, поддерживает следование инструкциям, умеет переписывать текст, делать саммари и работать с функциями. Однако модель работает преимущественно с английским языком.

#StateoftheArt

Нейроулей

01 Nov, 14:53

Яндекс вручил научную премию Yandex ML Prize в шестой раз — лауреатами стали 14 учёных с наиболее перспективными исследованиями в различных областях в сфере ML-технологий.

Ежегодная научно-образовательная премия, учреждённая в 2019 году для поддержки научного сообщества, получила в этом году 160 заявок в номинациях «Преподаватели ML», «Научные руководители», «Молодые научные руководители».

Премию получила команда учёных под руководством Артема Лыкова за разработку универсальной когнитивной системы для разных типов роботов и создание робота-собаки, понимающей человеческую речь.

А в номинации «Молодые научные руководители» в числе победителей был Александр Коротин, под руководством которого разрабатываются новые методы обучения генеративных моделей на основе теории оптимального транспорта.

#Development

Нейроулей

31 Oct, 14:19

DeepMind представила SynthID Text — новое открытое решение для маркировки генерируемого нейросетями текста. SynthID уже доступен в библиотеке Hugging Face Transformers v4.46.0+. Этот релиз дополняет ранее выпущенные инструменты DeepMind для индетификации изображений, аудио и видео, созданных ИИ.

SynthID модифицирует процесс генерации токенов с помощью псевдослучайной g-функции. Когда LLM генерирует текст, она предсказывает каждый следующий токен на основе распределения вероятностей. SynthID корректирует эти вероятности, используя настраиваемые параметры, которые балансируют силу водяного знака и качество результата.

Метод был интегрирован в модель Google Gemini и протестирован на 20 миллионах ответах. При этом для обучения модели требуется всего несколько тысяч примеров, что делает ее практичной для внедрения в энтерпрайзы.

#Development

Нейроулей

24 Oct, 14:47

Яндекс выпустил более мощное семейство языковых моделей — YandexGPT 4

Ответы YandexGPT 4 Pro в 70% случаев лучше своей предыдущей версии. Новое семейство моделей умеет обрабатывать более сложные запросы, работать с расширенным контекстом, поддерживает скрытые рассуждения и вызов функций для работы с внешними инструментами. На Хабре разработчики Яндекса уже рассказали, как оценивали качество модели и обучали ее.

#StateoftheArt

Нейроулей

23 Oct, 12:04

Mochi 1 - открытая модель генерации видео с 10 миллиардами параметров от Genmo Ai. Mochi 1 поддерживает только текст-в-видео и генерирует видео с частотой 30 fps длительностью до 5,4 секунд.

Разработчики Genmo AI фокусировались на качестве движений камеры и следовании промту. Качество генерации можно сравнить с первыми версиями коммерческих моделей от Luma и Runway. Доступна под лицензией Apache 2.0 на Hugging Face, Github, а также в веб-приложении.

Модель основана на архитектуре Asymmetric Diffusion Transformer. Вместо использования нескольких предобученных языковых моделей, Mochi использует одну T5-XXL. AsymmVAE сжимает видео в 128 раз с использованием асимметричного энкодер-декодера, что на выходе дает быструю и относительно качественную генерацию, подходящую для задач в реальном времени.

Модель требует как минимум 4 GPU H100.

#Development #AIapps

Нейроулей

16 Oct, 11:29

ReMax — метод обучения с подкреплением

Использование ReMax для обучения модели Mistral-7B показало значительные улучшения. Модель достигла 94,78% успеха на leaderboard AlpacaEval и установила новый стандарт для моделей с 7 миллиардами параметров.

Авторы метода предлагают ReMax как альтернативу популярному алгоритму Proximal Policy Optimization (PPO). NLP-разработчики разобрали метод, по их мнению, он действительно может стать заменой PPO для RLHF-задач, существенно снижая вычислительные затраты и повышая эффективность обучения LLM.

#NLP #Development

Нейроулей

09 Oct, 10:44

В бесплатном генераторе видео HailuoAI появилась функция image2video. Качество генерации не уступает Luma, Runway и Kling.

В первом релизе, который вышел месяц назад, в Hailuo была реализована только функция text-to-video. Теперь это полноценный генератор видео, в котором можно создавать ролики длинее минуты на основе текста, изображения и их комбинаций.

Hailuo принадлежит китайскому стартапу Minimax, за которым стоят мощности Tencent и Alibaba. Как долго доступ будет оставаться бесплатным неизвестно.

Протестировать Hailuo

#AIapps

Нейроулей

03 Oct, 14:25

Под капотом Нейро: от LLM к VLM. Недавно Яндекс обновил свою поисковую систему Нейро, интегрировав в неё передовую VLM для улучшения работы с визуальным контентом.

В своей публикации на Хабре ML-инженер из Яндекса подробно рассказывает о принципах работы визуально-текстовых мультимодальных моделей. Он описывает архитектуру VLM и объясняет процесс обучения, который включает предобучение на миллионах семплов и тонкую настройку.

В статье сравнивается работа предыдущей версии Нейро на базе LLM и функционирование новой системы с VLM. Это наглядно демонстрирует, почему новая версия эффективнее справляется с анализом изображений и связанных с ними запросов.

Интересный факт: Яндекс использует билингвальную модель, способную отвечать на русском и английском языках, что позволяет проводить тесты на англоязычных бенчмарках и проводить SbS-сравнения на русском языке.

#AIapps #Development

Нейроулей

30 Sep, 09:21

MinerU - open-source модель для извлечения и структурирования контента из документов, представленная исследователями из Лаборатории Искусственного Интеллекта Шанхая. MinerU извлекает тексты, формулы, таблицы и изображения из научных статей, учебных пособий, финансовых отчетов (всего 11 типов документов), преобразуя их в форматы Markdown и JSON. MinerU использует многомодульную архитектуру, основанную на PDF-Extract-Kit.

Moneru показала результат 77,6% mAP для научных статей против 52,8% для DocXchain; 87,7% AP50 для научных статей против 60,1% для Pix2Text-MFD; 0,968 CDM против с 0,951 у коммерческой Mathpix.

Проект опубликован на Github.

#StateoftheArt

Нейроулей

26 Sep, 08:12

Molmo — семейство открытых мультимодальных моделей Vision-Language (VLM), разработанных исследователями из Allen Institute for AI и Университета Вашингтона.

Исследователи опубликовали 4 модели:
- MolmoE-1B, основанная на OLMoE-1B-7B mixture-of-experts LLM;
- Molmo-7B-O, на основе OLMo-7B-1024 LLM.5;
- Molmo-7B-D, на основе Qwen2 7B LLM;
- Molmo-72B, на базе Qwen2 72B LLM.

Флагманская модель Molmo-72 набрала 81.2% на 11 академических бенчмарках и заняла второе место по человеческим предпочтениям, уступив только GPT-4o.

Таких результатов удалось достичь во многом благодаря датасету PixMo-Cap, содержащему 712,000 изображений и 1,3 миллиона аннотаций, собранных на основе описаний реальных людей, без использования синтетических данных.

Код и веса моделей доступны на Huggingface. Для доступа к датасету необходимо подать запрос.

#Stateoftheart

Нейроулей

20 Sep, 16:42

В Яндекс Браузер добавился инструмент на нейросетях, который помогает создавать тексты с нуля или улучшать уже написанные, он справляется с профессиональной лексикой и может работать в формате PDF, DOC, TXT.

Исследователи из Яндекса показали, как они улучшили эти модели на базе YandexGPT, оптимизируя процессы редактирования текста с помощью алгоритма поиска LCS-подпоследовательностей. Вместо стандартных методов оценки исправлений они использовали диффалку на Go, что позволило значительно ускорить проверку корректности модели. Переход с архитектуры Decoder на Encoder-Decoder привел к двукратному сокращению времени генерации текста, сохранив качество обработки данных.

Дополнительно был применён подход curriculum learning с сортировкой обучающих примеров по расстоянию Левенштейна. Это позволило модели адаптироваться к разным уровням сложности задач, обеспечив рост качества на +10% по сравнению с предыдущими версиями. Полная поддержка Маркдауна и новые функции, такие как улучшение стиля и генерация, делают н...

Нейроулей

19 Sep, 11:19

🎧 EzAudio — диффузная модель генерации аудио на основе текста (T2A), разработанная исследователями из Tencent AI Lab и Университета Джонса Хопкинса. EzAudio может использоваться для реальных задач генерации музыки и звуковых эффектов. Демо модели и API доступно на Hugging Face. На тестах EzAudio превосходит open-source модели генерации аудио.

EzAudio использует вариационный автокодировщик (VAE) на основе 1D волновой формы, вместо традиционных 2D спектрограмм. В основе модели лежит архитектура диффузионного трансформера для обработки латентных представлений аудиоданных.

📍 Примеры и описание модели

#Stateoftheart

1,114

subscribers

94

photos

18

videos

Best Similar Channel

Hamster Kombat Announcement

44,979,344 subscribers

@hamster_kombat

Blum: All Crypto – One App

31,517,545 subscribers

Major Community

24,006,409 subscribers

tapswap community

21,707,519 subscribers

X Empire Community

21,206,011 subscribers

21,201,198 subscribers

MemeFi Community

17,809,218 subscribers

17,365,033 subscribers

Notcoin Community

16,709,774 subscribers

16,502,475 subscribers

Random Similar Channel

5,991 subscribers

K.R.S (Leverage Trading)

4,811 subscribers

@krsfuturecalls

کانال اخبار نکا

6,750 subscribers

Asic.Group Telegram Channel

1,716 subscribers

43,169 subscribers

@khutoryanka515

6,041 subscribers

Draculin Hub 💕🌊

12,121 subscribers

Frontières média - Ex Livre Noir

13,738 subscribers

965,029 subscribers

Crypto Pump Club 📈

616,878 subscribers

@cryptopumpciub

БИРОБИДЖАНЕЙРО!

3,857 subscribers

7,322 subscribers

Овкусе.ру | Рецепты

9,220 subscribers

Сольфеджио для чайников

2,621 subscribers

Косметиста

1,918 subscribers

Публичка

3,014 subscribers

Официальный телеграм GREYSI

17,140 subscribers

12,404 subscribers

Ташкентское Подразделение Федерации Шахмат Узбекистана

1,376 subscribers

Астролог Анастасия Жукова

7,899 subscribers