Neural Networks | Нейронные сети @neural Channel on Telegram

Neural Networks | Нейронные сети

@neural


Все о машинном обучении

По всем вопросам - @notxxx1

№ 4959169263

Neural Networks | Нейронные сети (Russian)

Нейронные сети - это канал, где можно получить всю необходимую информацию о машинном обучении. Здесь вы найдете последние новости, полезные советы и лучшие практики по работе с нейронными сетями. Если вы интересуетесь искусственным интеллектом и хотите развиваться в этой области, то этот канал идеально подходит для вас. Наш администратор @notxxx1 всегда готов ответить на ваши вопросы и помочь вам разобраться в сложных темах. Присоединяйтесь к нам и начинайте свой путь к освоению нейронных сетей прямо сейчас!

Neural Networks | Нейронные сети

18 Feb, 13:48


MoBA: Mixture of Block Attention for Long-Context LLMs представляет собой революционное решение для обработки длинных контекстов в языковых моделях. Вот что в нём интересно:

• Инновационная архитектура:

- Блочное разреженная внимание: Полный контекст делится на блоки, и каждый токен учится выбирать наиболее релевантные блоки, что позволяет эффективно обрабатывать длинные последовательности.

• Параметрически независимый механизм выбора: Внедрён механизм топ-k без дополнительных параметров, который автоматически переключается между полным и разреженным вниманием, что делает модель гибкой и адаптивной.

• Эффективность и масштабируемость:
MoBA обеспечивает значительное ускорение (например, 6.5x скорость при 1 млн входных токенов) без потери производительности, что особенно важно для задач с длинным контекстом.

• Практическое применение:
Модель уже доказала свою эффективность в продакшене и демонстрирует превосходное качество работы.

Проект MoBA будет полезен всем, работающим над масштабированием LLMs и задачами с длинным контекстом, предоставляя эффективный и гибкий механизм внимания, который можно легко интегрировать в существующие системы.

Github

@machinelearning_interview

Neural Networks | Нейронные сети

18 Feb, 12:25


✔️ Исследование: ChatGPT проходит тест Тьюринга по психотерапии.

Исследование группы университетов США ставит под сомнение границы между человеческим и ИИ в психотерапии. Оказывается, обычному человеку все сложнее отличить ответы, сгенерированные ChatGPT, от профессиональных советов психологов.

В эксперименте с участием 830 человек, ответы ChatGPT не только оказались неотличимы от экспертных, но и были оценены выше по ключевым аспектам психотерапии. Языковой анализ показал, что ChatGPT использует более позитивный тон и предоставляет более развернутые ответы, что способствовало более высоким оценкам в фокусной группе.
journals.plos.org

✔️ Apple и Amazon сталкиваются с трудностями при обновлении голосовых помощников Alexa и Siri.

ИТ-гиганты столкнулись с неожиданными препятствиями в разработке и запуске обновленных версий своих голосовых помощников, Siri и Alexa, на базе генеративного ИИ. Тестирование выявило регулярные проблемы с надежностью и точностью ответов.

По данным Bloomberg, Apple может отложить выпуск улучшенной Siri до мая 2025 года или позже из-за многочисленных программных ошибок и "технических проблем". Аналогичная ситуация наблюдается и в Amazon, где выпуск LLM-версии Alexa также отложен из-за неверных ответов, выявленных в ходе тестирования. Несмотря на планы анонсировать обновление Alexa 26 февраля, публичный доступ будет открыт не ранее 31 марта, то есть через 18 месяцев после первоначального анонса в 2024 году.
bloomberg.com

✔️ Южнокорейские власти приостановили работу приложения DeepSeek.

Южнокорейское правительство запретило загрузку мобильного приложения DeepSeek из-за опасений по поводу безопасности данных. Ограничение, вступившее в силу в субботу, не затронуло пользователей, у которых приложение уже установлено, и доступ к сервису DeepSeek через веб-версию остается открытым.

Корейская комиссия по защите персональной информации (PIPC) заявила, что DeepSeek "частично пренебрегла" своими обязательствами в соответствии с законами Южной Кореи о защите данных. По словам директора отдела расследований PIPC Нам Сока, DeepSeek "недостаточно прозрачна в вопросах передачи данных третьим лицам и потенциально собирает избыточную личную информацию".

Представитель DeepSeek прибыл в Южную Корею для решения возникших проблем. Сроки снятия ограничений на скачивание приложения пока не определены.
nytimes.com

✔️ Ученые обучают ИИ интерпретировать эмоции животных.

Ресерчеры разрабатывают системы ИИ, способные распознавать эмоции животных, чтобы открыть новые возможности для улучшения их благополучия.

Например, система Intellipig, разработанная в Великобритании, анализирует фотографии свиней и предупреждает фермеров о признаках боли, болезни или эмоционального стресса. В Университете Хайфы разрабатывают ИИ, способный распознавать признаки дискомфорта у собак, что может помочь людям лучше понимать своих питомцев.

Система, разработанная в Университете Сан-Паулу, обучилась распознавать признаки боли у лошадей, анализируя фотографии их морд до и после операций, а также до и после приема обезболивающих средств. ИИ смог самостоятельно выявить признаки, указывающие на боль, с точностью 88%, демонстрируя потенциал таких систем для автоматизации мониторинга состояния животных.
science.org

✔️ ИИ теперь помещается в кармане: портативные LLM на USB-накопителях.

Энтузиасты в области ИИ создают портативные версии LLM, которые помещаются на обычный USB-накопитель. Эти модели, хотя и менее мощные, чем их "большие братья", открывают новые возможности для использования ИИ в мобильных и эмбедед-устройствах.

Один из таких проектов, Binh, позволяет запускать LLM на Raspberry Pi Zero W, помещенном в корпус USB-накопителя. Пользователю достаточно создать пустой текстовый файл с именем, и LLM автоматически заполнит его сгенерированным текстом. Хотя скорость работы оставляет желать лучшего, автор проекта считает его первым plug-and-play LLM на USB-носителе.
hackaday.com

@ai_machinelearning_big_data

#news #ai #ml

Neural Networks | Нейронные сети

18 Feb, 10:23


🔥 Уже этой весной состоится 5-я юбилейная конференция Data Fusion 2025. Не пропустите самое масштабное событие в сфере анализа данных и ИИ.

💻Специалисты по работе с ИИ и данными из бизнеса, науки и государства соберутся на одной площадке, чтобы вместе ответить на ключевые вопросы:

— О чем говорят новейшие исследования в области ИИ в России и за рубежом?
— Как готовить кадры в эру ИИ?
— Как устроена экономика данных и какие отрасли будут ее драйверами?
— В чем особенности применения технологий ИИ и ML в фарме, медицине, промышленности, нейробиологии?

📍Встречаемся 16-17 апреля в Технологическом кластере «Ломоносов» в Москве.
Участие в конференции — бесплатное. Регистрация уже открыта – https://data-fusion.ru/

🙌 Увидимся на Data Fusion 2025!

#AI #ML #DataFusion #Конференция #IT #bigdata #datascience

Neural Networks | Нейронные сети

16 Feb, 07:53


⭐️ Podcastfy — это open-source инструмент, который преобразует текстовый контент в аудио подкасты с использованием синтеза речи.

Он позволяет легко создавать аудиоверсии статей или блогов, упрощая процесс создания подкастов для контент-мейкеров, блогеров или в целях обучения.

🌟 Поддерживает интеграцию с ElevenLabs, OpenAI и Edge TTS, для преобразования текста в речь.

💡 Примеры можно посмотреть здесь.

💨 Поддерживает продвинутые настройки для работы с голосами, стилем речи и другими параметрами. с генеративным контентом.

Установка:
$ pip install podcastfy

Podcastfy — удобный и простой в использовании инструмент для быстрого прототипирования решений по автоматическому созданию аудиоконтента и интеграции в более крупные ML-проекты.

🔐 Лицензия: Apache-2.0

Github
Paper
Colab


@ai_machinelearning_big_data


#podcast #gemini #openai #elevenlabs #genai #notebooklm

Neural Networks | Нейронные сети

15 Feb, 11:06


🖥 Deep Research.

Этот инструмент способен всего за несколько минут проводить масштабные исследования на любые темы, объединяя множество функций в одном месте: от продвинутого поиска в интернете до аналитических рассуждений.

Вот что еще стоит отметить:

- Анализирует до 100 источников;
- Дает 93,9% точных ответов при проверке простых вопросов (SimpleQA);
- Показывает результативность в 21,1% при прохождении теста «Последний экзамен человечества»;
- Работает быстро – исследование занимает до 3 минут;
- Результаты можно сохранить в формате PDF.

Предоставляется бесплатно с лимитом в 5 запросов в день.

Попробовать

@neural

Neural Networks | Нейронные сети

15 Feb, 09:05


Евгений Разинков – преподаватель ML в Казанском университете с многолетним стажем, руководитель собственной команды ML-инженеров и автор популярного канала по машинному обучению на YouTube

приглашает вас в свою AI-школу.

Особенности:
• теория и практика
• акцент на самостоятельную реализацию архитектур с нуля
• полное понимание того, что происходит внутри нейронной сети
• архитектуры от сверточных нейронных сетей до трансформеров и языковых моделей.

Регулярные живые QA-сессии, дружное комьюнити, а также компетишены, где можно будет посоревноваться (в командах и поодиночке) в решении ML задач.

От вас: владение Python и знание основ классического ML (регрессия, классификация, градиентный спуск).
Если классический ML не знаете - есть базовые курсы по ML.

7 месяцев, 4 курса:
• AI: от основ до языковых моделей
• Math for AI - необходимый математический бэкграунд
• MLOps - всё про жизненный цикл модели, логирование, версионирование, docker
• Decision making in AI - управление AI-проектом и стратегия

В рамках Capstone Project вы с нуля реализуете и обучите небольшую языковую модель для генерации простых историй, а также выведете ее в продакшн.

Полная стоимость за 7 месяцев (все 4 курса):
• 112 000 рублей (единоразово)
или
• 17 000 рублей в месяц
Если материалы вам не понравятся, мы вернем деньги за текущий оплаченный месяц (и последующие при единоразовой оплате)!

Старт уже 17 февраля, скорее регистрируйтесь здесь!

Еще больше подробностей о курсе ищите в видео и на странице с отзывами участников.

Кстати, теоретические видео курса AI: от основ до трансформеров находятся в открытом доступе на канале Евгения!

ООО «Лаборатория Евгения Разинкова», ИНН: 5043088023, erid: 2VtzqxKcuC1

Neural Networks | Нейронные сети

14 Feb, 14:03


Lght-A-Video – это инструмент для видеопереноса освещения, который позволяет изменять освещение видео без дополнительного обучения (training-free) благодаря инновационным техникам, таким как Consistent Light Attention (CLA) и Progressive Light Fusion (PLF). Ниже приведён подробный анализ его полезности, отличий от подобных решений, а также его плюсы и минусы.

Чем полезен инструмент?
- Тренировочно‑независимый подход (zero-shot):
Light-A-Video не требует затрат на предварительное обучение на больших наборах данных, что значительно снижает временные и вычислительные затраты. Это делает его идеальным для быстрого применения на любых видео без необходимости сбора специализированных датасетов.

- Улучшение временной согласованности:
При применении классических моделей переноса освещения по кадрам часто возникают проблемы с мерцанием и несогласованностью между кадрами. Интеграция CLA и PLF позволяет обеспечить плавное и стабильное изменение освещения, что особенно важно для создания высококачественных видеороликов.

Гибкость применения:
Инструмент может использоваться для управления освещением как в полной видеопоследовательности, так и для отдельных передних планов, что открывает широкие возможности для креативного видеомонтажа и постобработки.

Открытый исходный код:
Благодаря тому, что проект открыт, исследователи и разработчики могут свободно вносить улучшения, адаптировать его под собственные нужды и интегрировать с другими инструментами.

Отличия от подобных решений
- Специализированный фокус на видео:
В отличие от моделей переноса освещения, разработанных для изображений, которые часто применяются по кадрам и приводят к визуальным артефактам, Light-A-Video специально адаптирован для видео. Его архитектура учитывает межкадровую взаимосвязь для устранения мерцаний.

- Инновационные модули CLA и PLF:
CLA-модуль обеспечивает стабильность генерации фонового освещения посредством усиления взаимодействия между кадрами, а методика Progressive Light Fusion помогает плавно интегрировать исходное и изменённое освещение, что редко встречается в аналогичных решениях.

- Training-free подход:
Многие современные системы требуют предварительного обучения на специализированных датасетах, тогда как Light-A-Video использует zero-shot стратегию, что упрощает его использование и снижает вычислительные затраты.

Плюсы
- Экономия времени и ресурсов:
Отсутствие необходимости в обучении позволяет применять инструмент «из коробки» для любых видео.
Высокая временная согласованность:
Решает проблему мерцания и визуальной несогласованности при изменении освещения в видео.
- Гибкость и адаптируемость:
Подходит как для полного видео, так и для отдельных элементов (foreground), что расширяет спектр его применения.
- Открытость к сообществу:
Исходный код на Python доступен для изучения, модификации и интеграции с другими проектами.

Минусы
- Зависимость от качества входных данных:
Результаты могут зависеть от качества исходного видео и предобработки, что требует дополнительных усилий для оптимальной работы.
- Ограничения по аппаратным ресурсам:
Несмотря на отсутствие этапа обучения, применение сложных алгоритмов внимания и слияния может требовать современного оборудования для обработки видео в реальном времени.
- Новизна и узкая специализация:
Так как проект сравнительно новый и специализированный, его возможности могут быть ограничены по сравнению с более универсальными видеоредакторами, а также возможны проблемы с совместимостью на нестандартных видеоданных.


В итоге Light-A-Video представляет собой перспективное решение для видео реликтинга, которое позволяет изменять освещение в видео без дорогостоящего обучения моделей.

Его инновационные модули для обеспечения временной согласованности выделяют его среди аналогичных инструментов. Однако инструмент требует качественных входных данных и современных вычислительных ресурсов, а его специализированный характер может ограничивать применение в некоторых сценариях.

Github
Blog

@vistehno

Neural Networks | Нейронные сети

14 Feb, 12:03


Авито нанимает!

Ускоренный отбор за выходные и возможность попасть в одну из пяти DS-команд: автомодерация, монетизация, поисковое ранжирование, AI Lab и вертикальные команды DS.

Вас ждет:
➡️ конкурентная зарплата и удаленка по всей России;
➡️ реальные задачи на большом масштабе — разработка алгоритмов для проверки объявлений, внедрение ML-моделей, оптимизация процессов и DS-поддержка;
➡️ участие в разработке новых продуктов — предлагаем для этого мощное железо и бюджет на обучение;
➡️ сильное IT-комьюнити, которое любит опенсорс.

Регистрируйтесь по ссылке до 27 февраля и развивайте крупнейший в мире сервис объявлений.

Neural Networks | Нейронные сети

14 Feb, 06:11


✔️ Модели ChatGPT получили расширение возможностей.

OpenAI сегодня сообщила в своем аккаунте X (Twitter) о том, что модели o1 и о3-mini теперь поддерживают загрузку файлов и изображений, а дневной лимит загрузок для o3-mini-high увеличен в 7 раз для пользователей Plus до 50 в день.
x.com

✔️ YouTube интегрирует Veo 2 в Shorts.

YouTube объявил об интеграции новой модели генерации видео Veo 2 в функцию Dream Screen, что позволит пользователям создавать уникальные AI-видео для Shorts на основе текстового запроса. Veo 2 может создать видео в различных стилях и тематиках, учитывая реальную физику и движения человека. Она позволяет указывать стиль, ракурс или кинематографический эффект.

Чтобы использовать новую функцию, нужно открыть камеру Shorts, нажать "Add", затем "Create", ввести запрос и выбрать длину видео. YouTube автоматически пометит ватермаркой SynthID созданный таким образом контент. Возможность уже доступна в США, Канаде, Австралии и Новой Зеландии, расширение - в планах.
blog.youtube

✔️ Anthropic готовится к выпуску новых гибридных моделей с возможностями рассуждения.

Anthropic готовится к выпуску новой модели, объединяющей возможности традиционной LLM с расширенными функциями рассуждения. Ожидается, что модель будет доступна в ближайшие недели и ориентирована на корпоративных клиентов.

Ключевая особенность новой модели - переменное распределение ресурсов, позволяющее пользователям регулировать вычислительную мощность, используемую моделью для каждой задачи, с помощью простого слайдера. На минимальном уровне модель функционирует как стандартная LLM без цепочки рассуждений.
theinformation.com

✔️ Релиз Grok 3 ожидается через пару недель.

xAI находится на финальной стадии разработки Grok 3, новой версии своего чат-бота, выпуск которого ожидается в течение одной-двух недель. По словам Илона Маска, Grok 3 обладает очень мощными возможностями рассуждения и превосходит все известные модели. Grok 3 позиционируется как конкурент ChatGPT, Gemini, Claude, Mistral AI и Llama.

Модель была обучена с использованием синтетических данных и способна анализировать собственные ошибки, стремясь к большей логической последовательности путем пересмотра и перекрестной проверки данных. Musk отметил, что Grok 3 временами кажется "пугающе умным".
seekingalpha.com

✔️ Ai2 выпустила OLMoE, опенсорсное iOS-приложение для запуска LLM непосредственно на устройствах.

OLMoE, iOS-приложения с полностью открытым исходным кодом, которое позволяет пользователям запускать современные языковые модели непосредственно на своих устройствах без необходимости подключения к Интернету. Приложение доступно для загрузки в Apple App Store или может быть собрано из исходного кода из репозитория Ai2 на Github.

Приложение работает на новых устройствах Apple, от iPhone 15 Pro и новее и iPad серии M, из-за потребности в 8 ГБ памяти для модели OLMoE. Модель была оптимизирована с использованием квантования Q4_K_M. OLMoE представляет собой продолжение стремления Ai2 к открытости в разработке ИИ. На iPhone 16 Pro инференс достигает 41 токена в секунду.
allenai.org

✔️ OpenAI представила рекомендации по использованию моделей рассуждения, специально разработанных для сложных, многоступенчатых задач.
Главное:
Используйте разделители: Markdown, XML-теги и заголовки помогают чётко структурировать вводимые данные.
Различие моделей:
Модели рассуждения (например, o1, o3-mini) оптимизированы для детального планирования, анализа документов и визуальной интерпретации.
GPT-модели (например, GPT-4o) ориентированы на скорость и экономию ресурсов для хорошо определённых задач.
Практическое применение:
Модели рассуждения отлично справляются с уточнением неясных запросов, извлечением ключевых деталей из объёмных данных и многоступенчатым планированием (например, при код-ревью).
Рекомендации по запросам:
Используйте короткие, ясные и структурированные запросы с явными ограничениями. Излишне подробные инструкции "chain-of-thought" не требуются, так как модели рассуждают внутренне.
Post

@ai_machinelearning_big_data


#news #ai #ml

Neural Networks | Нейронные сети

10 Feb, 09:00


Серега стал жертвой нейронки DickPic.

@neural

Neural Networks | Нейронные сети

08 Feb, 06:56


@neural

Neural Networks | Нейронные сети

05 Feb, 07:34


🧠 Open-source DeepResearch

Вышла еще одна реализация DeepResearch, на этот раз от команда hugging face.

За 24 часа, команда разработчиков воспроизвели DS и выложили исходный код своего агента!

🟢Это полностью открытый агент, который может: автономно работать в Интернетуе прокручивать и искать страницы, загружать и работать с файлами, выполнять вычисления с данными и тд...
🟢На бенчмарке GAIA точность Deep Research достигла 67 %.
🟢54% на Magentic-One

Построен на базе CodeAgent. Самый большой буст в производительности удалось получить, когда разработчики разрешили агенту
писать свои действия в коде.

При переходе на стандартного агента, который пишет действия в JSON, а не в коде, производительность той же самой настройки мгновенно падает до 33 %.

Блог: https://huggingface.co/blog/open-deep-research
Код: https://github.com/huggingface/smolagents/tree/main/examples/open_deep_research
Demo: https://t.me/codecamp/6819

#ai #ml #huggingface #hf #aiagent #llm #DeepResearch

@neural

Neural Networks | Нейронные сети

28 Jan, 17:19


🧠 Oh sh**, here we go again.

Alibaba релизнули еще одну модель: Qwen2.5-Max

- MoE
- предварительно обученная на масштабных датасетах и пост-обученная с помощью SFT и RLHF
- превосходит DeepSeek V3 на бенчмарках: Arena Hard, LiveBench, LiveCodeBench, GPQA-Diamond
- Может генерить видео, картинки, поддерживает поиск в интернете.

📖 Релиз: https://qwenlm.github.io/blog/qwen2.5-max/
💬 Chat: https://chat.qwenlm.ai (choose Qwen2.5-Max as the model)
⚙️ API: https://alibabacloud.com/help/en/model-studio/getting-started/first-api-call-to-qwen?spm=a2c63.p38356.help-menu-2400256.d_0_1_0.1f6574a72ddbKE
🤗 HF: https://huggingface.co/spaces/Qwen/Qwen2.5-Max-Demo

#Qwen #ml #llm #Alibaba #opensource

Neural Networks | Нейронные сети

26 Jan, 18:21


💥Релиз Qwen2.5-1M!

Теперь модель поддерживает контекст длиной 1 МИЛЛИОН ТОКЕН токенов 🔥

⭐️ Доступны 2 модели: Qwen2.5-7B-Instruct-1M и Qwen2.5-14B-Instruct-1M.

Доступен подробный технический отчет о серии Qwen2.5-1M! 📊

📖 Технический отчет: https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-1M/Qwen2_5_1M_Technical_Report.pdf
📄 Блог: https://qwenlm.github.io/blog/qwen2.5-1m/
🚀 Потестировать можно здесь: https://chat.qwenlm.ai
🤗 Huggingface: https://huggingface.co/collections/Qwen/qwen25-1m-679325716327ec07860530ba
Modelscope: https://modelscope.cn/collections/Qwen25-1M-d6cf9fd33f0a40

@ai_machinelearning_big_data

#qwen #opensource #ml #llm

Neural Networks | Нейронные сети

24 Jan, 16:31


💰GAMA-Bench

Принятие решений - сложный процесс, требующий различных навыков, что делает его хорошим тестов для оценки больших языковых моделей (LLM).

В данной работе исследователи изучали процесс принятия решений LLM через призму теории игр.

Существующие оценки в основном сосредоточены на случаях с двумя игроками, где LLM соревнуется с другим.

GAMA(γ)-Bench, новую структура для оценки способностей LLM в многоагентных средах через призму теории игр.

Он включает в себя восемь сценариев из классической теории игр и динамическую схему подсчета баллов, специально разработанную для количественной оценки производительности LLM.

γ-Bench очень гибкие настройки игры, что позволяет адаптировать систему подсчета баллов к различным параметрам игры, чтобы всесторонне оценить стратегии принятия решений

Статья: https://arxiv.org/abs/2403.11807
Код: https://github.com/CUHK-ARISE/GAMABench

Neural Networks | Нейронные сети

21 Jan, 05:40


🧠 DeepSeek обнаружили, что у их новой модели был момент озарения, когда она сама для себя разработала продвинутую технику рассуждения.

Оказывается, вам просто нужно правильно стимулировать модель.

Читой воды обучение с подкреплением (RL) может научить модель думать и рефлексировать.

Мы возвращаемся в эпоху AlphaGo: играя в бесчисленные партии Go и максимально увеличивая функцию вознаграждения (выигрыш в игре), используя чистый RL, AlphaGo научился побеждать лучших игроков мира.

Похоже это будет эра LLM RL.

📕 Paper

@ai_machinelearning_big_data

#DeepSeek #deepseekr1 #reasoning #ml

Neural Networks | Нейронные сети

13 Jan, 04:18


🧠 Начинаю обучение модели на GPU на 10к...

@neural

Neural Networks | Нейронные сети

11 Jan, 03:58


💥 Подборка годных ML плейлистов для
Обучения


1. Caltech CS156: Обучение на данных: https://youtube.com/playlist?list=PLD63A284B7615313A

2. Stanford CS229: Machine Learning: https://youtube.com/playlist?list=PLoROMvodv4rMiGQp3WXShtMGgzqpfVfbU

3. Прикладное машинное обучение: https://youtube.com/playlist?list=PLAqhIrjkxbuWI23v9cThsA9GvCAUhRvKZ

4. Введение в машинное обучение (Тюбинген): https://youtube.com/playlist?list=PL05umP7R6ij35ShKLDqccJSDntugY4FQT

5. Лекция по машинному обучению (Стефан Хармелинг): https://youtube.com/playlist?list=PLzrCXlf6ypbxS5OYOY3EN_0u2fDuIT6Gt

@neural

Neural Networks | Нейронные сети

10 Jan, 06:32


⚡️ Новый веб-вьювер HDR и редактор для создания видеоклипов!

📺Web Viewer: https://srameo.github.io/projects/le3d/
🧑‍💻Github: https://github.com/Srameo/LE3D

#ComputerVision #3DReconstruction #GaussianSplatting

Neural Networks | Нейронные сети

05 Jan, 03:40


⚡️Khoj - мощный ИИ агент.

Позволяет получать ответы из Интернета или документов и статей.

Создавайте собственных агентов, планируйте автоматизацию, проводите глубокие исследования.

Легко интегрируется с любым онлайн или локальный LLM (gpt, claude, qwen, mistral).

https://github.com/khoj-ai/khoj

Neural Networks | Нейронные сети

26 Dec, 16:56


🌟 DepthLab: инпейнт карт глубины на основе диффузионных моделей.

DepthLab - диффузионный механизм инпейнта карт глубины с двумя параллельными ветвями для задач заполнения 3D-сцен, генерации сцен на основе текстовых промптов, реконструкции с использованием DUST3R и заполнение глубины LiDAR.

Первая ветвь, Reference U-Net извлекает признаки из RGB-изображений, которые служат условием для второй ветви.

Вторая ветвь, Estimation U-Net, обрабатывает имеющиеся данные о глубине и маску, определяющую области, требующие восстановления. Признаки RGB, полученные из Reference U-Net, последовательно интегрируются в Estimation U-Net, что позволяет управлять процессом восстановления.

Взаимодействие между ветвями Reference U-Net и Estimation U-Net реализуется механизмом cross-attention, который использует CLIP encoder.

Архитектура DepthLab опирается на наработки Marigold и Stable Diffusion V2. Кодирование RGB-изображений и карт глубины в латентное пространство осуществляется VAE. Маска также кодируется с помощью VAE, что позволяет сохранить детальную информацию о форме и границах.

Обучение DepthLab проводилось на двух синтетических датасетах: Hypersim (54 тысячи обучающих образцов) и Virtual KITTI (20 тысяч обучающих образцов). Для расширения обучающей выборки использовались случайные искажения изображений и несколько стратегий маскирования: штрихи, окружности, квадраты и их комбинации.

Оценка качества восстановления проводилась на 5 наборах: NYUv2, KITTI, ETH3D, ScanNet, DIODE. В качестве метрик использовались абсолютная относительная ошибка (AbsRel) и точность в пределах δ1 = 1.25.

Результаты тестов демонстрируют, что DepthLab превосходит как дискриминативные (DiverseDepth, MiDaS, LeReS, Omnidata, HDN, DPT, DepthAnything, DepthAnythingV2), так и генеративные (Marigold, DepthFM, GeoWizard) методы в постоении карт глубины.


Для локального инференса потребуются модели:

🟢Marigold checkpoint;
🟢Энкодер CLIP-ViT-H-14-laion-2B;
🟢Набор чекпоинтов DepthLab.

▶️Локальная установка и инференс:

# Clone repo
git clone https://github.com/Johanan528/DepthLab.git
cd DepthLab

# Create conda env
conda env create -f environment.yaml
conda activate DepthLab

# Run inference
cd scripts
bash infer.sh



🟡Страница проекта
🟡Модель
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #DepthLab

Neural Networks | Нейронные сети

23 Dec, 10:37


⚡️ Chatgpt слишком стремительно развивается.

Neural Networks | Нейронные сети

20 Dec, 13:54


🌟 FlashRNN: оптимизация RNN на современном оборудовании.

FlashRNN - библиотека, которая реализует традиционные RNN, такие как LSTM, GRU и сети Элмана, а также новейшую архитектуру sLSTM в CUDA и Triton.

В отличие от распространенных современных моделей архитектуры Transformers, RNN обладают возможностями отслеживания состояния, оставаясь актуальными для решения задач моделирования временных рядов и логического мышления.

FlashRNN предлагает два варианта оптимизации: чередующийся и объединенный.

🟢Чередующийся позволяет обрабатывать данные с большим размером скрытых состояний и значительно превосходит по скорости базовую реализацию PyTorch.

🟢Объединенный вариант агрегирует операции умножения матриц и вычисления функций в одно ядро, снижая количество обращений к памяти и позволяет хранить рекуррентные матрицы весов непосредственно в регистрах GPU.

За автоматизацию настройки параметров FlashRNN отвечает библиотека ConstrINT, которая решает задачи целочисленного удовлетворения ограничений, моделируя аппаратные ограничения в виде равенств, неравенств и ограничений делимости.

Эксперименты с FlashRNN показали существенное увеличение скорости работы: до 50 раз по сравнению с PyTorch. FlashRNN также позволяет использовать большие размеры скрытых состояний, чем нативная реализация Triton.

▶️ Локальная установка и пример запуска FlashRNN:

# Install FlashRNN
pip install flashrnn


# FlashRNN employs a functional structure, none of the parameters are tied to the `flashrnn` function:

import torch
from flashrnn import flashrnn

device = torch.device('cuda')
dtype = torch.bfloat16
B = 8 # batch size
T = 1024 # sequence length
N = 3 # number of heads
D = 256 # head dimension
G = 4 # number of gates / pre-activations for LSTM example
S = 2 # number of states

Wx = torch.randn([B, T, G, N, D], device=device, dtype=dtype, requires_grad=True)
R = torch.randn([G, N, D, D], device=device, dtype=dtype, requires_grad=True)
b = torch.randn([G, N, D], device=device, dtype=dtype, requires_grad=True)
states_initial = torch.randn([S, B, 1, N, D], device=device, dtype=dtype, requires_grad=True)

# available functions
# lstm, gru, elman, slstm

# available backend
# cuda_fused, cuda, triton and vanilla

states, last_states = flashrnn(Wx, R, b, states=states_initial, function="lstm", backend="cuda_fused")

# for LSTM the hidden h state is the first of [h, c]
# [S, B, T, N, D]
hidden_state = states[0]


📌Лицензирование: NXAI Community License:

🟠бесплатное использование в некоммерческих целях с маркировкой при публикации в отрытых источниках;

🟠получение коммерческой лицензии при годовом доходе свыше 100 млн.евро


🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #RNN #FlashRNN

Neural Networks | Нейронные сети

14 Dec, 09:50


✔️ OpenAI представила функцию «Проекты» для ChatGPT.

OpenAI анонсировала новую функцию «Проекты» для своего чат-бота ChatGPT. Эта функция позволит пользователям группировать чаты и данные, упрощая использование ChatGPT для конкретных задач.

Пользователи смогут объединять в проекты пользовательские данные, разговоры, GPT и простые чаты. Каждый чат в проекте будет иметь доступ ко всей информации внутри него. OpenAI продемонстрировала "Проекты" на седьмом по счету стриме цикла анонсов "12 Days of OpenAI"
openai.com

✔️ Anthropic разработала платформу для анализа использования больших языковых моделей.

Anthropic создала платформу Clio для изучения особенностей применения больших языковых моделей в реальных условиях. Clio использует LLM для анализа миллионов диалогов, выявляя общие закономерности использования без нарушения конфиденциальности пользователей. Платформа группирует диалоги по схожести, создаёт обобщённые описания тем и определяет возможные нарушения правил использования. В отличие от традиционных методов, Clio не предполагает просмотра диалогов людьми.

Anthropic применяет Clio для повышения безопасности Claude. Clio помогает выявлять скоординированные злоупотребления и отслеживать неизвестные угрозы, особенно в важные периоды запуска новых функций. Компания планирует сделать Clio доступной для общественности с целью формирования культуры прозрачности в сфере ИИ.
anthropic.com

✔️ NVIDIA QUEEN: алгоритм потоковой передачи видео с произвольной точкой обзора.

QUEEN (QUantized Efficient ENcoding) - это новый алгоритм, разработанный NVIDIA для эффективного кодирования и потоковой передачи видео с произвольной точкой обзора. QUEEN использует динамические гауссианы для представления сцены, что позволяет достичь высокого качества изображения при минимальном размере модели.

Алгоритм способен сократить размер модели до 0,7 МБ на кадр, обеспечивая при этом быстрое обучение (менее 5 секунд) и высокую скорость рендеринга (около 350 кадров в секунду). QUEEN основан на квантовании и разрежении атрибутов гауссиан и использует адаптивную маскирующую технику для разделения статического и динамического контента.
research.nvidia.com

✔️ Microsoft представила новую модель Phi-4.

Новая языковая модель Phi-4 от Microsoft Research демонстрирует производительность, сравнимую с гораздо более крупными моделями, используя всего 14 миллиардов параметров. Phi-4 превосходит свою обучающую модель, GPT-4, в ответах на вопросы по науке и технике и демонстрирует особую эффективность в математике: 56,1% правильных ответов на вопросы университетского уровня и 80,4% на задачи из математических олимпиад.

Phi-4 уже доступна в рамках ограниченного превью на платформе Azure AI Foundry для исследовательских целей. В открытый доступ Phi-4 будет опубликована на следующей неделе.
techcommunity.microsoft.com

✔️ Cadbury борется с искусственным интеллектом, засоряя обучающие данные бессмыслицей.

Индийский филиал кондитерской компании Cadbury начал рекламную кампанию под названием «Сделаем ИИ посредственным снова», целью которой является замедлить развитие искусственного интеллекта путем внесения искажений в обучающие данные.

Компания создала «первую в мире серверную ферму», генерирующую тысячи синтетических веб-сайтов, заполненных бессмысленным текстом. Цель состоит в том, чтобы «загрязнить» данные, которые модели искусственного интеллекта собирают из Интернета, вызывая ошибки, требующие постоянного вмешательства человека.
techspot.com

@ai_machinelearning_big_data

#news #ai #ml

Neural Networks | Нейронные сети

05 Dec, 18:13


OpenAI: мы приготовили классные подарки для всех.

Также OpenAI:

Neural Networks | Нейронные сети

03 Dec, 13:02


⚡️ HunyuanVideo: модели генерации видео по тексту от Tencent.

Tencent опубликовала в отрытый доступ модели с 13 млрд. параметров для генерации видео по текстовым промптам: HunyuanVideo и HunyuanVideo-PromptRewrite.

Архитектура HunyuanVideo простроена на пространственно-временном сжатии, которое позволяет обрабатывать видео и изображения в едином формате.

Входные текстовые запросы кодируются с помощью MLLM (комбинация CLIP and T5-XXL) и используются в качестве основы для генерации. Модель генерирует латент, который затем декодируется в изображения или видео с помощью 3D VAE.

HunyuanVideo-PromptRewrite - специальный файнтюн для адаптации и автоматического расширения пользовательских промптов к предпочтениям модели. В PromptRewrite 2 режима работы: Normal и Master:

🟢Режим Normal улучшает понимание моделью намерений пользователя, способствуя более точной интерпретации промпта.

🟢Режим Master улучшает описание композиции, освещения сцены генерации и движения камеры, что на выходе дает видео с более высоким визуальным качеством.

HunyuanVideo оценивалась 60 экспертами на 1533 промптах в сравнении с топовыми T2V-моделями: Gen-3, Luma 1.6 и тремя лучшими китайскими коммерческими моделями.

Результаты оценки показали, что HunyuanVideo достигает общего уровня удовлетворенности, особенно выделяясь качеством движения объектов.

▶️Планы развития HunyuanVideo:

🟠Бенчмарк Penguin Video;
🟠Web Demo (Gradio);
🟠Поддержка ComfyUI;
🟠Поддержка Diffusers;
🟠Модель и код инференса Image-to-Video версии.

⚠️ Минимальный объем GPU - 60 GB для 720pX1280pX129f и 45 GB для 544pX960pX129f. Рекомендованный GPU - 80 GB.

▶️Установка и инференс T2V в 720р:

# Clone repo:
git clone https://github.com/tencent/HunyuanVideo
cd HunyuanVideo

# Prepare conda environment
conda env create -f environment.yml
conda activate HunyuanVideo

# Install pip dependencies
python -m pip install -r requirements.txt

# Install flash attention v2
python -m pip install git+https://github.com/Dao-AILab/[email protected]

# Inference
python3 sample_video.py \
--video-size 720 \
--video-length 129 \
--infer-steps 50 \
--prompt "%prompt%" \
--flow-reverse \
--use-cpu-offload \
--save-path ./results


📌Лицензирование: Tencent Hunyuan Community License.


🟡Страница проекта
🟡Модель HunyuanVideo
🟡Модель HunyuanVideo-PromptRewrite
🟡Техотчет
🖥 GitHub


@ai_machinelearning_big_data

#AI #ML #Text2Video #Tencent #HunyuanVideo

Neural Networks | Нейронные сети

01 Dec, 15:22


🔥 OminiControl — это модель, основанная на технологии OmniGen, предназначенная для универсальной генерации изображений!

💡 Она может выполнять такие задачи, как генерация изображений по текстовым запросам, редактирование изображений, сохранение идентичности объектов, а также генерация, основанная на нескольких модальностях, таких как текст и изображение.

🌟 Модель отличается гибкостью в управлении процессом генерации и поддерживает тонкую настройку для добавления новых возможностей.

🔗 Ссылка: *клик*

@neural

Neural Networks | Нейронные сети

26 Nov, 08:30


✔️ Anthropic предлагает новый способ подключения данных к чат-ботам.

Anthropic разработала новый открытый стандарт Model Context Protocol (MCP) для подключения ИИ-ассистентов к системам хранения данных. MCP позволяет моделям ИИ, независимо от разработчика, получать данные из различных источников, включая бизнес-инструменты, репозитории контента и среды разработки приложений. Это позволит моделям генерировать более качественные и релевантные ответы на запросы пользователей.

Anthropic утверждает, что MCP решает проблему разрозненности данных, предоставляя разработчикам протокол для создания двусторонних соединений между источниками данных и ИИ-приложениями. MCP уже интегрирован компаниями Block и Apollo и платформами Replit, Codeium и Sourcegraph.
techcrunch.com

✔️ Зумеры используют ИИ для повышения эффективности своей работы.

Согласно исследованию Google Workspace и The Harris Poll, 82% представителей Gen Z уже используют инструменты ИИ в своей работе. Практически все опрошенные (98%) ожидают, что ИИ окажет влияние на их отрасль или рабочее место в течение следующих 5 лет. Более 50% пользователей ИИ регулярно делятся своим опытом и знаниями с коллегами, а 75% рекомендуют инструменты генеративного ИИ своим коллегам.

Z-поколение использует ИИ для написания электронных писем, преодоления языковых барьеров и повышения эффективности в коммуникациях. 88% респондентов считают, что ИИ может помочь им начать работу над сложной задачей, а 87% полагают, что ИИ сделает их более уверенными в онлайн-встречах.
googlecloudpresscorner.com

✔️ NVIDIA анонсировала GenAI-модель Fugatto для генерации звука.

Fugatto — это новая генеративная модель, которая позволяет создавать, изменять и комбинировать любые звуки, музыку и голоса с помощью текстовых промптов и аудиофайлов.

Модель мультиязычна, основана на Transformers и использует 2,5 млрд. параметров. Fugatto обладает уникальной способностью сочетать различные инструкции и интерполировать между ними, предоставляя тонкий контроль над генерируемым звуком. Модель может изменять акценты и эмоции в голосе, создавать новые звуки, которых никогда не было, и даже заставлять музыкальные инструменты издавать нехарактерные для них звуки. Демо видео, техотчет.
blogs.nvidia.com

✔️ iRacing объявила о партнерстве с Microsoft в области исследований ИИ.

iRacing объединилась с Microsoft Research для разработки продвинутых моделей ИИ - Large Action Models (LAM). Цель сотрудничества - улучшить ИИ-пилотов, создать системы коучинга на базе ИИ и внедрить другие функции с использованием ИИ.

LAM будут обучаться на основе данных iRacing, чтобы предоставлять гонщикам обратную связь в режиме реального времени, улучшать качество игры и помогать им совершенствовать свои навыки. iRacing и Microsoft Research планируют опубликовать результаты своих исследований, чтобы разработчики могли внедрять технологии в свои продукты. В проекте также участвует бывший гонщик INDYCAR Ориоль Сервиа в качестве эксперта.
iracing.com

✔️ DynaSaur: агент LLM, который совершенствуется, создавая собственные функции.

DynaSaur - это платформа агентов LLM, разработанная совместно Университетом Мэриленда и Adobe, которая позволяет агентам динамически создавать и компоновать действия в режиме реального времени.

В отличие от традиционных LLM-агентов, которые руководствуются предопределенными наборами действий, DynaSaur генерирует, выполнет и совершенствует новые функции Python, когда существующие функции оказываются недостаточными. Агент ведет растущую библиотеку повторно используемых функций, наращивая способность реагировать на различные сценарии.
В тестах на платформе GAIA DynaSaur превзошел базовые показатели, достигнув средней точности 38,21% с использованием GPT-4. Кода пока нет.
arxiv.org

Neural Networks | Нейронные сети

23 Nov, 13:06


🌟 Boltz-1: открытая модель для предсказания структуры биомолекулярных комплексов.

Boltz-1 - первая доступная модель с открытым исходным кодом, которая достигает точности AlphaFold3 в прогнозировании 3D-структур белков, РНК, ДНК и небольших молекул. Boltz-1 основана на архитектуре AlphaFold3, но включает ряд модификаций, повышающих точность и общую эффективность модели.

Архитектура состоит из модуля множественного выравнивания последовательностей (MSA), модуля PairFormer и диффузионной модели, работающую на двух уровнях разрешения: тяжелые атомы и токены. Токены представляют собой аминокислоты для белков, основания для РНК и ДНК, а также отдельные тяжелые атомы для других молекул.

Boltz-1 использует диффузионную модель, аналогичную AlphaFold3, но Boltz-1 использует жесткое выравнивание с помощью алгоритма Кабша после каждого шага процедуры вывода, чтобы гарантировать, что интерполированная структура более похожа на очищенную от шума выборку. Это уменьшает дисперсию потерь денойзинга и предотвращает переобучение модели.

Обучение модели проводилось на структурных данных из PDB, выпущенных до 30 сентября 2021 года, с разрешением не менее 9Å. Чтобы ускорить обучение, разработчики Boltz-1 применили алгоритм сопряжения MSA с использованием таксономической информации, унифицированный алгоритм кадрирования и алгоритм определения кармана связывания. Обучение модели заняло 68 тысяч шагов с размером пакета 128, что меньше, чем у AlphaFold3.

Оценка Boltz-1 была выполнена на датасете CASP15 и на наборе PDB, специально созданном разработчиками для тестирования.

Результаты показали, что Boltz-1 сопоставима по точности с Chai-1, закрытой репликацией AlphaFold3. Обе модели демонстрируют схожие показатели среднего LDDT и среднего TM-score.

Boltz-1 продемонстрировала преимущество в предсказании взаимодействия белок-лиганд на наборе данных CASP15.

Прикладная реализация инференса, доступная в репозитории на Github, может принимать на вход форматы:

🟢Fasta file, для большинства кейсов использования;
🟢Комплексная YAML-схема для более сложных случаев;
🟢Каталог с файлами для пакетной обработки.

Подробные инструкции для процесса прогнозирования и дообучения опубликованы в репозитории с кодом.

▶️Локальный инференс:

# Install boltz with PyPI
pip install boltz

# run inference
boltz predict input_path


📌Лицензирование: MIT License.


🟡Модель
🟡Техотчет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Diffusion #3D #Biomolecular

Neural Networks | Нейронные сети

20 Nov, 16:06


⚡️ Крутая шпаргалка по стратегиям для обучения на GPU

@neural

Neural Networks | Нейронные сети

19 Nov, 09:28


⚡️ Screenshot-to-code позволяет легко преобразовывать скриншоты, макеты и дизайнерские концепции из Figma в высококачественный, функциональный код с помощью искусственного интеллекта.

Он поддерживает работу с моделями Claude Sonnet 3.5 и GPT-4o.

🔗 Репозиторий

@neural

Neural Networks | Нейронные сети

16 Nov, 12:01


🌟 Контекстуальные эмбединги для повышения эффективности поиска.

Contextual Document Embeddings (CDE) - это метод векторных эмбедингов, разработанный в Cornell University, который учитывает дополнительный контекст из "соседних" документов целевого набора данных.

Метод CDE предлагает добавить к функции встраивания зависимость не только от запроса или документа, но и от всех других документов в наборе данных. Чтобы создать такую функцию с осведомленностью о своем окружении, предлагаются две взаимодополняющих техники:

🟢Контекстуальное обучение, которое основано на кластеризации документов и запросов для формирования групп тематически схожих псевдообластей данных. Обучение на этих группах позволяет эмбединг-модели различать документы в сложных контекстах.

🟠Контекстуальная архитектура. Дополняет стандартный BERT-подобный энкодер дополнительными токенами из агрегированной информации о соседних документах. Эта информация позволяет модели учитывать относительную частоту терминов в контексте, аналогично тому, как это делается в статистических моделях поиска.

Тестирование CDE показало, что обе техники улучшают производительность в задачах поиска вне предметной области, а контекстуальная архитектура эффективнее традиционных эмбедингов в специализированных областях: финансах, юриспруденции и медицине.

Для практических экспериментов предлагается блокнот ipynb (или его версия для Google Collab) в котором используется эмбединг-модель cde-small-v1 с 281 млн. параметров, получившая средний балл 65.00 в бенчмарке MTEB leaderboard в категории моделей до 400 млн. параметров. Этот блокнот научит создавать свои собственные эмбединги в контексте вашего набора данных или просто использовать модель как есть.


🟡Модель
🟡Arxiv
🟡Ipynb блокнот
🟡Google Collab
🖥Github

@ai_machinelearning_big_data

#AI #ML #Embeddings #Retrieval #CDE

Neural Networks | Нейронные сети

16 Nov, 10:05


⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

МАШИННОЕ ОБУЧЕНИЕ: t.me/ai_machinelearning_big_data
C++ t.me/cpluspluc
Python: t.me/pythonl
Linux: t.me/linuxacademiya
Хакинг: t.me/linuxkalii
Devops: t.me/DevOPSitsec
АНАЛИЗ Данных: t.me/data_analysis_ml
Javascript: t.me/javascriptv
C#: t.me/csharp_ci
Java: t.me/javatg
Базы данных: t.me/sqlhub
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Docker: t.me/DevopsDocker
Golang: t.me/Golang_google
React: t.me/react_tg
Rust: t.me/rust_code
ИИ: t.me/vistehno
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
Собеседования МЛ: t.me/machinelearning_interview
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc
Разработка игр: https://t.me/gamedev

💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.me/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.me/addlist/mzMMG3RPZhY2M2Iy

😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://t.me/addlist/BkskQciUW_FhNjEy

Neural Networks | Нейронные сети

14 Nov, 23:59


Британский оператор O2 пошел на радикальный шаг в борьбе с мошенниками – он задействовал... ИИ-бабушку 😨

Хотя идея не нова (перед российскими операторами снимаю шляпу), результат все равно забавен: «бабушка» постоянно путается, забывает номер карты, неверно вводит коды из СМС и увлеченно рассказывает о своем красивом коте.

Обычно мошенники выдерживают около 40 минут, после чего начинают нервничать и вешают трубку. В конце видео даже призывают сообщать номера таких злоумышленников, чтобы они разговаривали с «бабушкой», а не с настоящими людьми. Это действительно достойно уважения, да и реклама получилась эффектной.

Neural Networks | Нейронные сети

06 Nov, 09:30


🔥 LiNR: первый алгоритм генерации кандидатов, работающий на GPU

🌟 Свежий разбор от ML-спецов Яндекса посвящен алгоритму, который разработали в LinkedIn. LiNR может поддерживать индексы, включающие миллиарды потенциальных кандидатов.

🌟 Его внедрение позволило увеличить количество ежедневных уникальных пользователей на 3%. В разборе пересказали основные тезисы статьи и перечислили три версии алгоритма.

🔗 Ссылка: *клик*

@neural

Neural Networks | Нейронные сети

05 Nov, 19:29


👩‍💻 pytorch_sparse — расширения для PyTorch, предназначенные для эффективной обработки разреженных тензоров, что актуально для графовых нейронных сетей и других задач с редкими данными.


🌟 Библиотека включает оптимизированные операции над разреженными тензорами, такие как умножение матриц и индексирование. Она широко используется в задачах, требующих обработки графов и сетевых данных, и поддерживает CUDA для ускорения на GPU.

🔐 Лицензия: MIT

🖥 Github

@neural

Neural Networks | Нейронные сети

05 Nov, 15:57


🌟 Allegro: открытая text-to-video модель генерации видео в 720p.

Allegro - модель от Rhymes AI для генерации видео по текстовому промпту. Allegro генерирует 6-секундные видеоролики с разрешением 720p и частотой 15 кадров в секунду. Модель отличается высокой детализацией, плавностью переходов в движении и способностью визуализировать сложные сцены.

Allegro основана на трех ключевых технологиях:

🟢Обработка больших объемов видеоданных.

Для обучения модели использовался массив данных из 106 млн. изображений и 48 млн. видеороликов с детальными аннотациями.

🟢Сжатие видео в визуальные токены.

В Allegro используется Video Variational Autoencoder (VideoVAE) с 175 млн. параметров. Он кодирует видео в компактное скрытое пространственно-временное представление и способен работать в разрядностях точности FP32/TF32/BF16/FP16.

🟢Масштабируемая архитектура Diffusion Transformer.

Ядро Allegro - масштабируемая архитектура Diffusion Transformer (DiT) с 3D-позиционным кодированием RoPE и полным 3D-вниманием размером в 2.8 млрд. параметров. DiT моделирует пространственные и временные зависимости в видеокадрах и отвечает за качество генерации и плавность движения. Поддерживаемая разрядность - BF16/FP32/TF32.

Для локального запуска потребуются : Python >= 3.10, PyTorch >= 2.4, CUDA >= 12.4

⚠️ Интерполяция до 30 FPS возможна с помощью EMA-VFI.

⚠️ С использованием параметра --enable_cpu_offload, инференс возможен на 9.3Gb VRAM, без использования выгрузки потребность Allegro около 27Gb VRAM.

⚠️ Модель не может генерировать знаменитостей, разборчивый текст, конкретные места, улицы или здания.

▶️Параметры инференса в CLI:

# Run inference
python single_inference.py

# Keys
--user_prompt '%prompt%'
--save_path '%full path for output file%'
--vae '%path to VAE'
--dit '%path to DiT%'
--text_encoder '%path to text encoder%'
--tokenizer '%path to text tokenizer%'
--guidance_scale 7.5
--num_sampling_steps 100
--seed 42


📌Лицензирование: Apache 2.0 license.


🟡Страница проекта
🟡Модель
🟡Arxiv
🟡Сообщество в Discord
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Text-to-Video #DiT #Allegro

Neural Networks | Нейронные сети

01 Nov, 13:01


⚡️Yandex ML Prize: ежегодная премия в области машинного обучения состоялась вчера

Всего в этом году было подано 160 заявок, среди которых Совет премии выбрал 14 лауреатов за наиболее значимые достижения в сфере машинного обучения. Победителями стали исследователи, научные руководители и преподаватели, представляющие ИТМО, КФУ, МФТИ, НИУ ВШЭ, Сколтех, ФИЦ ИУ РАН и AIRI.

🔗 Читать источник *клик*

@neural

Neural Networks | Нейронные сети

28 Oct, 11:01


📎 ML в медицине: дайджест за 21 - 27 октября 2024 г.


▶️Модели машинного обучения и бенчмарки

🔘BioMistral-NLU: модель с повышенным пониманием медицинской терминологии.
Модель на основе BioMistral настроенная на выполнение инструкций для 7 задач здравоохранения.

🔘MedRegA: интерпретируемая двуязычная MMLM для медицинских задач.
MMLM, способная обрабатывать медицинские задачи на уровне изображения и области, частично имитируя работу врача.

🔘PanDerm: базовая MMLM для дерматологии.
MMLM для дерматологии, обученная методом SFT на наборе данных из 2 млн. изображений заболеваний кожи.

🔘MoRE: MMLM для анализа рентгеновских снимков, ЭКГ и медицинских заключений.
Первая в медицинской сфере модель для анализа рентгеновских снимков, электрокардиограмм (ЭКГ) и медицинских заключений.


▶️Фреймворки и методологии

🔘Метод "Обратной диффузия во времени" для обнаружения дипфейков в медицинских изображениях.
Метод, основанный на диффузионных вероятностных моделях шумоподавления (DDPM).

🔘REFLECTOOL: агент для решения клинических задач.
Система для решения сложных медицинских задач с использованием специализированных инструментов.

🔘GEMCODE: Генеративный метод для разработки сокристаллов с улучшенной таблетируемостью.
Конвейер, разработанный специалистами Ивановского государственного химико-технологического университета для ускоренной разработки действующих веществ лекарственных средств.

🔘VISAGE: синтез видео лапароскопических операций с использованием графов действий.
Метод, основанный на диффузионных моделях и графах действий, который позволяет синтезировать реалистичные видео лапароскопических операций.

🔘MPP: интеграция метаболической информации в LLM для выявления аномалий во временных рядах клинических данных.
Методика, которая интегрирует знания о метаболических путях в LLM для повышения точности выявления аномалий.

🔘SleepCoT: алгоритм для персонализированного управления здоровьем сна.
Алгоритмическая модель для персонализированного управления здоровьем сна с использованием метода CoT.

🔘ALCD: Противодействие галлюцинациям в LLM.
Метод, который устраняет галлюцинации, связанные с идентификацией несуществующих сущностей и ошибками классификации.


▶️Медицинские LLM-приложения

🔘LMLPA: инструмент для лингвистической оценки личности LLM.
Инструмент для измерения личностных черт LLM на основе анализа их текстовых ответов.

🔘Cистема обратной связи для обучения медицинским процедурам.
Система обратной связи по медицинским процедурам для студентов-медиков и обучения медперсонала.


▶️Исследования и обзоры

*️⃣Storytelling XAI: повышение доверия к ИИ в медицине.
Комбинация методов дистилляции знаний и интерпретации моделей для создания комплексных объяснений, адаптированных для медицинских специалистов и специалистов по ML.

*️⃣Оценка объяснимого ИИ (XAI) с помощью LLM.
Исследование о потенциале замены людей на LLM для оценки ИИ-систем. Спойлер - LLM лучше, дешевле и эффективней.

*️⃣ Выявление и устранение предвзятости в LLM для клинических решений.
Методика "Контрфактические вариации пациента" (CPV) для оценки предвзятости LLM в сложных клинических случаях. Спойлер - устранить предвзятость не получается.


🔜 Читать полный дайджест


@ai_machinelearning_big_data

Neural Networks | Нейронные сети

28 Oct, 09:01


🎃 Приглашаем на вебинар перед Хэллоуином: «Нужна ли математика на собеседованиях🧙‍♀️

Темные тучи сгущаются, и в воздухе витает мистическая атмосфера... Готовы ли вы окунуться в мир загадочной математики и раскрыть тайны успешного собеседования? Тогда ждем вас 28 октября в 20:00! 🕸
https://proglib.io/w/6a50d166

Что вас ждет в эту зловещую ночь:

💀 Ошибаться не страшно: узнаем, как неудачные проекты и опыт «в стол» превращают джуниоров в сеньоров. Расскажем истории о том, как ошибки закаляют и помогают достигать вершин мастерства.

🧛 Собеседования без подготовки? Обсудим, возможно ли пройти через испытания рекрутеров без специальной подготовки или это путь в лабиринт с привидениями.

🧙 Теория и практика — зелье успеха:

• Выбор метрики оценки модели: какую метрику показать бизнесу, чтобы не столкнуться с гневом нечисти? Разберемся в разнице между MAPE и WAPE и когда какую применять.

• Трансформация распределений: как превратить логнормальное распределение в нормальное без волшебной палочки? Поговорим о том, зачем это нужно и как обойтись изменением функции потерь вместо магических превращений.

🦇 Бонус для смельчаков: раскроем секреты тестирования в маркетинге, которые помогут не заблудиться в темном лесу конкурентного рынка.

Не упустите шанс провести вечер в компании единомышленников, погрузиться в атмосферу Хэллоуина и получить ценные знания!

🕯 Записывайтесь на вебинар и готовьтесь к мистическим открытиям! https://proglib.io/w/6a50d166

Neural Networks | Нейронные сети

27 Oct, 14:24


🌟 PocketPal AI: локальный запуск LLM на IOS и Android.

PocketPal AI - проект Ai-ассистента на базе SLM, которые запускаются локально на iOS и Android без необходимости подключения к Интернету:

🟢PocketPal AI для iOS в App Store

🟢PocketPal AI для Android в Google Play

Приложения на обеих платформах позволяет выбирать модели, настраивать параметры инференса (системный промпт, температура, шаблоны чата и BOS), следить за показателями производительности в реальном времени и имеют функцию автоматической выгрузки моделей из памяти устройства, когда приложение в фоновом режиме.

Список моделей в приложении (загружаются вручную из меню):

🟠H2O Danube 2 and 3;
🟠Microsoft Phi;
🟠Google Gemma 2;
🟠Qwen.

Помимо этих моделей, можно загрузить любую модель в формате GGUF через опцию "Add Local Model" в меню моделей приложения на устройстве.

В планах проекта расширение списка поддерживаемых моделей, улучшение функций пользовательского интерфейса и поддержка большего количества версий Android/

⚠️ Требования для локальная разработки проекта PocketPal:

🟢Xcode для iOS или Android Studio;
🟢Node.js версии 18 или выше;
🟢Yarn;
🟢React Native CLI.

▶️ Локальная установка и запуск для самостоятельной разработки :

# Clone repository
git clone https://github.com/a-ghorbani/pocketpal-ai
cd pocketpal-ai

# Install dependencies
yarn install

# Install dependencies iOS only
cd ios
pod install
cd ..

# Run App via iOS Simulator
yarn ios

# Run App via Android Simulator
yarn android


📌Лицензирование: MIT License.


🖥GitHub

@ai_machinelearning_big_data

#AI #ML #SLM #iOS #Android

Neural Networks | Нейронные сети

26 Oct, 16:20


📈🗯 Расширяем Лабораторию в направлении LLM

🚀 Альфа-Банк активно развивает направления применения генеративного ИИ. Лаборатория находится в активном поиске 3-х junior/middle/senior + Team Lead под направление LLM. Качество текущего поиска определит, насколько быстро мы сможем выполнить стратегические задачи компании.

💸 Формирование команды - это одна из ключевых задач руководителя команды. На этот раз инвестируем не только собственное время, но и 1️⃣0️⃣ подписок ✈️-премиум для повышения охвата этой вакансии вместе с дружественным каналом @neural, который рассказывает про актуальные сценарии применения LLM.

Как принять участие?
1️⃣ Подписаться на канал "Нескучный Data Science" (@not_boring_ds)
2️⃣ Подписаться на канал "Neural Networks | Нейронные сети" (@neural)
3️⃣ Ждать 15 ноября, когда мы объявим, кто победил.

Neural Networks | Нейронные сети

24 Oct, 11:30


🚀 YandexGPT 4 — новая мощная нейросеть от Яндекса

В Yandex Cloud уже доступны две версии большой языковой модели — YandexGPT 4 Pro и YandexGPT 4 Lite. По результатам тестов YandexGPT 4 Pro в 70% случаев отвечает лучше своей прошлой версии. А благодаря увеличенному контексту в 32 тыс. токенов может работать с длинными запросами и порядка 60 страницами текста. На Хабре разработчики Яндекса рассказали про все новые фичи нейросети.

🔗 Habr: *клик*

@neural

Neural Networks | Нейронные сети

16 Oct, 12:30


🔥 ReMax — удачная альтернатива методу обучения с подкреплением PPO

🌟 NLP-шники разобрали метод ReMax, в котором, в отличие от PPO, нет value-модели. Модель Mistral-7B с использованием метода ReMax достигла 94,78% успеха на leaderboard AlpacaEval и установила новый стандарт для моделей с 7 млрд параметров.

🔗 Посмотреть разбор: *клик*

@neural

Neural Networks | Нейронные сети

11 Oct, 15:01


🖼Pyramid Flow — это метод авторегрессионной генерации видео на основе Flow Matching, оптимизированный для обучения и генерации видео с высоким разрешением.

💡 Данный проект позволяет генерировать видеоролики длительностью до 10 секунд с разрешением 768p при 24 кадрах в секунду. Метод использует гибкость flow matching для интерполяции между латентными состояниями различных разрешений и уровней шума, что обеспечивает генерацию и декомпрессию визуального контента с меньшими вычислительными затратами.

🔍 Основные возможности Pyramid Flow включают:

🌟 Генерация текста-видео: можно создавать видео по текстовым описаниям, управляя визуальными параметрами

🌟 Преобразование изображений в видео: модель поддерживает генерацию видео на основе начального изображения, с возможностью добавления движения и динамики

🌟 Разрешение и производительность: поддерживается два варианта — 384p и 768p, для которых требуется примерно 26 и 40 ГБ видеопамяти соответственно

🌟 Модели и исходный код доступны на платформе Huggingface и могут быть использованы для дальнейших экспериментов и обучения

🔐 Лицензия: MIT

🔗 Huggingface: *клик*
📖 Arxiv: *клик*
▪️Github

@neural

Neural Networks | Нейронные сети

07 Oct, 18:15


🌟 Ctrl-X: генерация T2I по структурным и визуальным референсам без необходимости обучения.

trl-X - метод, который позволяет управлять структурой и внешним видом изображений, создаваемых диффузионными моделями без необходимости дополнительного обучения или использования инструкций.

Ctrl-X предлагает управляемую генерацию, разделяя ее на две основные составляющие: сохранение пространственной структуры и семантически-осведомленный перенос стиля.

Для управления структурой используется прямая инъекция признаков сверточных слоев и карт внимания из входного изображения, который задает структуру.

Для переноса внешнего вида c входного источника применяется метод, основанный на статистике признаков, который учитывает пространственное соответствие между исходным и генерируемым изображениями.

Анализ карт внимания позволяет выявить семантические соответствия между ними и перенести стилистические характеристики с учетом их пространственного расположения.

Метод Ctrl-X не привязан к конкретным моделям и может применяться к любым диффузионным моделям T2I (текст-изображение) и T2V (текст-видео).

Программная реализация Ctrl-X на модели Stable Diffusion XL 1.0 поддерживает запуск с Gradio UI и инференс в CLI.

В обоих типах запуска Ctrl-X (Gradio и CLI) предусмотрена возможность оптимизации потребления VRAM : ключи запуска cpu_offload и disable_refiner.

Примерная утилизация VRAM для Gradio с использованием оптимизации выглядит следующим образом:

🟠no flags - 19 GB VRAM;

🟢cpu_offload - 13GB VRAM;

🟠disable_refiner - 15GB VRAM;

🟢cpu_offload + disable_refiner - 8 GB VRAM.

▶️Установка и запуск с Gradio или CLI:

# Clone the repository
git clone https://github.com/genforce/ctrl-x.git

# Create Conda environment
conda env create -f environment.yaml
conda activate ctrlx

# Run Gradio Demo
python app_ctrlx.py

# or run CLI inference
python run_ctrlx.py \
--structure_image assets/images/horse__point_cloud.jpg \
--appearance_image assets/images/horse.jpg \
--prompt "a photo of a horse standing on grass" \
--structure_prompt "a 3D point cloud of a horse"



🟡Страница проекта
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Diffusers #CtrlX

Neural Networks | Нейронные сети

07 Oct, 16:13


Бесплатный вебинар по геоаналитике в DataLens 💻

📍 Что такое геоаналитика и почему она так важна для бизнеса?

Если вы работаете над оффлайн продуктом, кроме эффективности маркетинга и продукта, нужна еще и аналитика месторасположения. В каком районе города открыть магазин, аптеку, пункт выдачи, чтобы в них пришла нужная аудитория? На этот вопрос и помогает ответить геоаналитика.

Вебинар будет интересен, если вы:
хотите понять, подходит ли вам профессия дата-аналитика
хотите углубиться в геоаналитику и разобраться в DataLens
начинающий аналитик, который ищет новые лайфхаки для работы

Спикер вебинара Максим Акименко, аналитик данных в аптеке «Ригла», покажет, как с помощью DataLens построить дашборд с эффективным расположением торговых точек.

🕖 Встречаемся 8 октября в 19:00. Регистрируйтесь через бот.

Neural Networks | Нейронные сети

05 Oct, 10:35


⚡️napkin — полезная нейросеть, которая поможет создать стильные графики и таблицы из любого текста.

Сервис создает несколько шаблонов на выбор, их элементы можно редактировать. Поддерживает сохранение в PDF, PNG или SVG. Ну и главное, приложение бесплатное

https://app.napkin.ai/signin

Neural Networks | Нейронные сети

03 Oct, 16:01


⚙️ Поисковая система Яндекса получила серьезное обновление: в Нейро интегрирована новая мультимодальная VLM

VLM представляют собой сложные системы с многоуровневой архитектурой и многоэтапным процессом обучения. Яндекс, например, использовал для обучения своей модели метод instruct-based pretrain с несколькими миллионами семплов. Эти и другие подробности о технологии VLM рассматриваются ML-разработчиком Яндекса на Хабре.

Внутри сравнительный анализ пайплайнов старой и новой версий Нейро. Если раньше система опиралась на отдельные LLM-модели, то теперь в её основе лежит интегрированный подход с использованием VLM-рефразера и VLM-captioner.

Для оценки качества работы VLM Яндекс использует не только стандартные численные метрики, но и метод Side-by-Side (SbS) с привлечением асессоров, которые оценивают грамотность, полноту ответа и отсутствие ошибок.

▪️ Источник: https://habr.com/ru/companies/yandex/articles/847706/

@neural

Neural Networks | Нейронные сети

03 Oct, 08:07


🔥 Забавная нейросеть, которая "ломает" картинки

🌟 На сайте pika.art бесплатно (до десяти генераций в месяц) можно изменить элементы на картинках одним из нескольких способов — раздавить прессом, превратить в пластилин, расплавить и другие! Отличный способ, чтобы посмеяться над фото ваших друзей

🌟 На сайте простая регистрация через Google

🔗 Ссылка: *клик*

@neural

Neural Networks | Нейронные сети

30 Sep, 12:53


Бесплатный экспресс-курс по технологии ускорения ML-моделей Triton от Ozon Tech

Курс — это гайд в формате лонгрида, из которого ты узнаешь:
— что такое Triton и как в нём происходит типизация данных;
— как собрать простую модель под любые нужды;
— как оптимизировать модель и дотащить до прода.

Чтобы пройти курс, нужно:
1) отправить заявку на этой странице;
2) иметь 2 часа свободного времени.

Прокачайся в Data Science🚀

Neural Networks | Нейронные сети

29 Sep, 17:56


🖥 Aibase — огромная коллекция нейросетей для любых задач! 🔥

🌟 Здесь на множество категорий разобраны сотни, если не тысячи различных нейросеток — для создания текста, кода, фото, видео, аудио и другого контента!

🔗 Посмотреть можно здесь: *клик*

@neural

Neural Networks | Нейронные сети

22 Sep, 10:57


🌟 WordLlama: простой тулкит для NLP.

WordLlama — это быстрый и легкий набор инструментов для обработки естественного языка для задач нечеткой дедупликации, оценки сходства и ранжирования слов.

Он оптимизирован для CPU и способен создавать эффективные представления текстовых лексем, используя компоненты из больших языковых моделей, например LLama3.

Ключевые особенности WordLlama:

🟢Представления матрешки: пользователь могут обрезать измерения эмбеддинга по мере необходимости, 1024-dim может быть усечена до 64, 128, 256 или 512.

🟢Низкие требования к ресурсам: WordLlama эффективно работает на CPU, выполняя быстрый поиск токенов со средним пулом.

🟢Бинаризация: будущие обновления будут включать модели, которые можно упаковать в небольшие целочисленные массивы для более быстрых вычислений с использованием расстояния Хэмминга.

🟢Инференс только на основе NumPy: конструкция легкая и простая, что позволяет легко интегрировать ее в существующие рабочие процессы.

Эксперименты на наборе данных MTEB показывают, что WordLlama превосходит GloVe 300d по всем показателям, несмотря на значительно меньший размер (16 МБ против >2 ГБ).

WordLlama демонстрирует высокую производительность в задачах кластеризации, реранжирования, классификации текстов и семантического поиска.

В будущем разработчики планируют добавить функции для семантического разделения текста, а также примеры блокнотов и конвейеры RAG.


📌Лицензирование : MIT License.


🟡Demo
🖥Github


@ai_machinelearning_big_data

#AI #ML #Toolkit #NLP #WordLlama

Neural Networks | Нейронные сети

21 Sep, 13:37


Разработчики Kling AI представили новый инструмент Motion Brush, который позволяет анимировать отдельные объекты в видео. Пользователи могут загружать изображения и задавать пути движения, просто нарисовав траекторию ✍️. Это дает возможность точно управлять движением до шести элементов одновременно, что делает видео более динамичными и увлекательными 🎥.

Среди ключевых функций Kling AI 1.5 — поддержка 1080p HD для улучшенного качества изображений и возможность комбинирования статических и анимированных объектов. Это позволяет авторам фиксировать определенные области, предотвращая нежелательные движения в финальном видео 🌟.

Kling Motion Brush — это революция в создании видео, открывающая новые горизонты для контент-креаторов! 🚀

Пробуем здесь.

#KlingAI #MotionBrush #AI #VideoCreation #Animation #DigitalArt

@bigdatai

Neural Networks | Нейронные сети

17 Sep, 13:04


👉 Открытые решения в сфере ML/Data в России

Исследовательский центр ИТМО
провел анализ использования Open Source в области машинного обучения и работы с данными в России. Результаты показали, что отечественные компании активно развивают и применяют открытые технологии, ориентируясь как на внутренний, так и на международный рынок.

Исследование также отмечает, что идея о том, что участие в опенсорс-разработках помогает конкурентам, постепенно теряет свою актуальность. Всё больше компаний нацелены на развитие всей отрасли.

Лидером среди российских разработчиков открытого ПО стали Яндекс, Сбер и Т-банк. У Яндекса насчитали 120 открытых решений, среди которых выделяются: CatBoost — библиотека для градиентного бустинга, YTsaurus — платформа для работы с большими данными и YDB — распределённая SQL база данных. Вне основного рейтинга был отмечен проект ClickHouse.

▪️ Источник: https://opensource.itmo.ru

@neural

Neural Networks | Нейронные сети

14 Sep, 09:13


🔥 Gen-3 video-to-video только что вышел

Runway Gen-3 представили новую функцию video-to-video!

Теперь можно загружать видео до 10 секунд и редактировать его с помощью текстовых команд.

Меняйте стиль, погоду, освещение и движения, при этом сохраняя детали и геометрию сцены. Новая функция доступна только для подписчиков.

https://runwayml.com/product

@vistehno

Neural Networks | Нейронные сети

12 Sep, 13:03


🚀 Крутая бесплатная нейросеть которая превращает любое видео в обучающий курс

Утилита study.new загрузит видео, достанет из него всё самое важное и выдаст вам.

Всё, что нужно — вставить перед ссылкой study.new/