Машинное обучение RU @machinelearning_ru Channel on Telegram

Машинное обучение RU

@machinelearning_ru


Все о машинном обучении

админ - @haarrp

@data_analysis_ml - анализ даннных

@ai_machinelearning_big_data - Machine learning

@itchannels_telegram - 🔥лучшие ит-каналы

@pythonl - Python

@pythonlbooks- python 📚

@datascienceiot - ml 📚

Машинное обучение RU (Russian)

Машинное обучение RU - это канал, посвященный всем аспектам машинного обучения. Здесь вы найдете самую актуальную информацию и новости в области анализа данных, искусственного интеллекта и больших данных. Администратор канала - @haarrp, который следит за качеством контента и обновлениями. Помимо этого, на канале также есть ссылки на другие полезные каналы, такие как @data_analysis_ml для анализа данных, @ai_machinelearning_big_data для обсуждения машинного обучения и @pythonl для обучения языку программирования Python. Присоединяйтесь к нам, чтобы быть в курсе всех новостей и тенденций в области машинного обучения!

Машинное обучение RU

20 Nov, 12:20


🔥 LLM MapReduce: упрощенная обработка длинных последовательностей с использованием больших языковых моделей

💡 Расширение контекстного окна больших языковых моделей (LLM) стало важной областью исследований, особенно для приложений, включающих чрезвычайно длинные тексты. В этой статье авторы предлагают новую структуру без обучения для обработки длинных текстов, используя стратегию «разделяй и властвуй» для достижения всестороннего понимания документа. Предлагаемая технология разбивает весь документ на несколько фрагментов для чтения LLM, а затем объединяет промежуточные ответы для получения окончательного результата.

📖 Читать: *клик*

@machinelearning_ru

Машинное обучение RU

20 Nov, 10:17


Умножаем любовь к математике, чтобы разделить ее с вами

ИТ-специалисты, слышали, скоро День математика?

1 декабря пройдут главные онлайн-события мероприятия: доклады от профессоров математики из МФТИ, ВШЭ и ЦУ и математический диктант. Хорошая возможность пообщаться с единомышленниками и просто классно провести время.

А пока ждете праздника, банк подготовил активности на весь месяц. Будут лекции и многое другое. Выбирайте на сайте, что нравится больше. И регистрируйтесь, чтобы ничего не пропустить

Машинное обучение RU

19 Nov, 14:01


👩‍💻 Mesop — это фреймворк от Google, упрощающий создание AI веб-приложений на Python. Он ориентирован на ускоренную разработку AI-приложений и демонстрационных интерфейсов, не требуя навыков в JavaScript, CSS или HTML.

🌟 Mesop поддерживает горячую перезагрузку, обеспечивая быструю настройку интерфейсов. Код создается с помощью Python, в том числе с использованием готовых компонентов и API для упрощенного подключения модели.

🔐 Лицензия: Apache-2.0

🖥 Github

@machinelearning_ru

Машинное обучение RU

19 Nov, 11:43


Вы предугадываете погоду на рынке, изобретаете форматы коммуникаций и управляете бюджетами, не глядя?
Похоже, нам по пути!

Мы ищем PR-менеджеров:
- Руководителя PR-проектов направления автономного транспорта,
- Руководителя корпоративных PR проектов,
- PR-менеджера в Яндекс Браузер,
- International PR manager.

А еще нам нужен мастер digital-коммуникаций — человек, который понимает язык блогеров и разбирается в страшных буквах CTA и ERR.

Машинное обучение RU

18 Nov, 11:14


🔍 carefree-learn — упрощенный интерфейс для работы с глубоким обучением на PyTorch.

💡 Его цель — сделать разработку нейронных сетей более доступной, избегая усложнений, таких как наследование, и поддерживая модульный подход для более удобной компиляции и расширяемости. Система ориентирована на задачи как обучения, так и инференса, поддерживает обработку табличных данных и AutoML и включает набор моделей и алгоритмов для гибкого применения в различных проектах глубокого обучения.

🔐 Лицензия: MIT

🖥 Github

@machinelearning_ru

Машинное обучение RU

18 Nov, 10:07


🎓Погружаемся в мир обучения с подкреплением (RL) и изучаем его применение в разработке рекомендательных систем!

3 декабря в 20.00 мск приходите на открытый вебинар "Автоматизация инжениринга признаков", на котором мы разберем:

- сильные и слабые стороны алгоритмов классического RL и Deep RL.;
- постановку задачи о многоруком бандите для классического и Deep RL.
- подходы к применению задачи о многоруком бандите для разработки рекомендательных систем

👉Регистрация. Участие бесплатно https://otus.pw/AHZ2/?erid=LjN8KQBpG

Встречаемся в преддверии старта курса «Reinforcement Learning» в OTUS. Обучение на курсе позволит применять алгоритмы RL для решения разнообразных задач в реальном мире, включая игровую индустрию, робототехнику, управление энергетическими системами и управление финансовым портфелем

#реклама
О рекламодателе

Машинное обучение RU

17 Nov, 15:02


📝 Эта статья — исследование, посвященное персонализации больших языковых моделей (LLM). Она рассматривает подходы к индивидуализации LLM для различных приложений, таких как системы рекомендаций и персонализированная генерация текста.

🌟 Авторы предлагают таксономию техник персонализации, анализируют текущие вызовы, проблемы и различные методы, оценивая подходы и задачи, которые необходимо решить для эффективной адаптации LLM под нужды пользователей.

📖 Читать: *клик*

@machinelearning_ru

Машинное обучение RU

17 Nov, 10:06


🌟 OpenCoder - модели для кодинга, cookbook обучения и датасеты.

OpenCoder - это открытое и воспроизводимое семейство LLM для программирования, включающее 1,5B и 8B базовые и instruct версии, поддерживающее английский и китайский языки.

Семейство моделей OpenCoder обучалось с нуля на 2,5 трлн. лексем, состоящих на 90 % из сырого кода и на 10 % из веб-данных, связанных с кодом, и прошло отладку на более чем 4,5 млн. высококачественных примеров SFT, в итоге достигнув производительности топовых LLM с похожей специализацией.

В открытый доступ опубликованы не только веса моделей и код для инференса, но и датасеты, полный цикл обработки данных, результаты экспериментальной абляции и подробные протоколы обучения.

OpenCoder тщательно протестирован с помощью исследований абляции на различных стратегиях очистки данных и процессах обучения, включая эксперименты по дедупликации на уровне файлов и репозиториев, что обеспечило семейству тщательную проверку производительности моделей.

OpenCoder достигает высокой производительности в различных бенчмарках, что ставит их в ряд SOTA-моделей с открытым исходным кодом для задач программирования.

▶️ Семейство моделей OpenCoder :

🟢OpenCoder-1.5B-Base, 4 тыс. токенов контекста;

🟢OpenCoder-8B-Base, 8 тыс. токенов контекста;

🟠OpenCoder-1.5B-Instruct, 4 тыс. токенов контекста;

🟠OpenCoder-8B-Instruct, 8 тыс. токенов контекста;

▶️ Датасеты:

🟢OpenCoder-SFT-Stage1, 4.21 млн. строк;

🟠OpenCoder-SFT-Stage2, 375 тыс.строк.


▶️ Пример инференса на HF Transformers:

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

model_name = "infly/OpenCoder-8B-Instruct"
model = AutoModelForCausalLM.from_pretrained(model_name,
torch_dtype=torch.bfloat16,
device_map="auto",
trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)

messages=[
{ 'role': 'user', 'content': "write a quick sort algorithm in python."}
]

inputs = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt")

outputs = model.generate(inputs, max_new_tokens=512, do_sample=False)

result = tokenizer.decode(outputs[0][len(inputs[0]):], skip_special_tokens=True)



🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🟡Набор датасетов
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #OpenCoder #Datasets

Машинное обучение RU

16 Nov, 15:30


📖 Эта статья описывает подход к расширению поисковых запросов с использованием больших языковых моделей (LLM) и знаний из графов знаний (KG)! Авторы предлагают метод для улучшения поиска информации по полуструктурированным данным, который учитывает не только текстовую релевантность, но и структурные связи документов, представленных в графе знаний.

💡 Идея состоит в том, чтобы расширить начальный запрос пользователя за счет семантических и структурных связей в документах, которые могут быть релевантными для ответа на более сложные запросы, содержащие как текстовые, так и реляционные элементы. Система оценивает релевантность связей между элементами в графе знаний на основе информации в текстах документов, а не только по именам сущностей, что повышает точность поиска.

🌟 Этот метод улучшает поиск по запросам, которые требуют не только совпадений по тексту, но и учета взаимосвязей, например, в академическом поиске, когда учитываются такие параметры, как авторство и цитирование статей.

🔗 Читать: *клик*

@machinelearning_ru

Машинное обучение RU

16 Nov, 13:30


⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

МАШИННОЕ ОБУЧЕНИЕ: t.me/ai_machinelearning_big_data
C++ t.me/cpluspluc
Python: t.me/pythonl
Linux: t.me/linuxacademiya
Хакинг: t.me/linuxkalii
Devops: t.me/DevOPSitsec
АНАЛИЗ Данных: t.me/data_analysis_ml
Javascript: t.me/javascriptv
C#: t.me/csharp_ci
Java: t.me/javatg
Базы данных: t.me/sqlhub
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Docker: t.me/DevopsDocker
Golang: t.me/Golang_google
React: t.me/react_tg
Rust: t.me/rust_code
ИИ: t.me/vistehno
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
Собеседования МЛ: t.me/machinelearning_interview
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc
Разработка игр: https://t.me/gamedev

💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.me/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.me/addlist/mzMMG3RPZhY2M2Iy

😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://t.me/addlist/BkskQciUW_FhNjEy

Машинное обучение RU

15 Nov, 10:39


🌟 Athene-V2: диалоговая и агентная модели от Nexusflow с 72 млрд. параметров.

Nexusflow представила семейство Athene-V2 из двух специализированных моделей: Athene-V2-Chat-72B, оптимизированную для чат-диалогов, и Athene-V2-Agent-72B, предназначенную для работы в качестве агента.

Обе модели построены на базе Qwen 2.5-72B-Instruct. Ключевая особенность Athene-V2 - концепция "границы Парето" в постобработке LLM.

По мере обучения модели с помощью RLHF на качественных данных достигается оптимальный баланс между метриками производительности, формируя "границу Парето". Дальнейшее улучшение отдельных характеристик становится возможным только за счет снижения других показателей.

Athene-V2-Chat-72B демонстрирует конкурентоспособные результаты по сравнению с GPT-4o в бенчмарках, превосходя его в задачах чата (Arena-Hard), завершения кода (bigcode-bench-hard) и математических задачах (MATH).

Athene-V2-Agent-72B превосходит GPT-4o в бенчмарках Nexus-V2, ориентированных на сложные сценарии вызова функций в корпоративной среде.

Athene-V2-Chat-72B использует шаблон чата Qwen2.5-72B-Instruct. Пример инференса с помощью библиотеки Transformers.

Athene-V2-Agent-72B можно использовать в любой совместимой с OpenAI API среде с помощью docker-образа VLLM. Примеры запуска погодного и RAG-агента.

⚠️ Athene-V2-Agent использует уникальный стиль промптов, который включен в docker-образ, поскольку исполняемые вызовы извлекаются из сгенерированного планирования модели.
Использование шаблона чата HuggingFace приведет к неоптимальным результатам в случае использования Athene-V2-Agent .

▶️На HF доступны неофициальные квантованные версии в формате GGUF c диапазоном разрядности от 3 до 8 bit:

🟠Athene-V2-Chat-72B

🟠Athene-V2-Agent-72B


📌Лицензирование: Nexusflow Research License


🟡Страница проекта
🟡Набор моделей
🟡Сообщество в Discord


@ai_machinelearning_big_data

#AI #ML #LLM #AtheneV2 #Nexusflow

Машинное обучение RU

14 Nov, 14:57


🖥 Voice Pro — это проект, созданный для управления голосовым взаимодействием с поддержкой ИИ, оптимизированный для среды Python!

💡 Репозиторий включает инструменты для запуска приложений голосового взаимодействия и поддерживает функционал, такой как проверка среды и установка необходимых компонентов. Проект также предоставляет возможность обновления интерфейсов через командную строку и настройки некоторых элементов среды выполнения для запуска сторонних библиотек, включая llama-cpp для взаимодействия с CUDA (если доступно) в ML-проектах.

🔐 Лицензия: MIT

🖥 GitHub

@machinelearning_ru

Машинное обучение RU

14 Nov, 08:33


✔️ FrontierMath: набор тестов по математике, который ставит в тупик модели ИИ и кандидатов наук.

Epoch AI представила FrontierMath, математический тест, который содержит сотни задач экспертного уровня. Claude 3.5 Sonnet, GPT-4o, o1-preview и Gemini 1.5 Pro показали крайне низкие результаты - менее 2%, а для решения задач теста математикам-специалистам обычно требуются часы или дни.

Набор задач в FrontierMath остается закрытым и неопубликованным, чтобы предотвратить загрязнение данных. Задачи охватывают несколько математических дисциплин, от вычислительной теории чисел до абстрактной алгебраической геометрии.
Epoch AI планирует проводить регулярную оценку моделей ИИ с помощью теста, одновременно расширяя набор задач.
epoch.ai

✔️ Лаборатория искусственного интеллекта на защите людей искусства от генеративного ИИ.

Ученые из SAND Lab Чикагского университета разработали два инструмента, Glaze и Nightshade, которые защищают цифровое искусство от несанкционированного использования в обучении моделей.

Glaze изменяет изображения таким образом, чтобы алгоритмы ИИ не могли распознать стиль художника, а Nightshade добавляет в изображения «яд», нарушающий работу моделей ИИ. Оба инструмента были загружены миллионы раз и используются художниками для защиты своих работ от копирования и использования без их согласия.

Nightshade может нанести серьезный ущерб моделям ИИ, заставив их интерпретировать изображения неправильно, например, принимать собак за кошек. Разработчики инструментов надеются, что они заставят компании, занимающиеся ИИ, вести переговоры с художниками о лицензировании и справедливой компенсации.
technologyreview.com

✔️ OpenAI представит план развития инфраструктуры ИИ в США для конкуренции с Китаем.

OpenAI разработала план развития инфраструктуры ИИ в США, который включает создание специальных экономических зон для ИИ, использование опыта ВМС США в области ядерной энергетики и финансирование государственных проектов частными инвесторами. План также предусматривает создание североамериканского альянса по ИИ для конкуренции с китайскими инициативами.

Компания считает, что инвестиции в ИИ в США приведут к созданию десятков тысяч рабочих мест, росту ВВП, модернизации энергосистемы, появлению новых заводов по производству чипов и привлечению миллиардов долларов инвестиций из глобальных фондов.

В плане также прогнозируется принятие закона о национальной транспортной магистрали, который позволит расширить строительство линий электропередач, волоконно-оптических сетей и газопроводов.
cnbc.com

✔️ YouTube тестирует функцию ремиксов песен с помощью ИИ.

YouTube тестирует новую функцию в наборе инструментов Dream Track, которая позволяет авторам ремиксовать треки с помощью опции «Restyle a track» и описать текстом, как они хотят изменить стиль песни. Restyle a track сгенерирует 30-секундный фрагмент, который авторы смогут использовать в Shorts.

Ремикшированные фрагменты будут содержать информацию об оригинальной песне на странице Shorts audio pivot. Ремиксы также будут иметь соответствующую метку, указывающую на то, что трек был изменен с помощью ИИ.
techcrunch.com

✔️ Сверхчеловеческое зрение для роботов благодаря ИИ и радиоволнам.

Исследователи из Университета Пенсильвании разработали систему PanoRadar, которая использует радиоволны и ИИ, чтобы обеспечить роботов трехмерным зрением, подобным LiDAR, но по более низкой цене.

PanoRadar работает как маяк, вращаясь и излучая радиоволны, отражения которых обрабатываются ИИ для создания точного 3D-изображения окружающей среды. Эта технология позволяет роботам видеть сквозь препятствия, дым и туман. PanoRadar использует алгоритмы машинного обучения для интерпретации сложных сигналов радиоволн и достижения высокого разрешения, сравнимого с LiDAR.
interestingengineering.com

@ai_machinelearning_big_data

#news #ai #ml

Машинное обучение RU

11 Nov, 17:11


📝 Эта статья исследует использование "цепочек рассуждений" (Chain-of-Thought, CoT) для улучшения логических способностей языковых моделей. CoT помогает моделям разбивать сложные задачи на простые шаги, что позволяет лучше выявлять ошибки на каждом этапе рассуждения и корректировать их, вместо того чтобы переходить сразу к финальному ответу

🌟 Авторы предлагают обучать модели с демонстрацией как корректных, так и ошибочных решений, что способствует более глубокому пониманию логики рассуждений и улучшает устойчивость модели к ошибкам

📖 Читать: *клик*

@machinelearning_ru

Машинное обучение RU

11 Nov, 15:01


Нашел для вас ламповый митап в двух частях от команды AI VK: пройдут 14 и 21 ноября. В эти дни будут обсуждаться свежие статьи с RecSys 2024, 18-й Международной конференции ACM Recommender Systems.

Много интересных докладов и спикеров, активное общение и отличная возможность для нетворкинга!

Темы митапа охватывают самые актуальные направления ML: от семантических эмбеддингов до больших рекомендательных нейронных сетей и классических моделей. Разбор статей проведут специалисты из VK и других ведущих компаний.

Кстати, свои работы также представят участники русскоязычного RecSys-сообщества, чьи статьи были отобраны для этой конференции.

Реальная рекомендация, чтобы расширить свой кругозор и завести новые полезные знакомства! Регистрация уже открыта — присоединяйтесь!
Ссылки для регистрации и программа: 14 ноября здесь и 21 ноября здесь.

@machinelearning_ru

Машинное обучение RU

11 Nov, 10:33


📝 Эта статья представляет метод для различения типов "галлюцинаций" (неверных ответов) в больших языковых моделях (LLM): либо это незнание ответа, либо ошибка при наличии знания.

🌟 Авторы предлагают подход для выявления случаев, когда модель ошибается, несмотря на наличие информации, и вводят способ для создания специализированных наборов данных, что улучшает выявление галлюцинаций. Это помогает лучше понять и смягчить ошибки LLM, минимизируя риски ложных данных.

📖 Читать: *клик*

@machinelearning_ru

Машинное обучение RU

11 Nov, 09:33


🤖Вы слышали о ChatGPT, но не знаете, как он работает? А как языковые модели меняют мир, в котором мы живём?

Если вы хотите разобраться в этом и узнать, как применять эти технологии в своих проектах, не пропустите наш бесплатный открытый урок 20 ноября в 18:00 мск!

⚡️На вебинаре:

-погрузимся в историю развития языковых моделей от базовых концепций до современных LLM (Large Language Models), таких как ChatGPT.

-Вы узнаете, какие методы и технологии стоят за этими интеллектуальными системами и как их можно использовать для решения задач Natural Language Processing (NLP).

Спикер Мария Тихонова – PhD Computer Science, Senior Data Scientist в SberDevices и преподаватель ВШЭ.

👉Регистрация: https://vk.cc/cE9yax?erid=LjN8KBN1p 

Встречаемся в преддверии старта курса «Natural Language Processing (NLP)». Все участники вебинара получат специальную цену на обучение!

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

Машинное обучение RU

09 Nov, 13:00


📝 Amphion — это фреймворк для многозадачного восприятия и генерации текстов на основе языка. Его основная цель — поддерживать как модульные задачи (например, классификация или генерация) для отдельных модальностей, так и мультизадачные сценарии

🌟 Фреймворк объединяет несколько библиотек OpenMMLab, таких как MMDetection и MMDetection3D, и оптимизирован для работы с мультизадачными моделями, такими как MMWizard

🔐 Лицензия: MIT

🖥 Github

@machinelearning_ru

Машинное обучение RU

08 Nov, 08:57


✉️ inbox-zero — приложение для управления электронной почтой, предназначенное для быстрого прочтения и фильтрации писем с помощью AI!

🌟 Функционал включает автоматическое удаление рассылок, блокировку холодных писем, отслеживание статистики активности, обнаружение новых спам-отправителей и крупных писем. Реализовано на базе Next.js, Tailwind CSS и Prisma, с поддержкой Google OAuth, AI от OpenAI и аналитики через Tinybird.

🔐 Лицензия: AGPL-3.0

🖥 Github
🔗 Демо-видео: *клик*

@machinelearning_ru

Машинное обучение RU

07 Nov, 15:59


🌟 Cosmos Tokenizer: эффективная токенизация изображений и видео от NVIDIA.

Cosmos Tokenizer - набор токенизаторов для изображений и видео с высокой степенью сжатия при сохранении качества реконструкции, представленный на конференции Conference for Robot Learning 2024, которая проходит до 9 ноября в Мюнхене.

Cosmos Tokenizer предлагает непрерывную (C) и дискретную (D) токенизацию для изображений (I) и видео (V), что формирует 4 типа токенизаторов: CI, DI, CV и DV.

Cosmos Tokenizer имеет внушительные показатели сжатия: 8x или 16x для пространственного сжатия изображений и 4x или 8x для временного сжатия видео, при этом работает до 12 раз быстрее, чем другие современные токенизаторы, сохраняя при этом высокое качество изображения.

Такая эффективность обусловлена легкой временно-причинной архитектурой, использующей причинную временную свертку и слои внимания. Этот дизайн архитектуры гарантирует, что обработка каждого кадра зависит только от текущих и прошлых кадров, сохраняя временную согласованность видео.

Для оценки Cosmos Tokenizer использовались стандартные наборы данных и новый набор данных TokenBench, созданный NVIDIA. Cosmos Tokenizer сравнивался с современными токенизаторами с использованием метрик PSNR, SSIM, rFID и rFVD.

Результаты тестирования показали превосходство Cosmos Tokenizer над существующими методами как по качеству реконструкции, так и по скорости работы.

▶️ В репозитории на Github опубликован код для установки, сборки docker Cosmos Tokenizer, примеры запуска для в непрерывном латенте, кодирования в дискретные токены, запуск токенизаторов на примерах изображений и видео из тестового набора и запуск с Pytorch.


📌Лицензирование: NVIDIA Open Model License


🟡Страница проекта
🟡Набор на HF
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #NVIDIA #Tokenizer #Cosmos

Машинное обучение RU

07 Nov, 13:01


🔥 Экспресс курс NotebookLM!

💡 В сегодняшнюю стремительно развивающуюся цифровую эпоху способность быстро и эффективно получать доступ к информации и анализировать ее становится важнее, чем когда-либо. Появляется Notebook LM, мощный помощник по исследованиям на базе Gemini 1.5 Pro от Google. Если вы глубоко погружены в исследования ИИ или просто хотите оптимизировать свой рабочий процесс, Notebook LM является крайне полезным инструментом!

🕞 Продолжительность: 1:13:02

🔗 Ссылка: *клик*

@machinelearning_ru

Машинное обучение RU

05 Nov, 16:00


🔥 Docling — это инструмент для конвертации и анализа документов, разработанный для подготовки документов к использованию в генеративных ИИ-приложениях.

💡 Docling поддерживает различные форматы (PDF, DOCX, PPTX, HTML и другие), может извлекать метаданные, читать структуры страниц и таблиц, а также интегрироваться с LlamaIndex и LangChain. В репозитории также реализована поддержка OCR для обработки отсканированных документов, что делает его мощным инструментом для работы с документами в различных ИИ-сценариях.

🖥 Github
🔗 Сайт проекта

@vistehno

Машинное обучение RU

05 Nov, 15:01


🔥 MoGe от Microsoft — модель для точного восстановления 3D-геометрии из одиночных изображений!

💡 MoGe использует ViT-энкодер и сверточный декодер для получения геометрических карт, масок и карт глубины, которые подходят для изображений различных форматов. Инструмент полезен для 3D-визуализации и моделирования. Он поддерживает как локальное, так и веб-использование, предоставляя как предобученные модели, так и исходный код для дальнейших экспериментов и доработок.

🔐 Лицензия: MIT

🖥 Github

@machinelearning_ru

Машинное обучение RU

04 Nov, 13:00


🖥 Whispo — это инструмент для диктовки с поддержкой ИИ, который преобразует речь в текст с помощью Whisper от OpenAI или Groq

🌟 Пользователь должен удерживать клавишу Ctrl для записи, а затем расшифровка автоматически вставляется в другое используемое им приложение, поддерживающее текстовый ввод. Проект использует фреймворки Electron и Vite для создания кроссплатформенного приложения, а также Tailwind CSS для оформления интерфейса

🔐 Лицензия: AGPL-3.0

🖥 Github

@machinelearning_ru

Машинное обучение RU

03 Nov, 09:48


🌟 D-FINE: метод регрессии bounding box в детекторах объектов на основе DETR.

D-FINE - детектор объектов в режиме реального времени, который предлагает улучшение регрессии bounding box в моделях DETR . D-FINE обладает высокой точностью локализации, определяя регрессию рамок как процесс итеративного уточнения распределений вероятностей.

D-FINE состоит из двух компонентов:

🟠Мелкозернистое уточнение распределения (Fine-grained Distribution Refinement, FDR).

FDR преобразует процесс регрессии из предсказания фиксированных координат в итеративное уточнение распределений вероятностей. Эта техника дает более детальное промежуточное представление, что повышает точность локализации.

🟠Глобальная оптимальная локализованная самодистилляция (Global Optimal Localization Self-Distillation, GO-LSD).

GO-LSD - двунаправленная стратегия оптимизации, которая передает знания о локализации из уточненных распределений в более ранние слои модели через самодистилляцию.

Старшие версии D-FINE-L и D-FINE-X достигают 54,0% и 55,8% AP на наборе данных COCO соответственно, работая со скоростью 124 и 78 FPS на GPU NVIDIA T4.

При предварительном обучении на Objects365 D-FINE-L и D-FINE-X показывают 57,1% и 59,3% AP, что выше всех существующих детекторов реального времени.

Разработчики D-FINE предлагают несколько предобученных моделей на датасетах Objects365 и COCO под разные задачи и мощности. Все модели поддерживают инференс на изображениях и видео с использованием ONNX Runtime, TensorRT и PyTorch:

🟢D-FINE-S: Самая компактная и быстрая модель (3.49 мс на T4 GPU);

🟢D-FINE-M: Модель среднего размера, баланс между точностью и скоростью (5.62 мс на T4 GPU);

🟢D-FINE-L: Модель высокой точности (8.07 мс на T4 GPU);

🟢D-FINE-X: Самая крупная и точная модель (12.89 мс на T4 GPU).

D-FINE предоставляет инструменты для обучения, бенчмаркинга, визуализации с помощью FiftyOne и инструкции по организации наборов данных.

▶️Локальный инференс на примере ONNX:

# Create env via conda
conda create -n dfine python=3.11.9
conda activate dfine

# Install requirements for inference
pip install -r tools/inference/requirements.txt

# Install ONNX
pip install onnx onnxsim

# Choose a model
export model=l # s, m, x

# Inference
python tools/inference/onnx_inf.py --onnx model.onnx --input image.jpg # video.mp4


📌Лицензирование: Apache 2.0 License.


🟡Arxiv
🖥Github


@ai_machinelearning_big_data

#AI #ML #DETR #DFine #Detection

Машинное обучение RU

01 Nov, 11:30


NVIDIA’s New Ray Tracing Tech Should Be Impossible!

📌 Видео

@machinelearning_ru

Машинное обучение RU

31 Oct, 19:15


📖 Эта статья излагает методы улучшения Retrieval Augmented Generation (RAG) в промышленных приложениях с использованием мультимодальных данных

🌟 Исследования показывают, что добавление изображений вместе с текстом может улучшить точность RAG в специфичных для индустрии задачах. Статья также рассматривает два подхода обработки изображений и их интеграцию с крупными языковыми моделями, такими как GPT-4 Vision и LLaVA, выявляя сложности и преимущества мультимодального подхода в сравнении с текстовым

📖 Читать: *клик*

@machinelearning_ru

Машинное обучение RU

31 Oct, 17:00


Медицина, промышленность, образование — это только некоторые из областей, где могут быть полезны исследования в области машинного обучения. Яндекс в шестой раз отметил авторов самых перспективных исследований премией Yandex ML Prize. Рассказываем о самых интересных открытиях.

Иван Бутаков (МФТИ, Сколтех) разработал новый метод, который позволил лучше понять процессы обучения нейросетей. Что это даёт? Теперь можно “регулировать” память искусственного интеллекта и настраивать его “запоминание” или “забывание” информации.

Артем Лыков (Сколтех) и его команда первые в мире представили универсальную когнитивную систему, адаптируемую для различных типов роботов. В числе его разработок — робособака, способная понимать голосовые команды, взаимодействовать с окружающими предметами и воспринимать визуальную информацию. Всё это может стать основной для создания «роя умных роботов».

Елена Тутубалина (КФУ, AIRI) ведет работы в области анализа естественного языка, биомедицинских и химических данных. Ее исследования могут ускорить создание лекарств — от идеи до клинических испытаний.

Помимо самой премии, лауреаты также получат доступ к Яндекс 360 и грант на на использование Yandex Cloud. Эти ресурсы помогут им проводить объёмные вычисления и анализировать данные.

@machinelearning_ru

Машинное обучение RU

31 Oct, 07:40


✔️ GitHub представил Spark: создание веб-приложений с помощью естественного языка.

Spark, продукт лаборатории GitHub Next, позволяет создавать прототипы приложений с помощью чат-подобного интерфейса. В основе Spark лежат репозиторий GitHub, GitHub Actions и база данных Microsoft Azure CosmosDB.

Spark может использовать любые веб-API, а пользователи могут выбирать между моделями Anthropic’s Claude Sonnet и OpenAI’s GPT. Также заявлена функция шэринга Spark-проектов с настраиваемыми правами доступа.

Открыта запись в waitlist. Подать заявку можно по ссылке.
githubnext.com

@machinelearning_ru

Машинное обучение RU

30 Oct, 10:00


🔥 agent.exe — бесплатное приложение с открытым исходным кодом для Mac/Windows/Linux, позволяющее использовать Claude 3.5 Sonnet для управления компьютером!

🔐 Лицензия: MIT

🖥 Github

@machinelearning_ru

Машинное обучение RU

29 Oct, 18:38


👩‍💻 DocETL — это инструмент на Python для создания и выполнения конвейеров обработки данных, особенно подходящий для сложных задач обработки документов. Он применяет подходы с минимальным кодом и YAML для упрощенного управления потоками данных, обеспечивая модульность и возможность повторных попыток обработки данных при сбоях

🔐 Лицензия: MIT

🖥 Github

@machinelearning_ru

Машинное обучение RU

29 Oct, 14:50


Вышла новость про увеличение призового фонда чемпионата Yandex Cup с 12,5 до 16 млн рублей. Все 3,5 млн разделятся между финалистами в направлении машинного обучения — их число выросло с 6 до 22 человек. Такой апгрейд — это часть поддержки компании для развития технологий машинного обучения и предоставления новых возможностей для роста специалистов.

https://t.me/machinelearning_ru

Машинное обучение RU

28 Oct, 20:55


✔️ Google разрабатывает ИИ-инструмент, способный управлять браузером для выполнения задач.

Google работает над технологией ИИ под рабочим названием Project Jarvis, которая позволит ИИ автономно управлять веб-браузером для выполнения задач поиска информации и совершения покупок.

Google планирует представить Project Jarvis в декабре, одновременно с выпуском новой большой языковой модели Gemini. Разработка Google направлена на то, чтобы ИИ мог напрямую взаимодействовать с компьютером или браузером пользователя.

Примечательно, что конкурент Google по технологиям поиска, Microsoft, тоже работает над аналогичной технологией.

📌 finance.yahoo.com

@machinelearning_ru

Машинное обучение RU

28 Oct, 10:00


🔥 Создание ИИ для распознавания изображений: от концепции до кода!

🌟 Научитесь строить визуальную языковую модель с нуля. В этом руководстве рассматриваются кодирование, механизмы внимания и многое другое, что поможет вам создать ИИ, который может описывать изображения!

🕞 Продолжительность: 5:46:05

🔗 Ссылка: *клик*

@machinelearning_ru

Машинное обучение RU

27 Oct, 18:35


⚡️ The OG: Отец нейронных сетей Уоррен Маккаллох рассказывает о разуме, мозге, мыслящих и чувствующих машинах

Невролог, который много лет назад помогал создавать это направление и видел будущее компьютеров и искусственного интеллекта.

В первой части этого фильма, снятого в 1962 году, демонстрируются возможности компьютерного "искусственного интеллекта", намного превосходящие возможности любого человеческого мозга. Во второй части показаны эксперименты по электронному воспроизведению некоторых сенсорных восприятий.

@machinelearning_ru

Машинное обучение RU

27 Oct, 17:30


🔥 Эта статья исследует свойства нейросетевых трансформеров при многократном использовании обучающих примеров, особенно на задачах математики, таких как вычисление НОД, умножение по модулю и нахождение собственных значений матриц

🌟 В работе показано, что модели, обученные на ограниченном наборе повторяющихся примеров, часто превосходят те, что используют более разнообразные данные. Статья подчеркивает важность повторов для улучшения производительности, несмотря на меньшую вариативность данных, что помогает лучше понять баланс между запоминанием и обобщением в глубоких нейросетях

📖 Читать: *клик*

@machinelearning_ru

Машинное обучение RU

27 Oct, 15:27


🎃 Приглашаем на вебинар перед Хэллоуином: «Нужна ли математика на собеседованиях🧙‍♀️

Темные тучи сгущаются, и в воздухе витает мистическая атмосфера... Готовы ли вы окунуться в мир загадочной математики и раскрыть тайны успешного собеседования? Тогда ждем вас 28 октября в 20:00! 🕸
https://proglib.io/w/6a50d166

Что вас ждет в эту зловещую ночь:

💀 Ошибаться не страшно: узнаем, как неудачные проекты и опыт «в стол» превращают джуниоров в сеньоров. Расскажем истории о том, как ошибки закаляют и помогают достигать вершин мастерства.

🧛 Собеседования без подготовки? Обсудим, возможно ли пройти через испытания рекрутеров без специальной подготовки или это путь в лабиринт с привидениями.

🧙 Теория и практика — зелье успеха:

• Выбор метрики оценки модели: какую метрику показать бизнесу, чтобы не столкнуться с гневом нечисти? Разберемся в разнице между MAPE и WAPE и когда какую применять.

• Трансформация распределений: как превратить логнормальное распределение в нормальное без волшебной палочки? Поговорим о том, зачем это нужно и как обойтись изменением функции потерь вместо магических превращений.

🦇 Бонус для смельчаков: раскроем секреты тестирования в маркетинге, которые помогут не заблудиться в темном лесу конкурентного рынка.

Не упустите шанс провести вечер в компании единомышленников, погрузиться в атмосферу Хэллоуина и получить ценные знания!

🕯 Записывайтесь на вебинар и готовьтесь к мистическим открытиям! https://proglib.io/w/6a50d166

Машинное обучение RU

27 Oct, 15:02


🔥 Awesome-LLM-Strawberry — коллекция материалов, посвящённых большим языковым моделям (LLM) и методам рассуждения. В него входят статьи, блоги и проекты, связанные с работами OpenAI, такими как "Chain-of-Thought Prompting" и другими техниками, направленными на улучшение reasoning (логических рассуждений) у LLM

🌟 Репозиторий предназначен для исследователей и разработчиков, заинтересованных в прогрессе языковых моделей и их применении для сложных задач, таких как решение математических проблем и автоматическое доказательство теорем

🔐 Лицензия: Apache-2.0

▪️Github

@machinelearning_ru

Машинное обучение RU

26 Oct, 08:50


✔️ Релиз библиотеки Transformers.js v3.

Hugging Face выпустила Transformers.js v3, с улучшенной поддержкой WebGPU, новых форматов квантования и 120 поддерживаемых архитектур.

WebGPU обеспечивает вычисления на GPU непосредственно в браузере, что делает Transformers.js v3 до 100 раз быстрее по сравнению с WASM.

Новые форматы квантования позволяют выбирать уровень точности модели: fp32, fp16, q8 и q4. Среди поддерживаемых архитектур - Phi-3, Gemma, LLaVa, Florence-2 и MusicGen.

Transformers.js v3 совместима с Node.js, Deno и Bun, а также доступна на NPM - @huggingface/transformers.
huggingface.co

✔️ Британский регулятор начал расследование партнерства Alphabet и Anthropic.

Британское управление по конкуренции и рынкам (CMA) начало расследование партнерства Alphabet, материнской компании Google, с Anthropic.

Alphabet инвестировала 500 миллионов долларов в Anthropic в 2023 году с обещанием дополнительных 1,5 миллиарда долларов в будущем.

CMA изучает, не приведет ли партнерство к ограничению конкуренции на рынке. Регулятор должен принять решение о дальнейших действиях к 19 декабря 2024 года. Alphabet и Anthropic пока не прокомментировали ситуацию.
cityam.com

✔️ Fujitsu представила динамический распределитель ресурсов для ИИ-серверов и HPC-систем.

Fujitsu разработала программное обеспечение, для оптимизации использования GPU -"Сomputing broker".

Computing broker способен перераспределять процессы даже во время их работы, отдавая приоритет задачам с более высокой эффективностью выполнения. В ходе предварительного тестирования Fujitsu удалось достичь увеличения производительности обработки GPU до 2,25 раз.

Технология также эффективно управляет памятью, обрабатывая рабочие нагрузки ИИ объемом до 150 ГБ, что примерно в пять раз превышает физическую емкость протестированных GPU. Fujitsu планирует расширить возможности технологии для поддержки нескольких GPU, установленных на нескольких серверах.
techspot.com

✔️ CEO OpenAI опроверг сообщение о GPT-5 Orion.

В статье The Verge утверждалось, что Orion будет ориентирован на корпоративных клиентов и будет доступен через API. В публикации также говорилось о планах Microsoft разместить Orion в Azure уже в ноябре.

Сэм Альтман назвал эту информацию "фейковыми новостями", не уточнив, какие именно детали публикации не соответствуют действительности. OpenAI недавно выпустила модели o1 и o1-mini, но их восприятие было сдержанным из-за высокой стоимости эксплуатации и ограниченных возможностей по сравнению с GPT.
venturebeat.com

✔️ В Китае построили дорогу длиной 157 километров без участия людей.

10 беспилотных машин распределяли смесь из утрамбованных камней и песка, а затем нанесли битумное связующее для формирования дорожного полотна. Автономные катки выравнивали поверхность и обеспечивали необходимую твердость. Дроны контролировали ход строительства и проводили топографические измерения, гарантируя соблюдение заданных параметров. Несколько сотрудников удаленно контролировали работу техники.

Новая технология позволила выполнить укладку дороги за один проход, исключив необходимость в дополнительных работах. Разработчики алгоритмов проекта отмечают, что роботизированная укладка дороги обеспечивает миллиметровую точность и более высокую скорость по сравнению с традиционными методами.

Проект является продолжением скоростной автомагистрали Пекин-Гонконг, общая протяженность которой составляет 664 километра. Построенный участок соединяет Пекин с Хэбэем.
xatakaon.com

@ai_machinelearning_big_data

#news #ai #ml

Машинное обучение RU

25 Oct, 15:44


🚀🚀 Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss

Inf-CLIP: Модель с высокой эффективностью использования памяти

🔑🔑 Ключевые особенности:
- Многоуровневое разбиение для оптимизации использования памяти (и практически без снижения эффективности обучения)
- - сокращение затрат использования памяти в 78 раз (размер пакета =256 КБ) и 281 раз (batch size =1 М) по сравнению с OpenCLIP без ущерба для точности
- Поддержка батчей размером до 4 М на 8 * A800s и 12 М на 32 * A800s

▪️Статья: https://huggingface.co/papers/2410.17243
▪️Github: https://github.com/DAMO-NLP-SG/Inf-CLIP
▪️Pypi: https://pypi.org/project/inf-cl/

@machinelearning_ru

Машинное обучение RU

25 Oct, 12:00


🔥 Вышел релиз 3.0.0 библиотеки transformers.js от HuggingFace!

🔍 Основные нововведения:

🌟 Поддержка WebGPU (до 100 раз быстрее, чем WASM!). WebGPU — это новый веб-стандарт для ускоренной графики и вычислений. API позволяет веб-разработчикам использовать GPU базовой системы для выполнения высокопроизводительных вычислений непосредственно в браузере. WebGPU является преемником WebGL и обеспечивает значительно лучшую производительность

🌟 Этот релиз увеличивает общее количество поддерживаемых архитектур до 120, охватывая широкий спектр модальностей ввода и задач. Среди известных новых имен: Phi-3, Gemma & Gemma 2, LLaVa, Moondream, Florence-2, MusicGen, Sapiens, Depth Pro, PyAnnote и RT-DETR

🌟 25 новых примеров проектов и шаблонов в репозитории проекта!

🌟 Transformers.js теперь совместим с Node.js (ESM + CJS), Deno и Bun!

🖥 Читать подробнее

@machinelearning_ru

Машинное обучение RU

24 Oct, 12:02


🖥 client-researcher — инструмент для автоматизации исследований и создания отчетов на основе профилей клиентов. Он включает несколько агентов: для генерации профилей, поиска информации и составления отчета

⭐️ Скрипты можно запускать отдельно или как часть общего процесса. Проект основан на использовании ИИ для персонализированного контент-ресерча и предназначен для создания удобных отчётов в формате Markdown, используя API, такие как OpenAI.

🖥 GitHub

@machinelearning_ru

Машинное обучение RU

23 Oct, 15:18


🚗 ParkingE2E: Комплексный инструмент для настройки авто парковщика для автомобиля на базе камер, от получения изображений до планирования движения автомобиля.

Видео
Github

@machinelearning_ru

Машинное обучение RU

23 Oct, 13:01


Яндекс продлевает Квалификацию на международный чемпионат по программированию Yandex Cup 2024 для ML-направления.

В этом году призовой фонд составляет 12,5 млн рублей. Участвовать могут начинающие и опытные разработчики, а также юниоры от 14 до 18 лет из России.

С помощью IT-технологий ребята будут решать задачи, которые стояли перед цивилизациями прошлого. На картинках — примеры ситуаций, с которыми предстоит справиться в рамках отборочных этапов: настроить систему разгрузки драккаров в порту викингов, помочь композитору в создании алгоритма для написания музыки, придумать систему архивации табличек астрономов династии Хань или разработать систему оцифровки для бюллетеней из Древнего Рима.

Заявки на ML-направление принимают до 4 ноября включительно.

Машинное обучение RU

23 Oct, 10:00


Pangea-7B - полностью открытый MLLM для 39 языков

Обучен на основе разнообразного набора данных с 6 миллионами мультиязычных мультимодальных данных для настройки инструкций, охватывающих 39 языков

Полностью открытый дотаяет, код и контрольные точки

▪️Модель: https://huggingface.co/collections/neulab/pangea-6713c3b0d78a453906eb2ed8
▪️Документация: https://huggingface.co/papers/2410.16153

@machinelearning_ru

Машинное обучение RU

23 Oct, 08:00


Стать сотрудником Яндекса быстрее и проще, чем кажется. Участвуйте в днях быстрого найма: решите тестовое, пройдите несколько секций собеседования и получите офер за несколько дней.

Ближайшее мероприятие:

• 9-11 ноября — для продуктовых и аналитиков данных, офер за 3 дня в команды Финтеха и Яндекс Практикума.

Зарегистрироваться

Машинное обучение RU

22 Oct, 17:44


⚡️ Genmo выпустила Mochi 1 — это первая открытая модель для создания видеороликов на основе текста, созданная на базе архитектуры AsymmDiT с параметрами в размере 10 миллиардов.

В отличие от своих закрытых аналогов, Mochi 1 предоставляется бесплатно под лицензией Apache 2.0 и делает акцент на повышении качества движений и точности выполнения заданий.

Модель применяет технологию video VAE для эффективного сжатия данных, тем самым уменьшая потребности в памяти. Однако текущая версия поддерживает разрешение лишь до 480p, но вскоре будет выпущено обновление с поддержкой HD.

Ссылка на GitHub: https://github.com/genmoai/models

@machinelearning_ru

Машинное обучение RU

22 Oct, 17:12


🖥 Бесплатный курс от Nvidia: Создание агентов RAG с LLM!

🌟 Агенты, работающие на основе больших языковых моделей (LLM), продемонстрировали хорошую способность к поиску для использования инструментов, просмотра документов и планирования своих подходов.

Этот курс покажет вам, как развернуть агентскую систему на практике для масштабирования ваших приложений в соответствии с требованиями пользователей и клиентов!

🔗 Ссылка: *клик*

@machinelearning_ru

Машинное обучение RU

22 Oct, 14:47


⚡️ Stable Diffusion 3.5 Large.

Stability AI опубликовала Stable Diffusion 3.5 Large - модель text-to-image с 8 млрд. параметров.

В основе SD 3.5 Large - архитектура Multimodal Diffusion Transformer (MMDiT). Модель использует три предобученных текстовых энкодера:

🟢OpenCLIP-ViT/G;
🟢CLIP-ViT/L;
🟢T5-xxl.

OpenCLIP-ViT/G и CLIP-ViT/L имеют контекстную длину 77 токенов, а T5-xxl - 77/256 токенов.

Модель доступна по API в сервисах - Stability AI, Replicate и Deepinfra.

Для локального использования модели рекомендуется использовать ComfyUI (базовый воркфлоу) или Diffusers.

⚠️ Инференс квантованной NF4-версии на ограниченных VRAM

⚠️ Подробные инструкции по файнтюну и тренировке LoRA для Stable Diffusion 3.5 Large.

▶️Локальный запуск инференса на Diffusers:

# install Diffusers
pip install -U diffusers


# Inference
import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-large", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")

image = pipe(
"A happy woman laying on a grass",
num_inference_steps=28,
guidance_scale=3.5,
).images[0]
image.save("woman.png")


📌 Лицензирование:

🟢Модель доступна под лицензией Stability Community License, которая разрешает бесплатное использование для исследовательских, некоммерческих и коммерческих целей организациями или частными лицами с годовым доходом менее 1 млн. долл. США.

🟠Для получения коммерческой лицензии для организаций с годовым доходом более 1 млн. долл. США необходимо связаться со Stability AI.


🟡Страница проекта
🟡Arxiv
🟡Модель


@ai_machinelearning_big_data

#AI #ML #Diffusion #SDL #StabilityAI

Машинное обучение RU

21 Oct, 10:40


🔥 PostBot 3000 — это проект с открытым исходным кодом, который демонстрирует, как создать мощного AI-агента для генерации и стриминга ответов и артефактов

🌟 Он построен на Python с использованием FastAPI для API и Next.js для интерфейса. Этот проект помогает пользователям реализовать подобные решения, предоставляя примеры кода и шаги для локального развертывания

▪️GitHub

@machinelearning_ru

Машинное обучение RU

21 Oct, 09:32


Разбираем специфику области NLP и задачи, которые можно решать с помощью NLP-методов на открытом уроке в OTUS!

🔥23 октября в 18.00 мск. приглашаем на бесплатный вебинар "Современные применения Natural Language Processing", на котором разберем:

- основные направления области Natural Language Processing;
- что делает эту область одной из самых востребованных в Data Science сегодня;
- какие задачи сегодня решают с помощью методов NLP и что стоит за успехами в этой области.

👉Регистрация. Вступительный тест https://otus.pw/IJii/?erid=LjN8KB53T

Спикер: Мария Тихонова, Senior Data Scientist, преподаватель ВШЭ, Otus Certified Educator

Вебинар приурочен к старту курса Natural Language Processing (NLP). На курсе изучаются современные подходы и модели, которые на данный момент являются стандартом в области. 

#реклама
О рекламодателе

Машинное обучение RU

20 Oct, 11:43


⚡️ Анимация для соединения karpathy llm.c, с помощью матричного умножения вручную

@machinelearning_ru

Машинное обучение RU

19 Oct, 08:59


🔍 Surya — это библиотека для распознавания текста (OCR) и анализа макетов документов на более чем 90 языках. Она предоставляет функции для распознавания текста, детекции линий, определения порядка чтения и анализа структуры страниц в форматах изображений и PDF. Surya поддерживает многоязычный OCR, может извлекать текст с различными уровнями метаданных, такими как языки, расположение текстовых блоков и уверенность в распознавании.

💡 Среди её возможностей:

🌟 Распознавание текста с поддержкой множества языков;

🌟 Детекция строк и блоков текста с указанием координат и уверенности в результате;

🌟 Интерактивное приложение на базе Streamlit для тестирования

💡 Surya использует глубокое обучение и может быть ускорена за счет использования GPU. Она подходит для анализа сложных документов с таблицами, рисунками и другими элементами макета

🔐 Лицензия: GPL-3.0

▪️Github

@machinelearning_ru

Машинное обучение RU

17 Oct, 07:47


Утекли данные о датах релиза и ценах на новые видеокарты Nvidia. Согласно этим данным, RTX 5090 должна выйти в январе по цене в $1800 (около 175 000 рублей).

@machinelearning_ru

Машинное обучение RU

16 Oct, 17:00


🔥 FLUX-Controlnet-Inpainting — модель для инпейнтинга изображений (восстановления их отсутствующих частей) с использованием ControlNet, разработанную командой Alimama Creative

🌟 Модель обучалась на большом наборе данных изображений и доступна для некоммерческого использования. Она демонстрирует высокое качество инпейнтинга и предоставляет инструкцию по использованию с библиотекой Diffusers

▪️Github

@machinelearning_ru

Машинное обучение RU

16 Oct, 15:01


Приветствую всех специалистов по машинному обучению! У нас есть хорошие новости: AI VK совместно с ODS анонсирует новое соревнование – VK RecSys Challenge. Основная цель – создание модели для предсказания фидбэка пользователей в VK Клипах.
Условия участия просты: регистрация открыта, достаточно оставить заявку. Соревнование начинается в октябре и продлится два месяца. Победителей ждут призы: общий призовой фонд составляет 2 000 000 рублей, и будут награждены пять лучших участников.
Для работы предоставляются необходимые данные, которые можно найти в разделе Dataset. Максимальное количество отправок решений в день ограничено пятью. Метрика оценки результатов – ROC AUC, где фидбэк оценивается по трем меткам: like = 1, dislike = -1, ignore = 0.
Это отличная возможность не только проявить себя, но и внести вклад в улучшение рекомендательных систем VK. Желаем всем удачи и ждем ваших заявок!

Призовой фонд
Общий призовой фонд: 2 000 000 руб
1 место: 800 000 руб
2 место: 600 000 руб
3 место: 300 000 руб
4 место: 200 000 руб
5 место: 100 000 руб
Отличная практика и шикарные призы, стоит поучаствовать. Все подробности тут.

@machinelearning_ru

Машинное обучение RU

16 Oct, 10:00


🖥 Эта статья описывает, как создать веб-скрейпинг-агент на базе искусственного интеллекта с использованием модели Llama 3.2, работающей локально. Она охватывает процесс настройки и запуска AI-агента, демонстрируя его способность автоматически извлекать данные с веб-сайтов

🌟 Автор объясняет шаги по интеграции моделей, необходимых для обучения и работы скрейпинга, а также рассматривает, как использовать локально развернутую версию Llama для более эффективной работы

🔗 Читать: *клик*

@machinelearning_ru

Машинное обучение RU

16 Oct, 07:55


🗣«Люди в RPA» — это не просто митап, а площадка для обсуждения актуальных проблем и возможностей в роботизации процессов.

X5 Tech и Газпромбанк.Тех меняют парадигму конференций по роботизации — время отойти от обычного обсуждения преимуществ роботизации перед другими подходами и сосредоточить внимание на тех, кто сегодня задает вектор развития этого направления.

Целевая аудитория — разработчики RPA, у которых в фокусе внимания реальные вопросы развития технологии:

🫥 Управление командами роботизации — чем отличается организация RPA-разработки от других продуктовых команд;
🫥 Citizen-разработка — разработка RPA-решений силами линейных сотрудников: коллеги поделятся опытом и успехами такого подхода, обсудят риски и перспективы развития;
🫥 Развитие отечественных платформ роботизации — представители ведущих платформ поделятся своим видением текущей ситуации и расскажут, как они адаптируют свои решения под требования разработчиков;
🫥 Квалификационный стандарт RPA — тимлиды RPA вместе обсудят, какими навыками должен обладать сотрудник в начале пути и к каким вершинам должен стремиться в профессиональном росте.

28 октября проведем дискуссию, которая станет началом детального обсуждения поднятых вопросов с пользой для сообщества разработчиков RPA.

⚡️ Увидимся в офисе Газпромбанк.Тех по адресу: Москва, ул. Коровий Вал, 5, БЦ «Оазис» 28 октября

Сбор участников офлайн с 13:00
Начало трансляции онлайн в 14:00

Зарегистрироваться на митап «Люди в RPA»

Реклама, Банк ГПБ (АО), ИНН: 7744001497, erid: 2VtzqxXuFVD

Машинное обучение RU

15 Oct, 16:35


We Drop The Balls…And Things Go Crazy!

https://www.youtube.com/watch?v=JmTTY5s8H7A

@machinelearning_ru

Машинное обучение RU

14 Oct, 12:01


🖥 MegaBlocks — это легковесная библиотека от Databricks для обучения моделей с использованием смеси экспертов (Mixture-of-Experts, MoE). Она включает оптимизированные MoE-слои, поддерживает параллельное обучение данных и экспертов, а также использует алгоритмы, которые позволяют повысить эффективность тренировки

🌟 Библиотека интегрирована с Megatron-LM и предназначена для ускорения работы больших языковых моделей за счет использования разреженных вычислений и сокращения объема данных без потерь в производительности

▪️Github

@machinelearning_ru

Машинное обучение RU

14 Oct, 10:01


Вечерний митап для ML-инженеров в Белграде и онлайн

📅 17 октября в 18:00 собираемся в хабе «Сербская Роза», чтобы обсудить тренды, новые подходы, решения и вызовы индустрии в неформальной обстановке.

Спикеры и темы докладов:

🔸 Илья Ирхин, руководитель подразделения аналитики в Яндекс Еде. Подробно рассмотрит рекламу ресторанов в сервисе: аукцион, ранжирование, ценообразование

🔸 Дмитрий Солодуха, руководитель группы в Алисе и Умных устройствах Яндекса. Покажет, как мы учим Алису откликаться без имени

🔸 Антон Клочков, руководитель подгруппы распознавания текста в VLM в Яндекс Поиске. Расскажет о развитии навыков распознавания текста в VLM

🔸 Пётр Вытовтов, руководитель группы в Яндекс Погоде. Рассмотрит трансформеры сервиса и расскажет, как начать прогнозировать до миллиметра осадков

После докладов офлайн-участников ждёт нетворкинг с экспертами из разных компаний!

📎 Регистрация и подробности тут.

Ждём вас на ML Party в Белграде!

Реклама. ООО "Яндекс", ИНН 7736207543.

Машинное обучение RU

14 Oct, 07:05


📎 ML: Медицинский дайджест за период 07.10 - 13.10 2024 г.


▶️ Модели машинного обучения и бенчмарки

🔘ONCOPILOT: Интерактивная модель для сегментации опухолей на основе КТ и измерения по RECIST 1.1.

Цель модели - сгенерировать 3D-предсказание объема конкретной анатомической структуры на основе входного изображения и визуальной маркировки.

🔘RespLLM: MLLM для прогнозирования состояния дыхательной системы.

RespLLM использует знания LLM и кросс-модальное внимание для объединения звука и текста чтобы оценить состояние дыхательной системы по аудио.

🔘GlucoBench: набор данных для прогнозирования уровня глюкозы.

GlucoBench - комплексныq ресурс для исследований в области прогнозирования уровня глюкозы на основе данных непрерывного мониторинга глюкозы (CGM).

🔘DiffAbXL: Модель диффузии для оценки аффинности связывания антител.

DiffAbXL - это масштабируемая модель диффузии, разработанная для прогнозирования и ранжирования аффинности связывания антител.


▶️ Фреймворки и методологии

🔘DALL-M: Система дополнения клинических данных с учетом контекста с помощью LLM.

DALL-M - платформа, которая использует LLM для создания новых клинически значимых признаков, дополняя наборы данных рентгеновских снимков с учетом контекста.

🔘ClinicalLab: Платформа для оценки и разработки медицинских агентов, имитирующая реальный клинический диагностический процесс.

ClinicalLab - набор инструментов и методологий, предназначенных для оценки и разработки медицинских агентов на основе LLM, которые могут эффективно имитировать процесс клинической диагностики.

🔘Синтез хирургических наборов данных с помощью диффузионных моделей.

Метод, основанный на диффузионных моделях, который позволяет генерировать реалистичные хирургические изображения с полными аннотациями.


▶️Медицинские LLM-приложения

🔘MMedAgent: Мультимодальный медицинский агент.

MMedAgent предназначен для обработки медицинских изображений разных модальностей и решения задач: grounding, сегментация, классификация, генерация медицинских отчетов (MRG), генерация с извлечением информации (RAG) и визуальные вопросы и ответы (VQA).

🔘Гибридная система для выявления редких заболеваний из неструктурированных клинических отчетов.

Cистема предназначена для решения проблемы идентификации редких заболеваний, используя преимущества как NLP-инструментов, так и LLM.

🔘LLM-AMT: конвейер для повышения точности LLM в задачах QA.

Конвейер, который улучшает работу LLM в медицинской области, добавляя к ним информацию из медицинских учебников.


▶️Исследования и обзоры

🔘Реконструкция изображений компьютерной томографии с малым числом ракурсов.

Исследование, посвященное поиску эффективных методов реконструкции КТ-изображений с ограниченным числом проекций.


🔜 Читать полный дайджест


@ai_machinelearning_big_data

Машинное обучение RU

13 Oct, 12:30


🖥 Voice Chat with PDFs — это проект, использующий API OpenAI для взаимодействия с документами в реальном времени. Он создан на основе LlamaIndex и позволяет загружать PDF-документы, создавать их эмбеддинги и вести голосовой чат с содержимым документа. Поддерживаются режимы ручного общения (Push-to-talk) и автоматического обнаружения голоса (Voice Activity Detection). Для работы требуется OpenAI API ключ. Проект разработан на базе Next.js и LlamaIndexTS

🔐 Лицензия: MIT

▪️Github

@machinelearning_ru

Машинное обучение RU

13 Oct, 10:31


⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

МАШИННОЕ ОБУЧЕНИЕ: t.me/ai_machinelearning_big_data
C++ t.me/cpluspluc
Python: t.me/python_job_interview
Хакинг: t.me/linuxkalii
Devops: t.me/DevOPSitsec
АНАЛИЗ Данных: t.me/data_analysis_ml
Javascript: t.me/javascriptv
C#: t.me/csharp_ci
Java: t.me/javatg
Базы данных: t.me/sqlhub
Linux: t.me/linuxacademiya
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Docker: t.me/DevopsDocker
Golang: t.me/golang_interview
React: t.me/react_tg
Rust: t.me/rust_code
ИИ: t.me/vistehno
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
Собеседования МЛ: t.me/machinelearning_interview
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc


💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.me/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.me/addlist/mzMMG3RPZhY2M2Iy

😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://t.me/addlist/BkskQciUW_FhNjEy

Машинное обучение RU

13 Oct, 09:25


⚡️ Выпущена Ollama 0.3.13

Доступны новые модели безопасности! ((Llama Guard 3 от Meta и ShieldGemma от Google)

Работа над новой версии Go runner для повышения надежности и кэширования моделей.

https://github.com/ollama/ollama/releases/tag/v0.3.13

@machinelearning_ru

Машинное обучение RU

12 Oct, 16:00


🔈 Otter.ai — это платформа для автоматического создания заметок на основе голосовых записей с помощью ИИ, предназначенная для повышения продуктивности и удобства ведения встреч. Этот сервис предоставляет пользователям возможность записывать разговоры, получать текстовые расшифровки. Otter.ai активно используется бизнесом, образовательными учреждениями, журналистами и другими профессионалами для ведения встреч, интервью, лекций и любых других важных разговоров, обеспечивая легкое управление и анализ данных.

💡 Основные функции:

🌟 Синхронизация аудио, текста и изображений: Инструмент интегрирует не только текст, но и другие мультимедийные элементы, обеспечивая комплексное представление о беседе

🌟 Поддержка онлайн- и офлайн-режимов: Приложение можно использовать как в реальном времени на встречах (например, Zoom, Google Meet), так и для постфактум анализа записей

🔗 Ссылка: *клик*

@machinelearning_ru

Машинное обучение RU

12 Oct, 09:50


⚡️ OpenAI Swarm: Экспериментальный фреймворк для оркестрации мультиагентных систем.

Swarm - это экспериментальный фреймворк, разработанный командой OpenAI Solutions, для создания, оркестрации и развертывания многоагентных систем. Фреймворк фокусируется на упрощении координации, запуска, контроля и тестирования агентов.

Основная цель Swarm - продемонстрировать паттерны, описанные в Orchestrating Agents: Handoffs & Routines cookbook.

Фреймворк построен на двух основных абстракциях: агентах (Agent) и передачах управления (handoffs):

Агент - это набор инструкций и функций, который может передавать выполнение другим агентам. Его можно использовать для описания конкретного рабочего процесса или шага (например, последовательность шагов, сложный поиск, одноэтапное преобразование данных и так далее).

Передача управления — это процесс, при котором агент может передать запрос другому агенту, возвращая его в функцию. В процессе передачи управления также происходит обновление переменных контекста, что позволяет вернуть более полный объект Result.

▶️В репозитории собраны функциональные примеры Swarm:

🟢basic - простые примеры настройки, вызова функций, передача данных и контекстные переменные;

🟢traige agent - пример роя с агентом сортировки, который принимает пользовательские данные и решает, ответить ли на запрос напрямую или передать его агенту по продажам или возврату денег;

🟢weather agent - погодный агент с вызовом функций (запрос по городу и отправка на e-mail);

🟢airlines - мультиагентный пример обработки клиентских запросов в контексте авиакомпании (сортировка запросов, изменения рейсов, отмены бронирований и случаи потери багажа);

🟢support_bot - клиентский бот центра поддержки с несколькими инструментами;

🟢personal shopper - пример роя агентов персонального торгового агента, который может помогать совершать покупки и возвращать заказы;

⚠️ Swarm не использует API Assistants и полностью работает на API Chat Completions.

⚠️ Swarm не предназначен для промышленного использования и не имеет официальной поддержки.

▶️ Локальная установка и запуск:

# Install from PIP
pip install git+https://github.com/openai/swarm.git

# Usage
from swarm import Swarm, Agent
client = Swarm()

def transfer_to_agent_b():
return agent_b

agent_a = Agent(
name="Agent A",
instructions="You are a helpful agent.",
functions=[transfer_to_agent_b],
)

agent_b = Agent(
name="Agent B",
instructions="Only speak in Haikus.",
)

response = client.run(
agent=agent_a,
messages=[{"role": "user", "content": "I want to talk to agent B."}],
)

print(response.messages[-1]["content"])


📌Лицензирование : MIT License.


🖥GitHub
🟡Orchestrating Agents Cookbook


@ai_machinelearning_big_data

#AI #ML #Agents #OpenAI #Swarm

Машинное обучение RU

11 Oct, 15:32


🌟 CogVideoX Factory: оптимизация файнтюна моделей генерации видео семейства CogVideoX.

CogVideoX Factory - репозиторий с набором скриптов для эффективного файнтюна моделей семейства CogVideoX (CogVideoX-2B и CogVideoX-5B) с фокусом на оптимизацию VRAM. CogVideoX Factory позволяет выполнять обучение на GPU с 24 GB.

Проект предоставляет гибкость в выборе между LoRA и файнтюном всей модели для задач "text-to-video" и "IMG-to-video".

Чтобы сделать возможным файнтюн на ограниченных ресурсах, CogVideoX использует методы оптимизации:

🟢CPUOffloadOptimizer - перемещает обучаемые параметры и градиенты модели в CPU, освобождая память GPU для других операций;

🟢DeepSpeed Zero2 - распределяет параметры модели по нескольким GPU, что позволяет обучать большие модели, которые иначе не поместились бы в память одного GPU;

🟢LoRA - метод тонкой настройки, который изменяет только небольшое подмножество параметров модели, сохраняя при этом основную часть весов неизменной.

CogVideoX Factory предлагает сценарии обучения:

🟠LoRA для "text-to-video": cкрипт train_text_to_video_lora.sh;

🟠LoRA для "IMG-to-video": cкрипт train_image_to_video_lora.sh;

🟠SFT всей модели для "text-to-video": скрипт train_text_to_video_sft.sh.

⚠️ Предварительная подготовка данных - один из важнейших условий CogVideoX Factory. Скрипт prepare_dataset.py играет ключевую роль в этом процессе, преобразуя видео и аннотации в латенты и эмбединги. Использование предварительно вычисленных латентов и эмбедингов позволяет не загружать VAE и T5 во время обучения.

CogVideoX Factory предлагает подробную документацию, в которой объясняются шаги по подготовке датасетов, настройке параметров обучения, запуску инференса, информацию о требованиях к памяти для каждой модели и конфигурации, помогая принять корректные решения о выборе стратегии обучения.


📌Лицензирование : Apache 2.0 License.


🖥Github


@ai_machinelearning_big_data

#AI #ML #LoRA #T2V #IMG2V #Finetune

Машинное обучение RU

10 Oct, 19:21


🔥 Опубликован язык программирования Julia 1.11

Опубликован релиз языка программирования Julia 1.11, сочетающего такие качества как высокая производительность, поддержка динамической типизации и встроенные средства для параллельного программирования. Синтаксис Julia близок к MATLAB с заимствованием некоторых элементов из Ruby и Lisp. Метод манипуляции строками напоминает Perl. Код проекта распространяется под лицензией MIT.

Ключевые особенности языка:

- Высокая производительность: одной из ключевых целей проекта является достижение производительности близкой к программам на языке Си. Компилятор Julia основан на наработках проекта LLVM и генерирует эффективный нативный машинный код для многих целевых платформ;
- Поддержка различных парадигм программирования, включая элементы объектно-ориентированного и функционального программирования. Стандартная библиотека предоставляет в том числе функции для асинхронного ввода/вывода, управления процессами, ведения логов, профилирования и управления пакетами;
- Динамическая типизация: язык не требует явного определения типов для переменных по аналогии со скриптовыми языками программирования. Поддерживается интерактивный режим работы;
- Опциональная возможность явного указания типов;
- Синтаксис, превосходно подходящий для численных вычислений, научных расчётов, систем машинного обучения и визуализации данных. Поддержка многих числовых типов данных и средств для распараллеливания вычислений.
- Возможность прямого вызова функций из библиотек на языке Си без дополнительных прослоек.

https://julialang.org/blog/2024/10/julia-1.11-highlights/

@machinelearning_ru