BIG-EX | Machine Learning, Big Data & Data Science @big_data_go Channel on Telegram

BIG-EX | Machine Learning, Big Data & Data Science

@big_data_go


Публикуем лучший материал по Machine Learning, Big Data, Data Science, Искусственному интеллекту и не только!

Купить рекламу:
— @oksi_young, @Neon_ll

Положительный отзыв на telega.in - 1 реклама 1/24 бесплатно.
https://telega.in/c/big_data_go

BIG-EX | Machine Learning, Big Data & Data Science (Russian)

BIG-EX | Machine Learning, Big Data & Data Science - это канал в Telegram, который предлагает лучший материал по машинному обучению, большим данным, науке о данных, искусственному интеллекту и многому другому! Если вы заинтересованы в области технологий будущего и хотите быть в курсе последних тенденций и новостей, то этот канал идеально подходит для вас. Здесь вы найдете полезные статьи, обзоры, советы от экспертов и многое другое.

Канал BIG-EX также предоставляет возможность купить рекламу. Для этого вы можете связаться с @oksi_young. Помимо этого, у вас есть шанс получить положительный отзыв на популярном ресурсе telega.in - 1 реклама 1/24 бесплатно. Присоединяйтесь к нам, чтобы расширить свои знания и быть в курсе всех новостей в области машинного обучения и больших данных!

BIG-EX | Machine Learning, Big Data & Data Science

31 Dec, 13:31


Статья рассказывает, как с помощью нейросетей улучшить качество старых видеозаписей, включая VHS и DVD. Описываются инструменты, процесс и результаты с примерами, доступные каждому без глубоких технических знаний.

👉Читать

BIG-EX | Machine Learning, Big Data & Data Science

30 Dec, 13:31


Статья предлагает разобраться в устройстве Diffusion моделей, их математике и принципах работы. Автор делится простыми объяснениями, примерами кода и результатами генерации изображений на собственной модели.

👉Читать

BIG-EX | Machine Learning, Big Data & Data Science

29 Dec, 16:31


Статья посвящена опыту СИБУРа в создании DQ-сервиса для обеспечения качества данных. Рассматриваются задачи DQ, архитектура решения и универсальные подходы, применимые для анализа данных в крупных компаниях.

👉Читать

BIG-EX | Machine Learning, Big Data & Data Science

28 Dec, 13:31


Статья изучает применение метода CUPED в A/B-тестах для повышения чувствительности и сокращения выборок. Рассматривается его использование на этапе дизайна эксперимента без потери статистической мощности.

👉Читать

BIG-EX | Machine Learning, Big Data & Data Science

27 Dec, 13:30


Статья описывает опыт создания RAG-пайплайна с использованием Gigachat API для участия в AI Journey. Автор делится инсайтами, полученными в процессе разработки ассистента для рекомендаций товаров, который занял 3-е место.

👉Читать

BIG-EX | Machine Learning, Big Data & Data Science

26 Dec, 13:30


Статья углубляется в дообучение языковых моделей, используя DistilGPT2 на данных QuyenAnhDE/Diseases_Symptoms. Рассматривается процесс настройки модели для генерации симптомов на основе заболеваний, с возможностью расширения логики.

👉Читать

BIG-EX | Machine Learning, Big Data & Data Science

25 Dec, 13:31


Давайте рассмотрим концепцию Smart Data и выясним, действительно ли Big Data превращаются во что-то более интеллектуальное.

👉Читать

BIG-EX | Machine Learning, Big Data & Data Science

24 Dec, 13:31


В этой статье я хотел бы показать куда уходят данные и что с ними происходит, когда пайплайны дата-инженеров заканчивают работу.

👉Читать

BIG-EX | Machine Learning, Big Data & Data Science

23 Dec, 13:31


Статья посвящена прогнозированию продаж FTTB-FMC для ежедневной отчетности. Рассматриваются подходы к анализу данных, ключевые KPI и методы, используемые для прогнозирования продаж в сегменте ШПД и конвергентных продуктов.

👉Читать

BIG-EX | Machine Learning, Big Data & Data Science

22 Dec, 13:30


Статья рассказывает, как организовать и обработать огромный архив аудиозаписей дневников, созданных задолго до эпохи современных speech-to-text технологий. Рассматриваются инструменты и подходы для упорядочивания данных.

👉Читать

BIG-EX | Machine Learning, Big Data & Data Science

21 Dec, 13:30


Статья раскрывает, как дизайнеры студии используют ИИ для усиления креативности в проектах. Обсуждаются инструменты и подходы, которые помогают сохранить индивидуальность и создать продуманный дизайн с помощью нейросетей.

👉Читать

BIG-EX | Machine Learning, Big Data & Data Science

20 Dec, 13:30


Хочешь запустить большую языковую модель в продакшене, но не знаешь, как совместить простоту развертывания с промышленной надежностью? Комбинация vLLM и TorchServe решает эту задачу. Она обеспечивает как простой запуск, так и продвинутые возможности для масштабирования.

👉Читать

BIG-EX | Machine Learning, Big Data & Data Science

19 Dec, 13:31


Статья описывает приложение, объединяющее GraphRAG и AutoGen-агентов с локальными LLM от Ollama для автономного встраивания и вывода. Рассмотрены ключевые аспекты: интеграция знаний, настройка LLM, вызов функций и интерактивный интерфейс.

👉Читать

BIG-EX | Machine Learning, Big Data & Data Science

18 Dec, 13:31


Статья посвящена созданию обучающей выборки для NER. Описан опыт разметки данных с использованием Open Source инструментов и Prodigy, профессионального решения для ускорения процесса создания наборов данных.

👉Читать

BIG-EX | Machine Learning, Big Data & Data Science

17 Dec, 13:30


Статья основана на полутора годах работы по внедрению нейронных сетей в веб-приложение с открытым исходным кодом. В ней собраны практические лайфхаки для решения реальных задач и преодоления сложностей, с которыми сталкиваются разработчики.

👉Читать

BIG-EX | Machine Learning, Big Data & Data Science

16 Dec, 13:31


Статья анализирует роль языка и цифровизации в накоплении и передаче знаний. Обсуждаются вызовы структурирования данных, которые, несмотря на успехи машинного обучения и реляционных баз, всё ещё затрудняют полное понимание накопленной информации.

👉Читать

BIG-EX | Machine Learning, Big Data & Data Science

15 Dec, 13:30


Статья рассматривает создание AI для покера (Техасского безлимитного холдема) и анализирует его сложность как модели бизнес-отношений. Обсуждаются метрики и стратегии, которые игроки используют в изменяющемся контексте для принятия решений.

👉Читать

BIG-EX | Machine Learning, Big Data & Data Science

14 Dec, 13:30


Статья раскрывает, как семантическая сегментация помогает машинам «видеть», разбивая изображение на классы объектов. Обсуждаются её применение в автономных авто, медицине и обработке спутниковых снимков для точного распознавания контекста.

👉Читать

BIG-EX | Machine Learning, Big Data & Data Science

13 Dec, 13:31


Статья описывает метод, разработанный для автоматического наполнения графов знаний с помощью LLM, что снижает вероятность «галлюцинаций» и повышает точность ответов. Решение Prompt Me One More Time подробно представлено на TextGraphs-17 конференции ACL-2024.

👉Читать

BIG-EX | Machine Learning, Big Data & Data Science

12 Dec, 13:31


Статья знакомит с FlexiPrompt — лёгкой библиотекой для генерации промптов в Python при работе с языковыми моделями. Рассмотрены её преимущества: быстрая интеграция, гибкая настройка диалога и возможность создания нескольких агентов в одной LLM.

👉Читать

BIG-EX | Machine Learning, Big Data & Data Science

11 Dec, 13:31


Статья продолжает разбор моделирования температурного временного ряда с двойной сезонностью. Основное внимание уделено подбору оптимальных параметров сезонной модели САРПСС для точного описания данных.

👉Читать

BIG-EX | Machine Learning, Big Data & Data Science

10 Dec, 13:30


Статья раскрывает процесс полной автоматизации создания карточек товаров для маркетплейсов, используя нейросети, Photoshop и немного креативного подхода. Описаны практические методы, которые экономят тысячи рублей на огромном ассортименте.

👉Читать

BIG-EX | Machine Learning, Big Data & Data Science

09 Dec, 13:31


В статье рассказывается, как быстро протестировать 16 LLM для создания текстовых прототипов, даже если вы не в теме ML. Берём несколько моделей, сравниваем результаты, оцениваем, подходит ли под задачу.

👉Читать

BIG-EX | Machine Learning, Big Data & Data Science

08 Dec, 13:31


В статье описан путь от пет-проекта до системы для трекинга транспорта: нейросети, компьютерное зрение и инструменты, позволяющие «видеть» и анализировать производственные процессы.

👉Читать

BIG-EX | Machine Learning, Big Data & Data Science

07 Dec, 13:31


Статья анализирует результаты AI Product Hack, рассматривая спорное судейство и кейс компании Raft по мониторингу токсичного контента в AI-продуктах. Исследуются риски и последствия неконтролируемого поведения LLM в реальных проектах.

👉Читать

BIG-EX | Machine Learning, Big Data & Data Science

02 Dec, 13:30


В середине августа мы видели анонс бета-версий Grok-2 и Grok-2 mini от стартапа Илона Маска xAI. Что ж, на дворе осень, как пел Anacondaz "на улице дубак, на сердце тлен и мрак", так пусть же Grok 2 сегодня станет тем самым, кто укроет зацензуренным пледом наши тела. Предлагаю начинать.

👉Читать

BIG-EX | Machine Learning, Big Data & Data Science

01 Dec, 13:31


Стандартная библиотека Python – это кладезь возможностей. Мы представляем семь недооцененных модулей, которые помогут вам улучшить организацию данных, оптимизировать производительность и упростить распространение ваших программ.

👉Читать

BIG-EX | Machine Learning, Big Data & Data Science

30 Nov, 13:31


Шесть заблуждений, которые мешают тебе использовать всю мощь векторных баз данных в AI. Развенчав эти мифы, ты сможешь раскрыть истинный потенциал векторов и значительно повысить эффективность твоих AI-проектов.

👉Читать

BIG-EX | Machine Learning, Big Data & Data Science

29 Nov, 13:31


Автоэнкодеры являются базовой техникой машинного обучения и искусственного интеллекта, на основе которой строятся более сложные модели, например, в диффузионных моделях, таких как Stable Diffusion. Что же такое автоэнкодер?

👉 Читать

BIG-EX | Machine Learning, Big Data & Data Science

28 Nov, 13:31


В статье команда LLaMaстеры (студенты ИТМО AI Talent Hub) расскажет о создании LLaMator — фреймворка для тестирования уязвимостей интеллектуальных систем на базе больших языковых моделей, который победил на AI Product Hack.

👉 Читать

BIG-EX | Machine Learning, Big Data & Data Science

27 Nov, 13:30


В этой статье мы отправимся в захватывающее путешествие от классических теорий Павлова до передовых разработок в области ИИ. Мы раскроем тайны человеческого мышления, узнаем, как работают современные языковые модели, и поразмышляем о том, сможет ли искусственный интеллект когда-нибудь по-настоящему "понимать" нас.

👉Читать

BIG-EX | Machine Learning, Big Data & Data Science

26 Nov, 13:30


Как компании выявляют эмоции в тысячах отзывов и комментариев? Почему одни маркетинговые кампании становятся невероятным успехом, а другие — провалом? Сегодня мы подробно разберем, как анализ тональности работает в реальных кейсах, и покажем, как вы можете внедрить его для достижения своих бизнес-целей.

👉Читать

BIG-EX | Machine Learning, Big Data & Data Science

25 Nov, 13:31


В этой статье мы рассмотрим 4 ИИ-инструмента, которые расширяют возможности разработчика: от платформ для работы с документами до агентов, способных исправлять ошибки в коде.

👉Читать

BIG-EX | Machine Learning, Big Data & Data Science

24 Nov, 13:31


Статья объяснит, почему данные, используемые в ИИ и машинном обучении, часто искажаются преобразованиями. Обсудим измерительные приборы, их влияние на производственные процессы и важность понимания этого эффекта.

👉Читать

BIG-EX | Machine Learning, Big Data & Data Science

23 Nov, 13:31


Статья расскажет о ежегодном рейтинге лучших веб-версий банковских приложений 2024 года от Markswebb. Лидеры рейтинга использовали ИИ-решения Smart Engines для улучшения клиентского опыта и достижения рекордов.

👉Читать

BIG-EX | Machine Learning, Big Data & Data Science

22 Nov, 13:31


Статья расскажет, как с помощью Wolfram Language создать ассистента на базе OpenAI API и добавить плагины. Также рассматривается удобство работы в интерактивном блокноте и обход региональных блокировок OpenAI. (197 символов)

👉 Читать

BIG-EX | Machine Learning, Big Data & Data Science

21 Nov, 13:31


В статье рассказывается о методе аугментации данных для улучшения работы моделей компьютерного зрения. Вы узнаете, как с помощью этого метода увеличить количество данных, повысить точность модели и избежать типичных ошибок.

👉Читать

BIG-EX | Machine Learning, Big Data & Data Science

20 Nov, 13:31


В этой статье мы поговорим о методе, который считается одним из наиболее мощных инструментов в арсенале данных разработчиков — методе главных компонент, или PCA (Principal Component Analysis).

👉 Ссылка на статью

BIG-EX | Machine Learning, Big Data & Data Science

19 Nov, 13:31


В этом пошаговом гайде вы узнаете, как быстро автоматизировать процесс транскрибации и добавления субтитров к видео за считанные минуты.

👉 Читать

BIG-EX | Machine Learning, Big Data & Data Science

18 Nov, 13:31


В этой статье я построил GPT архитектуру на данных из произведений Шекспира и получил достаточно впечатляющие результаты.

👉 Читать

BIG-EX | Machine Learning, Big Data & Data Science

17 Nov, 13:31


В данной статье мы рассмотрим проект по распознаванию речи из видео, преимущества и недостатки данной разработки, а также посмотрим на то, как ее внедрение помогло ускорить работу аналитиков и разработчиков на проекте.

👉 Читать

BIG-EX | Machine Learning, Big Data & Data Science

16 Nov, 13:31


В этой статье мы расскажем о шести основных алгоритмах машинного обучения и их практическом применении в различных отраслях.

👉 Читать

BIG-EX | Machine Learning, Big Data & Data Science

15 Nov, 15:05


Используем алгоритмы Манакера и заметающей прямой, определяем границы окна с k-элементами, вычисляем площадь участков разного цвета и находим наибольшую увеличивающуюся подпоследовательность.

👉 Читать

BIG-EX | Machine Learning, Big Data & Data Science

15 Nov, 14:01


#вакансия #удалённо #parttime #преподаватель #ML #MLOps #DataEngineer

Время делиться знаниями!

OTUS – образовательная платформа. У нас авторские курсы разной степени сложности, вступительное тестирование для студентов и преподаватели-практики из крупнейших компаний. 8 лет мы учимся друг у друга, советуемся, помогаем, делимся опытом и обсуждаем новости как в преподавании, так и в IT.

Вакансия преподаватель на онлайн-курсы:
- ML Team Lead
- MLOps
- Data Engineer

Требуется практический опыт по темам курса. Можно без опыта преподавания, мы поможем вам освоить практики преподавания.

Преподаватель раскрывает тему с помощью теории и примеров из практики. Занятия проводятся c 20:00 до 21:30. Можно выбирать комфортную нагрузку и темы из программы курса. Материалы к занятиям есть.

С нами вы сможете
- структурировать свой опыт и знания;
- прокачать софт-скиллы;
- получать от 4000 до 6000 руб. за один вебинар (полтора часа) + от 300 до 400 руб. за одно проверенное домашнее задание.

Бонусы 🎁
- наши курсы со скидкой/бесплатно;
- можно приглашать лучших выпускников к себе на работу;
- воркшопы и конференции для наших преподавателей.

Обсудить подробнее: @HR_Nikita

BIG-EX | Machine Learning, Big Data & Data Science

14 Nov, 13:31


Ты знал, что злоумышленникам для взлома генеративных ИИ достаточно всего 42 секунды и пяти запросов? В этой статье мы разберем, как это происходит, какие уязвимости существуют и как защитить свои системы от подобных атак.

👉 Читать

BIG-EX | Machine Learning, Big Data & Data Science

13 Nov, 13:30


В этой статье автор расскажет о новом программном алгоритме игры человека с компьютером в качестве «Х» или «О» игрока, избегая классического «дерева для конечного числа ходов».

👉 Ссылка на статью

BIG-EX | Machine Learning, Big Data & Data Science

12 Nov, 13:31


Сегодня делимся программой для парсинга e-mail с сайтов, созданной за 30 минут с помощью ИИ от Rokitok. Это показывает, как ИИ ускоряет задачи, на которые раньше уходили дни или большие бюджеты.

👉 Читать

BIG-EX | Machine Learning, Big Data & Data Science

11 Nov, 13:03


Вместе с Григорием Стерлингом, лидом команды TTS в SberDevices, разбираемся, как устроена технология, как разрабатывают синтезаторы речи и что нужно знать, чтобы работать в этой сфере.

👉 Читать

BIG-EX | Machine Learning, Big Data & Data Science

10 Nov, 13:30


Линейная регрессия — это метод обучения с учителем, который предсказывает значение y на основе признаков X. Основное допущение — линейная зависимость y от Xi, что позволяет оценить y через математическое выражение.

👉 Читать

BIG-EX | Machine Learning, Big Data & Data Science

09 Nov, 13:30


Когда твой руководитель говорит: «А теперь ты еще и администратор сервера Power BI». Гид по выживанию для разработчика, внезапно ставшего многостаночником.

👉 Читать

BIG-EX | Machine Learning, Big Data & Data Science

08 Nov, 13:30


В этой статье расскажем о квантовании и как оно помогает в выборе оборудования, а также рассмотрим основные типы квантов в llama.cpp.

👉 Читать

BIG-EX | Machine Learning, Big Data & Data Science

06 Nov, 13:31


Статья расскажет о подходах к объединению крупных баз данных с клиентской информацией, несмотря на ошибки и опечатки. Описываются методы предотвращения неверных объединений, включая сложные случаи, такие как записи братьев-близнецов.

👉 Читать

BIG-EX | Machine Learning, Big Data & Data Science

05 Nov, 13:31


LLMRec — это новая структура, которая расширяет возможности рекомендателей за счет применения трех простых, но эффективных стратегий расширения графов на основе LLM к системе рекомендаций.

Github: https://github.com/hkuds/llmrec

Paper: https://arxiv.org/abs/2311.00423v1

Project: https://llmrec.github.io/

Dataset: https://llmrec.github.io/#

BIG-EX | Machine Learning, Big Data & Data Science

04 Nov, 13:31


TorchUncertainty — это пакет, разработанный, чтобы помочь вам использовать методы количественной оценки неопределенности и сделать ваши глубокие нейронные сети более надежными.

TorchUncertainty в настоящее время поддерживает классификацию, вероятностную и точечную регрессию и сегментацию.

Github: https://github.com/ensta-u2is/torch-uncertainty

Paper: https://arxiv.org/abs/2311.01434v1

Project: https://llmrec.github.io/

Api: https://torch-uncertainty.github.io/api.html

Dataset: https://paperswithcode.com/dataset/cifar-10

BIG-EX | Machine Learning, Big Data & Data Science

02 Nov, 13:31


TorchUncertainty — это пакет, разработанный, чтобы помочь вам использовать методы количественной оценки неопределенности и сделать ваши глубокие нейронные сети более надежными.

TorchUncertainty в настоящее время поддерживает классификацию, вероятностную и точечную регрессию и сегментацию.

Github: https://github.com/ensta-u2is/torch-uncertainty

Paper: https://arxiv.org/abs/2311.01434v1

Project: https://llmrec.github.io/

Api: https://torch-uncertainty.github.io/api.html

Dataset: https://paperswithcode.com/dataset/cifar-10

BIG-EX | Machine Learning, Big Data & Data Science

01 Nov, 13:30


В открытом доступе появилась первая фундаментальная ИИ-модель человеческого познания — Centaur, способная предсказывать и симулировать поведение людей в различных экспериментах. Она использует интуицию и анализ для значительного улучшения качества ответов.

Centaur создана на базе Llama 3.1 70B и обучена на 160 психологических экспериментах с участием 60 тысяч человек, что позволяет модели с высокой точностью прогнозировать поведение людей в любых условиях.

Будущее уже близко! Ознакомиться с исследованием можно по ссылке, а исходный код доступен здесь.

BIG-EX | Machine Learning, Big Data & Data Science

31 Oct, 13:30


EntitySeg — это набор инструментов с открытым исходным кодом, предназначенный для сегментации изображений в открытом мире и высокого качества.

Github: https://github.com/qqlu/entity

Paper: https://arxiv.org/abs/2311.03352v1

Dataset: https://paperswithcode.com/dataset/coco

BIG-EX | Machine Learning, Big Data & Data Science

30 Oct, 13:31


DUSt3R — новый подход геометрического конструирования 3D на основе 2D (Dense and Unconstrained Stereo 3D Reconstruction).

DUSt3R не требует калибровки камеры или данных о точке обзора.

GitHub

BIG-EX | Machine Learning, Big Data & Data Science

29 Oct, 13:30


Text Generation Inference (TGI) — это набор инструментов для развертывания и обслуживания моделей большого языка (LLM).

TGI обеспечивает высокопроизводительную генерацию текста для самых популярных LLM с открытым исходным кодом, включая Llama, Falcon, StarCoder, BLOOM, GPT-NeoX и других.

В новую версию Text Generation Inference добавлена поддержка модели Command R+.

Используя возможности Medusa heads, на тестах достигается беспрецедентная скорость с задержкой всего в 9 мс на токен для модели 104B!

• Github
• Установка

BIG-EX | Machine Learning, Big Data & Data Science

28 Oct, 13:31


Мощный инструмент для решения практически всех задач извлечения и унификации информации.

Предварительно обученная модель Mirror в настоящее время поддерживает задачи IE на английском языке.

Github: https://github.com/Spico197/Mirror

Paper: https://arxiv.org/abs/2311.05419v1

Dataset: https://paperswithcode.com/dataset/glue

BIG-EX | Machine Learning, Big Data & Data Science

27 Oct, 13:30


LoRA представляя собой универсальный ускоритель для различных задач генераций изображений.

Новый подход, который значительно уменьшает нагрузку на диффузионные модели для генерации изображений. Подход позволяет перевести любую существующую обученную LDM на быструю генерацию.

LCM можно выделить из любой предварительно обученной стабильной диффузии (SD) всего за 4000 шагов обучения (около 32 часов графического процессора A100) для создания высококачественных изображений с разрешением 768 x 768 за 2–4 шага или даже за один шаг, что значительно ускоряет обработку текста и генерацию изображения.

Github: https://github.com/luosiallen/latent-consistency-model

Paper: https://arxiv.org/abs/2311.05556v1

Project: https://latent-consistency-models.github.io

Demo: https://huggingface.co/spaces/SimianLuo/Latent_Consistency_Model

BIG-EX | Machine Learning, Big Data & Data Science

26 Oct, 13:31


В этой статье автор напишет простую импульсную нейронную сеть, используя NumPy и Pandas, для классической задачи машинного обучения с использованием кодирования рецептивными полями.

👉 Ссылка на статью

BIG-EX | Machine Learning, Big Data & Data Science

24 Oct, 13:30


В этой статье мы поделимся примером первого практического применения Продвинутой Аналитики в процессах стратегического бизнес-планирования численности ресурсов Сети для привлечения клиентов Юридических Лиц.

👉Ссылка на статью

BIG-EX | Machine Learning, Big Data & Data Science

23 Oct, 13:31


В данной статье автор покажет основные этапы создания игры, где пользователь выбирает роль (Х или О), играя с компьютером.

👉 Ссылка на статью

BIG-EX | Machine Learning, Big Data & Data Science

22 Oct, 13:30


LLocalSearch — это полностью локально работающий поисковый агрегатор с использованием агентов LLM.

Пользователь может задать вопрос, и система будет использовать цепочку LLM для поиска ответа.

Github

BIG-EX | Machine Learning, Big Data & Data Science

21 Oct, 13:31


В этой статье автор расскажет, как сделали облачное хранилище понятным и структурированным источником информации для Hoff, и почему надежность хранилища определяется качеством системы оповещений, то есть алертингом.

👉 Ссылка на статью

BIG-EX | Machine Learning, Big Data & Data Science

20 Oct, 13:31


Griffin соответствует производительности Llama-2, несмотря на то, что он обучен более чем в 6 раз меньшему количеству токенов.

Он может экстраполировать последовательности, значительно более длинные, чем те, которые наблюдались во время обучения.

Статья: arxiv.org/abs/2402.19427

Версия 2B на hugging face: huggingface.co/google/recurrentgemma-2b

BIG-EX | Machine Learning, Big Data & Data Science

19 Oct, 13:31


Qwen — создан на массивной языковой модели и был обучен на ошеломляющих 3 триллионах токенов многоязычных данных.

Это чудо искусственного интеллекта понимает как английский, так и китайский язык, и было точно настроено для взаимодействия, подобного человеческому.

📎Перевод инструкции по установке

GitHub

BIG-EX | Machine Learning, Big Data & Data Science

18 Oct, 13:31


Open-Sora-Plan версии 1.0.0 - модель генерации, которая может генерировать 10-секундное видео с разрешением 1024 × 1024 со скоростью 24 кадра в секунду.

Этот проект направлен на создание простого и масштабируемого репозитория для воспроизведения Sora.

Github

BIG-EX | Machine Learning, Big Data & Data Science

17 Oct, 13:30


Большая мультимодальная модель с расширенной памятью для понимания контекста длинных видео.

Модель позволяет использовать длинный контекст за счет существенного сокращения использования памяти графического процессора.

proj: https://boheumd.github.io/MA-LMM/

repo: https://github.com/boheumd/MA-LMM

abs: https://arxiv.org/abs/2404.05726

BIG-EX | Machine Learning, Big Data & Data Science

16 Oct, 13:30


Основанный на входном градиенте аналог LASSO для нейронных сетей, называемый Deep Lasso, превосходит классические методы выбора признаков при решении сложных задач, таких как выбор из поврежденных признаков или признаков второго порядка.

Github: https://github.com/vcherepanova/tabular-feature-selection

Paper: https://arxiv.org/pdf/2311.05877v1.pdf

Tasks: https://paperswithcode.com/task/feature-selection

BIG-EX | Machine Learning, Big Data & Data Science

15 Oct, 13:03


В этой статье автор расскажет, почему ни одна система не обладает достойным функционалом пользовательского графического интерфейса из коробки, и почему в части GUI-интерфейса администрирования встречаются вполне интересные и зрелые решения, закрывающие большинство требований, а также вы узнаете почему некоторые популярные системы имеют сильно урезанный функционал в так называемой бесплатной community edition.

👉 Ссылка на статью

BIG-EX | Machine Learning, Big Data & Data Science

14 Oct, 13:31


Makani — это экспериментальная библиотека, предназначенная для исследования и разработки моделей погоды и климата на основе машинного обучения в PyTorch.

Среди прочего, Makani использовался для обучения сферических нейронных операторов Фурье (SFNO) и адаптивных нейронных операторов Фурье (AFNO) на датасете ERA5. Makani основан на PyTorch и поддерживает различные формы параллелизма моделей и данных, асинхронную загрузку данных, непредсказуемые каналы, авторегрессионное обучение и многое другое.

Github: https://github.com/NVIDIA/makani

Blog: https://developer.nvidia.com/blog/modeling-earths-atmosphere-with-spherical-fourier-neural-operators/

Dataset: https://github.com/NVIDIA/makani/tree/main/datasets

BIG-EX | Machine Learning, Big Data & Data Science

12 Oct, 13:30


CameraCtrl - модель, которая обеспечивает точное управление положением камеры, что позволяет точно контролировать ракурсы и движения камеры при генерации видео.

Результаты экспериментов демонстрируют эффективность CameraCtrlв достижении точного и адаптируемого к предметной области управления камерой, что знаменует собой шаг вперед в стремлении к динамичному и индивидуальному видеоповествованию на основе текстовых данных и позы камеры.

Github: https://github.com/hehao13/CameraCtrl

Paper: http://arxiv.org/abs/2404.02101

Project: https://hehao13.github.io/projects-CameraCtrl/

Weights: https://huggingface.co/hehao13/CameraCtrl/tree/main

BIG-EX | Machine Learning, Big Data & Data Science

11 Oct, 13:31


Video-LLaVA демонстрирует замечательные возможности интерактивного взаимодействия между изображениями и видео, несмотря на отсутствие пар изображение-видео в наборе данных.

Github: https://github.com/PKU-YuanGroup/Video-LLaVA

Demo: https://huggingface.co/spaces/LanguageBind/Video-LLaVA

Paper: https://arxiv.org/abs/2311.10122v1

Dataset: https://paperswithcode.com/dataset/mmbench

BIG-EX | Machine Learning, Big Data & Data Science

10 Oct, 13:31


Новая модель ChatAnything, которая способна придать жизнь разнообразным объектам, будь то животное, фрукт, монстр или даже ваше собственное фото, создавая говорящего персонажа. При помощи нейронных сетей и алгоритмов текст в речь, программа автоматически выбирает наиболее подходящий тон и настроение для созданного персонажа.

Простой конвейер, дополненный безграничными на данный момент моделями большого языка, позволяющий создавать воображаемые чаты Facetime с заданным визуальным внешним видом.

Github: https://github.com/zhoudaquan/ChatAnything

Paper: https://arxiv.org/abs/2311.06772

Model: https://github.com/zhoudaquan/ChatAnything/blob/main/python_scripts/prepare_models.py

BIG-EX | Machine Learning, Big Data & Data Science

09 Oct, 16:54


В этой статье автор расскажет, что и в какой степени влияет на качество моделей, а также для дата-сайентистов приведет код Python, который был использован для получения картинок в задании.

👉 Ссылка на статью

BIG-EX | Machine Learning, Big Data & Data Science

08 Oct, 13:30


DINO-Tracker — новая платформу для долгосрочного плотного отслеживания видео.

Основой нашего подхода является сочетание обучения во время тестирования на одном видео с мощными локализованными семантическими функциями, изученными с помощью предварительно обученной модели DINO-ViT.

Github: https://github.com/AssafSinger94/dino-tracker

Project: https://dino-tracker.github.io/

Paper: https://arxiv.org/abs/2403.14548

BIG-EX | Machine Learning, Big Data & Data Science

07 Oct, 13:30


Arc2Face — модель основы лица с идентичностью, которая, учитывая встраивание человека в ArcFace, может генерировать разнообразные фотореалистичные изображения с беспрецедентной степенью сходства лиц, чем существующие модели.

Arc2Face для управления генерацией нужны только отличительные функции ArcFace, предлагая надежную основу для множества задач, где согласованность идентификаторов имеет первостепенное значение.

Github: https://github.com/foivospar/Arc2Face

Project: https://arc2face.github.io

Demo: https://huggingface.co/spaces/FoivosPar/Arc2Face

Paper: https://arxiv.org/abs/2403.11641

BIG-EX | Machine Learning, Big Data & Data Science

06 Oct, 13:31


SDXL Turbo: Модель генерации текста в изображение в режиме реального времени.

SDXL-Turbo основан на новом методе обучения под названием «Состязательная диффузионная дистилляция», который позволяет отбирать крупномасштабные базовые модели диффузии изображений за 1–4 шага с высоким качеством изображения.

Этот подход использует дистилляцию оценок для использования крупномасштабных готовых моделей диффузии изображений в качестве сигнала учителя и сочетает это с состязательными потерями для обеспечения высокой точности изображения даже в низкошаговом режиме с одним или двумя шагами выборки.

Code: https://stability.ai/news/stability-ai-sdxl-turbo

Demo: https://clipdrop.co/stable-diffusion-turbo

Model weights → https://huggingface.co/stabilityai/sdxl-turbo

Paper:https://stability.ai/research/adversarial-diffusion-distillation

BIG-EX | Machine Learning, Big Data & Data Science

05 Oct, 13:30


LaVague — это проект с открытым исходным кодом, предназначенный для автоматизации рутинных задач от имени своих пользователей.

Github: https://github.com/lavague-ai/LaVague

Docs: https://docs.lavague.ai/en/latest/docs/

Colab: https://colab.research.google.com/github/lavague-ai/LaVague/blob/main/docs/docs/get-started/quick-tour.ipynb

BIG-EX | Machine Learning, Big Data & Data Science

04 Oct, 13:31


В этой статье автор напишет простую импульсную нейронную сеть, используя NumPy и Pandas, для классической задачи машинного обучения с использованием кодирования рецептивными полями.

👉 Ссылка на статью

BIG-EX | Machine Learning, Big Data & Data Science

03 Oct, 13:31


В сфере больших мультимодальных моделей (LMM) эффективное согласование модальностей имеет решающее значение, но часто ограничивается нехваткой высококачественных данных изображения и текста.

Чтобы устранить это узкое место, мы представляем набор данных ShareGPT4V, новаторский крупномасштабный ресурс, содержащий 1,2 миллиона высокоописательных подписей, который превосходит существующие наборы данных по разнообразию и информативности, охватывая мировые знания, свойства объектов, пространственные отношения и эстетические оценки.

ShareGPT4V создан на основе 100 тысяч высококачественных подписей, собранных с помощью усовершенствованного GPT4-Vision, и был расширен до 1,2 миллиона с помощью превосходной модели подписей, обученной на этом подмножестве.

Code: https://github.com/InternLM/InternLM-XComposer/tree/main/projects/ShareGPT4V

Project: https://sharegpt4v.github.io/

Demo: https://huggingface.co/spaces/Lin-Chen/ShareGPT4V-7B

Paper: https://arxiv.org/pdf/2311.12793.pdf

Dataset: https://huggingface.co/datasets/Lin-Chen/ShareGPT4V

BIG-EX | Machine Learning, Big Data & Data Science

02 Oct, 13:31


CycleGAN-Turbo — общий метод адаптации одношаговой диффузионной модели, такой как SD-Turbo, к новым задачам и областям посредством состязательного обучения.

Это позволяет нам использовать внутренние знания предварительно обученных моделей диффузии, одновременно достигая эффективного вывода.

Paper: https://arxiv.org/abs/2403.12036

Code: https://github.com/GaParmar/img2img-turbo

Demo: http://huggingface.co/spaces/gparmar/img2img-turbo-sketch

BIG-EX | Machine Learning, Big Data & Data Science

01 Oct, 13:31


Мы представляем новое применение эволюционных алгоритмов для автоматизации создания мощных базовых моделей.

Хотя слияние моделей стало многообещающим подходом для развития LLM из-за его экономической эффективности, в настоящее время оно опирается на человеческую интуицию и знание предметной области, что ограничивает его потенциал.

Авторы используют эволюционные алгоритмы для поиска лучших способов объединения моделей с открытым исходным кодом для автоматического создания новых мощных моделей с заданными пользователем возможностями!

Blog: https://sakana.ai/evolutionary-model-merge/

Paper: https://arxiv.org/abs/2403.13187

BIG-EX | Machine Learning, Big Data & Data Science

30 Sep, 13:31


Эта платформа уникальным образом использует функции видео в качестве входных данных для создания соответствующей музыки с использованием архитектуры Transformer.

Используя передовые технологии, наша система призвана предоставить создателям видео простое и эффективное решение для создания индивидуальной фоновой музыки.

Github: https://github.com/amaai-lab/video2music

Paper: https://arxiv.org/abs/2311.00968v1

Demo: https://llmrec.github.io/

Dataset: https://zenodo.org/records/10057093