BigData

@bigdata_1

Data Science : Big Data : Machine Learning : Deep Learning. По всем вопросам @evgenycarter

BigData

16 Oct, 04:32

Deep Learning Tuning Playbook

This document is for engineers and researchers (both individuals and teams) interested in maximizing the performance of deep learning models.

Этот репозиторий-книга от специалистов Google Research с практическими советами по максимальному повышению производительности моделей глубокого обучения.

Github https://github.com/google-research/tuning_playbook#who-is-this-document-for

Reddit https://www.reddit.com/r/MachineLearning/comments/10gxtao/d_deep_learning_tuning_playbook_recently_released/

👉 @bigdata_1

321

BigData

14 Oct, 05:49

CS224W: Machine Learning with Graphs Free Course from Stanford

https://www.youtube.com/playlist?list=PLoROMvodv4rPLKxIpqhjhPgdQy7imNkDn

👉 @bigdata_1

378

BigData

12 Oct, 17:04

Msanii: High Fidelity Music Synthesis on a Shoestring Budget

Model combines the expressiveness of mel spectrograms, the generative capabilities of diffusion models, and the vocoding capabilities of neural vocoders.

Новая модель на основе диффузии для эффективного синтеза длинной музыки высокого качества.

pip install -q git+https://github.com/Kinyugo/msanii.git

🖥

Github: https://github.com/kinyugo/msanii

⭐️

Demo: https://kinyugo.github.io/msanii-demo/

⭐️

Colab: https://colab.research.google.com/github/Kinyugo/msanii/blob/main/notebooks/msanii_demo.ipynb

✅️

Paper: https://arxiv.org/abs/2301.06468

🤗Hugging face: https://huggingface.co/spaces/kinyugo/msanii

👉 @bigdata_1

474

BigData

11 Oct, 14:00

#вакансия #удалённо #parttime #преподаватель #Kafka #spark #ML #MLOps

Время делиться знаниями!

OTUS – образовательная платформа. У нас авторские курсы разной степени сложности, вступительное тестирование для студентов и преподаватели-практики из крупнейших компаний. 7 лет мы учимся друг у друга, советуемся, помогаем, делимся опытом и обсуждаем новости как в преподавании, так и в IT.

Вакансия преподаватель на онлайн-курсы:
- Machine Learning Advanced
- Apache Kafka
- Data Engineer
- Spark developer
- MLOps

Требуется практический опыт по темам курса. Можно без опыта преподавания, мы поможем вам освоить практики преподавания.

Преподаватель раскрывает тему с помощью теории и примеров из практики. Занятия проводятся c 20:00 до 21:30. Можно выбирать комфортную нагрузку и темы из программы курса. Материалы к занятиям есть.

С нами вы сможете ✅
- структурировать свой опыт и знания;
- прокачать софт-скиллы;
- получать от 4000 до 6000 руб. за один вебинар (полтора часа) + от 300 до 400 руб. за одно проверенное домашнее задание.

Бонусы 🎁
- наши курсы со скидкой/бесплатно;
- можно приглашать лучших выпускников к себе на работу;
- воркшопы и конференции для наших преподавателей.

Обсудить подробнее: @HR_Nikita

444

BigData

11 Oct, 10:37

Основы Data Science: от Numpy до PostgreSQL
Хочешь освоить ключевые инструменты анализа данных? Этот тренажер — твоё лучшее начало для погружения в Data Science!

Что ты изучишь:
- Основы Python и работу с мощными библиотеками Numpy и Pandas.
- Математические основы для Data Science, включая регрессию, классификацию и кластеризацию.
- Работа с базами данных с использованием SQL и PostgreSQL.
- Практические задания и проекты для портфолио, которые подготовят тебя к реальным задачам.

Кому подойдет курс - тренажер?
1.Новичкам в аналитике данных и тем, кто хочет развиваться в сторону ML-инженера.
2.Администраторам баз данных, которые стремятся автоматизировать задачи и повысить эффективность управления данными.
3.Инженерам данных, которым нужно улучшить навыки предобработки данных для машинного обучения.

Как изменится твоя работа
📊Аналитики данных:
До курса: Затруднения с обработкой больших объемов данных, выполнение задач вручную.
После курса: Эффективная работа с Numpy и Pandas, умение визуализировать данные с помощью MatPlotLib, выполнение SQL-запросов для работы с базами данных.
💻Администраторы баз данных:
До курса: Отсутствие автоматизации и инструментов для анализа данных.
После курса: Автоматизация рутинных задач, уверенная работа с SQL и PostgreSQL, создание визуальных отчетов.
🛠Инженеры данных:
До курса: Сложности с предобработкой данных для ML-моделей.
После курса: Быстрая и эффективная обработка данных с Numpy и Pandas, умение визуализировать результаты и работать с PostgreSQL.

🎓 Первый урок доступен бесплатно в демо - доступе

В демо-версии курса ты познакомишься с библиотекой Numpy: научишься создавать и редактировать массивы, работать с изображениями и применять этот навык для решения задач в любой области работы с данными и решишь более 6 практических задач!

Регистрация на демо-доступ

Реклама. Информация о рекламодателе

403

BigData

11 Oct, 05:13

Image Similarity with Hugging Face Datasets and Transformers

In this post, you'll learn to build an image similarity system wich Transformers.

Полезная статья, с которой вы создадите систему поиска сходства изображений с помощью Transformers. Можно немного попрактиковаться и попробовать другие модели.

Huggingface https://huggingface.co/blog/image-similarity
Github https://github.com/huggingface/blog/blob/main/image-similarity.md
Colab https://colab.research.google.com/github/huggingface/notebooks/blob/main/examples/image_similarity.ipynb

👉 @bigdata_1

400

BigData

10 Oct, 22:11

Neural Deferred Shading

Новая быстрая многоракурсная 3D-реконструкция с произвольными объектами и настраиваемым освещением.

🖥

Github: github.com/fraunhoferhhi/neural-deferred-shading

⭐️

Project: fraunhoferhhi.github.io/neural-deferred-shading

✅️

Paprer: https://mworchel.github.io/assets/papers/neural_deferred_shading_with_supp.pdf

⏩

Pyremesh : https://github.com/sgsellan/botsch-kobbelt-remesher-libigl

❤️

Video: https://www.youtube.com/watch?v=nIqmuylmpFY

👉 @bigdata_1

408

BigData

10 Oct, 09:57

⁉️ Открытый урок «Методы сегментации в рекомендациях»

🗓 17 октября в 20:00 МСК
🆓 Бесплатно. Урок в рамках старта курса «Рекомендательные системы» от Otus.

На вебинаре разберем:

✔️ как использовать RFM-анализ, методы кластеризации и look-a-like моделирование;
✔️ как применять аналитические и машинные методы для сегментации клиентов;
✔️ примеры практического применения этих методов в реальных задачах.

🔗 Ссылка для регистрации на урок: https://vk.cc/cChFnb

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

437

BigData

06 Oct, 10:06

Audio-Visual Efficient Conformer for Robust Speech Recognition

Улучшенный метод чтения по губам, с помощью архитектуры Conformer Connectionist Temporal Classification (CTC) для обработки аудио и видео.

🖥 Github https://github.com/burchim/avec
✔️ Paper https://arxiv.org/abs/2301.01456
🔥Notebook https://colab.research.google.com/github/burchim/AVEC/blob/master/demo.ipynb
🚀 Models https://github.com/burchim/avec#Models

👉 @bigdata_1

565

BigData

04 Oct, 12:28

🤖

Готовы ли вы стать специалистом по персонализации и рекомендациям?

Мы разработали профессиональный онлайн-курс «Рекомендательные системы», для специалистов в области ML и DS, которые хотят расширить свои компетенции в области рекомендательных систем.

Приходите на открытый урок курса 17 октября в 20:00 мск.

Тема: «Методы сегментации в рекомендациях».

На уроке разберем:

➡️ как использовать RFM-анализ, методы кластеризации и look-a-like моделирование;
➡️ как применять аналитические и машинные методы для сегментации клиентов;
➡️ примеры практического применения этих методов в реальных задачах.

🔗 Ссылка для регистрации на урок: https://vk.cc/cBV7Zi

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

568

BigData

04 Oct, 09:24

ObjectFolder 2.0: A Multisensory Object Dataset for Sim2Real Transfer

Github: https://github.com/rhgao/objectfolder

Paper: https://arxiv.org/abs/2204.02389v1

Project: https://ai.stanford.edu/~rhgao/objectfolder2.0/

Dataset: https://paperswithcode.com/dataset/objectfolder

👉 @bigdata_1

474

BigData

27 Sep, 08:01

Интернет вещей -- "новый черный" в высоких технологиях. Мы начинаем "привыкать к хорошему", и вау-эффект сменяется "а, значит можно так было?!" Технологии с использованием индустриальных IoT-решений приходят и в такие глобальные отрасли экономики, как строительство и транспорт.
О том, что транспортная отрасль сталкивается с рядом вызовов, говорили эксперты и участники рынка на Форуме "Цифровая транспортация 2024" @dtla_ru в технологическом кластере "Ломоносов".
В рамках его мероприятий было запущено движение беспилотных грузовиков по трассе М-11, а РЖД и партнёры представили итоги внедрения Интернета вещей.
ГК "ИНСПАРК" @InsparkGroup разработчик отечественной Inspark.IoT Platform, продемонстрировал, насколько прозрачными и управляемыми могут стать такие важнейшие объекты инфраструктуры, как железнодорожный мост, компрессорная станция, участки пути. Их "цифровые двойники" уже передают массивы данных для онлайн -мониторинга обслуживающим специалистам.
По словам Олега Крупенко, генерального директора ГК "ИНСПАРК", скоро
цифровое проектирование по ТИМ-модели и работа с "цифровыми двойниками" станут "золотым стандартом" при проектировании и эксплуатации транспортных объектов такого масштаба.

Больше новостей Интернета вещей / IoT-технологий 🔜 @InsparkGroup

736

BigData

27 Sep, 06:01

PACO: Parts and Attributes of Common Objects

Meta опубликовала огромный датасет. PACO — это набор данных, содержащий 641 000 аннотированных объектов и их и частей .

🖥 Github https://github.com/facebookresearch/paco

⭐️ Paper https://arxiv.org/abs/2301.01795v1

👉 @bigdata_1

606

BigData

26 Sep, 20:25

ConvNeXt V2

Meta выпустила ConvNeXt V2 на PyTorch для 8 видов моделей (Atto, Femto, Pico, Nano, Tiny, Base, Large, Huge), код обученной модели, настройки и веса (преобразованные из весов JAX, обученных на TPU) для ConvNeXt V2. х. ConvNets работал лучше, чем Трансформеры для задач компьютерного зрения, а ConvNeXt V2, значительно превосходит производительность сетей ConvNet на тестах.

🖥 Github: https://github.com/facebookresearch/convnext-v2

⭐️ Paper: https://arxiv.org/abs/2301.00808v1

⏩ Dataset: https://paperswithcode.com/dataset/coco

👉 @bigdata_1

621

BigData

26 Sep, 10:00

👀Хотите освоить инструменты для построения и применения моделей машинного обучения на больших наборах данных?

Ждем вас на открытом вебинаре 8 октября в 20:00 мск, где мы разберем:

- обзор возможностей Spark;

- как разрабатывать модели на Spark ML;

- как выводить модели в промышленное использование.

Урок для инженеров данных, ML-инженеров и Data Scientist'ов.

Спикер Вадим Заигрин — опытный разработчик, Data Engineer и Data Scientist. Team Lead команд инженеров данных на разных проектах.

Встречаемся в преддверии старта курса «Spark Developer».

Все участники вебинара получат специальную цену на обучение!

▶️Регистрируйтесь прямо сейчас, чтобы не пропустить мероприятие: https://vk.cc/cBpoDS

553

BigData

26 Sep, 09:55

The Forward-Forward Algorithm: Some Preliminary Investigations

Цель этой статьи — представить новую процедуру обучения для нейронных сетей и продемонстрировать, что она работает хорошо на нескольких небольших задачах и заслуживает внимания для дальнейшего изучения. Алгоритм Forward-Forward заменяет метод прямого распространения и метод обратного распространения двумя прямыми проходами, один с положительными (то есть реальными) данными, а другой с отрицательными данными, которые сгенерированы самой сетью. Forward-Forward не требует вычисления функции потерь по отношению к параметрам сети. Вместо этого каждый шаг оптимизации может выполняться локально, а веса каждого слоя могут обновляться сразу же после того, как слой отработал.

git clone https://github.com/nebuly-ai/nebullvm.git
cd nebullvm/apps/accelerate/forward_forward

🖥

Github: https://github.com/nebuly-ai/nebullvm/tree/main/apps/accelerate/forward_forward

⭐️

Paper: https://arxiv.org/abs/2212.13345v1

⏩

Dataset: https://paperswithcode.com/dataset/cifar-10

👉 @bigdata_1

530

BigData

25 Sep, 21:22

Orion

Проект с открытым исходным кодом от Data до AI Lab от MIT.
Orion — это библиотека машинного обучения, созданная для обнаружения аномалий во временных рядах.

pip install orion-ml

🖥 Github: https://github.com/sintel-dev/orion

⭐️ Notebooks: https://drive.google.com/drive/folders/1FAcCEiE1JDsqaMjGcmiw5a5XuGh13c9Q?usp=sharing

✅ Paper: https://arxiv.org/abs/2212.13558v1

⏩ Docs: https://sintel.dev/Orion/

⏩ Datalab: https://dai.lids.mit.edu/

👉 @bigdata_1

558

BigData

25 Sep, 10:01

🤖 Интересуетесь Data Science и Machine Learning? Изучите модели матричной факторизации на примере ALS и BPRMF.

На занятии мы познакомимся с коллаборативной фильтрацией, рассмотрим особенности обучения моделей ALS и BPRMF.

а именно:

➡️ Познакомимся с популярным подходом к построению рекомендательных систем: collaborative filtering.
➡️ Изучим архитектуру моделей ALS и BPRMF.
➡️ Рассмотрим особенности функций потерь, которые используются для обучения этих моделей.
➡️ Применим модели ALS и BPRMF на практике.

📆

Дата и время: 3 октября в 20:00 мск

Участие бесплатное

Занятие проходит в преддверии старта курса «Рекомендательные системы».
Все участники вебинара получат специальную цену на обучение и персональную консультацию от менеджеров OTUS!

👉

Регистрируйтесь прямо сейчас, чтобы не пропустить урок: https://vk.cc/cBlw0A

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

554

BigData

25 Sep, 07:37

Language Models are Few-shot Multilingual Learners

Github: https://github.com/gentaiscool/few-shot-lm

Paper: https://arxiv.org/abs/2109.07684v1

👉 @bigdata_1

526

BigData

23 Sep, 06:01

JRBD: Egocentric Perception of Humans

Стэнфорд JRDB-Pose: набор размеченных данных с более чем 600 000 позами тел.

⭐️ Dataset: https://jrdb.erc.monash.edu/

🖥 Github: https://github.com/JRDB-dataset/jrdb_toolkit/

⏩ JRDB-Pose: https://jrdb.erc.monash.edu/dataset/pose#toolkit

✅ Paper: arxiv.org/pdf/1910.11792.pdf

👉 @bigdata_1

637