BigData @bigdata_1 Channel on Telegram

BigData

@bigdata_1


Data Science : Big Data : Machine Learning : Deep Learning. По всем вопросам @evgenycarter

BigData (Russian)

Добро пожаловать в наш канал BigData! Здесь мы обсуждаем темы, связанные с Data Science, Big Data, Machine Learning и Deep Learning. Если вы интересуетесь анализом данных, исследованиями больших объемов информации или разработкой алгоритмов машинного обучения, то вы попали по адресу! На нашем канале вы найдете полезные статьи, новости, обзоры и многое другое, что поможет вам расширить свои знания в области Big Data. Наша цель - делиться информацией, вдохновлять и помогать другим учиться. Если у вас есть вопросы, не стесняйтесь обращаться к администратору канала @evgenycarter. Присоединяйтесь к нам и станьте частью нашего сообщества BigData уже сегодня!

BigData

14 Jan, 05:17


👁 EdgeYOLO: An Edge-Real-Time Object Detector

EdgeYOLO reaches 34FPS with 50.6% AP in COCO2017 dataset and 25.9% AP in VisDrone2019 (image input size is 640x640, batch=16, post-process included).

Новый детектор обнаружения небольших объектов с высокой точностью, не требующий больших вычислительных мощностей.

🖥 Github: https://github.com/lsh9832/edgeyolo

⭐️Paper: https://arxiv.org/abs/2302.07483v1

⭐️ Weights: https://github.com/LSH9832/edgeyolo/releases/tag/v0.0.0

💻 Dataset: https://paperswithcode.com/dataset/visdrone

👉 @bigdata_1

BigData

12 Jan, 20:17


3D-aware Conditional Image Synthesis (pix2pix3D)

Model synthesizes a 3d photo from different viewpoints.

3D генеративная модель для управляемого синтеза фотореалистичных изображений.

🖥 Github: https://github.com/dunbar12138/pix2pix3D

⭐️ Project: https://huggingface.co/TencentARC/T2I-Adapter

⭐️Paper: https://arxiv.org/abs/2302.08509

💻 Dataset: https://paperswithcode.com/dataset/coco

👉 @bigdata_1

BigData

06 Jan, 08:26


LEGO-Net: Learning Regular Rearrangements of Objects in Rooms

Model takes an input messy scene and attempts to clean the scene via iterative denoising.

LEGO-Net итеративный метод обучения регулярной перестановке объектов в захламленных комнатах.

💨 Project: https://ivl.cs.brown.edu/#/projects/lego-net

✅️ Paper: https://arxiv.org/pdf/2301.09629.pdf

👉 @bigdata_1

BigData

30 Dec, 10:08


Time-series Transformer Generative Adversarial Networks

Github: https://github.com/jsyoon0823/TimeGAN

Paper: https://arxiv.org/abs/2205.11164v1

Stock data: https://finance.yahoo.com/quote/GOOG/history

Energy data: http://archive.ics.uci.edu/ml/datasets/Appliances+energy+prediction

👉 @bigdata_1

BigData

28 Dec, 08:35


Cleanlab

Стандартный пакет ИИ, ориентированный на данные, для обеспечения качества данных и машинного обучения с использованием беспорядочных, реальных данных и меток.

👣 Docs: https://docs.cleanlab.ai/

📌 Examples: https://github.com/cleanlab/examples

Paprer: https://arxiv.org/abs/2211.13895v1

⭐️ Datasets: https://paperswithcode.com/dataset/celeba

https://github.com/cleanlab/cleanlab

👉 @bigdata_1

BigData

26 Dec, 07:58


Optimizing Relevance Maps of Vision Transformers Improves Robustness

This code allows to finetune the explainability maps of Vision Transformers to enhance robustness.

Github: https://github.com/hila-chefer/robustvit

Colab: https://colab.research.google.com/github/hila-chefer/RobustViT/blob/master/RobustViT.ipynb

Paper: https://arxiv.org/abs/2206.01161

Dataset: https://github.com/UnsupervisedSemanticSegmentation/ImageNet-S

👉 @bigdata_1

BigData

21 Dec, 12:53


DeepFilterNet

A Low Complexity Speech Enhancement Framework for Full-Band Audio (48kHz) using on Deep Filtering.

Github: https://github.com/rikorose/deepfilternet

Paper: https://arxiv.org/abs/2205.05474v1

Demo: https://huggingface.co/spaces/hshr/DeepFilterNet2

👉 @bigdata_1

BigData

18 Dec, 05:48


🔥 Шпаргалка по машинному обучению!

В этой шпаргалке выделены следующие ключевые направления:

Регрессия: OLS, SVM, Random Forest
Классификация: Naive Bayes, Decision Tree, нейронные сети
Кластеризация: K-Means, DBSCAN
Компьютерное зрение: CNN, YOLO, GANs
NLP/LLM: GPT, BERT, Word2Vec
Рекомендательные системы, прогнозирование

👉 @bigdata_1

BigData

17 Dec, 10:24


Benchmarking Omni-Vision Representation through the Lens of Visual Realms

Github: https://github.com/ZhangYuanhan-AI/OmniBenchmark

Project: https://zhangyuanhan-ai.github.io/OmniBenchmark

Paper: https://arxiv.org/abs/2207.07106v1

Competition: https://codalab.lisn.upsaclay.fr/competitions/6043

👉 @bigdata_1

BigData

13 Dec, 10:01


💭 Speech Synthesis, Recognition, and More With SpeechT5

Новая модель для синтеза и распозновании речи SpeechT5 от huggingface.

преобразование речи в текст для автоматического распознавания речи и идентификации говорящего
преобразование текста в речь для синтеза звука
речь в речь для преобразования речи в разные голоса или улучшения речи.

🖥 Github: https://huggingface.co/blog/speecht5

💨 Demo: https://huggingface.co/spaces/Matthijs/speecht5-asr-demo

🗣 Voice Conversion: https://huggingface.co/spaces/Matthijs/speecht5-vc-demo

🗳Automatic Speech Recognition: https://huggingface.co/spaces/Matthijs/speecht5-asr-demo

👉 @bigdata_1

BigData

13 Dec, 08:00


🔥Хотите повысить производительность работы с большими данными?

🦾 Ваша база знаний начинается с Cassandra!

Присоединяйтесь к открытому уроку «Интеграция Cassandra с приложениями».

Дата: 18 декабря в 20:00 мск

Cassandra — одна из самых востребованных NoSQL-баз для высоконагруженных систем. На уроке вы узнаете, как интегрировать её с приложениями и BI-инструментами, работать с данными и создавать простое приложение для Cassandra.

Вы сможете освоить технику загрузки больших объемов данных, изучите, как приложения могут эффективно взаимодействовать с базами на Cassandra, и получите важные навыки в аналитике!

🔗 Ссылка на регистрацию: https://vk.cc/cFXX87

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru

BigData

12 Dec, 21:00


PEFT: Parameter-Efficient Fine-Tuning of Billion-Scale Models on Low-Resource Hardware

Parameter-Efficient Fine-Tuning (PEFT) methods enable efficient adaptation of pre-trained language models (PLMs) to various downstream applications without fine-tuning all the model's paramete

PEFT позволяют добиться высокой производительности моделей на слабом железе, с небольшым количество обучаемых данных, .

🖥 Github: https://github.com/huggingface/peft

💨 Hugging Face: https://huggingface.co/blog/peft

🖥 Colab: https://colab.research.google.com/drive/1jCkpikz0J2o20FBQmYmAGdiKmJGOMo-o

👉 @bigdata_1

BigData

04 Dec, 10:25


In-N-Out: Face Video Inversion and Editing with Volumetric Decomposition

The core idea is to represent the face in a video using two neural radiance fields, one for in-distribution and the other for out-of-distribution data, and compose them together for reconstruction.

Новая модель от Adobe Research, для редактирования видео с поддержкой 3D, позволяет манипулировать объектами в условиях сдвига данных. (OOD generalization).

⭐️ Project: https://in-n-out-3d.github.io/

✅️ Paper: https://arxiv.org/abs/2302.03668v1

👉 @bigdata_1

BigData

27 Nov, 13:01


Hard Prompts Made Easy: Discrete Prompt Tuning for Language Models

From a given image, we first optimize a hard prompt using the PEZ algorithm and CLIP encoder.

Модель для преобразование изображений в текстовые подсказки для стабильной диффузии.

Автоматически генерирует текстовые подсказки как для преобразования текста в изображение, так и для преобразования текста в текст.

🖥 Github: https://github.com/YuxinWenRick/hard-prompts-made-easy

🖥 Colab: https://colab.research.google.com/drive/1VSFps4siwASXDwhK_o29dKA9COvTnG8A?usp=sharing

✅️ Paper: hhttps://arxiv.org/abs/2302.03668v1

⭐️ Dataset: https://paperswithcode.com/dataset/ag-news

👉 @bigdata_1

BigData

27 Nov, 11:02


🔥 Почему Cassandra становится выбором лидеров в мире больших данных?

На открытом вебинаре 4 декабря в 20:00 мск мы расскажем все о ее возможностях!

Cassandra — это не просто база данных. Это мощный инструмент для работы с большими объемами данных, масштабирования и обеспечения высокой доступности. Узнайте, почему она настолько популярна и как используется в разных отраслях.

💡 Реальные кейсы, примеры внедрения, уникальные преимущества — вебинар поможет вам понять, как именно Cassandra может улучшить управление данными и сэкономить ресурсы.

Вебинар пройдет в рамках курса «Cassandra для разработчиков и администраторов», все посетители получат welcome-скидку на обучение.

🔗 Ссылка на регистрацию: https://vk.cc/cFmQI4

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru

BigData

27 Nov, 09:39


Gen-1: The Next Step Forward for Generative AI

Use words and images to generate new videos out of existing

Новейший ИИ-алгоритм Gen-1, который может изменить стиль видео по текстовому запросу или картинке.
ones.
https://research.runwayml.com/gen1

⭐️ Project: https://research.runwayml.com/gen1

✅️ Paper: https://arxiv.org/abs/2302.03011

📌Request form: https://docs.google.com/forms/d/e/1FAIpQLSfU0O_i1dym30hEI33teAvCRQ1i8UrGgXd4BPrvBWaOnDgs9g/viewform

👉 @bigdata_1

BigData

26 Nov, 13:00


Open-sources PhyCV: The First Physics-inspired Computer Vision Library

Unlike traditional algorithms that are a sequence of hand-crafted empirical rules, physics-inspired algorithms leverage physical laws of nature as blueprints.

PhyCV - новый класс алгоритмов компьютерного зрения, высокой точности, которые имитируют распространение света через физические объекты. Алгоритмы основаны на уравнениях дифракции света в оптических системах.

pip install phycv

🖥 Github: https://github.com/JalaliLabUCLA/phycv

📝 Paper: https://arxiv.org/abs/2301.12531v1

🎥 Video: https://www.youtube.com/watch?v=PJXXwXVyjdk&embeds_euri=https%3A%2F%2Fwww.imveurope.com%2F&feature=emb_logo

⭐️ Project: https://photonics.ucla.edu/2022/05/12/jalali-lab-open-sources-phycv-a-physics-inspired-computer-vision-library/

👉 @bigdata_1

BigData

26 Nov, 11:02


🎯 Данные — это золото современного бизнеса, и профессиональные дата-инженеры в цене. Хотите научиться организовывать хранение данных и выстраивать архитектуры для компаний?

⚡️ Это ваш шанс! Курс «Data Engineer» — последние дни набора на самых выгодных условиях!

Курс рассчитан на разработчиков с опытом, а вы сможете пройти вступительный тест?

🦾 Под руководством практикующих экспертов вы научитесь работать с Hadoop, ClickHouse, Yandex Cloud и многими другими системами. Изучите ключевые архитектуры, такие как Lambda и Data Lakehouse, поймёте, как строить хранилища и управлять данными, чтобы поддерживать аналитиков и бизнес-процессы.

📌Участники курса получат диплом OTUS, который ценится в ведущих компаниях. Доступ к курсу по Python включён, так что вы получите всё необходимое, чтобы стать востребованным дата-инженером!

🎁 В "Черную пятницу", скидки на курс до 15%! Подробности у менеджеров.

➡️ Проверьте свои знания, пройдите вступительный тест курс: https://vk.cc/cFk6ZI

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

BigData

26 Nov, 10:01


PyGlove: Manipulating Python Programs

Manipulating Python Programs with symbolic object-oriented programming .

PyGlove от Google - методология символьного объектно-ориентированного программирования на Python, позволяет напрямую манипулировать объектами (создание ML моделей на метаязыке), что значительно упрощает написание метапрограмм. Подробный пример efficiently_exchange_ml_ideas_as_code

pip install pyglove

🖥 Github: https://github.com/google/pyglove

📃 Docs: https://pyglove.readthedocs.io/

✅️ Paper: https://arxiv.org/abs/2302.01918v1

⭐️ Project: https://texturepaper.github.io/TEXTurePaper/

👉 @bigdata_1

BigData

26 Nov, 08:00


Почта на прокачку: как повысить защиту Microsoft Exchange и не слить чувствительные данные в сеть

Когда: 27 ноября, 11:00 по Москве📍 Регистрируйтесь на вебинар!
SuperHardio time*! Чтобы узнать, как захардкорить самое ценное и построить настоящий лабиринт для хакера, присоединяйтесь к нашему новому образовательному проекту от ИТ-экспертов Positive Technologies.

В программе:

- Что не так с типовой настройкой Microsoft Exchange 2019

- Топ-3 сценария уязвимостей

- Как ИТ-специалисту справиться с бременем ответственности за корректную работу почтового сервиса.

- Поговорим про харденинг Microsoft Exchange 2019 и особенности подхода к повышению киберустойчивости

Вебинар будет полезен архитекторам, CIO, СТО, DevOps-экспертам и техническим специалистам разных профилей. Присоединяйтесь!

*Это как "Марио тайм", время героев-экспертов харденинга

BigData

23 Nov, 11:47


TEXTure: Semantic Texture Transfer using Text Tokens

Novel method for text-guided generation, editing, and transfer of textures for 3D shapes. Leveraging a pretrained depth-to-image diffusion mode

TEXTure принимает исходный рендер и текстовое описание и рисует модель с высококачественными текстурами, используя итеративный процесс на основе диффузии.

🖥 Github: https://github.com/TEXTurePaper/TEXTurePaper

✅️ Paper: https://arxiv.org/abs/2302.01721v1

⭐️ Project: https://texturepaper.github.io/TEXTurePaper/

👉 @bigdata_1

BigData

20 Nov, 05:49


Conditional Flow Matching

Conditional Flow Matching is a fast way to train Continuous Normalizing Flow models.

🖥 Github: https://github.com/atong01/conditional-flow-matching

✅️ Paper: https://arxiv.org/abs/2302.00482v1

⭐️ Dataset: https://paperswithcode.com/dataset/celeba

👉 @bigdata_1

BigData

18 Nov, 10:47


Audio-Visual Segmentation (AVS)

AVS to estimate pixel-wise segmentation masks for all the sounding objects, no matter the number of visible sounding objects

Большой датасет и модель сегментации объектов, издающих звук на видео.

🖥 Github: https://github.com/OpenNLPLab/AVSBench

✅️ Paper: https://arxiv.org/pdf/2301.13190.pdf

⭐️ Project: https://opennlplab.github.io/AVSBench/

✅️ Dataset: http://www.avlbench.opennlplab.cn/download

🔹 Benchmark: http://www.avlbench.opennlplab.cn/

👉 @bigdata_1

BigData

13 Nov, 13:50


Moûsai: Text-to-Music Generation with Long-Context Latent Diffusion

Audio generation using diffusion models, in PyTorch.

Полнофункциональная библиотека генерации звука на PyTorch.

pip install audio-diffusion-pytorch

🖥 Github: https://github.com/archinetai/audio-diffusion-pytorch

✅️ Paper: https://arxiv.org/abs/2301.11757v1

⭐️ A-unet: https://github.com/archinetai/a-unet

👉 @bigdata_1

BigData

06 Nov, 19:27


PrimeQA: The Prime Repository for State-of-the-Art Multilingual Question Answering Research and Development

PRIMEQA supports core QA functionalities like retrieval and reading comprehension as well as auxiliary capabilities such as question generation.

PrimeQA — это репозиторий с открытым исходным кодом, который позволяет исследователям и разработчикам легко обучать мультиязычные модели ответов на вопросы (QA).

🖥 Github: https://github.com/primeqa/primeqa

🖥 Notebooks: https://github.com/primeqa/primeqa/tree/main/notebooks

✅️ Paper: https://arxiv.org/abs/2301.09715v2

⭐️ Dataset: https://paperswithcode.com/dataset/wikitablequestions

✔️ Docs: https://primeqa.github.io/primeqa/installation.html

👉 @bigdata_1

BigData

06 Nov, 07:30


Тренажёр-практикум Python и SQL
(от NumPy и OpenCV до PostgreSQL) в аналитике данных и ML


Откройте карьерные возможности в машинном обучении и аналитике данных
- Научитесь проводить анализ больших объёмов данных.
- Создавайте интерактивные и 3D-визуализации для представления данных.
- Освойте работу с SQL-базами для хранения, модификации и извлечения данных.
- Оптимизируйте запросы и управляйте структурой данных в базах.

🫡 Для кого будет полезен этот тренажёр?

Аналитикам данных, бизнес-аналитикам и продуктовым специалистам:
Новичкам и продолжающим в области анализа и визуализации данных, которые хотят освоить ключевые инструменты для эффективного анализа и машинного обучения на практике.

Тем, кто уже знаком с Python и стремится развиваться в аналитике данных и ML:
Разработчикам и специалистам по данным, стремящимся углубить навыки обработки данных и визуализации.

Инженерам данных и всем заинтересованным:
Тем, кто сталкивается с трудностями при предобработке данных для моделей машинного обучения и хочет выстроить системный подход к работе с ними.

Тем, кто стремится автоматизировать процессы и управлять данными:
После курса вы научитесь эффективно работать с NumPy и Pandas, создавать визуализации через Matplotlib и Seaborn, а также управлять базами данных с PostgreSQL.

Примеры задач, которые вы решите в тренажёре:
- Анализ температурных данных
- Редактор изображений
- Временной анализ продаж

🎓 Попробуйте первые уроки бесплатно!
В демо-версии курса вы познакомитесь с основами библиотек NumPy, Pandas и Matplotlib, научитесь создавать и редактировать массивы, работать с изображениями и применять эти навыки для решения практических задач в разных областях.
Пройдите 6 практических заданий сразу!
PS. В демо также доступен ИИ-бот ДуДу с code review 24/7.

👉 Регистрация на демо-доступ

Реклама. Информация о рекламодателе

BigData

05 Nov, 07:54


Using LoRA for Efficient Stable Diffusion Fine-Tuning

LoRA: Low-Rank Adaptation of Large Language Models is a novel technique introduced by Microsoft researchers to deal with the problem of fine-tuning large-language models.

Новый метод, представленный исследователями Microsoft для тонкой настройки больших языковых моделей.

LoRA значительно сокращает количество параметров для обучения модели и сокращает использование памяти GPU, поскольку для большинства весов моделей не требуется вычислять градиенты.

По сравнению с GPT-3 175B, настроенным с помощью Adam, c LoRA можно уменьшить количество обучаемых параметров в 10 000 раз и затраты GPU в 3 раза.

🤗 Hugging face blog: https://huggingface.co/blog/lora

✅️ Paper: https://arxiv.org/abs/2106.09685

⭐️ Code: https://github.com/huggingface/diffusers/blob/main/examples/dreambooth/train_dreambooth_lora.py

👉 @bigdata_1

BigData

26 Oct, 11:14


StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis

StyleGAN-T, addresses the specific requirements of large-scale text-to-image synthesis, such as large capacity, stable training on diverse datasets, strong text alignment, and controllable fidelity vs. text alignment tradeoff.

StyleGAN-T новый ган для синтеза текста и изображений.

StyleGAN-T значительно превосходит предыдущие GANы и модели дистиллированной диффузии в скорости и качестве генерации текста в изображение.

🖥 Github: github.com/autonomousvision/stylegan-t

✅️ Paper: arxiv.org/pdf/2301.09515.pdf

⭐️ Project: sites.google.com/view/stylegan-t

✔️ Video: https://www.youtube.com/watch?v=MMj8OTOUIok&embeds_euri=https%3A%2F%2Fsites.google.com%2F&feature=emb_logo

🖥 Projected GAN: https://github.com/autonomousvision/projected-gan

👉 @bigdata_1

BigData

24 Oct, 13:02


⁉️Хотите повысить свою квалификацию и стать дата-инженером?

Инвестируйте в успех своей карьеры прямо сейчас начав обучение на курсе «Data Engineer» от OTUS.

После обучения вы сможете:

✔️ Разворачивать, налаживать и оптимизировать инструменты обработки данных
✔️ Адаптировать датасеты для дальнейшей работы и аналитики
✔️ Создадите сервисы, которые используют результаты обработки больших объемов данных
✔️ Принимать участие в разработке архитектуры данных в компании

➡️ Пройдите короткий тест прямо сейчас, чтобы получить специальную цену на обучение: https://vk.cc/cDb89n

🎁 А еще приятный бонус: до конца октября действует скидка 10% на обучение.

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

BigData

24 Oct, 11:20


OnePose++: One-Shot Pose

Keypoint-free one-shot object pose estimation method that handles low-textured objects without knowing CAD models.

Новый метод захвата объектов без ключевых точек, который значительно превосходит существующие методы и может работать с низкотекстурированными объектами.


🖥 Github: https://github.com/zju3dv/OnePose_Plus_Plus

✅️ Paper: https://openreview.net/pdf?id=BZ92dxDS3tO

⭐️ Project: https://zju3dv.github.io/onepose_plus_plus

Dataset: https://zjueducn-my.sharepoint.com/:f:/g/personal/12121064_zju_edu_cn/ElfJC7FiK75Hhh1CF0sPVSQBdzJpeWpOfj8TZzRuxo9PUg?e=Pbnbi8

👉 @bigdata_1

BigData

16 Oct, 04:32


Deep Learning Tuning Playbook

This document is for engineers and researchers (both individuals and teams) interested in maximizing the performance of deep learning models.

Этот репозиторий-книга от специалистов Google Research с практическими советами по максимальному повышению производительности моделей глубокого обучения.

Github https://github.com/google-research/tuning_playbook#who-is-this-document-for

Reddit https://www.reddit.com/r/MachineLearning/comments/10gxtao/d_deep_learning_tuning_playbook_recently_released/


👉 @bigdata_1

BigData

14 Oct, 05:49


CS224W: Machine Learning with Graphs Free Course from Stanford

https://www.youtube.com/playlist?list=PLoROMvodv4rPLKxIpqhjhPgdQy7imNkDn

👉 @bigdata_1

BigData

12 Oct, 17:04


Msanii: High Fidelity Music Synthesis on a Shoestring Budget

Model combines the expressiveness of mel spectrograms, the generative capabilities of diffusion models, and the vocoding capabilities of neural vocoders.

Новая модель на основе диффузии для эффективного синтеза длинной музыки высокого качества.

pip install -q git+https://github.com/Kinyugo/msanii.git

🖥 Github: https://github.com/kinyugo/msanii

⭐️ Demo: https://kinyugo.github.io/msanii-demo/

⭐️ Colab: https://colab.research.google.com/github/Kinyugo/msanii/blob/main/notebooks/msanii_demo.ipynb

✅️ Paper: https://arxiv.org/abs/2301.06468

🤗Hugging face: https://huggingface.co/spaces/kinyugo/msanii

👉 @bigdata_1

BigData

11 Oct, 14:00


#вакансия #удалённо #parttime #преподаватель #Kafka #spark #ML #MLOps

Время делиться знаниями!

OTUS – образовательная платформа. У нас авторские курсы разной степени сложности, вступительное тестирование для студентов и преподаватели-практики из крупнейших компаний. 7 лет мы учимся друг у друга, советуемся, помогаем, делимся опытом и обсуждаем новости как в преподавании, так и в IT.

Вакансия преподаватель на онлайн-курсы:
- Machine Learning Advanced
- Apache Kafka
- Data Engineer
- Spark developer
- MLOps


Требуется практический опыт по темам курса. Можно без опыта преподавания, мы поможем вам освоить практики преподавания.

Преподаватель раскрывает тему с помощью теории и примеров из практики. Занятия проводятся c 20:00 до 21:30. Можно выбирать комфортную нагрузку и темы из программы курса. Материалы к занятиям есть.

С нами вы сможете
- структурировать свой опыт и знания;
- прокачать софт-скиллы;
- получать от 4000 до 6000 руб. за один вебинар (полтора часа) + от 300 до 400 руб. за одно проверенное домашнее задание.

Бонусы 🎁
- наши курсы со скидкой/бесплатно;
- можно приглашать лучших выпускников к себе на работу;
- воркшопы и конференции для наших преподавателей.

Обсудить подробнее: @HR_Nikita

BigData

11 Oct, 10:37


Основы Data Science: от Numpy до PostgreSQL
Хочешь освоить ключевые инструменты анализа данных? Этот тренажер — твоё лучшее начало для погружения в Data Science!

Что ты изучишь:
- Основы Python и работу с мощными библиотеками Numpy и Pandas.
- Математические основы для Data Science, включая регрессию, классификацию и кластеризацию.
- Работа с базами данных с использованием SQL и PostgreSQL.
- Практические задания и проекты для портфолио, которые подготовят тебя к реальным задачам.

Кому подойдет курс - тренажер?
1.Новичкам в аналитике данных и тем, кто хочет развиваться в сторону ML-инженера.
2.Администраторам баз данных, которые стремятся автоматизировать задачи и повысить эффективность управления данными.
3.Инженерам данных, которым нужно улучшить навыки предобработки данных для машинного обучения.

Как изменится твоя работа
📊Аналитики данных:
До курса: Затруднения с обработкой больших объемов данных, выполнение задач вручную.
После курса: Эффективная работа с Numpy и Pandas, умение визуализировать данные с помощью MatPlotLib, выполнение SQL-запросов для работы с базами данных.
💻Администраторы баз данных:
До курса: Отсутствие автоматизации и инструментов для анализа данных.
После курса: Автоматизация рутинных задач, уверенная работа с SQL и PostgreSQL, создание визуальных отчетов.
🛠Инженеры данных:
До курса: Сложности с предобработкой данных для ML-моделей.
После курса: Быстрая и эффективная обработка данных с Numpy и Pandas, умение визуализировать результаты и работать с PostgreSQL.

🎓 Первый урок доступен бесплатно в демо - доступе

В демо-версии курса ты познакомишься с библиотекой Numpy: научишься создавать и редактировать массивы, работать с изображениями и применять этот навык для решения задач в любой области работы с данными и решишь более 6 практических задач!

Регистрация на демо-доступ

Реклама. Информация о рекламодателе

BigData

11 Oct, 05:13


Image Similarity with Hugging Face Datasets and Transformers

In this post, you'll learn to build an image similarity system wich Transformers.

Полезная статья, с которой вы создадите систему поиска сходства изображений с помощью Transformers. Можно немного попрактиковаться и попробовать другие модели.

Huggingface https://huggingface.co/blog/image-similarity
Github https://github.com/huggingface/blog/blob/main/image-similarity.md
Colab https://colab.research.google.com/github/huggingface/notebooks/blob/main/examples/image_similarity.ipynb

👉 @bigdata_1

BigData

10 Oct, 22:11


Neural Deferred Shading

Новая быстрая многоракурсная 3D-реконструкция с произвольными объектами и настраиваемым освещением.

🖥 Github: github.com/fraunhoferhhi/neural-deferred-shading

⭐️ Project: fraunhoferhhi.github.io/neural-deferred-shading

✅️ Paprer: https://mworchel.github.io/assets/papers/neural_deferred_shading_with_supp.pdf

Pyremesh : https://github.com/sgsellan/botsch-kobbelt-remesher-libigl

❤️Video: https://www.youtube.com/watch?v=nIqmuylmpFY

👉 @bigdata_1

BigData

10 Oct, 09:57


⁉️ Открытый урок «Методы сегментации в рекомендациях»

🗓 17 октября в 20:00 МСК
🆓 Бесплатно. Урок в рамках старта курса «Рекомендательные системы» от Otus.

На вебинаре разберем:

✔️ как использовать RFM-анализ, методы кластеризации и look-a-like моделирование;
✔️ как применять аналитические и машинные методы для сегментации клиентов;
✔️ примеры практического применения этих методов в реальных задачах.

🔗 Ссылка для регистрации на урок: https://vk.cc/cChFnb

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

BigData

06 Oct, 10:06


Audio-Visual Efficient Conformer for Robust Speech Recognition

Улучшенный метод чтения по губам, с помощью архитектуры Conformer Connectionist Temporal Classification (CTC) для обработки аудио и видео.


🖥 Github
https://github.com/burchim/avec
✔️ Paper https://arxiv.org/abs/2301.01456
🔥Notebook https://colab.research.google.com/github/burchim/AVEC/blob/master/demo.ipynb
🚀 Models https://github.com/burchim/avec#Models

👉 @bigdata_1

BigData

04 Oct, 12:28


🤖 Готовы ли вы стать специалистом по персонализации и рекомендациям?

Мы разработали профессиональный онлайн-курс «Рекомендательные системы», для специалистов в области ML и DS, которые хотят расширить свои компетенции в области рекомендательных систем.

Приходите на открытый урок курса 17 октября в 20:00 мск.

Тема: «Методы сегментации в рекомендациях».

На уроке разберем:

➡️ как использовать RFM-анализ, методы кластеризации и look-a-like моделирование;
➡️ как применять аналитические и машинные методы для сегментации клиентов;
➡️ примеры практического применения этих методов в реальных задачах.

🔗 Ссылка для регистрации на урок: https://vk.cc/cBV7Zi

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

BigData

04 Oct, 09:24


ObjectFolder 2.0: A Multisensory Object Dataset for Sim2Real Transfer

Github: https://github.com/rhgao/objectfolder

Paper: https://arxiv.org/abs/2204.02389v1

Project: https://ai.stanford.edu/~rhgao/objectfolder2.0/

Dataset: https://paperswithcode.com/dataset/objectfolder

👉 @bigdata_1

BigData

27 Sep, 08:01


Интернет вещей -- "новый черный" в высоких технологиях. Мы начинаем "привыкать к хорошему", и вау-эффект сменяется "а, значит можно так было?!" Технологии с использованием индустриальных IoT-решений приходят и в такие глобальные отрасли экономики, как строительство и транспорт.
О том, что транспортная отрасль сталкивается с рядом вызовов, говорили эксперты и участники рынка на Форуме "Цифровая транспортация 2024" @dtla_ru в технологическом кластере "Ломоносов".
В рамках его мероприятий было запущено движение беспилотных грузовиков по трассе М-11, а РЖД и партнёры представили итоги внедрения Интернета вещей.
ГК "ИНСПАРК" @InsparkGroup разработчик отечественной Inspark.IoT Platform, продемонстрировал, насколько прозрачными и управляемыми могут стать такие важнейшие объекты инфраструктуры, как железнодорожный мост, компрессорная станция, участки пути. Их "цифровые двойники" уже передают массивы данных для онлайн -мониторинга обслуживающим специалистам.
По словам Олега Крупенко, генерального директора ГК "ИНСПАРК", скоро
цифровое проектирование по ТИМ-модели и работа с "цифровыми двойниками" станут "золотым стандартом" при  проектировании и эксплуатации транспортных объектов такого масштаба.

Больше новостей Интернета вещей / IoT-технологий 🔜 @InsparkGroup

BigData

27 Sep, 06:01


PACO: Parts and Attributes of Common Objects

Meta опубликовала огромный датасет. PACO — это набор данных, содержащий 641 000 аннотированных объектов и их и частей .

🖥 Github https://github.com/facebookresearch/paco

⭐️ Paper https://arxiv.org/abs/2301.01795v1

👉 @bigdata_1

BigData

26 Sep, 20:25


ConvNeXt V2

Meta выпустила ConvNeXt V2 на PyTorch для 8 видов моделей (Atto, Femto, Pico, Nano, Tiny, Base, Large, Huge), код обученной модели, настройки и веса (преобразованные из весов JAX, обученных на TPU) для ConvNeXt V2. х. ConvNets работал лучше, чем Трансформеры для задач компьютерного зрения, а ConvNeXt V2, значительно превосходит производительность сетей ConvNet на тестах.

🖥 Github: https://github.com/facebookresearch/convnext-v2

⭐️ Paper: https://arxiv.org/abs/2301.00808v1

Dataset: https://paperswithcode.com/dataset/coco

👉 @bigdata_1

BigData

26 Sep, 10:00


👀Хотите освоить инструменты для построения и применения моделей машинного обучения на больших наборах данных?

Ждем вас на открытом вебинаре 8 октября в 20:00 мск, где мы разберем:

- обзор возможностей Spark;

- как разрабатывать модели на Spark ML;

- как выводить модели в промышленное использование.

Урок для инженеров данных, ML-инженеров и Data Scientist'ов.

Спикер Вадим Заигрин — опытный разработчик, Data Engineer и Data Scientist. Team Lead команд инженеров данных на разных проектах.

Встречаемся в преддверии старта курса «Spark Developer».

Все участники вебинара получат специальную цену на обучение!

▶️Регистрируйтесь прямо сейчас, чтобы не пропустить мероприятие: https://vk.cc/cBpoDS

BigData

26 Sep, 09:55


The Forward-Forward Algorithm: Some Preliminary Investigations

Цель этой статьи — представить новую процедуру обучения для нейронных сетей и продемонстрировать, что она работает хорошо на нескольких небольших задачах и заслуживает внимания для дальнейшего изучения. Алгоритм Forward-Forward заменяет метод прямого распространения и метод обратного распространения двумя прямыми проходами, один с положительными (то есть реальными) данными, а другой с отрицательными данными, которые сгенерированы самой сетью. Forward-Forward не требует вычисления функции потерь по отношению к параметрам сети. Вместо этого каждый шаг оптимизации может выполняться локально, а веса каждого слоя могут обновляться сразу же после того, как слой отработал.

git clone https://github.com/nebuly-ai/nebullvm.git
cd nebullvm/apps/accelerate/forward_forward

🖥 Github: https://github.com/nebuly-ai/nebullvm/tree/main/apps/accelerate/forward_forward

⭐️ Paper: https://arxiv.org/abs/2212.13345v1

Dataset: https://paperswithcode.com/dataset/cifar-10

👉 @bigdata_1

BigData

25 Sep, 21:22


Orion

Проект с открытым исходным кодом от Data до AI Lab от MIT.
Orion — это библиотека машинного обучения, созданная для обнаружения аномалий во временных рядах.

pip install orion-ml

🖥 Github: https://github.com/sintel-dev/orion

⭐️ Notebooks: https://drive.google.com/drive/folders/1FAcCEiE1JDsqaMjGcmiw5a5XuGh13c9Q?usp=sharing

Paper: https://arxiv.org/abs/2212.13558v1

Docs: https://sintel.dev/Orion/

Datalab: https://dai.lids.mit.edu/

👉 @bigdata_1

BigData

25 Sep, 10:01


🤖 Интересуетесь Data Science и Machine Learning? Изучите модели матричной факторизации на примере ALS и BPRMF.

На занятии мы познакомимся с коллаборативной фильтрацией, рассмотрим особенности обучения моделей ALS и BPRMF.

а именно:

➡️ Познакомимся с популярным подходом к построению рекомендательных систем: collaborative filtering.
➡️ Изучим архитектуру моделей ALS и BPRMF.
➡️ Рассмотрим особенности функций потерь, которые используются для обучения этих моделей.
➡️ Применим модели ALS и BPRMF на практике.

📆 Дата и время: 3 октября в 20:00 мск

Участие бесплатное

Занятие проходит в преддверии старта курса «Рекомендательные системы».
Все участники вебинара получат специальную цену на обучение и персональную консультацию от менеджеров OTUS!

👉 Регистрируйтесь прямо сейчас, чтобы не пропустить урок: https://vk.cc/cBlw0A

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

BigData

25 Sep, 07:37


Language Models are Few-shot Multilingual Learners

Github: https://github.com/gentaiscool/few-shot-lm

Paper: https://arxiv.org/abs/2109.07684v1

👉 @bigdata_1

BigData

23 Sep, 06:01


JRBD: Egocentric Perception of Humans

Стэнфорд JRDB-Pose: набор размеченных данных с более чем 600 000 позами тел.

⭐️ Dataset: https://jrdb.erc.monash.edu/

🖥 Github: https://github.com/JRDB-dataset/jrdb_toolkit/

JRDB-Pose: https://jrdb.erc.monash.edu/dataset/pose#toolkit

Paper: arxiv.org/pdf/1910.11792.pdf

👉 @bigdata_1

3,046

subscribers

713

photos

77

videos