Data Scientist | IT @datascience_it Channel on Telegram

Data Scientist | IT

@datascience_it


Добро пожаловать в клуб.

Полезные материалы из мира DS & ML на регулярной основе.

По всем вопросам: @godinmedia

Data Scientist | IT (Russian)

Добро пожаловать в клуб Data Scientist | IT! Наш канал @datascience_it предлагает полезные материалы из мира Data Science и Machine Learning на регулярной основе. Здесь вы найдете информацию о последних технологических разработках, интересные статьи, видеоуроки, и многое другое. Если вы занимаетесь анализом данных, разработкой и применением алгоритмов машинного обучения, или просто интересуетесь IT сферой, то наш канал создан специально для вас. Присоединяйтесь к нам, чтобы быть в курсе всех новостей и трендов в области Data Science! По всем вопросам обращайтесь к администратору канала @godinmedia.

Data Scientist | IT

22 Nov, 10:43


ML-подход к оттоку рекламодателей

#почитать

Прототип системы создан на основе данных организаций малого и среднего бизнеса (Small & Medium Business, SMB), с которыми работает Pinterest.

Читать статью

Data Scientist | IT

22 Nov, 07:30


Вебинар «Анализируем транзакции в реальном времени» 

Приходите на бесплатный вебинар и узнайте, как обрабатывать высокие транзакционные и аналитические нагрузки в гибридной in-memory СУБД. 

Дата и время: 28 ноября, 16:00.

Программа

🔹 Ускорение аналитических расчетов и аналитика на самых свежих данных с помощью HTAP-систем.

🔹 Основные архитектурные характеристики гибридных транзакционно-аналитических СУБД (HTAP). 

🔹 Повышение отказоустойчивости транзакционно-аналитических решений, настройка под разные профили нагрузки и интеграция с другими компонентами ИТ-ландшафта. 

Проведем демонстрацию возможностей продукта Tarantool Column Store в работе с объектами и данными.

Расскажем, как формировать отчетность в реальном времени и рассчитывать агрегаты в антифрод-системах с помощью продукта Tarantool Column Store.  

Вебинар будет полезен архитекторам, дата-инженерам, DevOps-инженерам и разработчикам аналитических систем. 
  
Регистрируйтесь, и вам придет ссылка на трансляцию в день мероприятия.

Data Scientist | IT

20 Nov, 05:07


ИИ и векторный поиск в Azure Cosmos DB для MongoDB vCore

#почитать

Недавно Microsoft объявила о внедрении функциональности векторного поиска в Azure Cosmos DB для MongoDB vCore. Эта функция расширяет возможности Cosmos DB, позволяя разработчикам выполнять сложные поиски по сходству в многомерных данных, что особенно полезно в приложениях на основе RAG , системах рекомендаций, поиске изображений и документов и т. д.

Читать статью

Data Scientist | IT

19 Nov, 05:12


Как с минимальными ресурсами улучшить качество дообучения LLM

#почитать

Допустим, нужно обучить модель работать с технологией RAG или с помощью LLM генерировать инсайты по нашим данным. Как это сделать быстро, дешево и сердито?

Читать статью

Data Scientist | IT

18 Nov, 05:09


Пайплайн распознавания транспортных средств: как это работает

#почитать

Чтобы решить поставленную задачу, иногда достаточно задетектировать и распознать только номер — например, в кейсе шлагбаума придомовой территории. Но я расскажу про пайплайн (многошаговый алгоритм), который анализирует транспортное средство целиком. Чтобы фиксировать и валидировать нарушения правил дорожного движения, назначать плату за проезд, разыскивать угнанные автомобили и в целом для большинства кейсов из предыдущего поста, нам мало одного номера и кадра, с которого он взят. Важна вся история перемещения транспортного средства, поэтому без пайплайна не обойтись.

Читать статью

Data Scientist | IT

15 Nov, 05:10


Рецепт идеальной разметки в Computer Vision

#почитать

Расскажем о фреймворке агрегации разметки данных, который использует наша команда и коллеги из других подразделений. AggregateMe помогает привести несколько разметок к одной и повысить её качество в случае, если исполнители где-то ошиблись.

Читать статью

Data Scientist | IT

13 Nov, 05:08


Действительно ли большие языковые модели галлюцинируют

#почитать

Если дать более строгое определение термину «галлюцинация», наш эксперимент показал, что на большом количестве вопросов вероятность галлюцинаций очень мала — порядка 6%. При этом фактологически неверные ответы составляют чуть больше трети (35%) от общего числа.

А значит, при построении систем на основе генеративных моделей нужно в первую очередь уделять внимание фактологически неверным ответам. И важно не путать их с галлюцинациями. Находить последние можно с помощью простейшего порогового алгоритма — в нашем примере мы построили его на базе метрики BERTScore-Precision.

Читать статью

Data Scientist | IT

12 Nov, 10:22


Оценка LLM с большим окном контекста

#почитать

Недавно у нас получилось достичь уровня gpt-4 на собственном ограниченном датасете большого контекста.

Читать статью

Data Scientist | IT

11 Nov, 10:34


ML для анализа ЭЭГ: ищем эпилептические приступы

#почитать

Negative mining — это метод, применяемый в машинном обучении для улучшения качества классификации. Он заключается в том, что модель чаще видит негативные примеры (те, которые не относятся к целевому классу), которые она ошибочно классифицирует как положительные. Эти "трудные" негативные примеры получают больший вес при обучении, что заставляет модель более тщательно их анализировать и различать от положительных примеров.

Читать статью

Data Scientist | IT

08 Nov, 05:05


Как нейросети выдают кредиты

#почитать

Ни для кого не секрет, что в современном мире лимит кредитной карты начисляет не банковский сотрудник, но нейросеть или попросту алгоритм машинного обучения.

Читать статью

Data Scientist | IT

06 Nov, 05:16


Алгоритм управления доставкой по расписанию и динамический прайсинг

#почитать

Алгоритм плохо работал при дисбалансе партнеров (например, когда курьеров, было сильно больше, чем сборщиков). Для решения этой проблемы мы разделили показатель нагрузки. Раньше это был один surge-level, теперь показателя два: по одному на сборку и доставку. Все действия алгоритма основаны на наибольшем из двух показателей.

Кроме того, каждая из тысячи точек обладает целым рядом уникальных особенностей. Чтобы алгоритм подстраивался под них, мы настроили простой механизм адаптации параметров его работы, по духу похожий на Reinforcement Learning.

Читать статью

Data Scientist | IT

05 Nov, 10:29


Рой: оптимизация на Python с помощью PSO

#почитать

Что считать "оптимальным" в природе? Что является наилучшим для отдельной особи и для всей группы? Не являясь биологом, я не могу дать ответы на эти вопросы. Однако, наблюдая за подобным поведением в природе, мы можем разработать эффективный алгоритм оптимизации. Другими словами, определив критерии "оптимальности", мы можем применить этот эволюционный подход для оптимизации заданной функции. Данный алгоритм известен как оптимизация роем частиц (Particle Swarm Optimization, PSO).

Читать статью

Data Scientist | IT

04 Nov, 10:33


Нейронные оптимизаторы запросов в реляционных БД

#почитать

В 1970-х годах известный программист Эдгар Кодд разработал математически выверенную теорию организации данных в виде таблиц (реляций). С тех пор утекло немало воды — появилось большое количество различных коммерческих и open-source реляционных систем управления базами данных (РСУБД). Скоро стало понятно, что эффективное получение данных из базы — задача далеко не тривиальная. Если говорить прямо, она нелинейная и в общем случае NP-сложная.

Читать статью

Data Scientist | IT

01 Nov, 10:36


🍳

Data Scientist | IT

31 Oct, 10:44


Основы фреймворка Combine для ML в Swift

#почитать

Combine — это фреймворк, представленный Apple в 2019 году, предназначенный для работы с асинхронными потоками данных на платформе Swift. Основная задача Combine заключается в том, чтобы упростить и унифицировать обработку асинхронных событий, таких как сетевые запросы, таймеры, уведомления и пользовательские действия.

Фреймворк является частью экосистемы Swift и доступен начиная с iOS 13, macOS 10.15, watchOS 6.0 и tvOS 13.

Читать статью

Data Scientist | IT

30 Oct, 10:46


Дообучение LLM с помощью Supervised Fine-Tuning

#почитать

Обычно большие языковые модели (large language model, LLM) обучают в несколько этапов, включающих предварительное обучение и множество этапов fine-tuning (см. ниже). Предварительное обучение — это дорогостоящий процесс (например, требующий многих сотен тысяч долларов на вычислительные ресурсы), однако fine-tuning модели LLM (или контекстное обучение) по сравнению с этим гораздо дешевле (например, сотни долларов или даже меньше). Учитывая широкую доступность и бесплатность (даже для коммерческого использования) предварительно обученных LLM (например, MPT, Falcon или LLAMA-2), мы можем создавать большой спектр мощных приложений благодаря fine-tuning моделей под нужные задачи.

Читать статью

Data Scientist | IT

29 Oct, 05:04


Я больше не верю публичным датасетам

#почитать

Когда я прочитал новость о том, что исследователи MIT обнаружили вплоть до 10% ошибок в разметке самых популярных датасетов для обучения нейросетей, то решил, что нужно рассказать и о нашем опыте работы с публичными датасетами.

Уже более пяти лет мы занимаемся анализом сетевого трафика и машинным обучением моделей обнаружения компьютерных атак. И часто используем для этого публичные наборы обучающих данных.

Читать статью

Data Scientist | IT

28 Oct, 10:56


Реализуем машинное обучение на сервере с помощью Swift

#почитать

Ни для кого не секрет, что Apple стремится двигать свою экосистему в сторону извлечения максимальной выгоды путем переноса мощных процессов машинного обучения на устройства пользователей. Core ML предлагает молниеносную производительность. Однако новые технологии, связанные с генеративными алгоритмами, несколько усложняют ситуацию: зачастую эти модели достаточно тяжелы и требуют значительных затрат ресурсов для работы на устройстве.

Читать статью

Data Scientist | IT

25 Oct, 10:40


I в LLM означает Intelligence

#почитать

Я уже давно ничего не писал об ИИ или о том, как мы (не) используем его для разработки в нашем проекте curl.

Читать статью

Data Scientist | IT

24 Oct, 11:30


Как Stable Diffusion снимает реальность

#почитать

Гениальность разработчика в составлении минимального промта, который гарантирует максимально приближенный результат даже в условиях самых обобщенных параметров.

Проект больше получился не выгодным технологически простым стартапом, сколько настоящим фотопроектом и постмодернистским высказыванием.

Читать статью

Data Scientist | IT

24 Oct, 07:30


Стать сотрудником Яндекса быстрее и проще, чем кажется. Участвуйте в днях быстрого найма: решите тестовое, пройдите несколько секций собеседования и получите офер за несколько дней.

Ближайшее мероприятие:

• 9-11 ноября — для продуктовых и аналитиков данных, офер за 3 дня в команды Финтеха и Яндекс Практикума.

Зарегистрироваться

Data Scientist | IT

23 Oct, 05:11


Основы компьютерного зрения на примерах с котиками

#почитать

Может ли ИИ видеть и обучаться, или эти термины несут совсем иной смысл.

Читать статью

Data Scientist | IT

22 Oct, 10:37


Распределения Пуассона в моделях машинного обучения

#почитать

Модели, основанные на двумерном распределении Пуассона, используются для моделирования спортивных данных. Но обычно используются независимые распределения Пуассона для моделирования количества голов двух конкурирующих команд. Мы заменим предположение о независимости рассмотрением двумерной модели Пуассона и ее расширений.

Читать статью

Data Scientist | IT

21 Oct, 10:59


Слияние словарей в PyTorch

#почитать

Сейчас нейросети стали настолько большими, что обучение большой сети на 1 видеокарте технически невозможно или займёт десятки и сотни лет. Кроме того, на большой обучающей выборке всплывают проблемы забывания сетью того, чему её учили вначале.

Одним из способов решения этих проблем является разбивка датасета на куски, и обучение одной и той же нейросети параллельно на разных устройствах. Потом, очевидно, нужно каким-то образом слить обученные нейросети в одну.

Читать статью

Data Scientist | IT

18 Oct, 10:35


Эмуляция мозга: на пути к AGI

#почитать

Один из подходов к достижению искусственного общего интеллекта (AGI) — это полное воспроизведение физической структуры мозга (эмуляция всего мозга) или отдельных его элементов (пиковые нейроны, синаптическая пластичность, дендритная компартментализация, морфологические изменения и т. д.).

Читать статью

Data Scientist | IT

17 Oct, 10:32


Симуляция DOOM через нейросеть

#почитать

Сегодня мы не рассказываем про нейронку, которая запилит Uncharted 5 или Dark Souls 4 - она интересный кейс среди нейронок последних годов. Обычно, когда мы говорим про генеративные ИИ, мы представляем себе Идеограмм, Stable Diffuison или SORA.

Но вот разработчики с Google создалидвижок, который генерирует игровой процесс уже существующей игры. И пока что это старющий Doom из 90х.

Читать статью

Data Scientist | IT

15 Oct, 10:59


Resemble Enhance — нейросеть для улучшения голоса и очистки от шума

#почитать

Он состоит из двух модулей: шумоподавителя, который отделяет речь от шумного аудио, и улучшателя, который повышает качество звука, устраняя искажения и расширяя полосу пропускания.

Модели обучены на высококачественных речевых данных с частотой дискретизации 44.1 кГц.

Проще говоря, это портативный улучшатель записей голоса, который может пригодиться буквально всем, кто работает с медиа/контентом/звуком.

Читать статью

Data Scientist | IT

14 Oct, 05:13


Промпт-инжиниринг: как найти общий язык с ИИ

#почитать

Основополагающим принципом в промпт-инжиниринге является ясность и точность формулировки запросов.

Читать статью

Data Scientist | IT

11 Oct, 10:51


Обзор YOLO детекторов

#почитать

Сейчас такая задача решается с помощью двух типов алгоритмов: one-step алгоритм детекции, например You Only Look Once (YOLO), и two-steps алгоритм, например Faster Region-Based Convolutional Neural Network (Faster R-CNN). Двухстадийный подход имеет ряд недостатков: долгое обучение и инференс, плохое качество детекции маленьких объектов, неустойчивость к различным размерам входных данных. Одностадийный алгоритм детекции подразумевает одновременное выполнение детекции и классификации, что обеспечивает end-to-end обучение с сохранением высоких показателей как точности, так и скорости.

Читать статью

Data Scientist | IT

10 Oct, 10:23


Ищем лучшие настройки для аугментации текстов

#почитать

Работа каждого ML-инженера — сделать свою модель лучше. Чтобы этого достичь, нужно либо работать над моделью, либо повышать качество и количество данных. Мы рассмотрим второй путь.

Читать статью

Data Scientist | IT

09 Oct, 05:11


Real-time-распознавание лиц: методы обучения моделей на мобильных девайсах

#почитать

В этой статье я расскажу про постановку задачи распознавания лиц, подходящие мобильные архитектуры, обучение распознаванию лиц на больших объемах данных и способы повысить точность маленькой архитектуры.

Читать статью

Data Scientist | IT

08 Oct, 10:33


Retrieval-Augmented Generation (RAG) в языковых моделях

#почитать

Расширение возможностей больших языковых моделей за счёт интеграции мощных механизмов поиска информации. По сути, это двухэтапный процесс, включающий компоненты поиска (retriever) и генерации (generator).

Читать

Data Scientist | IT

07 Oct, 10:50


Собеседование Data Scientist. Поведенческое интервью

#почитать

Работодателю в процессе собеседования крайне важно оценить, насколько хорошо человек впишется в компанию, поскольку сотрудники, которые хорошо вписываются в культуру, имеют более высокую удовлетворенность работой, отличную производительность труда и с большей вероятностью остаются в компании.

Читать статью

Data Scientist | IT

04 Oct, 10:48


Есть ли жизнь до fit/predict

#почитать

Роль хороших данных не стоит недооценивать, грамотный отбор может помочь значительно ускорить и удешевить обучение с одной стороны, тогда как отбраковка откровенно плохой разметки поможет улучшить качество с другой.

Читать статью

Data Scientist | IT

03 Oct, 05:18


Mojo: будущее AI

#почитать

Посмотрим, как обучить простую сверточную нейронную сеть, и разберём один из методов машинного обучения — линейную регрессию. В качестве примеров задач возьмем стандартные соревнования машинного обучения: предсказание стоимости жилья и классификацию рукописных цифр MNIST. Для проведения экспериментов на Python используем фреймворк машинного обучения PyTorch. А на Mojo — фреймворк машинного обучения Basalt.

Читать

Data Scientist | IT

01 Oct, 05:18


Новая модель OpenAI вводит в заблуждение по новому

#почитать

Независимая исследовательская компания Apollo, занимающаяся исследованиями безопасности искусственного интеллекта, обнаружила заметную проблему. Apollo поняла, что модель выдает неверные результаты по-новому.

Иногда обман казался безобидным. В одном примере исследователи OpenAI попросили o1-preview предоставить рецепт брауни с онлайн-ссылками. Ход мыслей модели, функция, которая должна имитировать то, как люди разбивают сложные идеи, внутренне признал, что она не может получить доступ к URL-адресам, что делает запрос невозможным. Вместо того, чтобы сообщить пользователю об этой слабости, o1-preview продолжила, генерируя правдоподобные, но поддельные ссылки и их описания.

Читать статью

Data Scientist | IT

30 Sep, 05:16


Если вы не платите за товар, значит вы и есть товар

#почитать

Соцсеть LinkedIn включила учётные записи пользователей в обучающие датасеты моделей генеративного ИИ. Есть опция отказа.

Читать статью