Data Scientist | IT @datascience_it Channel on Telegram

Data Scientist | IT

@datascience_it


Добро пожаловать в клуб.

Полезные материалы из мира DS & ML на регулярной основе.

По всем вопросам: @godinmedia

Data Scientist | IT (Russian)

Добро пожаловать в клуб Data Scientist | IT! Наш канал @datascience_it предлагает полезные материалы из мира Data Science и Machine Learning на регулярной основе. Здесь вы найдете информацию о последних технологических разработках, интересные статьи, видеоуроки, и многое другое. Если вы занимаетесь анализом данных, разработкой и применением алгоритмов машинного обучения, или просто интересуетесь IT сферой, то наш канал создан специально для вас. Присоединяйтесь к нам, чтобы быть в курсе всех новостей и трендов в области Data Science! По всем вопросам обращайтесь к администратору канала @godinmedia.

Data Scientist | IT

02 Jan, 05:17


Необычные вкусы покупателей: что такое товарные пары и как их исследовать

#почитать

с чем обычно покупают лапшу быстрого приготовления, а с чем — детское питание;

как география, время суток и другие факторы влияют на выбор покупателей;

как все эти полученные знания можно применить в ассортиментных матрицах дарксторов и бизнес-процессах ритейла.

Читать статью

Data Scientist | IT

27 Dec, 10:40


Линейная регрессия и её регуляризация в Scikit-learn

#почитать

В этой статье мы рассмотрим модели линейной регрессии, доступные в scikit-learn. Обсудим, что такое регуляризация, на примерах Ridge, Lasso и Elastic Net, а также покажем, как эти методы можно реализовать на Python.

Читать статью

Data Scientist | IT

26 Dec, 05:10


Обзор платформы Kaggle для начинающих: от состязаний до менторской программы

#почитать

Kaggle.com — открытая площадка, на которой собрано огромное количество информации по Data Science и машинному обучению:

датасетов — больших наборов данных на какую-то тему, которые нужны для обучения модели;

«ноутбуков» — так называются записи с примерами кода или готовыми проектами, выложенными в открытый доступ;

моделей — готовых моделей для машинного обучения, в том числе нейросетевых.

Одна из ключевых функций Kaggle — организация соревнований по машинному обучению. Организаторами чаще всего выступают компании: они регистрируют на площадке новое состязание, а пользователи могут в них поучаствовать. Победители получают «медали», внутренние достижения Kaggle, и призы от организатора.

Читать статью

Data Scientist | IT

25 Dec, 10:40


Support Vector Machine для начинающих

#почитать

Метод опорных векторов — это алгоритм машинного обучения, применяемый для задач линейной и нелинейной классификации, регрессии и обнаружения аномальных данных. С его помощью можно классифицировать текст, изображения, обнаружить спам, идентифицировать почерк, анализировать экспрессии генов, распознавать лица, делать прогнозы и так далее. SVM адаптируется и эффективен в различных приложениях, поскольку может управлять многомерными данными и нелинейными отношениями.

Читать статью

Data Scientist | IT

24 Dec, 05:12


Исследование опенсорс-инструментов в области ML/DS от ИТМО: выводы и инсайты

#почитать

Задались вопросом: куда мы уже пришли и как эта отрасль изменится в ближайшие годы. А чтобы на него ответить, провели масштабное аналитическое исследование open source ― посмотрели как разработки крупных компаний, так и университетов, поговорили с экспертами рынка и проанализировали выложенный на GitHub код. На Хабре уже выходила новость с перечнем основных игроков и некоторыми результатами.

В этой статье ― более подробные выводы и инсайты от экспертов ― как тех, что уже участвовали в исходном исследовании, так и тех, кто решил прокомментировать результаты уже после публикации.

Читать статью

Data Scientist | IT

23 Dec, 05:06


Топология в нейросетях

#почитать

Вот часто, когда слышишь про математику в ML, звучат только байесовские методы, производные, интерполяции, а еще иногда тензоры... Но математический аппарат в машинном обучении может уходить глубоко в корни даже, как кажется, совершенно фундаментальных и абстрактных направлений этой науки.

Сегодня мы немного коснемся TDA, топологического анализа данных. Постараемся писать просто. Чтобы даже самому неопытному студенту было понятно. Цель статьи заинтересовать, ведь TDA - авангардная штука. Но начать нужно с самой базы: "Зачем и для чего, да и что такое... эта ваша топология?"

Топология занимается исследованием свойств пространств, сохраняющихся при непрерывных деформациях. Первым здесь представляется теория "гравитации", искажения пространства-времени... В отличие от геометрии, где важны размеры и формы, топология концентрируется на свойствах, устойчивых к изменениям без разрывов и склеек.

Чтобы понять, что это означает, можно представить резиновый лист, который можно сгибать, растягивать, сжимать, но нельзя рвать или склеивать — те свойства, которые сохраняются при таких изменениях, и интересуют топологов.

Читать статью

Data Scientist | IT

20 Dec, 10:40


Анализ тональности текста за 7 минут

#почитать

Анализ тональности помогает компаниям получать ценные инсайты из необработанных данных, таких как переписки с клиентами, упоминания в блогах и социальных сетях.

Читать статью

Data Scientist | IT

19 Dec, 05:01


Big Data мертвы, да здравствуют Smart Data

#почитать

Big Data is dead. Во всяком случае, так утверждает генеральный директор MotherDuck в статье, перевод которой собрал 140 плюсов на Хабре. Обработку и использование больших данных обсуждали в течение последнего десятилетия, но они потеряли актуальность как драйвер развития компаний. Означает ли это их окончательную смерть?

Есть и другое мнение: концепция не умерла, а эволюционирует. Фокус смещается от количества собираемой информации к ее качеству. Этот сдвиг парадигмы привел к появлению понятия Smart Data — «умных» данных, которые являются продуктом интеллектуальной обработки и эволюции Big Data.

Читать статью

Data Scientist | IT

18 Dec, 05:02


ООП для типовых ML задач

#почитать

В данной статье НЕ будет идти речи о способах построения продвинутых моделей с различными наворотами. Рассказ пойдет о том, как автоматизировать построение типовой модели.

Дело в том, что в отличие от задач из учебника, в реальной работе зачастую приходится строить много вариантов модели, делать различную сопутствующую аналитику. Может варьироваться: таргет, период для семпла разработки (если имеем дело с историческими данными), добавляются разбивки на канал продаж или ещё какие-либо продуктовые разбивки. Также возможен сценарий, что на последнем этапе, когда заказчику представили модель , решили исключить некоторую фичу. Соответственно, нужно заново прогонять часть расчетов. При этом хочется от каждого варианта расчёта сохранить результаты.

Полагаю, что по этому описанию многим на ум уже пришло слово AutoML. Да, пожалуй по смыслу подходит. Однако я предлагаю рассмотреть более узкую задачу, а именно "как это все запрогать, чтобы не утонуть в море кода". Здесь мне на помощь как раз придет ООП.

Читать статью

Data Scientist | IT

17 Dec, 04:59


ML в оценке кредитных рисков

#почитать

Эта система рассчитывает балл на основе информации о клиенте и выдает ответ «выдать» или «не выдать» кредит. Но традиционные кредитные модели исключают значительную часть населения, которая не набрала внушительной кредитной истории или просто имеет слишком мало данных для оценки. По данным TransUnion, США более 45 миллионов человек «невидимы» для кредитных систем. В других странах доля людей, находящихся за пределами внимания кредитных бюро, еще выше. В Индии количество таких «невидимок» составляет почти 63%, в ЮАР 51%, а в Гонконге 16%. И тут в игру вступает ML.

Читать статью

Data Scientist | IT

16 Dec, 10:57


Прокрашиваем серые метрики в А/B — тестах

#почитать

К сожалению, нырнуть в базы данных X5 мы не имеем возможности, но провести синтезацию похожих по распределению данных мы можем легко с помощью инструментов библиотек для анализа данных.

Возьмем 1000 магазинов (shop_id), для каждого магазина создадим равное количеству дней эксперимента число строк (пусть наш синтетический тест будет длиться 2 недели), каждой записи shop_id-date присвоим значение метрики. Метрика может быть любой: количество доставок, среднее время доставки заказа, количество отмен, среднее количество заказов на курьера в этот день и др. Для наглядности предлагаю взять курьерскую доставку и обозначить в качестве целевой метрики "Среднее количество доставленных заказов за день".

Читать статью

Data Scientist | IT

13 Dec, 10:34


Предобработка данных: инструкция, инструменты, ресурсы для начинающих

#почитать

Предобработка — это подготовка набора данных перед загрузкой в модель. Данные в исходном виде часто содержат артефакты, такие как шум, пропуски или дубликаты, которые усложняют их анализ и снижают качество работы алгоритмов.

Артефакты могут появляться по разным причинам:

Человеческий фактор: ошибки при ручном вводе — опечатки, пропуски или неправильные значения.
Неполные данные: информация может быть недоступна, например, сотрудник не указал свое место проживания.
Ошибки при сборе: сбои в автоматических системах, например, временные проблемы с сетью, из-за чего часть данных теряется.
Объединение данных из разных источников: разные форматы или отсутствие значений при объединении нескольких баз.
Технические ограничения: например, система принимает только положительные числа, а передали отрицательное значение.
Устаревшая информация: данные не обновляются вовремя, из-за чего информация устаревает.
Ошибки при миграции: повреждение или потеря данных при переносе из одной системы в другую.

Читать статью

Data Scientist | IT

12 Dec, 05:03


Модели Take-Rate ценообразования

#почитать

Перед тем как перейти к построению модели, нужно чётко определить, какую задачу мы решаем. В нашем случае это задача классификации:

1 — по комбинации клиент+оффер была совершена сделка.
0 — по комбинации клиент+оффер сделки не произошло.

Так как это модель ценообразования, то важно, чтобы она сохраняла монотонность по управляемым параметрам (ставка, сумма и требования документов). Это означает, что чем выше ставка и другие факторы, тем меньше вероятность, что клиент согласится на предложение.

Читать статью

Data Scientist | IT

11 Dec, 10:36


Линейная регрессия: A/B тесты в одном уравнении

#почитать

Как ни странно, многие из «модных» техник, которые применяются в A/B тестировании, на самом деле, не что иное, как вариации старой доброй линейной регрессии.

Например, использование таких методов, как t-тест, стратификация, CUPED, CUMPED, по сути, сводятся к построению линейной регрессии и проверке гипотезы в рамках построенной модели. Наши коллеги из команды ad-hoc аналитики Х5 Tech уже писали про стратификацию здесь и про CUPED здесь, а по этой ссылке лежит статья про CUMPED и подобные вариации CUPED.

Основная идея здесь проста: правильное добавление новых переменных в модель помогает лучше контролировать внешние факторы и уменьшать шум в данных. Это позволяет точнее оценить эффект от воздействия и объединить разные статистические подходы, которые обычно рассматриваются отдельно. Но почему это работает? Почему всё сводится к тому, что добавление переменных помогает объединить, казалось бы, разрозненные техники?

Чтобы разобраться в этом, для начала вспомним основы линейной регрессии, после чего перейдём к различным статистическим методам снижения дисперсии и покажем, как они сводятся к линейной регрессии. Затем объединим все техники вместе и на примере покажем, как они работают на практике.

Читать статью

Data Scientist | IT

10 Dec, 10:34


Введение в синтетические данные для ML

#почитать

Синтетические данные — это искусственно созданные данные, которые отражают особенности реальных наблюдений и используются для обучения моделей машинного обучения в случаях, когда получить реальные данные сложно или дорого.

Допустим, у нас есть набор данных с фотографиями настоящих людей. Аугментация данных — это процесс, при котором к набору добавляются слегка измененные копии уже существующих элементов. Если применить аугментацию к нашему набору, мы получим те же лица, но с небольшими изменениями, например, с разными оттенками глаз или кожи, с шумами на фото и цветовым фильтром.

Рандомизация, в отличие от этого, лишь перемешивает элементы внутри набора данных, не создавая новых. Так, используя рандомизацию, мы могли бы «поменять местами» черты лиц: взять волосы одного человека, рот другого и глаза третьего. В итоге мы получаем новые лица, не тратя ресурсы на сбор дополнительных данных.

Синтетические данные не копируют реальные данные, а создают новые примеры, основанные на характеристиках оригинала. Они как бы "переосмысливают" реальность, улавливая её основные черты и закономерности, но генерируя совершенно новые, уникальные экземпляры. Представьте, что вы описываете художнику портрет: он не скопирует фотографию, а напишет новую картину, передающую суть человека, сохраняя при этом индивидуальный стиль. Так и синтетические данные — это не копии, а новая интерпретация реальности, сохраняющая её статистические свойства и структуру.

Читать статью

Data Scientist | IT

09 Dec, 04:52


HH: курьеры в России стали зарабатывать больше аналитиков

#почитать

К ноябрю курьеры зарабатывали больше некоторых IT-специалистов. Так, зарплата BI-аналитиков и аналитиков данных составила 114,2 тысячи рублей.

Кроме того, курьеры получали больше врачей (88,4 тысячи рублей), менеджеров по логистике и внешнеэкономической деятельности (79,5 тысячи), дизайнеров (70 тысяч), бухгалтеров (62,3 тысячи), журналистов (50,4 тысячи) и учителей (47 тысяч).

Читать статью

Data Scientist | IT

06 Dec, 05:07


Саммаризация

#почитать

Что, если бы все отзывы могли сокращаться в ясные и четкие выжимки, которые помогли бы пользователям быстрее находить информацию? Эту задачу называют саммаризацией.

Хотя саммаризация может использоваться для совершенно разных задач, в контексте работы с отзывами на платформе заключалась в том, чтобы предоставить пользователю сжатую и объективную информацию, а также помочь быстро сформировать представление о продукте, услуге или товаре. Это особенно актуально в условиях переизбытка информации, ведь внимание пользователя ограничено несколькими секундами.

Отзывы можно разбить на три ключевые категории: преимущества, недостатки и дополнительно. Такая саммаризация экономит время и усилия пользователей, которые иначе вынуждены были бы читать десятки или сотни отзывов, чтобы сделать вывод. А еще структура саммари дает более сбалансированную оценку товара.

Но процесс автоматической саммаризации, особенно в текстах, содержащих эмоционально окрашенные мнения, требует тщательной проработки алгоритмов. Например, важно научить систему различать сарказм, субъективные оценки и выделять действительно значимые аспекты. Бывают и трудности: часто встречается сложность обработки многозначных слов, разный стиль написания и полисемия, когда одно слово имеет несколько значений в зависимости от контекста.

Читать статью

Data Scientist | IT

02 Dec, 10:51


Анализ временных рядов: полное руководство для начинающих

#почитать

Временной ряд — это последовательность значений, которые протекают и измеряются в определенном временном промежутке. К бытовым примерам временного ряда можно отнести метеорологические наблюдения или колебания цен на рынке.

Аналитикам такие наборы данных позволяют выявлять закономерности, прогнозировать будущее и предлагать бизнесу обоснованные решения.

Читать статью

Data Scientist | IT

29 Nov, 05:09


Как ухватить LLM за хвост: эффективные стратегии тестирования AI-моделей

#почитать

Есть три главных столпа тестирования LLM:

Пользовательский фидбэк: Самый очевидный, но запоздалый способ понять, работает ли ваше приложение. Ведь фидбэк возможен только после релиза. А если ошибки спрятаны до продакшна?

Ручное тестирование: Трудозатратное занятие, способное исчерпать даже самую энергичную команду. О плюсах и минусах применения на практике вы, вероятно, уже знаете: субъективность и, увы, тоже ошибки.

Автоматическое тестирование: Спасительная гавань для всех разработчиков LLM. Однако есть нюанс — оно все еще развивается, как и сами LLM, и всегда требует свежих подходов.

Читать статью

Data Scientist | IT

28 Nov, 10:30


▫️Intuitive SQL for Data Analytics

#посмотреть

11 часов теории и практики (PostgreSQL) - freeCodeCamp.

Смотреть на YouTube ⏱️11 часов

Data Scientist | IT

25 Nov, 10:36


Четыре уровня адаптации open-source моделей

#почитать

Мы выделяем четыре уровня адаптации. Для этого смотрим, какие потребуются навыки для решения этой задачи, сколько времени и человекочасов займет разработка. Поняв требуемый уровень, мы можем поставить себе дедлайны на проверку гипотезы и запланировать действия, если задача не решится выбранным способом.

Читать статью

Data Scientist | IT

22 Nov, 10:43


ML-подход к оттоку рекламодателей

#почитать

Прототип системы создан на основе данных организаций малого и среднего бизнеса (Small & Medium Business, SMB), с которыми работает Pinterest.

Читать статью

Data Scientist | IT

22 Nov, 07:30


Вебинар «Анализируем транзакции в реальном времени» 

Приходите на бесплатный вебинар и узнайте, как обрабатывать высокие транзакционные и аналитические нагрузки в гибридной in-memory СУБД. 

Дата и время: 28 ноября, 16:00.

Программа

🔹 Ускорение аналитических расчетов и аналитика на самых свежих данных с помощью HTAP-систем.

🔹 Основные архитектурные характеристики гибридных транзакционно-аналитических СУБД (HTAP). 

🔹 Повышение отказоустойчивости транзакционно-аналитических решений, настройка под разные профили нагрузки и интеграция с другими компонентами ИТ-ландшафта. 

Проведем демонстрацию возможностей продукта Tarantool Column Store в работе с объектами и данными.

Расскажем, как формировать отчетность в реальном времени и рассчитывать агрегаты в антифрод-системах с помощью продукта Tarantool Column Store.  

Вебинар будет полезен архитекторам, дата-инженерам, DevOps-инженерам и разработчикам аналитических систем. 
  
Регистрируйтесь, и вам придет ссылка на трансляцию в день мероприятия.

Data Scientist | IT

20 Nov, 05:07


ИИ и векторный поиск в Azure Cosmos DB для MongoDB vCore

#почитать

Недавно Microsoft объявила о внедрении функциональности векторного поиска в Azure Cosmos DB для MongoDB vCore. Эта функция расширяет возможности Cosmos DB, позволяя разработчикам выполнять сложные поиски по сходству в многомерных данных, что особенно полезно в приложениях на основе RAG , системах рекомендаций, поиске изображений и документов и т. д.

Читать статью

Data Scientist | IT

19 Nov, 05:12


Как с минимальными ресурсами улучшить качество дообучения LLM

#почитать

Допустим, нужно обучить модель работать с технологией RAG или с помощью LLM генерировать инсайты по нашим данным. Как это сделать быстро, дешево и сердито?

Читать статью

Data Scientist | IT

18 Nov, 05:09


Пайплайн распознавания транспортных средств: как это работает

#почитать

Чтобы решить поставленную задачу, иногда достаточно задетектировать и распознать только номер — например, в кейсе шлагбаума придомовой территории. Но я расскажу про пайплайн (многошаговый алгоритм), который анализирует транспортное средство целиком. Чтобы фиксировать и валидировать нарушения правил дорожного движения, назначать плату за проезд, разыскивать угнанные автомобили и в целом для большинства кейсов из предыдущего поста, нам мало одного номера и кадра, с которого он взят. Важна вся история перемещения транспортного средства, поэтому без пайплайна не обойтись.

Читать статью

Data Scientist | IT

15 Nov, 05:10


Рецепт идеальной разметки в Computer Vision

#почитать

Расскажем о фреймворке агрегации разметки данных, который использует наша команда и коллеги из других подразделений. AggregateMe помогает привести несколько разметок к одной и повысить её качество в случае, если исполнители где-то ошиблись.

Читать статью

Data Scientist | IT

13 Nov, 05:08


Действительно ли большие языковые модели галлюцинируют

#почитать

Если дать более строгое определение термину «галлюцинация», наш эксперимент показал, что на большом количестве вопросов вероятность галлюцинаций очень мала — порядка 6%. При этом фактологически неверные ответы составляют чуть больше трети (35%) от общего числа.

А значит, при построении систем на основе генеративных моделей нужно в первую очередь уделять внимание фактологически неверным ответам. И важно не путать их с галлюцинациями. Находить последние можно с помощью простейшего порогового алгоритма — в нашем примере мы построили его на базе метрики BERTScore-Precision.

Читать статью

Data Scientist | IT

12 Nov, 10:22


Оценка LLM с большим окном контекста

#почитать

Недавно у нас получилось достичь уровня gpt-4 на собственном ограниченном датасете большого контекста.

Читать статью

Data Scientist | IT

11 Nov, 10:34


ML для анализа ЭЭГ: ищем эпилептические приступы

#почитать

Negative mining — это метод, применяемый в машинном обучении для улучшения качества классификации. Он заключается в том, что модель чаще видит негативные примеры (те, которые не относятся к целевому классу), которые она ошибочно классифицирует как положительные. Эти "трудные" негативные примеры получают больший вес при обучении, что заставляет модель более тщательно их анализировать и различать от положительных примеров.

Читать статью

Data Scientist | IT

08 Nov, 05:05


Как нейросети выдают кредиты

#почитать

Ни для кого не секрет, что в современном мире лимит кредитной карты начисляет не банковский сотрудник, но нейросеть или попросту алгоритм машинного обучения.

Читать статью

Data Scientist | IT

06 Nov, 05:16


Алгоритм управления доставкой по расписанию и динамический прайсинг

#почитать

Алгоритм плохо работал при дисбалансе партнеров (например, когда курьеров, было сильно больше, чем сборщиков). Для решения этой проблемы мы разделили показатель нагрузки. Раньше это был один surge-level, теперь показателя два: по одному на сборку и доставку. Все действия алгоритма основаны на наибольшем из двух показателей.

Кроме того, каждая из тысячи точек обладает целым рядом уникальных особенностей. Чтобы алгоритм подстраивался под них, мы настроили простой механизм адаптации параметров его работы, по духу похожий на Reinforcement Learning.

Читать статью

Data Scientist | IT

05 Nov, 10:29


Рой: оптимизация на Python с помощью PSO

#почитать

Что считать "оптимальным" в природе? Что является наилучшим для отдельной особи и для всей группы? Не являясь биологом, я не могу дать ответы на эти вопросы. Однако, наблюдая за подобным поведением в природе, мы можем разработать эффективный алгоритм оптимизации. Другими словами, определив критерии "оптимальности", мы можем применить этот эволюционный подход для оптимизации заданной функции. Данный алгоритм известен как оптимизация роем частиц (Particle Swarm Optimization, PSO).

Читать статью

Data Scientist | IT

04 Nov, 10:33


Нейронные оптимизаторы запросов в реляционных БД

#почитать

В 1970-х годах известный программист Эдгар Кодд разработал математически выверенную теорию организации данных в виде таблиц (реляций). С тех пор утекло немало воды — появилось большое количество различных коммерческих и open-source реляционных систем управления базами данных (РСУБД). Скоро стало понятно, что эффективное получение данных из базы — задача далеко не тривиальная. Если говорить прямо, она нелинейная и в общем случае NP-сложная.

Читать статью

Data Scientist | IT

01 Nov, 10:36


🍳

Data Scientist | IT

31 Oct, 10:44


Основы фреймворка Combine для ML в Swift

#почитать

Combine — это фреймворк, представленный Apple в 2019 году, предназначенный для работы с асинхронными потоками данных на платформе Swift. Основная задача Combine заключается в том, чтобы упростить и унифицировать обработку асинхронных событий, таких как сетевые запросы, таймеры, уведомления и пользовательские действия.

Фреймворк является частью экосистемы Swift и доступен начиная с iOS 13, macOS 10.15, watchOS 6.0 и tvOS 13.

Читать статью

Data Scientist | IT

30 Oct, 10:46


Дообучение LLM с помощью Supervised Fine-Tuning

#почитать

Обычно большие языковые модели (large language model, LLM) обучают в несколько этапов, включающих предварительное обучение и множество этапов fine-tuning (см. ниже). Предварительное обучение — это дорогостоящий процесс (например, требующий многих сотен тысяч долларов на вычислительные ресурсы), однако fine-tuning модели LLM (или контекстное обучение) по сравнению с этим гораздо дешевле (например, сотни долларов или даже меньше). Учитывая широкую доступность и бесплатность (даже для коммерческого использования) предварительно обученных LLM (например, MPT, Falcon или LLAMA-2), мы можем создавать большой спектр мощных приложений благодаря fine-tuning моделей под нужные задачи.

Читать статью

Data Scientist | IT

29 Oct, 05:04


Я больше не верю публичным датасетам

#почитать

Когда я прочитал новость о том, что исследователи MIT обнаружили вплоть до 10% ошибок в разметке самых популярных датасетов для обучения нейросетей, то решил, что нужно рассказать и о нашем опыте работы с публичными датасетами.

Уже более пяти лет мы занимаемся анализом сетевого трафика и машинным обучением моделей обнаружения компьютерных атак. И часто используем для этого публичные наборы обучающих данных.

Читать статью

Data Scientist | IT

28 Oct, 10:56


Реализуем машинное обучение на сервере с помощью Swift

#почитать

Ни для кого не секрет, что Apple стремится двигать свою экосистему в сторону извлечения максимальной выгоды путем переноса мощных процессов машинного обучения на устройства пользователей. Core ML предлагает молниеносную производительность. Однако новые технологии, связанные с генеративными алгоритмами, несколько усложняют ситуацию: зачастую эти модели достаточно тяжелы и требуют значительных затрат ресурсов для работы на устройстве.

Читать статью

Data Scientist | IT

25 Oct, 10:40


I в LLM означает Intelligence

#почитать

Я уже давно ничего не писал об ИИ или о том, как мы (не) используем его для разработки в нашем проекте curl.

Читать статью

Data Scientist | IT

24 Oct, 11:30


Как Stable Diffusion снимает реальность

#почитать

Гениальность разработчика в составлении минимального промта, который гарантирует максимально приближенный результат даже в условиях самых обобщенных параметров.

Проект больше получился не выгодным технологически простым стартапом, сколько настоящим фотопроектом и постмодернистским высказыванием.

Читать статью

Data Scientist | IT

24 Oct, 07:30


Стать сотрудником Яндекса быстрее и проще, чем кажется. Участвуйте в днях быстрого найма: решите тестовое, пройдите несколько секций собеседования и получите офер за несколько дней.

Ближайшее мероприятие:

• 9-11 ноября — для продуктовых и аналитиков данных, офер за 3 дня в команды Финтеха и Яндекс Практикума.

Зарегистрироваться

Data Scientist | IT

23 Oct, 05:11


Основы компьютерного зрения на примерах с котиками

#почитать

Может ли ИИ видеть и обучаться, или эти термины несут совсем иной смысл.

Читать статью

Data Scientist | IT

22 Oct, 10:37


Распределения Пуассона в моделях машинного обучения

#почитать

Модели, основанные на двумерном распределении Пуассона, используются для моделирования спортивных данных. Но обычно используются независимые распределения Пуассона для моделирования количества голов двух конкурирующих команд. Мы заменим предположение о независимости рассмотрением двумерной модели Пуассона и ее расширений.

Читать статью

Data Scientist | IT

21 Oct, 10:59


Слияние словарей в PyTorch

#почитать

Сейчас нейросети стали настолько большими, что обучение большой сети на 1 видеокарте технически невозможно или займёт десятки и сотни лет. Кроме того, на большой обучающей выборке всплывают проблемы забывания сетью того, чему её учили вначале.

Одним из способов решения этих проблем является разбивка датасета на куски, и обучение одной и той же нейросети параллельно на разных устройствах. Потом, очевидно, нужно каким-то образом слить обученные нейросети в одну.

Читать статью

Data Scientist | IT

18 Oct, 10:35


Эмуляция мозга: на пути к AGI

#почитать

Один из подходов к достижению искусственного общего интеллекта (AGI) — это полное воспроизведение физической структуры мозга (эмуляция всего мозга) или отдельных его элементов (пиковые нейроны, синаптическая пластичность, дендритная компартментализация, морфологические изменения и т. д.).

Читать статью

Data Scientist | IT

17 Oct, 10:32


Симуляция DOOM через нейросеть

#почитать

Сегодня мы не рассказываем про нейронку, которая запилит Uncharted 5 или Dark Souls 4 - она интересный кейс среди нейронок последних годов. Обычно, когда мы говорим про генеративные ИИ, мы представляем себе Идеограмм, Stable Diffuison или SORA.

Но вот разработчики с Google создалидвижок, который генерирует игровой процесс уже существующей игры. И пока что это старющий Doom из 90х.

Читать статью

Data Scientist | IT

15 Oct, 10:59


Resemble Enhance — нейросеть для улучшения голоса и очистки от шума

#почитать

Он состоит из двух модулей: шумоподавителя, который отделяет речь от шумного аудио, и улучшателя, который повышает качество звука, устраняя искажения и расширяя полосу пропускания.

Модели обучены на высококачественных речевых данных с частотой дискретизации 44.1 кГц.

Проще говоря, это портативный улучшатель записей голоса, который может пригодиться буквально всем, кто работает с медиа/контентом/звуком.

Читать статью

Data Scientist | IT

14 Oct, 05:13


Промпт-инжиниринг: как найти общий язык с ИИ

#почитать

Основополагающим принципом в промпт-инжиниринге является ясность и точность формулировки запросов.

Читать статью

Data Scientist | IT

11 Oct, 10:51


Обзор YOLO детекторов

#почитать

Сейчас такая задача решается с помощью двух типов алгоритмов: one-step алгоритм детекции, например You Only Look Once (YOLO), и two-steps алгоритм, например Faster Region-Based Convolutional Neural Network (Faster R-CNN). Двухстадийный подход имеет ряд недостатков: долгое обучение и инференс, плохое качество детекции маленьких объектов, неустойчивость к различным размерам входных данных. Одностадийный алгоритм детекции подразумевает одновременное выполнение детекции и классификации, что обеспечивает end-to-end обучение с сохранением высоких показателей как точности, так и скорости.

Читать статью

Data Scientist | IT

10 Oct, 10:23


Ищем лучшие настройки для аугментации текстов

#почитать

Работа каждого ML-инженера — сделать свою модель лучше. Чтобы этого достичь, нужно либо работать над моделью, либо повышать качество и количество данных. Мы рассмотрим второй путь.

Читать статью

Data Scientist | IT

09 Oct, 05:11


Real-time-распознавание лиц: методы обучения моделей на мобильных девайсах

#почитать

В этой статье я расскажу про постановку задачи распознавания лиц, подходящие мобильные архитектуры, обучение распознаванию лиц на больших объемах данных и способы повысить точность маленькой архитектуры.

Читать статью

Data Scientist | IT

08 Oct, 10:33


Retrieval-Augmented Generation (RAG) в языковых моделях

#почитать

Расширение возможностей больших языковых моделей за счёт интеграции мощных механизмов поиска информации. По сути, это двухэтапный процесс, включающий компоненты поиска (retriever) и генерации (generator).

Читать

Data Scientist | IT

07 Oct, 10:50


Собеседование Data Scientist. Поведенческое интервью

#почитать

Работодателю в процессе собеседования крайне важно оценить, насколько хорошо человек впишется в компанию, поскольку сотрудники, которые хорошо вписываются в культуру, имеют более высокую удовлетворенность работой, отличную производительность труда и с большей вероятностью остаются в компании.

Читать статью

Data Scientist | IT

04 Oct, 10:48


Есть ли жизнь до fit/predict

#почитать

Роль хороших данных не стоит недооценивать, грамотный отбор может помочь значительно ускорить и удешевить обучение с одной стороны, тогда как отбраковка откровенно плохой разметки поможет улучшить качество с другой.

Читать статью

Data Scientist | IT

03 Oct, 05:18


Mojo: будущее AI

#почитать

Посмотрим, как обучить простую сверточную нейронную сеть, и разберём один из методов машинного обучения — линейную регрессию. В качестве примеров задач возьмем стандартные соревнования машинного обучения: предсказание стоимости жилья и классификацию рукописных цифр MNIST. Для проведения экспериментов на Python используем фреймворк машинного обучения PyTorch. А на Mojo — фреймворк машинного обучения Basalt.

Читать

Data Scientist | IT

01 Oct, 05:18


Новая модель OpenAI вводит в заблуждение по новому

#почитать

Независимая исследовательская компания Apollo, занимающаяся исследованиями безопасности искусственного интеллекта, обнаружила заметную проблему. Apollo поняла, что модель выдает неверные результаты по-новому.

Иногда обман казался безобидным. В одном примере исследователи OpenAI попросили o1-preview предоставить рецепт брауни с онлайн-ссылками. Ход мыслей модели, функция, которая должна имитировать то, как люди разбивают сложные идеи, внутренне признал, что она не может получить доступ к URL-адресам, что делает запрос невозможным. Вместо того, чтобы сообщить пользователю об этой слабости, o1-preview продолжила, генерируя правдоподобные, но поддельные ссылки и их описания.

Читать статью

Data Scientist | IT

30 Sep, 05:16


Если вы не платите за товар, значит вы и есть товар

#почитать

Соцсеть LinkedIn включила учётные записи пользователей в обучающие датасеты моделей генеративного ИИ. Есть опция отказа.

Читать статью

2,989

subscribers

470

photos

3

videos