DataFrog: Data Science

@datasfrog

Журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks

Мы отбираем самые лучшие посты на тему DS и ML из других телеграм каналов и сайтов и публикуем у себя.

@viktorreh

DataFrog: Data Science (Russian)

Добро пожаловать в канал DataFrog! Если вы увлечены темами Data Science, Machine Learning, Big Data, Deep Learning и Neural Networks, то вы попали по адресу. Мы являемся журналом о Data Science, где мы отбираем самые лучшие посты на эти темы из других телеграм каналов и сайтов, чтобы предоставить вам только самую актуальную и интересную информацию. Наша цель - обогатить ваше понимание технологий и методов анализа данных, помочь вам быть в курсе последних тенденций и достижений в этой области. Присоединяйтесь к нам, и вы станете частью сообщества специалистов, студентов, и просто увлеченных людей, у которых одна общая страсть - Data Science. Подписывайтесь на наш канал, и будьте в курсе всех новостей и событий мира данных! 📊💻🧠 @viktorreh

DataFrog: Data Science

27 Dec, 10:47

Любители красивой математики, вам посвящается:

(1 + 2 + 3 + 4 + 5 + 6 + 7 + 8 + 9)² = 2025

1³+ 2³+ 3³+ 4³+ 5³+ 6³+ 7³+ 8³+ 9³ = 2025

(20 + 25)² = 2025

2025/ (2 + 0 + 2 + 5) = 225

А еще если сложить первые (20+25) нечетных чисел, тоже получится 2025

С Новым Годом, что-ли

🎄

694

DataFrog: Data Science

10 Dec, 14:04

Gradient Accumulation

Из-за ограничений памяти всегда рекомендуется обучать нейронную сеть с небольшим размером батча. Но что, если мы скажем вам, что можно увеличить размер батча без увеличения размера батча?

👉 DataFrog | #datascience

1,013

DataFrog: Data Science

25 Nov, 10:56

Там Anthropic предложили новую технику для RAG. Разбираемся:

Как работает обычный RAG:
1. Документы в корпусе разбиваются на чанки
2. Из каждого такого чанка мы достаем эмбеддинг и кладем его в векторную БД
3. Когда поступает запрос (промпт), мы ищем в этой БД семантически близкие к нему чанки и добавляем их в промпт, чтобы модель могла использовать эту информацию для ответа

В чем тут проблема?
Дело в том, что таким образом мы можем упустить важный контекст и детали запроса. Например, пользователь запрашивает "Error code TS-999". Поиск найдет информацию про коды ошибок в целом, но может упустить точное совпадение «TS-999». К тому же, при возвращении конкретного чанка из базы может случится так, что он будет вырван из какого-то важного контекста, и это может помешать модели.

Что предлагают Anthropic?
Во-первых, они предлагают извлекать не только обычные эмбеддинги, но и делать TF-IDF энкодинг чанков с помощью BM25. TF-IDF утроен так, чтобы как раз отбрасывать наиболее "общие" вещи в тексте, и фокусироваться на редких и самых важных словах. Это поможет не упускать детали при поиске, как в примере с ошибкой TS-999.

Во-вторых, чтобы избавиться от проблемы отсутствия контекста, они предлагают этот контекст добавлять искусственно (то есть делать из такого: "Прибыль росла на 3%." ... такое: "Этот чанк относится к отчету компании ACME за Q2 2023; прибыль росла на 3%.").

Для этого перед извлечением эмбеддингов и TF-IDF энкодингом каждый чанк аннотируется с помощью отдельного запроса к модели (в случае Anthropic это делается с помощью Клода). Да, дорого. Но с помощью фишки Prompt Caching, которую недавно завезли в API, можно хорошо скостить цену.

В итоге все это дает достаточно ощутимый прирост к метрикам качества поиска. Например, фактических ошибок становится меньше на 35%, а это ничего себе!

👉 DataFrog | #datascience

1,364

DataFrog: Data Science

18 Nov, 18:07

Еще некоторые детали про o1 aka Strawberry aka Q*

➡️ Сейчас на юзерах с подписков крутится не сама o1, а ее preview версия. Также для ChatGPT Plus будет доступна модель o1-mini (более дешевая и шустрая). o1-mini также обещают раскатить и для бесплатных аккаунтов.

➡️ Даже несмотря на то, что самой o1 пока на проде нет, лимиты в чате и цены в API уже достаточно жестокие: 30 сообщений в неделю для o1-preview, 50 для o1-mini 😳. В API вообще песня: 20 запросов в минуту, и при этом платить придется не только за коллы, но и за сами размышления модели (reasoning tokens).

➡️ Саму o1 тоже обещают раскатить скоро. Она уже дообучена и протестирована, но, видимо, OpenAI все еще приходится решать вопросы связанные с затратами на ее инференс, и (может быть) безопасностью.

➡️ OpenAI обращают внимание на то, что промптинг с новой моделью отличается от промптинга со старыми. Они даже выкатили свой гайд с советами о том, как правильно общаться с o1. Основная мысль сводится к «Больше не надо уловок вроде "думай шаг за шагом" или "построй план решения". Формулируйте свои инструкции ясно и прямолинейно, а дальше модель все сделает сама.»

➡️Ну и напоследок то, на что могло ускользнуть от глаз: OpenAI решили скрыть от пользователей мыслительный процесс модели. То есть те рассуждения, которые видны в чате – это выборочный материал. Остальные необработанные цепочки мыслей пользователям не видны.

🍓🍓🍓

👉 DataFrog | #datascience

1,043

DataFrog: Data Science

18 Nov, 13:59

Приглашаем на Яндекс Analytics after dark — камерный митап для аналитиков

В конце ноября Еком и Райдтех Яндекса проводит ламповый митап — участники и спикеры поговорят об успехах, провалах и сложностях в работе над сервисами с многомиллионной аудиторией.

Митап начнется с докладов-историй об успехах в аналитике: Аня Хрущева расскажет о персонализации пушей на всех этапах жизни пользователей на примере Яндекс Маркета. Катя Меркушева объяснит, как в Лавке анализируют ассортимент и как может помочь Customer Decision Tree.

Вечер продолжится стендапами о факапах, активностями на afterparty и нетворкингом в неформальной атмосфере.

• 29 ноября, 18:00
• Москва, только офлайн

Регистрируйтесь и зовите коллег!

Обратите внимание, количество мест ограничено. После регистрации обязательно дождитесь подтверждения заявки.

Реклама. ООО «Яндекс.Такси» ИНН 7704340310

640

DataFrog: Data Science

12 Nov, 14:10

Что такое аугментация данных?

Это один из методов регуляризации нейронных сетей через внесение изменений в данные. То есть, если мы внесем небольшие адекватные изменения в данных, мы можем спасти нейросеть от переобучения и увеличить ее обобщающую способность. Но почему это работает? Разбираемся на попугаях.

Бонусом оставляем отличную библиотеку, позволяющую производить аугментацию изображений.

👉 DataFrog | #datascience

1,091

DataFrog: Data Science

12 Nov, 10:02

❓Как научиться извлекать максимальную пользу из данных?

Приходите на курс "Основы Data Governance" с Александром Бараковым от BI Consult и получите актуальные навыки в трендовой теме управления данными! Data Governance позволит вам навести порядок в данных, ускорить разработку в ИТ-системах, повысить надежность и качество данных, аналитики и отчетности.

📆Даты: 4-13 декабря 2024 года.

Формат курса: 5 встреч по 3 часа интенсива в онлайн формате для CDO, CIO, Data stewards, BI-менеджеров, Операционных директоров и всех кому тема близка.

Автор курса: Александр Бараков - эксперт с 10-летним опытом ведения Data Governance проектов.

Курс позволит сформировать глубокое понимание темы Data Governance и 'примерить' все это на бизнес реалии вашей организации. По итогам курса у каждого слушателя будет сформирована готовая стратегия по внедрению Data Governance в свою компанию и понимание того, как настроить управление данными в любом бизнесе.

🗂На курсе мы погрузимся в темы:

• Information Management (IM)
• Data Quality (DQ)
• Data Governance (DG) (основные элементы, технологии и практики)
• Master Data Management (MDM)
• Управление и оценка эффективности DG

Каждый участник будет заполнять excel-гайд своего проекта Data Governance, применяя разделы курса на контекст своей компании.

📌Почему стоит выбрать этот курс?

• Сильная база: Вы поймете почему данные - это важно, в чем их реальная ценность и как 'продавать' проект менеджменту.
• Практическая направленность: Курс включает реальные кейсы и задачи из бизнеса.
• Нетворкинг: Участвуйте в активном обмене опытом с другими участниками курса и расширьте свою профессиональную сеть. На нашем курсе обучаются CDO и CIO таких компаний, как Максидом, Сбербанк, ВК, Sunlight и KFC.

🔝Записаться на курс

861

DataFrog: Data Science

11 Nov, 10:57

Там на Kaggle завезли новые ачивки

😇

Появились значки за активности под названием Badged (например, год на Kaggle, засабмитил в командное соревнование, создал Python ноутбук и прочее). Полный список тут.

Кроме этого появились так называемые Awards: это больше про фактические достижения типа мест в рейтингах, организации соревнований, публикации датасета и тд. Полный список тут.

Делитесь, кто сколько уже насчитал у себя?

👉 DataFrog | #datascience

833

DataFrog: Data Science

11 Nov, 10:01

В Твиттере завирусилось исследование 1978 года о том, что врачи якобы не могут решить простую статистическую задачу

Она звучит так: "Если тест на выявление заболевания, распространенность которого составляет 1 из 1000, имеет false positive rate в 5%, какова вероятность того, что человек с положительным результатом на самом деле болен?".

Утверждается, что верный ответ – 2% (Из 1000 будет 1 больной и 50 человек с ложноположительным тестом -> 1/51 ~ 2%). Тот же ответ получается по теореме Байеса.

Однако так ответили только 2/10 медиков. Остальные давали ответ "95%", аргументируя это примерно так: "В задаче рассматривается не случайный человек из выборки, а только тот, который уже получил положительный результат теста. В таком случае, раз false positive rate = 5%, то вероятность наличия заболевания получается 95%".

Кстати, подобное исследование проводилось еще один раз в 2014 году. Вопрос задавали уже другой: "Представьте себе гипотетического бейсболиста. Он проваливает тест на наркотики, который точен на 95 процентов. Какова вероятность того, что бейсболист действительно виновен?".

И опять верный ответ дали только 14 из 61 опрошенных. А вы бы как ответили?

👉 DataFrog | #datascience

768

DataFrog: Data Science

04 Nov, 10:55

Liquid AI представили новое семейство моделей с оригальной архитектурой: они выбивают SOTA метрики в своих классах

Самое интересное: это НЕ трансформеры, а так называемые ликвидные сети. Ликвидными (то есть жидкими) их называют потому, что, в отличие от обычных нейросетей, где веса – это просто числа, в ликвидных моделях веса вообще может не быть: здесь обмен сигналами между нейронами — вероятностный процесс, управляемый нелинейной функцией. Такие подходят для моделирования любых последовательных данных, включая видео, аудио, текст, временные ряды и сигналы.

Всего доступно три модели: 1.3B, 3.1B, 40.3B MoE. Все они, судя по бенчмаркам в релизе, показывают себя очень неплохо, особенно на математике и длинном контексте. На схеме наверху – метрики по MMLU, а более детально можно посмотреть здесь. Если все действительно так, как представлено, то перед нами очень многообещающая альтернатива трансформерам (спойлер: r в "Strawberry" все равно посчитать не может).

Еще одна хорошая новость: модели уже можно попробовать. Они доступны в Liquid Playground и Perplexity Labs.

P.S. Если хотите почитать про архитуктуру подробнее, то вам сюда. По этой ссылке ресерчеры Liquid AI оставили упорядоченную подборку статей (собственных и не только) о том, как развивались ликвидные нейросети.

👉 DataFrog | #datascience

999

DataFrog: Data Science

28 Oct, 10:54

Тем временем в Сан-Франциско прямо сейчас проходит OpenAI DevDay. Вот что уже показали:

➡️

Realtime api с минимальной задержкой. Это возможность встроить в свое приложение настоящий speech-to-speech. Будет доступно по цене базовой модели.

➡️

Vision файнтюнинг. Теперь можно тюнить свои модели с использованием изображений.

➡️ Завозят набор инструментов для кастомных дистилляций и ускорения моделей.

➡️ Finally: кэширование промптов, которое уже давно появилось у DeepSeek и Anthropic. На кэшированные промпты цена будет в половину меньше.

➡️

Интрумент для оценки моделей: можно будет нормально эвалить свои приложения.

👉 DataFrog | #datascience

1,169

DataFrog: Data Science

18 Oct, 10:43

Как работает ML в Авито: интервью с руководителями ведущих команд

Авито – это не просто доска объявлений. Почти во все процессы компании вшит ИИ. Модерация, рексис, автоматизация написания объявлений и ответов поддержки, эффективность монетизации...

Чтобы приоткрыть для вас капот этих процессов, мы поговорили с руководителями нескольких ведущих команд и написали статью. В ней вы найдете подробный технический рассказ о том, как в Авито работают LLM, рекомендации и алгоритмы продвижения объявлений.

Полезно и интересно будет всем, и новичкам, и опытным инженерам. Сохраняйте и читайте: https://datasecrets.ru/articles/15

👉 DataFrog | #datascience

1,290

DataFrog: Data Science

16 Oct, 10:42

⚙️ Нужно ли высшее образование в ML? Отвечает руководитель машинного обучения ОК, AI VK – Андрей Кузнецов

Андрей – яркий представитель сразу двух миров: индустрии и академии. Он кандидат технических наук, преподаватель ИТМО и руководитель ML в Одноклассниках. В VK Андрей пришел в 2019 году,а в 2023-м стал управлять разработкой всех ML-систем ОК (их ML-канал: @mlvok).

Мы спросили у него, какое место высшее образование занимает в ML. Нужно ли его получать? Повышает ли диплом шансы на оффер? Зачем действительно нужно учить математику и учиться вообще?

Ответы – в карточках. А если хотите поработать у Андрея в команде, то скорее переходите на наш сайт: там мы уже оставили подходящие вакансии.

👉 DataFrog | #datascience

1,094

DataFrog: Data Science

13 Oct, 09:52

🚀

OpenAI выпустили Canvas – надстройку над ChatGPT для работы с кодом и текстом

По дизайну Canvas походит на Anthropic Artefacts: это отдельное окно рядом с чатом. Инструмент предназначен для задач, где нужно много править или пересматривать один и тот же проект. Он, в отличие от чата, будет лучше запоминать контекст + работать над конкретными разделами.

Например, при работе с текстом он может предложить правки конкретных кусочков, отредактирует длину, тон повествования или грамматику.

Но самое интересное – это, конечно же, код. Canvas просто идеально подходит для программирования:
— исправление багов
— код-ревью
— добавить комментарии
— перевести на любой другой ЯП
— добавить логи

В общем, мини VSCode прямо в чате на основе GPT-4o. И уже раскатили на Plus и Team!

👉 DataFrog | #datascience

849

DataFrog: Data Science

12 Oct, 09:48

Tesla показала нового робота Optimus

В целом, изменилось мало что: роботы все так же ходят, машут, танцуют. Единственное: в этот раз некоторых из них еще поставили в качестве барменов за стойку, но о том, что при этом они управляются людьми, опять тактично умолчали...

В продажу обещают к 2027 году (чему, зная Маска, не очень-то стоит верить). Роботы будут стоит 20-30 тысяч долларов и смогут справляться со всеми бытовыми задачами, интегрируясь с системами умного дома.

👉 DataFrog | #datascience

708

DataFrog: Data Science

07 Oct, 12:08

Что делать с НЕнормальным распределением?

Как известно, моделям (особенно линейным) нравится, когда данные имеют нормальное распределение. Но что делать, если это не так? Рассказываем про два варианта: простой и посложнее.

#train #analytics #python

1,036