DataFrog: Data Science @datasfrog Channel on Telegram

DataFrog: Data Science

@datasfrog


Журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks

Мы отбираем самые лучшие посты на тему DS и ML из других телеграм каналов и сайтов и публикуем у себя.

@viktorreh

DataFrog: Data Science (Russian)

Добро пожаловать в канал DataFrog! Если вы увлечены темами Data Science, Machine Learning, Big Data, Deep Learning и Neural Networks, то вы попали по адресу. Мы являемся журналом о Data Science, где мы отбираем самые лучшие посты на эти темы из других телеграм каналов и сайтов, чтобы предоставить вам только самую актуальную и интересную информацию. Наша цель - обогатить ваше понимание технологий и методов анализа данных, помочь вам быть в курсе последних тенденций и достижений в этой области. Присоединяйтесь к нам, и вы станете частью сообщества специалистов, студентов, и просто увлеченных людей, у которых одна общая страсть - Data Science. Подписывайтесь на наш канал, и будьте в курсе всех новостей и событий мира данных! 📊💻🧠 @viktorreh

DataFrog: Data Science

18 Nov, 18:07


Еще некоторые детали про o1 aka Strawberry aka Q*

➡️ Сейчас на юзерах с подписков крутится не сама o1, а ее preview версия. Также для ChatGPT Plus будет доступна модель o1-mini (более дешевая и шустрая). o1-mini также обещают раскатить и для бесплатных аккаунтов.

➡️ Даже несмотря на то, что самой o1 пока на проде нет, лимиты в чате и цены в API уже достаточно жестокие: 30 сообщений в неделю для o1-preview, 50 для o1-mini 😳. В API вообще песня: 20 запросов в минуту, и при этом платить придется не только за коллы, но и за сами размышления модели (reasoning tokens).

➡️ Саму o1 тоже обещают раскатить скоро. Она уже дообучена и протестирована, но, видимо, OpenAI все еще приходится решать вопросы связанные с затратами на ее инференс, и (может быть) безопасностью.

➡️ OpenAI обращают внимание на то, что промптинг с новой моделью отличается от промптинга со старыми. Они даже выкатили свой гайд с советами о том, как правильно общаться с o1. Основная мысль сводится к «Больше не надо уловок вроде "думай шаг за шагом" или "построй план решения". Формулируйте свои инструкции ясно и прямолинейно, а дальше модель все сделает сама.»

➡️Ну и напоследок то, на что могло ускользнуть от глаз: OpenAI решили скрыть от пользователей мыслительный процесс модели. То есть те рассуждения, которые видны в чате – это выборочный материал. Остальные необработанные цепочки мыслей пользователям не видны.

🍓🍓🍓

👉 DataFrog | #datascience

DataFrog: Data Science

18 Nov, 13:59


Приглашаем на Яндекс Analytics after dark — камерный митап для аналитиков

В конце ноября Еком и Райдтех Яндекса проводит ламповый митап — участники и спикеры поговорят об успехах, провалах и сложностях в работе над сервисами с многомиллионной аудиторией.

Митап начнется с докладов-историй об успехах в аналитике: Аня Хрущева расскажет о персонализации пушей на всех этапах жизни пользователей на примере Яндекс Маркета. Катя Меркушева объяснит, как в Лавке анализируют ассортимент и как может помочь Customer Decision Tree.

Вечер продолжится стендапами о факапах, активностями на afterparty и нетворкингом в неформальной атмосфере.

• 29 ноября, 18:00
• Москва, только офлайн

Регистрируйтесь и зовите коллег!

Обратите внимание, количество мест ограничено. После регистрации обязательно дождитесь подтверждения заявки.

Реклама. ООО «Яндекс.Такси» ИНН 7704340310

DataFrog: Data Science

12 Nov, 14:10


Что такое аугментация данных?

Это один из методов регуляризации нейронных сетей через внесение изменений в данные. То есть, если мы внесем небольшие адекватные изменения в данных, мы можем спасти нейросеть от переобучения и увеличить ее обобщающую способность. Но почему это работает? Разбираемся на попугаях.

Бонусом оставляем отличную библиотеку, позволяющую производить аугментацию изображений.

👉 DataFrog | #datascience

DataFrog: Data Science

12 Nov, 10:02


Как научиться извлекать максимальную пользу из данных?

Приходите на курс "Основы Data Governance" с Александром Бараковым от BI Consult и получите актуальные навыки в трендовой теме управления данными! Data Governance позволит вам навести порядок в данных, ускорить разработку в ИТ-системах, повысить надежность и качество данных, аналитики и отчетности.

📆Даты: 4-13 декабря 2024 года.

Формат курса: 5 встреч по 3 часа интенсива в онлайн формате для CDO, CIO, Data stewards, BI-менеджеров, Операционных директоров и всех кому тема близка.

Автор курса: Александр Бараков - эксперт с 10-летним опытом ведения Data Governance проектов.

Курс позволит сформировать глубокое понимание темы Data Governance и 'примерить' все это на бизнес реалии вашей организации. По итогам курса у каждого слушателя будет сформирована готовая стратегия по внедрению Data Governance в свою компанию и понимание того, как настроить управление данными в любом бизнесе.

🗂На курсе мы погрузимся в темы:

• Information Management (IM)
• Data Quality (DQ)
• Data Governance (DG) (основные элементы, технологии и практики)
• Master Data Management (MDM)
• Управление и оценка эффективности DG

Каждый участник будет заполнять excel-гайд своего проекта Data Governance, применяя разделы курса на контекст своей компании.

📌Почему стоит выбрать этот курс?

Сильная база: Вы поймете почему данные - это важно, в чем их реальная ценность и как 'продавать' проект менеджменту.
Практическая направленность: Курс включает реальные кейсы и задачи из бизнеса.
Нетворкинг: Участвуйте в активном обмене опытом с другими участниками курса и расширьте свою профессиональную сеть. На нашем курсе обучаются CDO и CIO таких компаний, как Максидом, Сбербанк, ВК, Sunlight и KFC.

🔝Записаться на курс

DataFrog: Data Science

11 Nov, 10:57


Там на Kaggle завезли новые ачивки 😇

Появились значки за активности под названием Badged (например, год на Kaggle, засабмитил в командное соревнование, создал Python ноутбук и прочее). Полный список тут.

Кроме этого появились так называемые Awards: это больше про фактические достижения типа мест в рейтингах, организации соревнований, публикации датасета и тд. Полный список тут.

Делитесь, кто сколько уже насчитал у себя?

👉 DataFrog | #datascience

DataFrog: Data Science

11 Nov, 10:01


В Твиттере завирусилось исследование 1978 года о том, что врачи якобы не могут решить простую статистическую задачу

Она звучит так: "Если тест на выявление заболевания, распространенность которого составляет 1 из 1000, имеет false positive rate в 5%, какова вероятность того, что человек с положительным результатом на самом деле болен?".

Утверждается, что верный ответ – 2% (Из 1000 будет 1 больной и 50 человек с ложноположительным тестом -> 1/51 ~ 2%). Тот же ответ получается по теореме Байеса.

Однако так ответили только 2/10 медиков. Остальные давали ответ "95%", аргументируя это примерно так: "В задаче рассматривается не случайный человек из выборки, а только тот, который уже получил положительный результат теста. В таком случае, раз false positive rate = 5%, то вероятность наличия заболевания получается 95%".

Кстати, подобное исследование проводилось еще один раз в 2014 году. Вопрос задавали уже другой: "Представьте себе гипотетического бейсболиста. Он проваливает тест на наркотики, который точен на 95 процентов. Какова вероятность того, что бейсболист действительно виновен?".

И опять верный ответ дали только 14 из 61 опрошенных. А вы бы как ответили?

👉 DataFrog | #datascience

DataFrog: Data Science

04 Nov, 10:55


Liquid AI представили новое семейство моделей с оригальной архитектурой: они выбивают SOTA метрики в своих классах

Самое интересное: это НЕ трансформеры, а так называемые ликвидные сети. Ликвидными (то есть жидкими) их называют потому, что, в отличие от обычных нейросетей, где веса – это просто числа, в ликвидных моделях веса вообще может не быть: здесь обмен сигналами между нейронами — вероятностный процесс, управляемый нелинейной функцией. Такие подходят для моделирования любых последовательных данных, включая видео, аудио, текст, временные ряды и сигналы.

Всего доступно три модели: 1.3B, 3.1B, 40.3B MoE. Все они, судя по бенчмаркам в релизе, показывают себя очень неплохо, особенно на математике и длинном контексте. На схеме наверху – метрики по MMLU, а более детально можно посмотреть здесь. Если все действительно так, как представлено, то перед нами очень многообещающая альтернатива трансформерам (спойлер: r в "Strawberry" все равно посчитать не может).

Еще одна хорошая новость: модели уже можно попробовать. Они доступны в Liquid Playground и Perplexity Labs.

P.S. Если хотите почитать про архитуктуру подробнее, то вам сюда. По этой ссылке ресерчеры Liquid AI оставили упорядоченную подборку статей (собственных и не только) о том, как развивались ликвидные нейросети.

👉 DataFrog | #datascience

DataFrog: Data Science

28 Oct, 10:54


Тем временем в Сан-Франциско прямо сейчас проходит OpenAI DevDay. Вот что уже показали:

➡️ Realtime api с минимальной задержкой. Это возможность встроить в свое приложение настоящий speech-to-speech. Будет доступно по цене базовой модели.

➡️ Vision файнтюнинг. Теперь можно тюнить свои модели с использованием изображений.

➡️ Завозят набор инструментов для кастомных дистилляций и ускорения моделей.

➡️ Finally: кэширование промптов, которое уже давно появилось у DeepSeek и Anthropic. На кэшированные промпты цена будет в половину меньше.

➡️ Интрумент для оценки моделей: можно будет нормально эвалить свои приложения.

👉 DataFrog | #datascience

DataFrog: Data Science

18 Oct, 10:43


Как работает ML в Авито: интервью с руководителями ведущих команд

Авито – это не просто доска объявлений. Почти во все процессы компании вшит ИИ. Модерация, рексис, автоматизация написания объявлений и ответов поддержки, эффективность монетизации...

Чтобы приоткрыть для вас капот этих процессов, мы поговорили с руководителями нескольких ведущих команд и написали статью. В ней вы найдете подробный технический рассказ о том, как в Авито работают LLM, рекомендации и алгоритмы продвижения объявлений.

Полезно и интересно будет всем, и новичкам, и опытным инженерам. Сохраняйте и читайте: https://datasecrets.ru/articles/15

👉 DataFrog | #datascience

DataFrog: Data Science

16 Oct, 10:42


⚙️ Нужно ли высшее образование в ML? Отвечает руководитель машинного обучения ОК, AI VK – Андрей Кузнецов

Андрей – яркий представитель сразу двух миров: индустрии и академии. Он кандидат технических наук, преподаватель ИТМО и руководитель ML в Одноклассниках. В VK Андрей пришел в 2019 году,а в 2023-м стал управлять разработкой всех ML-систем ОК (их ML-канал: @mlvok).

Мы спросили у него, какое место высшее образование занимает в ML. Нужно ли его получать? Повышает ли диплом шансы на оффер? Зачем действительно нужно учить математику и учиться вообще?

Ответы – в карточках. А если хотите поработать у Андрея в команде, то скорее переходите на наш сайт: там мы уже оставили подходящие вакансии.

👉 DataFrog | #datascience

2,578

subscribers

250

photos

3

videos