Kantor.AI @kantor_ai Channel on Telegram

Kantor.AI

@kantor_ai


Канал Виктора Кантора про Data Science, образование и карьеру в сфере анализа данных. По вопросам сотрудничества: @mariekap

Kantor.AI (Russian)

Добро пожаловать на канал Kantor.AI! Этот канал создан Виктором Кантором для всех, кто интересуется Data Science, образованием и карьерой в сфере анализа данных. Если вы хотите узнать о последних тенденциях в мире Data Science, получить советы по обучению и развитию карьеры в этой области, то этот канал именно для вас. Виктор Кантор - эксперт в области анализа данных и готов поделиться своими знаниями и опытом с вами. На канале можно найти полезные статьи, видеоуроки, интервью с профессионалами из сферы Data Science и многое другое. Присоединяйтесь к нам, чтобы быть в курсе всех новостей и событий в мире анализа данных! Kantor.AI - ваш проводник в мире Data Science!

Kantor.AI

09 Jan, 10:18


Компенсации в топ-менеджменте (часть 3/3)

🏎 Чем обусловлены компенсации топов

Важно понимать, что топам платят приличные деньги не потому что они такие офигенные и самые гениальные люди на свете, а потому что у них нет и не может быть отговорок. Сам ты себе помешал или какие-то обстоятельства непреодолимой силы - никого не волнует.

Топ-менеджер берет ответственность за достижение результатов бизнеса, за это и получает свою компенсацию. В зависимости от степени успеха или провала, ее часть или вся сумма целиком может умножиться на ноль (или что-то от 0 до 1+).

Конечно, в минус компенсация не уйдет: в этом отличие топа от предпринимателя, и это объясняет, почему предприниматель все равно заработает значительно больше топов (если мы говорим об одной и той же компании, и она уже достаточно велика, в маленьком стартапе всякое бывает).

Однако топ-менеджмент это все равно крайне высокий уровень ответственности за бизнес, высокий уровень рисков, и другая вероятность "не вывезти" и покинуть корабль досрочно. Кроме того, желающих поработать на C-level всегда много, конкуренция высокая, и чтобы удерживаться даже год-полтора нужно не просто справляться, а не попасть в список "отстающих" на фоне коллег.

Легче всего с этим справляться, если у вас есть некоторая устойчивость к постоянному стрессу, внешней оценке и соревнованию с другими, и вы можете просто делать то, что считаете правильным для компании. Если же вы от подобного давления будете постоянно дергаться, работа в топах запомнится вам надолго)))

Конечно, все не так прям бескомпромиссно жестко. Желающих работать на C-level и правда много, а внушающих доверие CEO и совету директоров как правило меньше. Поэтому, если увольнять управленцев за любой просчет, никаких кадров не напасешься. Но и гладить по головке и заботиться о вашей мотивации уже, конечно, никто не будет.

Итого: внутренняя мотивация - это база, отвечать головой за результат - это база, уметь отбивать нападки недовольных оппонентов (например тем, что вы делаете то, что считаете нужным вы, а не они) - это тоже база, ну и уметь быстро принимать решения, за последствия которых вам отвечать - тоже, конечно же, база. Все это по-хорошему начинается уже с любого руководящего уровня, но в экзекьютивах достигает своего пика.

#c_level

Kantor.AI

06 Jan, 11:10


Компенсации в топ-менеджменте (часть 2/3)

Продолжаю рассказ про то, как оплачивается работа топов. В прошлый раз мы поговорили про зп и STI, теперь остались LTI и льготы.

‼️ Кстати говоря, текст может быть полезен не только тем, кто уже метит в топ-менеджмент. Аналогичная схема вознаграждения распространяется по компаниям все больше и часто применяется просто для высокогрейдовых сотрудников. Общая идея здесь в том, что компании все равно выгодней платить вам деньги не большим фиксом в месяц, а разбив сумму на зп+STI+LTI. Также не стесняйтесь задавать вопросы в комментариях.

📈Акции

LTI или Long-Term Incentive - долгосрочная мотивация. Обычно это какая-то большая сумма сумма денег, выдаваемая либо напрямую в виде акций компании (если компания публичная, т.е. торгуется на бирже), либо в денежном выражении, но так, чтобы фактическая сумма была привязана к показателям компании (всякой там ебитде, гросс марже и прочим ругательствам - у кого к чему).

В случае топов эта сумма может быть сравнима или даже заметно больше, чем зарплата+премия, но она распределяется на 3-4 года. Это называют вестингом акций: они за вами уже закреплены, об этом подписаны все документы, но получаете вы акции постепенно. Есть компании с равномерным вестингом - например, 25% каждый год из 4 лет, есть компании с неравномерным - например, в первый год поменьше, второй побольше, а на третий прям много. Смысл неравномерности опять же в том, чтобы в будущем перед вами всегда был большой куш, который вы захотите заработать.

Этот куш имеет и обратный эффект: чтобы его получить, люди готовы проявлять чудеса осторожности и не вступать лишний раз в конфликты, что приводит к довольно медленному решению вопросов. Исправляется эта проблема просто: топ-менеджеров достаточно легко увольняют. Т.е. если вы весь такой аккуратный выживальщик и нигде не идете на активное нанесение добра компании, чтобы избежать конфликтов, это будет видно. После пары сигналов от руководства вы все равно попрощаетесь и с работой, и с бонусами, ведь над вами есть еще СЕО, который финансово заинтересован в результате. С другой стороны, если вы побежите с шашкой наголо ломать все, что работает - прогноз вашей выживаемости тоже обычно неутешительный.

🥇Льготы и прочие плюшки

Тут уже зависит от корпоративной культуры, и кто во что горазд: кабинеты, служебные машины, водители, ассистенты, вторые ассистенты, премиум ДМС и так далее и так далее. Мое мнение - кабинет это довольно удобно, когда у тебя миллиард встреч в неделю, личный ассистент это тоже удобно, когда календарь сложный. Лично для меня играть в тетрис с календарем всегда было сложнее, чем любой этот ваш машинлернинг или даже теорфиз.

Остальное зависит от рода деятельности. Если вы управляете каким-то бизнесом компании, где нужно много ездить по другим компаниям на переговоры, здорово, если вас возят. Если весь день сидите в одном здании, то вообще пофиг. Кстати, иногда вместо водителя и машины люди просто предпочитают компенсацию такси.

Кроме того, вы удивитесь, как много топ-менеджеров ездит на метро. Когда ты топ, опоздать на встречу, стоя в пробке, - часто непозволительная роскошь. А метро внезапно прогнозируемое и надежное 🙂

Что касается ДМС, многие на этом уровне уже привыкли ходить к врачу заранее, а следовательно платить за медицину сами. ДМС предполагает, что уже есть жалобы, а премиум ДМС просто включает в себя топовые клиники или топовых врачей в них, но как и обычный ДМС не покрывает какие-то серьезные необязательные операции, улучшающие качество жизни. Так что радикальных отличий от обычного ДМС здесь нет, просто пакет услуг и выбор врачей шире.

#c_level

Kantor.AI

05 Jan, 19:35


Компенсации в топ-менеджменте (часть 1/3)

Сразу предупрежу: конкретные суммы я называть не буду, т.к. по себе или знакомым совершенно не заинтересован ничего разглашать, а в достоверности других источников не могу быть уверен. Кстати, это один из способов психологического давления в корпоративной среде - капать оппоненту на мозги (можно через друзей, чтобы не так очевидно) рассказами про гигантские вознаграждения его коллег, конечно же, в 99% случаев выдуманные. Так что не верьте всему.

Однако я расскажу, из каких частей состоит вознаграждение топов, как выплачивается, и на что это влияет. Думаю, что тем, кто этого не знал, будет все равно интересно. Что касается сумм, есть прекрасные журналы Forbes, РБК и другие им подобные, которые профессионально считают чужие деньги, в их материалах периодически встречаются исследования рынка.

💵 Зарплата

Есть три (ну ладно, четыре) части компенсации: зарплата, STI, LTI и всевозможные льготы. Первое нам всем итак знакомо, а по размеру могу сказать, что есть две школы мысли: первая - что у руководителя должна быть самая большая зарплата в его подразделении, вторая - что можно нанимать сотрудников на бОльшую зарплату, чем у тебя, если так уж рынок порешал. Я сторонник второй школы мысли, потому что в современных реалиях цена хороших CTO или CDS растет быстрее зарплат сидящих десятилетиями в одном месте корпоративных менеджеров. Кроме того, зарплата сильно разнится от компании к компании: большая группа компаний типа Сбера и какой-нибудь заметный игрок в своей нише, но развивающийся просто под продажу стратегу, - это конечно две разные истории.


🏆 Премия

STI или Short-Term Incentive - краткосрочное поощрение (дословно "стимул"). На западе так называют и квартальный, и полугодовой, и годовой бонус. У нас обычно также, но иногда могут быть заигрывания с годовой премией, как будто это уже "долгосрочная" мотивация. Например, часть годовой может расчитываться как-то стабильно и по KPI, а часть быть привязана к какому-то общему показателю бизнеса и косплеить бонус акциями. Но в случае топов обычно есть просто одна премия, которая платится раз в год, и она расчитывается и по вашим KPI, и по показателям компании. В целом как у всех сотрудников, с тем лишь отличием, что на грейдах ниже выплаты чаще - раз в квартал или раз в полгода.

Связано это с тем, что работа высоких грейдов и, в том числе, топов, оказывает долгосрочное влияние, и логично измерять результат по более долгому периоду времени. Также, если для низких грейдов премия может отсутствовать или быть в размере 1-2 месячных зарплат, у топов премия может составлять 50, 100 и более процентов годовой зарплаты. Объясняется это тем, что премию вы получаете только доработав год до конца, так что перекос годового дохода в сторону премии дает великолепный рычаг давления на вас и кратно растит вашу заинтересованность показывать чудеса проактивности и заинтересованности в общем деле.

В следующей части поговорим об LTI и прочих плюшках, а в комментариях пишите, о чем еще рассказать про C-level

#c_level

Kantor.AI

02 Jan, 19:22


Всех с наступившим 🎄🥂 Надеюсь, празднования у всех прошли хорошо и еще продолжаются :)

Я никогда не подводил итоги года публично (по крайней мере этого не помню), да и в целом не очень люблю читать чужие. Не знаю почему, может потому что слишком приторно, может от зависти. Но в этом году мне захотелось попробовать. Если понравится - вам хана, буду повторять каждый год, придется отписываться. Так что у читателей есть шанс насовать мне ценного фидбека в комментах и предотвратить непоправимое.

В прошедшем году я:

1) Успешно доработал свой срок в топ-менеджменте (да, там все по срокам, которые идет вестинг акций, расскажу как это обычно устроено в будущих постах), получил продление контракта, но решил попробовать в предпринимательство, вдохновившись примерами Толи Карпова, Димы Волошина и Леши Драля (у каждого своя школа в своем формате и каждый по-своему преуспел в этом деле). Благо после работы в топах предпринимательствовать немного спокойнее. Ну, пока деньги не кончатся)

2) Открыл наконец-то свою школу ML после 14 лет преподавания в вузах, компаниях и на курсере, запустил первый поток первого курса, telegram- и youtube-каналы школы

3) Вылечил отца от рака. Ну, разумеется, до определенной степени (пока не загадываем, но очаг удален, лучевая пройдена, пока показатели тьфу-тьфу хорошие). И, конечно же, не я лично вылечил, тут спасибо большое профессионализму врачей Медси, с меня были сугубо организационные моменты. Но отец уже прожил на 5 лет дольше деда с той же болезнью и, дай Бог, еще поживет :) И это, конечно, самое радостное событие года.

В этом году я надеюсь, что мне не придется никому помогать с лечением от страшных болезней, ну а если придется, то все снова получится. Ну и надеюсь, что я не сгорю от хейта в комментах и дотащу в этом году школу до 10+ классных курсов и еще нескольких крутых проектов и обучений в компаниях :) Все же за что взялся - хочется довести до ума, чего и вам всем желаю во всех дорогих для вашего сердца начинаниях 🤝

С Новым годом ❤️☃️

Kantor.AI

26 Dec, 14:53


Что человеку хейт - то сетке кликбейт

С перспективами все большего применения генеративного ИИ для написания текста и рисования картинок для рассылок (что уже итак часто происходит) возникает очевидный риск того, что кликбейт нас всех захлестнет.

На одной стратсесии крупного холдинга, где мне посчастливилось выступать, ведущий выдал замечательный по своей понятности для широкой публики тезис: «у ML моделек нет совести». Не вдаваясь в подробности прививания моделям моральных ограничений и в прочий AI alignment, имелось ввиду то, что для оптимизации лосса все средства хороши, если дают результат.

Для примера посмотрите на рассылку Литрес в аттаче. Её конечно наверняка делал человек, но она 100% достаточно высококонверсионная: ведь сама идея того, что бедного Драйзера из-под земли достали, чтобы написать новую книгу, нет-нет да и заставит посмотреть письмо. Безотносительно того, что понятно, что имели ввиду маркетологи из Литрес, сетки будут использовать такие «крючки» еще более агрессивно.

С другой стороны, может и хорошо? Интересный спам это интереснее, чем неинтересный, как вы считаете? 😁

Kantor.AI

24 Dec, 13:40


Мы так однажды с Никитой (автором поста ниже) поспорили, как считать в рекомендациях precision@k, когда кандидатов меньше k. Никита топил за реализацию в катбусте, потому что читал исходники, а я топил за деление на k, потому что привык, что по графикам precision@k и recall@k можно базово прикинуть адекватное вашему случаю количество рекомендаций в блоке или найти проблему типа нехватки кандидатов: если в какой-то момент precision@k начинает сильно падать просто потому что вместо 5 рекомендаций у вас повально 2, это проще заметить.

В итоге, изучив другие источники, Никита, с нотками досады признал правильным мой вариант, хотя логика в катбустовой реализации конечно тоже понятна - не штрафовать, если лучше уже нельзя было отранжировать. И если честно, я бы не был здесь так категоричен в вопросе «как правильно». Смотря чего вы хотите: включать измерение качества кандидатов в метрику или нет. Но главное, что так мы с Никитой узнали, что нам есть о чем поговорить, кроме слайдов в Power Point, и это было прекрасно :)))

Kantor.AI

24 Dec, 13:40


Все же здесь DS и знают базовые метрики?
Precision?
Precision@k?
А ничего вы не знаете, канальи! 🙈

Прошло пару лет как коллеги со светлой стороны Сбера выпустили свою замечательную статью на NIPS, примечательную такой картинкой

Про то как в разных recsys либах метрики считаются по-разному 😱
Но хотя бы precision@k вроде одинаково? Или нет? 🤔

Рассмотрим угловой кейс – на что делить, когда кандидатов сгенерилось меньше k? 🤓

Правильный ответ здесь– делить на k !!!!
Институт NIST– National Institute for Standards and Technology распространяет код как считать правильно 🥳

На для catboost закон не писан – он делит на число кандидатов 🤬😡🥵

Будьте внимательны! Или перепроверяйте за пакетами или считайте сами!

Kantor.AI

24 Dec, 09:11


#с_level
PowerPoint-зазеркалье

Если меня спросят, от чего у меня больше всего горело на C-level, так это от двух вещей: комитетов и презенташек. Про комитеты я напишу отдельный пост, а вот по презенташкам слегка пройдусь сейчас.

Не подумайте, я не считаю Power Point злом во плоти. На мой взгляд, несмотря на громкие амазонские эксперименты, слайды могут неплохо помогать людям донести свои мысли быстро и четко, если у человека правда есть какая-то внятно сформулированная цель коммуникации, а слайды подготовлены тоже качественно. И горит у меня не от того, что люди часто рисуют слайды неинформативными или наоборот перегруженными, с этим тоже можно жить. И исправлять эту ситуацию несложно.

Горит у меня вот от чего: в куче компаний топ-менеджмент периодически собирается на всякие совещания и стратсессии, на которых показывает друг-другу домашние заготовки (в виде нарисованных их сотрудниками слайдов) под видом того, что нарисованное на этих слайдах и есть то, что реально происходит и будет происходить в бизнесе. На этих слайдах обязательно рисуются какие-то амбиции, планы, грандиозные замыслы, золотые горы, к которым только руку протяни и вот до конца контракта докладчика будет все подготовлено и прямо на следующий год как долбанет вверх выручка, ух как заживем! А рядом с моим домом тем временем ездят роботы-курьеры, которые на улицах Москвы еще пять лет назад показались бы фантастикой. И я точно знаю, что эти роботы ездят не потому, что кто-то нарисовал слайды в Power Point.

Ощущение, что все эти наши шабаши со слайдами - это путь куда-то не туда, грызло меня с самого начала. С другой стороны, числа с результатами и планами показать друг-другу надо, и идею/мечту (у кого что) донести надо, и обсудить тоже надо. Так что выглядит как необходимое зло. Но есть два логичных способа попытаться это зло чуточку уменьшить:

1) Числа по текущей ситуации в бизнесе надо показывать не посредством написания руками чисел на слайде, а в дашбордах на основе регулярно валидируемых данных

2) Если можно про что-то не рассказать, а показать - показывать. Лучше одно демо, чем 10 срежессированных видосов или 100 объяснений, как классно оно работает.

Отдельная проблема с последним это как сделать демо, если ваш результат это например улучшение эффекта от рекомендаций на 10%. Вообще рассказывать про инкрементальные улучшения в существующих ML штуках очень больно: все эти проценты ничего не значат для тех, кто не разбирается, а тем, кто разбирается, достаточно таблички с результатами и ответов на несколько вопросов. Но никакими эффектными демо тут и не пахнет. Даже наоборот - эффектные демо дадут те вещи, которые вряд ли сильно повлияют на метрики. Вот и получается, что вроде боролись со злом в лице слайдов, а создали новое зло - мотивацию делать штуки для красивого демо, а не для большего эффекта.

В итоге я пришел к принятию, что вся эта история про зазеркалье презентаций и мир, существующий на слайдах - не про слайды и Power Point. Она про культуру нашего общения, взаимодействия и оценки результатов. Если у нас в крови мерять все, что меряется, это одна история. Если мы с детства любим красивые сказки и эмоциональные рассказы - это другая. Первое нужно, чтобы не улететь совсем в облака, а второе на самом деле тоже нужно - чтобы продолжать мечтать и сохранять мотивацию идти дальше. Плохо, когда остается только что-то одно.

Ну а Power Point это просто инструмент: что запрещай его, что не запрещай - сказочники останутся сказочниками, а любители все измерить продолжат смотреть на числа.

А как вы думаете, что нужно делать, чтобы планы и стратегии, нарисованные в слайдах, имели какую-то связь с реальным миром? И нужно ли вообще, или наоборот пусть лучше нормальные люди работают, а фантазеры фантазируют визионеры визионируют?

Kantor.AI

23 Dec, 18:09


https://t.me/datarascals/11

Предпраздничное настроение само собой подводит к загадыванию желаний. Например, после чтения поста по ссылке, у меня возникло такое:

🎄🥂Пусть в новом году будет больше руководителей, которым можно прислать подобный скрипт, вместо долгого нудного объяснения, почему сравнивать распределения только по среднему и «на глазок» это дичь :)

Хотя, конечно, я верю в светлое будущее, когда представители всех ролей в индустрии будут просто это знать и понимать

Kantor.AI

18 Dec, 14:10


ML в бизнесе
Машинное обучение - это моя жизнь. Буквально полжизни я занимаюсь ML. И мои отношения с ним менялись и развивались со временем:

👨‍🎓15 лет назад я разбирался как работают алгоритмы и как из них собирать что-то реально работающее.

👨‍🔬10 назад я вникал в то, как постановка задачи влияет на полезность решения, ведь то, как вы выбираете таргет и измеряете качество, намного важнее, чем бустинг вы используете для модели или бустинг :)

👨‍🏫Тогда же я уже понял, что один в поле не воин и собирать эффективные команды, развивать их и управлять ими дает сильно больший импакт чем все задачи решать самому.

👨‍💼Лет пять назад на этом пути я дошел до управления Data Science, а затем и всей data функцией в качестве топ-менеджера в большой группе компаний, и получил самый мощный буст к кругозору в бизнесовом ML, какой только бывает

И после нескольких очень меня прокачавших лет работы топом случился кризис смыслов: работать я могу в любой компании, но влиять только на нее мне стало недостаточно. Решение не заставило себя долго ждать, потому что зрело уже много лет. Я собрал топ задач, решаемых в бизнесе с помощью ML, покрасил их грубо в черное и белое - где экономика расходится, где сходится, а где эффект не стоит того, чтобы пытаться. И прямо по этому списку составил вместе с Никитой Зелинским курс из прикладных задач, которые регулярно возникают везде: в телекоме, финтехе, ритейле, e-commerce, райдтехе, классическом айти с многопользовательскими приложениями и много где еще. Зачем? Чтобы теперь замашинлернить не одну компанию, не один холдинг, а все, до чего дотягивается солнце на рассвете - ну помните, как в "Короле льве" :))

ЧТО БЫЛО ДАЛЬШЕ:
🧠Мы обкатали этот курс на студентах двух топовых вузов России - МФТИ и НИУ ВШЭ
🏟Мы взяли полгода на его доработку и адаптацию к более широкому кругу слушателей
🎉Мы подготовили курс к запуску в моей онлайн-школе MLinside

Завтра мы с Никитой ведем вебинар перед стартом курса. Еще не поздно зарегистрироваться и попасть на первый поток. В этом случае вы первым:

1️⃣Научитесь решать не только свою задачу, с которой сидите последний год/два/три на работе
2️⃣Станете востребованным ML специалистом в любой компании: если не все, то больше половины изученных на курсе задач будет в ней применимо
3️⃣Получите буквально за несколько месяцев выжимку того опыта, который мы с Никитой собирали по крупицам в больших экосистемах больше десяти лет

‼️Присоединяйтесь к нам, будет круто :)

Kantor.AI

18 Dec, 11:25


Матричное дифференцирование

😱 В ML периодически возникает потребность взять производную от матричного выражения, как правило имеющую вид «производная вектора по вектору». Если вас всегда ломало разобраться с матричным дифференцированием, а строгое формальное изложение матричных производных через дифференциалы вводило в уныние, я недавно записал видео с простым объяснением, как это работает.

🎭 В ролике есть определенная драматургия: будет момент, где мы с вами сами начнем придумывать матричную производную так, чтобы она в частном случае превращалась в уже привычный нам градиент. И оттуда станет ясно, почему матричная производная именно такая, а не, например, транспонированная.

🤓 Всем, кто хочет шарить за ML чуть глубже, чем «ну я тут что-то обучил и в докер завернул, а как работает не мое дело» - рекомендую к просмотру. Жить без матричных производных можно, но компактно оперировать формулами очень удобно.

Kantor.AI

16 Dec, 17:20


🚀 Вебинар с Никитой Зелинским: Подходы к валидации моделей

🗓 Дата: 19 декабря (четверг)
Время: 20:00 по МСК
🎤 Спикер: Никита Зелинский — Chief Data Scientist компании МТС, кандидат физико-математических наук с 14-летним коммерческим опытом в DS и ML.

Что будет на вебинаре?
🔹Презентация нашего курса «ML в бизнесе». Этот вебинар — вводная часть курса, в котором мы глубже и детальнее разберем ключевые темы и научим внедрять ML в реальные задачи бизнеса;
🔹Рассмотрим схемы валидации;
🔹Разберем практические кейсы.

👉 Регистрируйтесь здесь

🌟 Будем рады видеть вас на вебинаре!

Kantor.AI

16 Dec, 17:20


В четверг проводим вебинар перед запуском курса ML в бизнесе. В курсе разбираем с Никитой топ 7 задач по экономическому эффекту от ML для бизнеса

Kantor.AI

16 Dec, 10:14


Крик души про оценку качества рекламы по попаданию в пол-возраст
Иногда Data Scientist’ы в тг не боятся писать лютую базу. А тут даже не база, а целый генштаб.

Тоже горит с этого наяривания на пол-возраст вместо прямого прогнозирования отклика и замера его качества. А уж оценка попадания по панелистам или по Яндекс.Метрике по принципу «если даже такую простую задачу плохо решите, то куда вам до response моделей» - просто полыхание всего, что плохо сидит))

Kantor.AI

14 Dec, 13:41


Недавно вышел эпизод YaC 2024 про технологии Яндекса, где рассказали о нейросетях и их внедрении в сервисы компании.

И, в частности, про то, как интегрировали мультимодальные VLM (Vision-Language Models) в «Поиск с Нейро», которые помогают сервису анализировать текстовую и визуальную информацию — и отвечать на вопросы, связанные с изображениями.

Там же можно узнать про то, как Яндекс применил трансформеры для обучения своего автономного транспорта, как запускали новое поколение Алисы на базе YandexGPT и многое другое. Посмотреть все эпизоды можно здесь.

Kantor.AI

14 Dec, 10:36


Итак, ответ на вопросы успешно найден в комментариях. Т.к. на картинке датасет выстроился почти в непрерывную кривую, разность между координатами соседних текстов оказалась всегда маленькой. Это значит, что и в исходных признаках при переходе от текста к тексту признаки изменялись лишь чуть-чуть.

Очевидный способ достижения этого результата - забыть обнулять счетчики частот слов, что и сделал студент, о чем и догадался научрук. Пассаж про изучение библиотек был, конечно же, о том, что в sklearn есть готовые текстовые векторизации, которые можно взять из коробки и не накосячить таким образом. Тот факт, что студент забыл обнулять счетчики, проверяется легко: достаточно посмотреть на матрицу признаков, ведь к последнему тексту нулей уже, конечно же, не осталось.

Почему же возникали разрывы? Из-за плохой предобработки текстов были тексты с большим количеством всяких спецсимволов и слов, которые давали очень большой прирост к криво выделенным токенам. В частности, картина из предыдущего поста - это еще после фильтрации части таких спецтекстов. Без фильтрации получалась та, которую вы видите в прикрепленных к посту

Kantor.AI

14 Dec, 01:37


Ну что же, в последнем квизе, конечно, правильный ответ был [3], но раз он не зашел аудитории, вот вам вопрос поинтереснее.

Предыстория:
студент анализировал тексты классическими методами. В частности, строил признаковые описания на основе частот слов. После отображения выборки в пространство двух главных компонент студент получил такую замысловатую картинку. Глядя на нее, научрук сразу посоветовал не писать свои костыли, а пользоваться готовыми реализациями из библиотек, а также сразу сказал, где у студента ошибка.

Вопрос:
где у студента была ошибка?

Вопрос "со звездочкой": как может объясняться резкий перепад в графике рядом с 1200 по горизонтальной оси?

Пишите ваши версии в комментариях :)

Kantor.AI

13 Dec, 19:04


#квиз
Что-то давно у нас не было квизов :) Задавайте свои ответы!

Kantor.AI

12 Dec, 15:43


‼️Интервью с руководителем Школы Анализа Данных Яндекса

🎤Опубликовали в YouTube канале интервью с Лешей Толстиковым. Много говорим об образовании, ШАДе и алгоритмах (нужны или не нужны, почему), ну и конечно же обсудили, как складывался карьерный трек самого Леши :)

Kantor.AI

12 Dec, 09:58


Ну что же, теперь есть легитимный повод красить все презентации в «согревающий коричневый оттенок»

Кстати, впервые с тем, чтобы презентации красили в цвет года Pantone и перерисовывали под современные дизайн-тренды (то неоновые цвета, то матовое стекло, то еще что-нибудь, каждый год новое) я встретился, когда ко мне в команду пришел сотрудник, ранее клепавший со своим отделом прототипы всяких AI штук в очень крупной компании. Когда KPI это количество успешно проведенных демонстраций и докладов председателю правления, форма порой становится важнее содержания, и подаче уделяется очень много внимания. Не могу сказать, что осуждаю - какой KPI, такое и исполнение.

Так что если у вас тоже есть KPI на количество успешных отсветов фейсом перед руководством - согревающий коричневый в этом году точно к вашим услугам.

Kantor.AI

11 Dec, 21:54


Манагерский кейс
Как-то встречаю в курилке пару тех лидов и они дружно жалуются что не могут ничего делать руками – в их продукты командировали каналью-скрама и все время встречи отнимают. А сколько встреч в день в среднем? – ну две-три. Пинаю скрама чтобы обсчитала (и объясняю методологию – включать во время встречи еще полчаса после нее на то, чтобы врубиться что происходит) – бодро докладывает что встречи занимают только (!) 9-10% рабочего времени.
Примерный календарь слева

Пришлось проводить работу с PO, CPO, Scrum и прочими на тему что если между встречами час – то ничего закодить не успеешь и для человека, работающего головой а не только лишь ртом (то есть того кто учит модели и пишет код) такой календарь превращается в тот что справа.

И я таки тоже потратил полчаса чтобы объяснить как быть – до обеда дать людям спокойно кодить (0 встреч), после обеда – встречи. Или наоборот , главное чтобы минимум 4 часа подряд было на работу каждый день
Мораль: от перемены мест слагаемых сумма меняется еще как. И особенности психики человека игнорировать нельзя.

Kantor.AI

07 Dec, 10:25


Вот пример специфичного примера от подписчиков.

Для русского языка слово "отечество" специфично и поэтому генерация релевантна.
Но родное подвело... Да...

Запросы: История отечества и родная история.

Kantor.AI

07 Dec, 10:00


Вы спросили —Дядя отвечает. Истина находится где-то по середине. Действительно на нашем рынке можно встретить множество решений вокруг открытых моделей с huggingface или же апи модных нынче Midjourney.  Это может работать по принципу перевел с ру на ен и вкинул в апиху, далее выдал результат. Обычно, на старте, это было уделом малых команд, стартапов и пр.

На самом деле, ничего в этом зазорного нет, те же ребята с Perplexity строить свое решение начали именно вокруг топовых апи LLM (OpenAI, Google, Anthropic и т.п.).  Но при этом perplexity имеют свою доп. логику с поиском, линковкой фактов и пр. Что делает ее решение аналогом поисковика "в кармане".  После, они еще и собственные тюны моделей Llama like завезли, благо лицензия открытая позволяет. И это имеет спрос.
Т.е. более крупные игроки, стараются использовать такие решения для холодного старта или во все опираясь на открытые сеты , модели или архитектуры делать собственные решения/тюны/модели. И я думаю, что крупные игроки нашего рынка достигли уже того уровня зрелости, когда могут позволить себе свои исследования, и как следствие, свои решения в виде моделей и сервисов.

Вопрос остается только в источниках данных. Такое поведение, как мы видим на видео, может быть обусловлено, влиянием сетов обучения. Т.к. на рынке множество открытых сетов на английском языке для задач text2image, а для русского языка примеров много меньше. Создание таких ру-ен данных требует затрат на написание/генерацию и чистку. А в открытых сетах для обучения может возникать дисбаланс по ру-ен паре и как следствие превалирование этики из сетов коих больше. Поэтому тот же native/родной после предобучения на таких примерах будет носить знания культуры того языка коего больше. Тк в основном это все переводы с ен языка на ру как есть, да ещё к релевантным для ен языка картинкам. Для того, чтобы решить проблему "перекоса", не достаточно балансировки знаний, надо писать/матчить именно опорные ру тексты с "правильными" картинками к ним,а также придется, скорее всего, прибегнуть к выравниванию поведения — привет alignment/ human feedback и тп. А далее, вооружившись всем этим, нужно будет решать вопросы тюна с эмбеддером text2image, чтобы для языковой пары запрос сводился к "правильной картинке". Именно его представления будут использоваться диффузией как базой генерации. И в тч над этим, думаю, работают исследовательские команды крупных игроков.

Но нет предела совершенству, это непрерывный процесс дообучения и отлова "черных лебедей". Вот как-то так.

Kantor.AI

07 Dec, 09:59


Есть ли отечественные генеративные нейросети на самом деле?

В соцсетях сейчас вирусится видео, прикрепленное к посту: молодой человек рассказывает о том, как отечественные нейросети выдают крайне подозрительный результат по запросу нарисовать «родное».

Первое, что думают люди, видя такое, это что отечественных нейросетей на самом деле нет и они просто перенаправляют запросы в апишку Midjourney и им подобных зарубежных оригиналов.

Те, кто более прошарен, думают, что наши компании просто берут зарубежный опенсорс, разворачивают у себя, а русские запросы обрабатывают после перевода на английский.

А кто еще более прошарен, знает, что опенсорс в целом поддерживает и русский язык. Остается вопрос: так как же все-таки работают отечественные нейросети?

Зачем гадать, если можно спросить эксперта в области технологий AI, который сам имеет отношение к теме генеративного ИИ — Александра Абрамова. См. ответ у него в канале или репост ниже 👇

Kantor.AI

06 Dec, 18:06


Там вышла ллама 3.3
Но самое интересное - цена

По метрикам ± как GPT-4o, но в 25 раз дешевле

Заставляет задуматься

Kantor.AI

03 Dec, 12:30


Что учить в университете
Вчера записывал интервью с очень крутым разрабом из Яндекса. Обсуждали (уже ближе к концу записи), что нужно учить в университете, а что можно и потом. Прозвучала гениальная по своей простоте и железобетонной логике аксиома: в универе надо учить то, что потом уже не выучишь, например математику и прочую фундаментальщину. Нефундаментальщина через 5-10 лет изменится

Kantor.AI

03 Dec, 10:15


Ого, в профункторе мем на любимую тему @cryptovalerii :)

Kantor.AI

01 Dec, 10:01


Как бизнесу использовать LLM в 2025 году?

Об этом расскажут эксперты в области искусственного интеллекта MTS AI и «Вижнсервис» на вебинаре 4 декабря в 12:00 по МСК.

➡️ РЕГИСТРАЦИЯ ⬅️

Вы узнаете:

🔴 Что такое RAG и как он помогает экономить до 4 часов в поиске информации;

🔴 Как автоматизировать рутинные задачи с помощью Cotype и трансформировать работу с документами и корпоративной информацией;

🔴 Как ускорить разработку ПО с помощью Kodify;

🔴 Как упростить управление корпоративными коммуникациями и повысить эффективность работы с помощью платформы MAX.

💌 P.S. Для всех зрителей мы подготовили бонус — доступ к обновленной опенсорс-модели Cotype.

➡️ Занять место и узнать подробности можно по ссылке.

До встречи!

Реклама. ООО «МТС ИИ»

Kantor.AI

01 Dec, 08:06


#teaching
История про два курса

Когда я учился в университете, в определенный момент у меня в программе был курс функционального анализа - раздела анализа, в котором изучаются топологические пространства (в основном бесконечномерные) и их отображения. Такое вот высокоуровневое развитие привычного всем мат.анализа. Приятная особенность этого предмета в том, что в курсах по нему почти не бывает задач вида «вычислить что-то», только задачи на доказательства и построение примеров довольно абстрактных конструкций. Я, без иронии, был счастлив, что такой курс есть. Меня всегда восхищала красота абстракций, возникающих в математике, и строгих доказательств их свойств при определенных условиях. Разбираться с этим было очень увлекательно и приятно. А вот арифметику я так никогда и не освоил, поэтому радовался, что в кои-то веки на предмете кафедры высшей математики мне не нужно подражать калькулятору.

По этому предмету в моем университете существовало два хорошо сформировавшихся курса, которые читали два разных лектора. Курс более молодого лектора был крайне насыщенным. В нем действительно рассказывалось и доказывалось очень много, как на лекциях, так и на семинарах. Знать все то, что было на этом курсе, было сродни обладанию каким-то невероятным сокровищем, а сам процесс обучения - какое-то запредельное счастье постоянных открытий. И, несмотря на то, что скорость изложения материала зашкаливала, а воспринимать такой плотный поток в принципе затруднительно, предмет был так красив и эстетичен, что награда стоила этих сложностей. Это определенно был очень крутой курс.

Но у меня функциональный анализ вёл другой лектор, существенно старше. Объем материала в его курсе был заметно меньше. И сам курс не производил впечатление очень интенсивного. Звучит хуже? А вот как бы не так. Если первый курс был крутым, то этот курс был гениальным, он был произведением преподавательского искусства. Вместо того, чтобы впихнуть в курс как можно больше, наш лектор (он же был моим семинаристом) оставил время для общения со студентами на занятиях. Нам давали возможность предлагать идеи доказательств, обсуждали с нами возникающие проблемы, давали нам совершать ошибки и помогали учиться на них. Это помогло многим студентам научиться рассуждать на языке математики. Кроме того, курс был насыщен запоминающимися образами. Например, можно было просто формально сообщить слушателям, что значит предъявить эпсилон-сеть для некоторого множества, а можно кроме этого ещё и объяснить, что это то же самое, что целиком осветить парк фонарями, которые освещают круглый пятачок радиусом эпсилон вокруг себя. Детский сад? Может быть. Но образность и осмысленность происходящего позволяла и понимать, и вовлекаться в предмет. И научить нас это помогало.

Последние полгода я часто вспоминаю эти два взгляда на курс. И все чаще задумываюсь, что больше - не значит лучше, ведь «знать» много всего - это, конечно, здорово, но надо же что-то и понимать 🙂 Кроме того, у фокуса на понимание есть приятный бонус: часто достаточно понять совсем немного, чтобы всё остальное стало очевидно и уже не требовало запоминания. Об этом полезно задумываться и преподавателям при подготовке материалов, и слушателям при выборе курсов и траектории обучения в целом.

Kantor.AI

01 Dec, 08:06


Больше vs лучше
Когда я начинаю уделять больше времени преподаванию, с завидной регулярностью возвращаюсь к выбору «напихать в программу больше интересных вещей» или «лучше рассказать то, что действительно важно». То, что сейчас машинное обучение абсолютно безразмерная область, в которой можно расширять программу курса просто до бесконечности, только провоцирует на первый подход. Кроме того, насыщенная программа легче выдается людям за более полезную. Полистал свои же посты, и пять лет назад тоже во время пика преподавательской активности думал о том же самом, даже рассказал тут про свой любимый курс на Физтехе :)

А что вы думаете? Лучше более интенсивная программа или фокус на понимание самого важного?

Kantor.AI

30 Nov, 13:56


Через пять минут начинаю вебинар перед запуском второго потока курса "База ML". Расскажу про то, зачем ML аналитикам, менеджерам и разрабам, какой роадмап перехода в ML я считаю правильным, как его пройти самому (!) и как его пройти с нами. И конечно, про курс. Подключайтесь по ссылке, если интересно послушать :) https://mlinside.getcourse.ru/pl/webinar/show?id=3083519

Kantor.AI

30 Nov, 13:05


Отвечаю в этот понедельник в Вышке на каверзные вопросы вместе с Пашей Ворониным, приходите послушать :)

Kantor.AI

30 Nov, 13:05


🥚 Первый день МТС в ВШЭ

Приглашаем на день МТС в Вышку, где на Q&A-сессии топ-менеджеры компании ответят на ваши вопросы, а эксперты МТС поделятся своим опытом и расскажут о реальных прикладных задачах.

Вы сможете:
➡️погрузиться в виртуальную реальность с помощью VR-очков
➡️испытать свою ловкость в гигантской дженге
➡️сделать самое динамичное фото с помощью Bullet time
➡️оценить необычные угощения и напитки
➡️выиграть крутые призы и мерч от МТС

📆 Когда: 2 декабря в 18:00
🗺️ Где: Культурный центр ВШЭ, Покровский бульвар, 11

Зарегистрироваться🐭

#анонсы #МТС

Kantor.AI

28 Nov, 13:56


💡Как ML меняет карьеру? — Приглашаем вас на вебинар!

🗓 Когда: 30 ноября (суббота), 17:00 (МСК)

🎙 Спикер: Виктор Кантор — основатель MLinside, эксперт по ML, AI и большим данным

На вебинаре:
🟣Узнаете, как аналитики, разработчики и менеджеры используют ML, чтобы стать незаменимыми специалистами.
🟣Разберётесь, как сделать первый шаг в машинное обучение и превратить его в карьерное преимущество.
🟣Получите рекомендации, как внедрять ML в задачи вашей команды и компании.
🟣Узнаете больше про курс «База ML»: его программу, преподавателей и полезные обновления. Старт курса уже 9 декабря!

🔜 Регистрируйтесь здесь

Присоединяйтесь — стартуем в ML вместе! 🔜

Kantor.AI

28 Nov, 13:56


У нас стартует второй поток, тем кто давно хотел попасть в ML - рекомендую :)

Kantor.AI

26 Nov, 11:52


Google: 20 лет развивает AI в поиске и не только
Венчурные инвесторы после бума GPT-моделек: решения на AI вытесняют поиск Google
Google: …

Kantor.AI

26 Nov, 11:52


​​🔍 Доля AI в поиске занимает 6%. А что еще интересного?

Стечение обстоятельств, а также тот факт, что у меня теперь есть Perplexity Pro на год, сподвигли посмотреть, что там на рынке поиска-то происходит. Еще пару лет назад никто не мог подумать, что этот рынок можно как-то переделывать.

1/ Итак, поиск информации вместо Google и других поисковых систем уже проходит через AI решения. Как минимум есть вышеупомянутый Perplexity, а также SearchGPT от OpenAI и поиск через чаты с другими моделями, которые имеют доступ в интернет.

2/ Информации не очень много, но можно запомнить следующее:
▪️Google занимает от 89% поиска как search engine до 91% поиска по разным данным, далее (как ни удивительно) следует Bing с 3.4-4.2%, остальные еще меньше;
▪️Доля AI решений сейчас составляет 6%, но по выручке (в деньгах) это 1%;
▪️Доля Perplexity при этом – 0.5% поиска. Это довольно много, например, доля DuckDuckGo в поиске составляет 0.54%-0.69%.

3/ Доля AI поиска может вырасти с 6% сегодня до 14% в 2028 году.

4/ Кому интересно почитать подробнее про Perplexity, можете зайти вот на этот сайт. Там собрана информация про их бизнес и показатели, например, $40M выручки, 10M MAU, 300M поисковых запросов в 2023 году и так далее.

5/ А вот в этой статье есть прикольное сравнение конвенциального поиска с поиском через AI. Например, результаты поиска через SearchGPT от OpenAI только на 46% совпадают с поиском через Google и на 73% с поиском через Bing.

@proVenture

#research #ai #trends

Kantor.AI

25 Nov, 11:22


🫖ИИ-гаджет для одиночек: встречайте gpTea — чайник, который заваривает чай и общается с вами

Я уже писала о том, что мир переживает эпидемию одиночества, и в некоторых странах даже создаются министерства этого состояния. Похоже, рынок гаджетов и ИИ приспосабливается к новому времени: два разработчика из США Кевин Тан и Келли Фанг создали необычный чайный сервиз под названием gpTea.

Принци его действия прост: как только человек поднимает кружку, чайник, оснащенный ChatGPT, становится собеседником и тут же спрашивает, как у вас дела. Чайник может выслушать вас и даже предложит сам рассказать свою историю.

Сервиз состоит из прозрачной чашки и чайника, установленного на подвижную подставку. Пользователю достаточно засыпать чай и налить воду, и гаджет сам и заварит напиток и нальёт его в ёмкость.

Чашка непростая — в нее интегрирован монохромный округлый дисплей, на котором появляются сгенерированные искусственным интеллектом картинки: они иллюстрируют диалог и истории.

Кстати, неправильно будет назвать этот гаджет подарком для одиночек: чайником gpTea могут пользоваться сразу два человека, находящиеся в разных уголках планеты.

Kantor.AI

25 Nov, 11:22


Про недооценку развития технологий

Только в пятницу на лекции в Сколково говорил, что возможно через лет 10 в каждом чайнике будет LLM, а то и вовсе через 2 года. А уже вот. Буквально чайник 😂😂😂

Вообще я уже не первый раз недооцениваю ситуацию с AI. Когда я говорил что беспилотные машины поедут лет через 5 (на уровне интуиции, конечно я плохо представлял конкретно область автономного транспорта), через год уже возле моего дома начали ездить беспилотные машины Яндекса, а еще через год возле работы - машины Сбера.

Если бы меня 4 года назад спросили, когда случится ChatGPT на его уровне качества, я бы ответил либо «лет через 20», либо вообще «никогда».

Kantor.AI

23 Nov, 09:08


Это прекрасно 😂:
https://habr.com/ru/news/860714/

Вообще там, где в одном месте оказываются ML и HR или любая другая чувствительная история, вечно происходят всякие казусы. Например, в одной очень дорогой моему сердцу компании получилось построить модель прогноза оттока сотрудников с очень хорошим lift@k. Но перспективы её использования похоронил первый же руководитель, заставивший своего продажника писать объяснительную на тему «почему ты выгораешь» 😭

Kantor.AI

22 Nov, 18:33


ML целый день

Только что закончил читать лекцию студентам ФКН ВШЭ про задачи и методы unsupervised learning и осознал, насколько запредельно крутой день у меня сегодня был.

Начался он в 10 утра с чтения двухчасовой лекции в школе управления Сколково про задачи и методы AI от самых основ до того, как нас всех захлестнул Deep Learning, как работает ChatGPT и какие трудности внедрения AI возникают сейчас. Я рискнул добавить кое-каких математических деталей и был шокирован тем, что вовлечение аудитории как будто только выросло по сравнению с сугубо бизнесовой лекцией. Резкий контраст с утверждением Хокинга (со ссылкой на издателя) о том, что каждая формула, включенная в книгу, уменьшает число её читателей вдвое :)

Далее я взял трехчасовое интервью (со всеми перерывами и лирическими отступлениями, а когда смонтируем будет часа полтора-два) у совершенно потрясающего ML рисечера (пока подержу интригу, ждите выпуск на YouTube). Вышел интересный, объемный и полный инсайтов разговор :)

И наконец, получил огромное удовольствие от чтения лекции студентам Вышки. Специально накидал побольше интересного (и местами непростого) материала, чтобы самому не скучать. И внезапно вовлечение было прям на очень высоком уровне для этого контента 😁

Основной вывод во всех трех случаях (в двух я был докладчиком, а в одном в основном слушателем): можно обсуждать хоть какую узкую или более сложную, чем ожидается от ситуации, тему, но если рассказчику она реально интересна, слушатели охотно заражаются этим интересом. И это классно ❤️

Kantor.AI

06 Nov, 16:55


Секция по машинному обучению от MLinside на Матемаркетинге

Казалось бы, только 18 сентября мы запускали первый поток нашего первого курса, и вот, не прошло и двух месяцев, как уже организуем секцию по ML на Матемаркетинге💪 Приходите в эту пятницу послушать :)

Kantor.AI

06 Nov, 16:55


🚀 MLinside на конференции «Матемаркетинг 2024» — встречаемся 8 ноября!

Уже совсем скоро, 7 и 8 ноября, в Москве стартует «Матемаркетинг» — масштабная конференция по маркетинговой и продуктовой аналитике с более чем 120 докладами, панельными дискуссиями и экспертными сессиями! 🤯

👥 Кому стоит посетить конференцию?
Программисты: Если вы хотите расширить свои навыки и использовать ML для более интересных задач на текущем месте работы.
Аналитики: Если вы стремитесь к карьерному росту и хотите узнать, как ML может улучшить вашу работу.
Менеджеры: Если вы хотите научиться правильно взаимодействовать с командами ML и управлять проектами более эффективно.

🗓️8 ноября в 15:00 в рамках секции ML в бизнесе от MLinside эксперты поделятся своим опытом и знаниями о том, как машинное обучение меняет работу различных специалистов:

• Виктор Кантор (MLinside) — расскажет о 7 главных способах внедрения ML и их экономическом эффекте.
• Даниил Родионов (МТС) — поделится фреймворком для оценки маркетинговых эффектов с помощью ML.
• Дмитрий Фролов (МТС) — обсудит оптимизацию закупки рекламы и управление ценами bid-а.
• Арина Смирнова (X5 Group) — на примере кейсов покажет, как big data и ML-таргетинг усиливают работу с клиентами.
• Радослав Нейчев (МФТИ) — разберет, как за один день создать прототип RAG и быстро оценить результаты.

📍 Адрес оффлайн-мероприятия: Москва, Раменский бульвар, 1 (Кластер Ломоносов).

Откройте для себя последние тренды, обменивайтесь опытом с экспертами и повышайте свою квалификацию.

🔗 https://matemarketing.ru

Kantor.AI

05 Nov, 11:49


Вышел эпизод подкаста ТехТок про беспилотный транспорт, смотрим, лайкаем, подписываемся 🏎
https://youtu.be/9tHL9IlMorI?si=GeW46tDm_xt-NpX1

Kantor.AI

04 Nov, 09:06


#ML_in_business
🤔Провожу у себя в школе машинного обучения эксперимент: запускаю курс, где будут систематизированы и разобраны топ-10 с точки зрения величины экономического эффекта применений машинного обучения в бизнесе. Это задачи, которые встречаются постоянно в разных компаниях, почти во всех сферах, где активно применяется ML. Конечно это не то же самое, что самому получить этот опыт, но курс должен сильно ускорить процесс погружения и научить смотреть на задачи ML со стороны бизнеса. Ну и кроме того, настолько разносторонний опыт собирается самостоятельно много лет, а тут все будет рассказано сразу: самому интересно как концентрированные в один курс 15 лет опыта ML повлияют на слушателей.

Чтобы курс как можно сильнее перекликался с потребностями аудитории, нам очень нужны добровольцы для участия в опросе и интервью. Буду очень благодарен всем, кто откликнется 🙏

Kantor.AI

04 Nov, 09:06


Онлайн-созвон с командой MLinside👥
Проводим исследование аудитории

↪️
Как мы уже говорили ранее, сейчас идет активная подготовка к запуску курса «ML в бизнесе».

В DS/ML 60-70% успеха – это доменная экспертиза. Именно поэтому большинство джунов не берут на работу. Ни один руководитель на практике не будет ставить вам задачи типа «сделай мне регрессию или классификацию на этом датасете" - это слишком просто:)

На курсе мы как раз дадим вам практику работы именно в бизнесе. А также расскажем и покажем, как вы сможете помогать компаниям зарабатывать на ML💸

Эта программа отлично подойдет тем, кто:
▪️освоил базу ML и хочет дальше углубляться в машинное обучение,
▪️не имел коммерческого опыта и хочет практиковаться в применении ML на реальных кейсах,
▪️имел недостаточно опыта работы в бизнесе и чувствует нехватку экспертизы в этой сфере для дальнейшего карьерного роста.

🗣️Для того, чтобы выявить ваши ключевые потребности и понять, что вы хотите получить на курсе «ML в бизнесе», мы решили провести опрос аудитории👇
[ Пройти опрос ]

У каждого участника опроса появится возможность поделиться своим опытом в ML и пообщаться с командой MLinside в формате онлайн-созвона.

Благодаря вашим ответам мы сможем улучшить наполнение курса и доработать программу, чтобы дать вам максимум знаний!

Будем рады пообщаться с каждым из вас и узнать друг друга лучше🤝

Kantor.AI

28 Oct, 12:16


Avito ML Cup — это соревнование для ML-инженеров и специалистов в области Data Science, где предстоит создать модель для рекомендаций на основе полусинтетических данных.

🚀Старт: 5 ноября
🔥Призовой фонд: 600 000 рублей.

Участвовать можно как индивидуально, так и в команде до 4 человек. Предлагаемые решения проверяются автоматически по метрике ROC-AUC, а результат будет виден в лидерборде.

Регистрация уже началась, не пропустите возможность! Подробности ➡️ по ссылке.

Kantor.AI

25 Oct, 11:43


Выложил тизер следующего выпуска нашего подкаста ТехТок. Подписывайтесь на канал, чтобы не пропустить :)

https://youtu.be/TsExpU2C_xg?si=nx3-CtbVU4u2YiPJ

Kantor.AI

20 Oct, 10:05


Немного об итогах опроса

Зачем вообще я его проводил
В разные моменты карьеры мне посчастливилось заниматься всеми перечисленными задачами: многими своими руками, другими - в рамках задач моих подразделений. Это привело к тому, что я давно хотел сделать достаточно исчерпывающий курс по приложениям ML в бизнесе. Мы с Никитой Зелинским (CDS из Big Data МТС) провели первый такой курс весной в МФТИ и ВШЭ и сейчас готовим к запуску адаптированную версию у нас в школе MLinside.

Но одно дело наполнить курс на основе своего опыта и ранжирования задач по экономическому эффекту для бизнеса, и совершенно другое - узнать, а какие задачи ML видят вокруг люди. И здесь было несколько интересных открытий.

Больше денег - меньше хайпа
Самой редко вспоминаемой оказалась история про оптимизацию затрат, которая часто приносит огромный эффект в деньгах. Например, если у вас есть бюджет в 5, 10, 50, 100 млрд рублей в год на расширение сети магазинов в ритейле, базовых станций в телекоме, банкоматов в банке, оптимизация на несколько процентов уже дает огромный эффект в абсолюте.

Работает это так: вы строите модель, которая прогнозирует эффект, а дальше решаете задачу оптимизации поверх этих прогнозов. Иногда оптимизация простая часть и решение строится жадным алгоритмом, а иногда требуется что-то посложнее, но прогнозная модель в основе решения как правило остается. Самые дотошные могут заметить, что сравнивать эффект нужно не с отсутствием оптимизации, а с оптимизацией без ML, но даже так эффекты остаются большими за счет масштаба задачи.

Много хайпа - не очень много денег
Чаще всего вспоминали рекомендательные системы и поиск. В случае с поиском есть конечно небольшое количество компаний в мире, которые нашли там сверхприбыли (и то за счет рекламы), для остальных же поиск не сильно денежная вещь в плане эффектов. Что касается рекомендаций, то даже обожаемый всеми Netflix никогда не репортил публично (на моей памяти, буду рад, если кто-то поправит) эффект от рекомендаций больше 4% от своей выручки. На практике же даже в ритейле подтвержденный A/B тестами эффект в 1-2% на количество покупок и отсутствие статзначимого эффекта на выручку - вполне стандартная история. Конечно, если посчитать какой-нибудь last-click/first-click без учета каннибализации, элементарно нарисовать двузначные эффекты в процентах, а без А/В или с «грамотно организованным» вообще можно показать любые числа. Одна проблема - бизнес больше зарабатывать от этих упражнений в счете не станет.

В чем же секрет популярности рекомендательных систем? Я думаю в том, что мы любим делать то, что любим, а не то, что больше всего надо. В рекомендациях есть где развернуться - тут вам и матричные разложения, и факторизационные машины, и бустинги, и сетки, и reinforcement learning, да и A/B сразу надо учиться быстро проводить. Короче, очень интересно. Не буду отрицать, что я бы сам из всего перечисленного выбрал бы заниматься рекомендациями (и часто выбирал :)). Но к определенному перекосу в восприятии эффектов Data Scientist’ами развитость рекомендательных систем точно приводит.

Опять же, самые дотошные скажут, что таргетирование рекламы это те же рекомендации с правильным взвешиванием, и будут правы. Так что конечно получить большие эффекты можно, но на масштабах всего CRM в компании или в рекламном бизнесе.

Еще одно очень важное наблюдение: рекомендации в контентных сервисах это то, без чего сейчас не получится быть конкурентоспособным. В наше время это базовый инструмент взаимодействия с контентом наряду с поиском, поэтому тут хороший вопрос, что считать эффектом, когда весь бизнес без хороших рекомендаций становится бессмысленным. Ну представьте TikTok без рекомендаций - шляпа какая-то :) Так что с рекомендациями и поиском все сложно: вроде если попытаться посчитать, получается совсем не восторг, а если подумать, часто без них и вообще нельзя.

С остальными задачами тоже есть, что обсудить, но эти поля слишком узки, и кажется я уже приближаюсь к лимиту на длину поста

#ML_in_business

Kantor.AI

17 Oct, 15:50


🎉Подкаст про машинное обучение с Женей Соколовым вышел, лайк, подписка, репост :)))

🔥Посмотрите хотя бы только на тайм-коды, чтобы оценить, каким насыщенным вышел диалог:

0:00 - Искусственный интеллект, машинное обучение и data science
3:42 - Начало ML и должен ли ИИ подражать человеку
15:39 - Что не получалось: обучение нейросетей и экспертные системы
20:40 - Классические методы ML
24:42 - ML в играх
28:01 - Как ML спасает жизни
34:39 - Как ML зарабатывает деньги компаниям
40:42 - Возвращение нейросетей: Deep Learning
49:23 - Свёрточные нейросети, рекуррентные нейросети и трансформеры
54:21 - Генеративно-состязательные нейросети
57:01 - Какое оборудование нужно для ML
1:01:48 - Хорошо ли живется специалистам в машинном обучении
1:05:45 - Прогнозы на будущее и подготовка кадров


Смотреть тут: https://youtu.be/q740GwAd9fU?si=iFjFaePGWTKeWCla

Kantor.AI

16 Oct, 12:52


Машинное обучение | Евгений Соколов в подкасте ТехТок

📺 Наконец-то завел на YouTube канал подкаста ТехТок, начинаем выкладывать второй сезон. Одна тема - один гость, посвятивший ей значимую часть своей карьеры и объясняющий на широкую аудиторию, что же это такое, как развивалось, и в каком состоянии технология сейчас.

🧠 Первый выпуск про машинное обучение в целом, в гостях прекраснейший лектор на свете - Женя Соколов. Тизер: https://youtu.be/T7dyUb6Dxqg?si=eFsOqH_ObuIUlcrr

❗️Сам подкаст выйдет на канале завтра в 18:00

Kantor.AI

13 Oct, 10:51


Об индивидуальности понятия «хороший курс»

Однажды мы проводили очную встречу со студентами нашей специализации по ML на Coursera. Ко мне подошел один парень и спросил: почему в России, когда обучают ML, выливают на студента несколько ведер математики, это же совершенно невыносимо. Там именно было сравнение, что вот в западных курсах в течение курса выливают по чашечке, а в Российских вообще не щадят.

Я удивился, наш первый курс был введением в математику и Python, но не то чтобы там было много всего и сложно (на мой судъективный взгляд), наоборот старались облегчить. В ответ на мое удивление парень сказал, что конечно у нас очень много математики, но все равно курс лучше, чем другие курсы по ML на Курсере. Я опять же поинтересовался, а чем же ему самый первый курсеровский курс не угодил (авторства Andrew Ng). Получил шедевральный ответ: да курс вообще дно, там какой-то кореец его читает

Когда я, ошалев от ситуации, сказал что это стенфордский профессор и основатель Курсеры, парень смутился и растворился под хохот толпы других задававших вопросы

Но для себя я запомнил на всю жизнь, что для некоторых людей хороший курс, это когда читает не кореец. Так что нужно быть очень внимательным к оценкам каких-либо курсов слушателями - аргументация, если ее попросить, может вас сильно удивить :)))

#образование

Kantor.AI

11 Oct, 11:59


«Человек с физтеха вам не всегда поможет войти в IT. Он с седьмого класса мыслит математическими абстракциями. Если вы так не делаете, вам нужен тот, кто прошел этот путь самостоятельно», — рассуждает сооснователь karpov.courses Михаил Серегин, выпускник психфака МГУ и номинант рейтинга Forbes «30 до 30». Основанная им, его другом Бесланом Курашовым и тоже выпускником психфака Анатолием Карповым школа стала лидером в нише обучения data science, или науке о данных — области, в основе которой анализ больших массивов информации и создание моделей, например для прогнозирования спроса.

С 2020 по 2023 год выручка karpov.courses выросла с 18 млн до 417 млн рублей, а среди клиентов появились корпорации, которые готовы платить за обучение своих сотрудников востребованным навыкам работы с данными.

Теперь основатели думают о выходе в новые ниши и обсуждают слияние со стратегическими инвесторами.

О том, как выпускники психфака создали заметную школу data science, читайте на сайте Forbes

📸: Анатолий Карпов (Фото DR)

Kantor.AI

11 Oct, 11:59


Польщен вниманием к обучению «от человека с Физтеха», при том что мы запустили MLinside меньше месяца назад и учим только первую группу студентов, а Karpov.Courses работает уже несколько лет 😂

Но, как говорится, лучше с 7 класса мыслить формулами, чем мыслить формулами из 7 класса :)

Kantor.AI

09 Oct, 10:25


Еще одна Нобелевка за AI

Кто-то шутил, а кто-то серьезно предполагал, что Нобелевскую премию по химии теперь дадут за AlphaFold. Ну что же, так и произошло: https://naked-science.ru/article/chemistry/nobelevka-po-himii-2024

Коллеги, поздравляю :) Теперь, занимаясь AI, не обязательно оставлять надежды на Нобелевку по естественным наукам 😁 И если Хинтон это пример, когда человек совершает эпические подвиги в науке уже много десятков лет, то AlphaFold показывает, что и прямо сейчас можно что-то крутое прикладное сделать и вскоре получить признание.

Думаю дальше у специалистов в AI будет становиться только больше и больше возможностей для самореализации.

Kantor.AI

08 Oct, 11:22


Теперь Хинтон не только отец Deep Learning, но и Нобелевский лауреат 🔥

Kantor.AI

08 Oct, 11:22


Нобелевка за нейронки

Нобелевскую премию по физике выиграли Джеффри Хинтон и Джон Хопфилд. Премию присудили за "Фундаментальные открытия и изобретения, которые способствуют машинному обучению с искусственными нейронными сетями". При чём здесь физика - сложно понять. Похоже, комитет просто пытался хоть куда-то приткнуть нейронки, а физика тут ближе всего. Хотя, по-моему, тут больше бы подошла даже медицина - там хотя бы AlphaFold совершил прорыв в чём-то, а с открытиями в области физики из-за нейронок как-то негусто.

Возможно, причина в том, что Хопфилд всё-таки по образованию физик. Хотя его основной вклад в науку - изобретение сетей Хопфилда, рекуррентных сетей, которые во многом положили начало возрождению нейронных сетей в 80-х и 90-х.

Хинтон изобрёл метод обратного распространения ошибки для тренировки нейронок, который позволил тренировать многослойные сети. А студенты Хинтона - Илья Суцкевер и Алекс Крижевский, создали AlexNet. Именно она начала всю эту гонку нейронок, показав, что их можно масштабировать через тренировку на GPU.

В общем, хайп по нейронкам теперь проник и в Нобелевский комитет.

@ai_newz

Kantor.AI

07 Oct, 15:13


#карьера
Правило трех гвоздей

Опытные сотрудники больших организаций (и особенно опытные руководители, у которых есть свое высшее руководство) хорошо знают классическую технику тайм-мендежмента, доставшуюся нам еще от наших дедов. Называется она "правило трех гвоздей".

Восходит она к байке про особенно успешного председателя колхоза, которого однажды спросили, как ему много лет удается справляться со своей работой. В ответ председатель указал на стену и торчащие в ней три гвоздя. Когда распоряжение приходило первый раз, он вешал его на первый гвоздь, когда приходило напоминание - перевешивал на второй, второе напоминание - на третий, и только распоряжения с третьего гвоздя он начинал исполнять. По словам председателя колхоза, большинство заданий руководства не доходило даже до второго гвоздя.

В наше время активных лидеров, трансформирующих большие организации и наводящих суету своей бьющей ключем энергией, адептов правила трех гвоздей не жалуют. И тяжело раскачиваются, и медленно как-то, да и что это вообще значит, что не побежали сразу исполнять, когда было дано задание. Часто такие сотрудники ассоциируются как раз с тем самым "болотцем", кому бы только чаи гонять и на перекуры ходить. Но суть лежит немножко глубже, достаточно посмотреть на все глазами сотрудника. Если вы просите человека что-то сделать, но потом никогда не спрашиваете результат, или спрашиваете через полгода, человек, потративший на это силы, не получает внимания к результатам своего труда. Это обесценивает его работу, появляется чувство "работы в стол". А в стол работать никто не любит, прям совсем никто. Три гвоздя - это естественная защитная реакция.

Вывод очень простой: если не нравятся сотрудники, работающие по правилу трех гвоздей, то придерживайтесь правила "поставил задачу - будь готов принять сделанную работу".

Kantor.AI

06 Oct, 15:28


Интервью с Эмели Драль
CTO & Founder Evidently AI, со-автор нашей специализации «Машинное обучение и анализ данных» от МФТИ и Яндекса на Coursera и курса Data Mining in Action - сегодня в 20:00 на канале школы машинного обучения MLinside 🎉

UPD: Уже на канале: https://youtu.be/hnDhLdH40xo?si=3uQvVXbclzptYBU6

Kantor.AI

06 Oct, 15:28


▪️От ночного сисадмина до фаундера стартапа с оценкой в десятки $ млн,
▪️Об уходе из Яндекса и открытии своего стартапа,
▪️О плюсах и минусах работы в больших компаниях и много другом.

Интервью с Эмели Драль выйдет сегодня в 20:00 по мск на нашем youtube-канале.

🔔Подписывайтесь и ставьте колокольчик, чтобы не пропустить новое видео!

Kantor.AI

02 Oct, 08:58


К слову о Forbes

К слову о Forbes, который я вчера радостно цитировал. Подписывайтесь на каналы людей из списка Forbes 🤩: https://t.me/addlist/NrULL8pvfjRiMjAy

В 2021 году я стал наверно первым Data Scientist’ом в России на обложке Форбса, и все благодаря тому, что в Россию тогда год как пришел рейтинг Forbes 30 до 30. Его задумка в том, чтобы писать в журнале не только про миллиардеров, но и про амбициозную молодежь, у которой уже что-то крутое получилось, и есть план не останавливаться на достигнутом :) Далее распишу чуть подробнее, зачем это и кто в этих каналах есть.

💯 Зачем вообще подписываться на этих людей?

Главная ценность в Forbes 30 до 30 – это именно сообщество и люди, которые туда попадают – очень талантливые и разносторонние, неравнодушные и амбициозные. Люди, которые могут служить вдохновением для других не только за счет результатов, но и просто своим характером и личными качествами.

Сегодня мы как раз делимся с вами частичкой русскоязычного сообщества – папкой каналов участников Forbes 30 до 30. Нас собралось пока 26 человек (но надеюсь скоро будет больше). Все мы увлечены своей областью и будем крайне рады поделиться своим увлечением с вами.

Кого можно привести в качестве примера из этой папки?

Лично мне очень нравятся:

proVenture: канал Дениса Ефремова, принципала R136 Ventures, о венчурных инвестициях, стартапах и предпринимательстве - всегда очень по делу, обстоятельно, но при этом понятно для всех. У Дениса талант писать про венчур интересно

Радостный бизнес: канал Алисы Пейрис, основательницы Holy Corn, про бизнес, который приносит радость и мой любимый самый вкусный попкорн 😁

И, конечно

tldr_tany: ведет Таня Савельева, предприниматель, AI эксперт (а еще моя бывшая студентка на курсе Data Mining in Action и сотрудница в Яндекс.Такси, поэтому радуюсь всем её успехам вдвойне 🫶🏼) - 10 лет назад была AI разработчиком, потом заработала своей компании $20M и сэкономила $100M, увидела в этом идею для бизнеса и стала серийным СЕО AI-стартапов 💪 В канале пишет внезапно все, что думает, что в случае человека с её насыщенностью жизни и карьеры - самое лучшее, рекомендую :)

В папке также есть еще 20+ каналов от крутых ребят, основателей компаний, действующих инвесторов, уникальных ученых с опытом как в России, так и за рубежом.

📂 Чем удобен формат папки? Вы получаете доступ сразу к огромному количеству качественного контента. Конечно, не все окажется для вас подходящим – почитайте, выберете из папки те каналы, которые окажутся для вас наиболее релевантными. Но вам всегда удобно будет вернуться – закладка будет всегда у вас в Telegram.

🔗 Присоединяйтесь к папке по ссылке: https://t.me/addlist/NrULL8pvfjRiMjAy

Kantor.AI

01 Oct, 17:20


К слову говоря, есть точка зрения, что российские паспорта за уши притянули, просто разработку переводят на индийский офис

Kantor.AI

01 Oct, 17:18


Тем временем в чате бывших сотрудников ABBYY весь день

Kantor.AI

01 Oct, 17:18


ABBYY за час уволила почти всех российских разработчиков

Сегодня в Telegram-каналах, соцсети X и некоторых медиа распространилась информация о том, что компания ABBYY AI буквально за час уволила всех граждан России.

Как рассказали Forbes несколько сотрудников компании, принимавших участие в созвонах, на которых им было объявлено об увольнениях (по разным оценкам, от 200 до 300 человек) ситуация развивалась следующим образом.

В воскресенье 29 сентября в 22:30 почти всем сотрудникам пришло письмо про созвон с топ-менеджментом; разным локациям — разное время: Кипр в 15:00, Сербия в 15:30, Венгрия в 16:00. В письме не был виден список участников, но его видно в чате созвона в Teams.

В списке венгерского созвона были только русские сотрудники, эйчары и два C-level сотрудника — руководитель, ответственный за развитие продуктов и технологий (Chief Product & Technology Officer) Патрик Джин (Пи-Джей) и СЕО компании Ульф Перссон. На Кипре и в Сербии ситуация аналогичная. Чат и микрофоны у собрания отключены.

«Понедельник, 10 утра. Ребята из саппорта пишут: им сказали, что все они уволены, и доступы забрали немедленно, — рассказывает один из сотрудников. — Первая половина понедельника: часть ключевых сотрудников говорит, что с ними проводили Skip level-созвоны, на которых были они и руководители второго-третьего уровня без непосредственных, где им сообщали, что они уволены, «это было трудное решение» и т.д. 15:00: «киприотам» рассказывают, что их позиции сократили, офис закрывают. 15:30: «сербам» говорят то же самое про позиции, но не про офис. 16:00: то же самое с «венграми» (позиции, но не офис)».

По данным сотрудников, с которыми поговорил Forbes, вчера сокращены минимум 200 или, по другой оценке, около 300 человек из 500.

Одному из собеседников Forbes на почту пришло «мизерное соглашение» об оплате одного месяца при увольнении и предложение подписать бумагу об отсутствии претензий к компании: «Кому-то пришло за два месяца, кому-то — за несколько недель.

Пока уволенные сотрудники теряются в догадках, почему с ними так поступили. «Объяснений много, все они спекулятивные. Самое простое и, как мне кажется, самое вероятное — режут косты, — говорит один из собеседников Forbes. По мнению бывших сотрудников, компанию готовят к банкротству.

Forbes поговорил с несколькими сотрудниками компании, восстановил хронологию событий и узнал, с чем связано такое решение. Читайте на сайте

📸: Олега Яковлева / RBC / TASS

Kantor.AI

29 Sep, 13:58


Кому нужны джуны

Записывал видео для YouTube, где ищу и комментирую джуновские вакансии на hh.ru. В поиске нашлось 19 вакансий, половина или 2/3 из которых не на джуна. В комментариях ожидаемо пошел смех в духе «ахаха, онлайн-школы выпускают тысячи джунов, а на hh 19 вакансий». Оказалось, что люди не понимают одну важную вещь: джуны вообще НИКОМУ не нужны

Джун нужен только тем, у кого нет денег на миддла, либо у кого не получается быстро нанять миддла с рынка. С крупными компаниями чаще всего происходит второе.

Кто не согласен - попробуйте меня переубедить в комментах :)

Kantor.AI

27 Sep, 15:00


Один из принципов, которые мы положили в основу обучения в нашей школе ML, - привлечение к преподаванию специалистов всех уровней. Помимо трех CDO, у нас есть и ребята, которые начали работать DS'ами совсем недавно: еще год назад они сталкивались с теми же проблемами, что и слушатели, поэтому очень хорошо понимают, чем помочь и что посоветовать. Посмотрите интервью с Димой - вышло очень лампово :)

Kantor.AI

27 Sep, 15:00


Интервью с junior DS-специалистом МТС и преподавателем школы MLinside Дмитрием Лялиным уже на канале📱

Вы узнаете:
▪️Как подготовиться к собеседованию и найти первую работу в Data Science,
▪️Как справиться с трудностями на старте карьеры,
▪️С какими задачами сталкивается junior DS-специалист,
▪️На какие зарплаты стоит надеяться начинающему дата саентисту,
▪️Какие скиллы необходимы на позиции junior и многое другое.

Приятного просмотра⬇️

https://youtu.be/Gcons0F-iyY?si=SmwIIFWKr7Dshb8y