Silicon Bangalore @silicon_bangalore Channel on Telegram

Silicon Bangalore

@silicon_bangalore


Случайные заметки об IT, https://twitter.com/SiliconBangalor

Silicon Bangalore (Russian)

Загляните в увлекательный мир IT с каналом Silicon Bangalore! Этот канал - идеальное место для всех, кто интересуется последними новостями в мире технологий. Случайные заметки об IT, представленные здесь, помогут вам быть в курсе самых важных событий и тенденций в этой индустрии. Silicon Bangalore не просто дает информацию - он создает сообщество единомышленников, где каждый может обсудить свои идеи и впечатления. Подписывайтесь на канал и расширьте свои знания об IT мире вместе с Silicon Bangalore! Вас ждут увлекательные обсуждения, интересные статьи и многое другое.

Silicon Bangalore

17 Mar, 12:22


Если вы почему-то ещё не подписаны на меня в твиттере, то самое время это исправить https://twitter.com/siliconbangalor

Silicon Bangalore

17 Mar, 11:51


TLDR: набор случайных мыслей об e-mail

Пытаюсь последние несколько дней оптимизировать рабочие и личные электронные коммуникации. И все идёт к тому, что я буду использовать емэйл для всех случаев когда никто не умер и когда компания не теряет деньги со слишком уж большой скоростью. Если кто-то умер или деньги прямо летят в трубу, надеюсь у всех хватит смелости набрать мой номер телефона. А я перестану читать 100 тредов в час где меня кто-то зачем-то отметил. Поставлю статус «напиши мне email» и поставлю dnd во всех рабочих мессенджерах. Слишком много времени и душевных сил я на это трачу, пора заканчивать.

На этой волне я тут разгребаю и привожу в порядок завалы личной и рабочей почты. Смотрю старые переписки и сжигаю ненужные больше письма. И нужных вроде бы не так уж и много!

Я помню в 2004 мы все радостно регистрировались в gmail, превращая распределённый smtp мир в централизованную систему. Market share Gmail, как клиента, 29%. Ну там ещё есть 11% apple mail и 39% apple iPhone mail, которые зачастую подключены к тому же gmail. Я думаю не ошибусь если скажу что в 2021 большая часть email написанных людьми не покидает систем gmail, а если включить автоматизированные, то окажется что почти вся почта в мире либо в gmail либо доставляется из sendgrid и mailchimp. Жутковатая картинка для так называемой распределенной системы.


Теперь все наши письма используются для лучшего таргетирования рекламы. Что мы получили взамен? Ну кроме назойливой рекламы ненужной нам ерунды? Мы получили гигабайты хранилища, именно так нам тогда это и продали, мол смотри 5 гигабайт, или сколько там, бесплатно! Ну может в 2004 это и круто звучало, но сейчас нет, гигабайты в 2021 ничего не стоят. Да и зачем нам эти гигабайты? Вот я только что удалил рекламу сибирских интернет-недель из 2007 года, с какой целью я все это время храню эти письма? Сколько я на самом деле могу генерировать переписки которая может быть важна через неделю после? Ну может 10-20 емэйлов в неделю в пределе, если выкинуть уведомления о моих заказах в амазон и подтверждения о их доставке. Это все стоит натурально копейки, даже если это хостить в облаке, на чужом компьютере. Я бы лично заплатил. Да или купил бы устройство по цене как телефон или меньше, чтоб воткнул, быстренько настроил, главное чтоб не сложнее подключения пылесоса к интернету, и вот вся твоя почта лежит у тебя дома!


Зачем мы убили e-mail, кто-нибудь знает? И не пора ли вернуться к каким-то более распределённым системам обмена сообщениями? Протоколы пока все на месте, smtp и Mx записи в dns пока еще не закопаны!

Silicon Bangalore

24 Aug, 12:18


Внезапно приспичило написать про ml опять.

Модные нынче курсеровские курсы и каггловские соревнования сфокусированы исключительно на моделировании, а то и того хуже — на подробных деталях обучения моделей.

Всегда считал такую учебу околобесполезной. Ну вот ты выучился чему-то, в руках lstm и понимание как именно работает back propagation. Что ты можешь сделать? Правильно, ничего кроме как пойти на каггл соревноваться с такими же странными ботаниками.

Все дело в том что любой ml-продукт начинается гораздо раньше и заканчивается гораздо позже построения модели. Что за проблему мы вообще решаем? Как именно ее можно решить с помощью ml? Откуда все эти dataset’ы? Почему они именно такие? Можно ли найти или получить какие-то ещё данные с высокой предсказательной способностью? Какие предположения сделаны при разработке и как они могут повлиять на результат? Как сформулированы вопросы для асессоров которые размечают набор обучения, правильно ли они их понимают? Как это будет работать в бою, а не в джупитер-блокноте? Не текут ли лэйблы из будущего? Какие вычислительные ограничения для этой модели? Сходится ли экономика этого ml-продукта?

Где вас этому научит и кто? Никто и нигде, дрочите на пресижн с реколлом, крутите свой driverless AI до посинения, хвастайтесь своими титулами каггл-гранд-мастеров.

Silicon Bangalore

04 Jun, 13:17


Я люблю когда люди говорят о success rate в бизнесе и стартапах, ну, знаете, в духе «99% новых бизнесов прогорают». Подразумевая что есть какие-то внешние непреодолимой силы обстоятельства, которые не дают почти любому бизнесу состояться.

Полная хуйня, конечно. Всегда либо хуёвый execution либо хуёвая идея. И если у тебя проблемы с крафтом или проблемы с генерацией и проверкой живых идей, то никто тебе не виноват. Это процесс не случайный, и тому и другому можно научиться, но проще винить внешние обстоятельства.

Причём ни то ни другое не большая наука, по сути то, немного здравого смысла — всё что нужно. Много вы видели таджикских овощных точек закрывшихся? У таджиков success rate выше чем у программистишек.

Silicon Bangalore

05 Feb, 19:22


Мои датасотонисты ебашат вообще адовые модели.
Ну такой вот примерно рецепт усредненный, потому что вариаций масса.
Берутся данные, они не сэмплируются, сэмплировать обучающую выборку — это не про моих датасотонистов. Они берут эти данные, вываливают их в сверточную нейронную сеть и начинают оптимизировать её стохастическим градиентным спуском. Добавляют во входной вектор огромное количество взаимосвязей свойств, энкодеров и отдельно обученных ВЛОЖЕНИЙ ЭЛЕМЕНТОВ! для категоральных свойств высокой мощности. Всё это обучается до падения целевой функции почти в ноль. Потом модель валидируется с помощью тестовой выборки. Потом дэйта сайнтисты начинают поиск гиперпараметров, при этом ищут не Нелдером-Мидом, а прямо поиском по сетке в широком диапазоне с малым шагом. Ищут и приговаривают полушепотом ух бля. Во внутреннем облаке емкость заканчивается, а кондиционеры в датацентрах перестают справляться. Иногда мне любезно предлагают какой-нибудь пайплайн запустить, но я отказываюсь. Надо ли говорить какой дичайший пресижен и реколл потом? Business impact такой, что банк операционный день останавливает, потому что для таких цифр на нашем расчетном счету в их СУБД bigdecimal не хватает.

Silicon Bangalore

18 Dec, 19:35


Я пожалуй помогу с этим тоже https://twitter.com/siliconbangalor/status/942840575216234496

Silicon Bangalore

30 Nov, 07:05


Кстати, если вас заебал рутений-106 и пошехонский сыр: https://t.me/Relocats

Silicon Bangalore

18 Nov, 21:04


Вернёмся ка к спарку, gpu, параллельному обучению и всему вот этому.

Давайте представим что мы работаем не в самой маленькой компании, ну скажем в delivery hero и для простоты сейчас 2016 год. В этом году delivery hero выручит на всех рынках вместе 300млн или условно миллион в день. Для того чтоб получить верхнюю границу предположим что средний заказ всего 10 евро, итого 100к заказов в сутки. И мы, скажем, строим элементарную систему рекомендаций — что бы ещё положить в корзину. И делаем мы это используя данные за последние 3 месяца. Наш training set — 10млн заказов.

Это количество не то что в ноутбук, оно в телефон помещается. На кой хрен, спрашивается, вам может понадобится что то кроме питона или какого-нибудь там R или на крайний случай vowpal wabbit?

Дети, не ебите мозг. Самое главное в этой работе — как быстро вы можете делать очередную итерацию вашей модели и оценивать полученные результаты. И быстрее чем сделать это на ноутбуке не выйдет.

Речь конечно, в основном, про транзакционные данные, но это то, где зарыто ОЧЕНЬ много денег.

Представим что наш хреновый рекоммендер увеличил средний заказ на 0.1%. Очень посредственный результат, но в деньгах это уже 300к в год. Поздравляю, свою зарплату за этот год вы отбили, а работы было ну на неделю-две.

Silicon Bangalore

16 Nov, 13:42


Я знаю что не дописал всё что обещал, но тут в твиттере задали действительно хороший вопрос. Слегка перефразирую и обобщу его.

Как войти в эту область профессии, раз каггл — игра в бирюльки, а курсы сконцентрированы на той же узкой специфике?

Ребят, так же как и куда угодно. Базовые знание что такое модель как она может работать и всё такое уже есть у каждого кто не глух и не слеп — MLем прожужжали все уши. Более конкретные области применения, те проблемы ответ на которые ML — я для вас сформулировал двумя постами выше.

Можете играть в каггл или учиться на своих там курсах, но это мало поможет.

Найдите интересную проблему в том бизнесе где вы работаете, там где от этого будет экономический эффект. Что угодно: автоматизация работы модераторов там, если не хватает рук, уменьшение отписок от рассылки или там деинсталляций приложенек, персонализация и увеличение конверсии там где четко видно разное поведение двух и более групп пользователей, что угодно.

Сам навык определения таких областей — это уже хлеб.

Поставьте себе задачу, найдите решение, спрашивайте помощи у тех кто может вам помочь, изучите всё чего не хватает по дороге. Бац! И вы настоящий датасотонист, а не все эти теоретики с митапов и хакатонов.

Silicon Bangalore

11 Nov, 18:39


Продолжим!

Как выглядит работа датасотониста?
- Выбрать проблему достойную решения.
- Достать или собрать данные для обучения.
- Feature engineering
- Построить модель
- Запустить в продакшен, убедиться что есть польза
На каждом шаге можно вернуться к одному из предыдущих, что постоянно и случается.

Что же делают на каггле? Самую кроху фичаинжениринга и само моделирование. Это меньшая из всех проблем вообще.

Что ещё очень важно понимать, так это то что точность модели не транслируется в деньги напрямую.

Но зато весь дроч на каггле именно на accuracy, precision и recall. Полностью игнорируя потраченное время, вычислительную сложность полученной модели. А реальность такова, что логистическая регрессия по соотношению качества и тех 5 минут что вы на неё потратили выебет вообще всё и заработает за год всего на пару копеек меньше, чем более сложная модель.

Ну ладно, какая-то польза от каггла есть. Это поможет автоматизировать этот почти не требующий мозгов кусочек работы датасотониста. Посмотрите хоть вон на https://www.h2o.ai/driverless-ai/

Уверен что эта работа точно будет скоро полностью автоматизирована, вспомните гугловые нейронки, которые дизайнят нейронки.

Скоро напишу про распределённое обучение и бигдату. Подписывайтесь http://twitter.com/SiliconBangalor/ лайкайте, шарьте.

Silicon Bangalore

10 Nov, 20:21


Давайте ка я сделаю из вас датасотонистов покруче 99.9% тех что есть на рынке.

Но сначала затрём про рынок и зачем нужен ML.

Хайп вокруг ML стоит невиданный. На собеседованиях кандидаты рассказывают как парсить логи с помощью deep learning (не шучу) и рассказывают как они собирают огромные массивы данных для NLP (пишут 1000 предложений в текстовый файл самостоятельно). Вокруг AI, спарк и conversational interfaces, пресижен реколл шкалит, а на каггле очередное соревнование по оверфиттингу.

Давайте разберёмся зачем этот инструмент вообще нужен. Если вы загуглите зачем нужен ML, вы найдёте кучу примеров приложения ML в конкретных областях, но никто кроме меня вам не разложит по полкам исчерпывающий список применений.

Итак:
- оптимизация целевой переменной, это когда одно там приложение для такси понимает что ты видела surge цену, закрыла приложеньку, но вернулась, то какой тебе именно дать скидос чтобы шансы заказа устремились в космос.
- автоматизация задач выполняемых сейчас людьми: тут в основном закопано всё что связано с автоматизацией принятия решений, с распознаванием звука, изображений и видео; ну например модерация UGC, чтобы кто-нибудь не травмировался увидев чужие гениталии.
- предсказание факта в будущем: тут много всего, от финансов, до рекомендаций в ютубе и во всяких екоммерсах.
- догадаться о неизвестном нам факте в настоящем; это классическая история про то как одна там американская пятёрочка узнавала что дочь-тинейджер беременна быстрее чем её отец.
- объяснить сложное: например если нужно из всех отзывов выбрать самые важные, сделать реферат текста, оценить сентимент и всякое такое.
- конкретизировать субъективное: что именно такое хороший сезон для поездки в Тбилиси?

Может я чего и проебал, но вряд ли. А если даже да, то кто-нибудь мне напишет в твиттер, а я тихо поправлю пост и сделаю вид что он всегда был такой.

Продолжение следует: на что дрочат сотонисты на каггле, какие есть инструменты и почему они не нужны, как выкинуть спарк и перестать беспокоиться, на что действительно стоит дрочить (spoiler alert: бабки и оставшееся в жизни время).

А пока подписывайтесь на мой твиттер (http://twitter.com/SiliconBangalor/), шарьте, репостите.

Silicon Bangalore

26 Sep, 16:05


Скоро будет немного времени для какого-нибудь лонгрида в телеге. Накидайте в твиттер про что бы вам было интересно прочитать (можно дм, всегда открыт), а пока вот вам отличный телеграм-канал: https://t.me/eatandtits/

Silicon Bangalore

19 Sep, 12:26


Новые значки на туалетах

Silicon Bangalore

25 Jul, 06:55


На днях тут внезапно выступил Греф про нейроночки и юристов: https://vc.ru/n/gref-ai

Что навело меня на некоторые мысли. Мне вообще периодически доставляет запихивать в https://github.com/karpathy/char-rnn различные тексты и потом полдня хихикать над результатами. Очень советую, кстати, ознакомиться с тем что происходит внутри, там рекурсивная нейронка генерирует тексты посимвольно. Подробнее
об этом в блоге автора: http://karpathy.github.io/2015/05/21/rnn-effectiveness/

Я взял небольшое количество постановлений по статье 228 и решил заменить судей районных судов города новосибирска нейросетью. Ну про постановление Правительства РФ «Об утверждении перечня норм закладок» я аж не вытерпел и написал вчера в твиттер, а сегодня немного новых галлюцинаций. И поехали!

«как лицо, сбывшее ему без цели сбыта»

местами выдаёт длинные и вполне осмысленные телеги:

«умышленно, совместно и согласованно с другим лицом № 1, другим лицом № 2, другим лицом № 3, другим лицом № 3, другим лицом № 4, Федоров А.А., во исполнение своей преступной роли, посредством сообщения в чате на специально созданном другим лицом № 2 сайте <адрес>, СМС-рассылку неопределенному кругу лиц.»

хорошо разучила дозировку и названия наркотиков:

«ГАШИШ массой вещества не менее 2,50 грамма»
«производным наркотического средства КАННАБИС (МАРИХУАНА) превышает 6 грамм, но менее 100 грамм»
«наркотического средства - N- метилэфедрона, массой смеси не менее 5,0 грамма»
«героин, массой не менее 1,114 граммов»
и даже цены
«героин, по цене 600 рублей за сверток»

выучил формулы спайсов (не уверен что правильно):

«которое является производным наркотического средства (Нафталин-1-ил)(1-пентил -1Н-индол-3-ил) метанон (JWH-018), масса смеси 0,542 грамма (0,02 грамма вещества израсходовано в процессе исследования)»

но самое главное, я бы даже писать этого не стал, если бы это были просто заученные куски исходных текстов. Однако например вышеупомянутых количеств веществ в исходных постановлениях не упоминалось,
а размер изъятого очень похож на обычное количество наркотиков соответствующего типа.
Ну и конечно же нейроночка наизусть теперь знает крупные и особо крупные размеры по каждому из веществ.

Еще очень классные детали задержания всегда генерирует, у всех вокруг изымают телефоны, а сеточка жонглирует операторами большой тройки и производителями телефонов:

«мобильного телефона «Самсунг» с двумя сим. картами «МТС»; сотовый телефон «HUAWEI» с сим. картой «МТС», изъятые в ходе осмотра места происшествия»
«сотовый телефон «Самсунг» с двумя сим. картами «Билайн» и «МТС»»

Короче, я уверен что у Грефа всё выйдет.

Silicon Bangalore

14 Apr, 17:55


Бангалорчик ничего не пишет в телегу? Скоро исправим! А пока подписывайтесь на отличный ТГ канал о погроммировании с уклоном в дэйтасайнс и прочий современный хайп https://t.me/libmustdie

Silicon Bangalore

23 Feb, 19:05


https://www.twitch.tv/siliconbangalor

Silicon Bangalore

23 Feb, 19:04


Остался час

Silicon Bangalore

23 Feb, 07:27


Сорян, в районе 9. Мне сегодня укладывать ребёнка, а он вряд ли ляжет раньше.