epsilon correct @epsiloncorrect Channel on Telegram

epsilon correct

@epsiloncorrect


Машинное обучение, графы, языковые модели. Инсайды про карьеру исследователя в FAANG, путь PhD и щепотка полезной математики.
Связаться с автором: @deltaincorrect. Рекламы в канале нет.

epsilon correct (Russian)

Канал "epsilon correct" - это источник ценной информации для тех, кто интересуется машинным обучением, графами, и языковыми моделями. Здесь вы сможете найти инсайды о карьере исследователя в крупных технологических компаниях FAANG, узнать о пути к получению степени PhD и получить дозу полезной математики. Автором канала выступает @xgfsru - эксперт в области данных и машинного обучения. На канале "epsilon correct" вы найдете не только информацию о самых актуальных темах в области машинного обучения, но также сможете задавать свои вопросы и обсуждать интересующие вас темы с единомышленниками. Присоединяйтесь к сообществу профессионалов и студентов, увлеченных миром данных и исследований!

epsilon correct

31 Dec, 15:22


Всех с неизбежно наступающим 2025! 🎅🎅🎅

31 декабря – лучшее время подводить итоги за год, и я тоже от этого не удержусь.

Каналу уже чуть больше двух лет, и за год он вырос почти в три раза 👥👥👥 (спасибо посту Дениса и другим цитирующим товарищам). Я написал ровно 99 постов, и мне очень приятны все (почти 👮‍♂️) дискуссии, которые происходят в комментариях. Почитать пост за прошлый год можно тут.

За год как будто получилось вкатиться в ЛЛМки – поучаствовал в релизах Gemini 1.5, Gemma 2, Gemini 1.5-002 (нейминг – не сильная сторона гугла) и Gemini 2, где мы сильно прокачивали математику и код. Не все проекты и результаты доехали до публики, так что ещё можно погордиться втихую. ☺️

Помимо сурового продакшена за семью NDA, получилось поучаствовать в создании системы, которая решает сложные задачки по математике на уровне олимпиадных призёров. Про науку тоже получилось не забыть – у нас приняли две статьи на нипс, мы организовали воркшоп на KDD и мне в первый раз поручили роль Area Chair на нипсе. В конце января должны прийти новости с ICLR, так что план по вкладу в науку тоже выполнен. 🤓

Предсказания на 2025 сделаны, так что можно смело начинать работать на будущее человечества. 🦆

epsilon correct

29 Dec, 18:35


42-ух минутный доклад с NeurIPS 2024 об основных конкурентах архитектуры трансформера

Вам в очень энергичной манере поведают:

- В чем логика заменять трансформер
- Общий таймлайн развития альтернативных архитектур с 2020 года и причем тут LSTM
- Что же там в итоге с линейным атеншеном в 2024том
- Кто же этот такой ваш RWKV, кто за ним стоит и почему он не хочет умирать в 2025том
- Как быть отчаяным ресерчером и в одиночку успешно линеаризовывать opensource LLM без собственного претрейна
- Что еще случилось за год (Jamba, Sana, DNA Models и что еще нас ждет

Смотреть на Ютубе

epsilon correct

28 Dec, 12:50


Потенциально вредный пластик нашли в 86% всей протестированной еды 🍜

В мае этого года Нэт Фридман организовал и спонсировал команду энтузиастов-исследователей для того, чтобы выяснить, сколько же в нашей еде пластика. Вчера вышел первый результат: сайт PlasticList и отчёт про методологию и ход мыслей исследователей.

Советую почитать и потыкать сайт, но если кратко:

🧐 Авторы тестируют еду на 18 соединений, связанных с производством пластика. Это фталаты, их заменители и бисфенолы. Они используются для ключевого процесса создания пластика ђ– пластификации, в клеях, защитных покрытиях, и лаках.

😰 Фталаты нашли в 73% протестированной еды, в 22% – бисфенолы. В исследованиях на крысах учёные показали существенный ущерб репродуктивной функции вплоть до полного бесплодия с эффектом, накапливающимся через поколения (тестировали БЭГФ).

😛 Фталаты нашли в большинстве еды для детей и пренатальных витаминах. Исследование 2014 года связывает контакт с фталатами у матери во время беременности с потерей 6-7 пунктов IQ у ребёнка. 🤤

🍜 Пластиковая тара для еды на вынос "протекает" пластиком вам в еду, повышая концентрацию пластика примерно на треть. Один из протестированных баббл-чаёв содержал бисфенола-а на уровне 1.2 лет безопасного потребления. 🧃

😮‍💨 Количество пластика почти во всей протестированной еде было в пределах нормы. С другой стороны, Европейское агентство по безопасности продуктов питания недавно снизило свою рекомендуемую норму в 20000 раз, что не может не вызвать вопросов. 🪖

Авторы указывают на нестабильность тестирования – еда, заказанная в ресторанах в разные дни может содержать значительно различающееся количество производных пластика. Но: кажется, задуматься о более массовом тестировании, измерении, и замене пластиков в еде стоит.

epsilon correct

27 Dec, 12:47


AI Digest запустили предсказания по прогрессу систем машинного обучения на разных бенчмарках. Также можно попробовать предсказать результаты репортов для моделей OpenAI и суммарную выручку ИИ-компаний. Мои предсказания на картинке.

Пройти можно тут, предикты можно оставить в комментариях – в следующем году выберем самого точного подписчика. 🤴

epsilon correct

23 Dec, 13:26


Меня в комментариях просили прокомментировать анонс o3 от OpenAI; комментирую: никто не знает, где достать этих лягух с презентации? Очень надо 🤔

epsilon correct

20 Dec, 20:21


Про эту статью наконец-то выпустили блогпост с красивыми картиночками

epsilon correct

20 Dec, 16:56


В Notices Of The American Mathematical Society вышла коротенькая обзорная статья Терри Тао про то, как математики могут пользоваться компьютерами для доказательств. Интересный разбор с примерами из разных областей, включая, например, не особо известную статью по геометрической топологии. Из грустного, Gemini не упоминается. 😭

epsilon correct

19 Dec, 17:49


На основе Gemini 2.0 Flash выпустили thinking модель, которая улетела вверх по бенчмаркам:

- Overall: #3 → #1
- Overall (Style Control): #4 → #1
- Math: #2 → #1
- Creative Writing: #2 → #1
- Hard Prompts: #1 → #1 (+14 pts)
- Vision: #1 → #1 (+16 pts)

Всего 32к контекста, зато бесплатно через AI Studio. В отличие от конкурентов, видно внутренний chain of thought. 😛

epsilon correct

11 Dec, 15:39


Официально выпустили Gemini 2.0 Flash

По бенчмаркам бьёт 1.5 Pro 002, которую выпускали в сентябре, а стоит на порядок дешевле. Как обычно, 1М контекст и супер быстрый инференс на маленьком контексте.

epsilon correct

08 Dec, 12:29


Всю следующую неделю буду на NeurIPS, теперь в Ванкувере. 🎅
(не переживайте, снега там нет и не будет, +10°C и дождь всю неделю)

На конференции у нас будет две статьи:
1. "Understanding Transformer Reasoning Capabilities via Graph Algorithms" – в среду с утра, постер #2300. Я про неё кратко писал вот тут.
2. "Text-space Graph Foundation Models: Comprehensive Benchmarks and New Insights" – в среду вечером, постер #3100.

В конце недели попробую послушать эти воркшопы:
1. Symmetry and Geometry in Neural Representations
2. UniReps: Unifying Representations in Neural Models
3. Scientific Methods for Understanding Neural Networks

Если будет интерес и наберётся достаточно людей, можем сделать сходку с дорогими подписчиками. Пишите @deltaincorrect, если интересно. 👉

epsilon correct

06 Dec, 20:51


Ладно, когда модель, в которую ты вложил недели усилий, занимает топ-1 по всем категориям включая контроль на стиль, это тоже супер 📈

Доступна на плейграунде и по апи (бесплатно!). Настойчиво рекомендую бежать пробовать. 🏃‍♂️

epsilon correct

06 Dec, 15:26


Одно из самых приятных ощущений в резёрче – это когда ваши результаты верифицируются другими людьми. 🎃

На картинке – бенчмарк-статья этого года, которая показывает, что на молекулках наша старая статья работает на отлично.

epsilon correct

04 Dec, 02:05


Не могу не похихикать с посленего ллм-релиза Амазона. Маркетологи перестали стесняться и начали выделять цифры, которые выглядят совсем не впечатляюще. 🤦‍♂️

Micro и Nano хорошие, примерно на уровне 8B флеша, но с большой моделью у ребят пока получилось не очень. С другой стороны, чем больше игроков на арене, тем интереснее.

epsilon correct

03 Dec, 12:56


Новый день, новый пост про калибровку предсказаний. В прошлом году я писал про классическую работу Фостера и Вохры про то, что идеальной калиброванных предсказаний можно добиться не обладая знаниями о распределении предсказываемой величины. 🤔

В недавно выпущенной статье предлагается рассматривать более сложную игру с тремя игроками: "предсказателем", "ставочником", чья цель – воспользоваться плохими предсказаниями предсказателя, и "природой", которая производит предсказываемые события.

В таком сеттинге авторы показывают схожесть между калибровкой и сожалением (regret) и доказывают, что случайные исходы по отношению к прогнозам эквивалентны хорошим прогнозам по отношению к исходам. Интуитивно, если исходы случайны по отношению к прогнозам, у "ставочника" нет возможности получить прибыль ставя против прогноза, а если пргнозы хороши по отношению к исходам, вся неопределённость в ошибках предсказателя объясняется случайностью природы.

Осталось только это всё интернализировать. 😰

epsilon correct

02 Dec, 12:19


Интересная статья вышла в scientific reports: обыватели не просто не могут отличить ИИ-поэзию от написанного людьми, так ещё и оценивают получившееся лучше по всем параметрам.

Два панчлайна: (i) для генерации поэм использовался ChatGPT 3.5, который иногда трёх слов связать вместе не может. (ii) Единственной стратой людей, которые справились с задачей (в самой статье такого разбиения нет, нужно анализировать сырые данные) оказались небинарные персоны. 🏳️‍🌈

epsilon correct

18 Nov, 15:36


Чтобы канал не превратился в анонсы Gemini, расскажу про ревью с ICLR. Статистику можно посмотреть на paper copilot, в этом году кажется, что с 5.5 должен начинаться accept, так что шансы есть у двух наших статей.

В этот раз получилось интересно, потому что тройку мы получили от рецензента, у которого реально получилось глубоко прочитать статью с технической стороны, но совершенно не понял, что мы не решаем все мировые проблемы, а решаем небольшую исследовательскую проблему. 😮‍💨

Посмотрим, удастся ли переубедить рецензента – обычно такое работает редко, но тут есть надежды, потому что человек уже потратил много времени, чтобы разобраться в статье.

А как ваш опыт с ICLR в этом году?

epsilon correct

14 Nov, 20:20


Запустили тут новую модельку Gemini-Exp-1114 в Google AI Studio. На арене #1 overall, math, hard prompts, creative writing. Кодинг всё ещё #3.

Без ответов по три минуты как o1, просто берёт и отвечает.

epsilon correct

12 Nov, 14:03


Пара мыслей про Долину

Направляясь в очередную командировку в наш головной офис, меня посетила мысль, что не все, в общем-то имеют представление о том, что такое эта наша Кремниевая долина. Среди подписчиков канала немало людей, у которых будет возможность там поработать, а мне бы хотело рассказать, почему, как мне кажется, стремиться туда смысла нет. Я там прожил около полугода в далёком 2019, так что, надеюсь, мнение будет не совсем голословным.

Сначала о хорошем: в Калифорнии в целом и в долине в частности офигенный климат. Количество комфортных солнечных дней в году зашкаливает, и это сильно влияет на настроение и самочувствие – всё-таки мы все немного цветочки-пирожочки. В паре часов – езды крышесносные национальные парки, любителям природы – полное раздолье. 🛌

Из плохого – полное отсутствие культурных событий и катастрофическая гомогенность общества. Нормальным вопросом при первой встрече может быть «ты программист или проджект?» – и у всех одни и те же интересы. Если вам нравятся исключительно люди, которые любят бег, хайкать и писать код – вопросов нет, милости прошу в долину. Остальным непрошенный совет: попробуйте выбраться хотя бы в Сан-Франциско, или, если совсем повезёт – в Нью-Йорк.

epsilon correct

31 Oct, 11:02


Начинается сезон стажировок, а это значит, что мне пару раз на дню пишут всякие талантливые товарищи с вопросами, можно ли в нашу команду устроиться стажёром. Развёрнуто отвечать на весь поток писем не всегда получается, но с дорогими подпищеками поделиться мудростью всё-таки хочется. 👴

Стажёры для компаний – это в первую очередь источник дешёвого труда. Выхлоп от самих стажёрских проектов чаще всего минимальный, но зато у компании появляется (а) ценная информация про то, какова продуктивность потенциального фулл-тайм сотрудника и (б) вероятная возможность нанять его дешевле, чем среднего выпускника: при вероятном найме люди перестают активно собеседоваться с конкурентами, снижая цену.

До ковида, когда деньги были дешёвыми, технологические компании росли, как на дрожжах. Нанимали десятки тысяч человек в год, так что все привыкли к большому потоку студентов. С резким повышением ключевой ставки, деньги стали дороже, компании стали даже увольнять людей, а количество мест для стажёров значительно сократилось. Из того, что я вижу, студенты ещё не до конца прочувствовали новую экономическую реальность, и особо не стараются с подачами. А зря.

Если среди подписчиков есть студенты, пара быстрых советов: подавайтесь широко, но прицельно. Составьте список из 10-20 наиболее близких по темам, релевантным вашему PhD, и пишите им персонализирвоанные сообщения напрямую. На копипаст или, того хуже, сгенерированные сообщения отвечать сил уже нет. Всем удачи!

epsilon correct

19 Oct, 11:27


Не зря, получается, постил про нобелевки – заманил в офис одного известного в узких кругах физика

epsilon correct

15 Oct, 11:10


Почему графы?

В комментариях к новому интро задали понятный вопрос: как так сложилось, что я занимаюсь графами? Об этом я и сам частенько задумываюсь 🤪, так что пора и вам рассказать.

Для начала – немного истории: моё первое знакомство с около-рисёрчем по графам произошло на последнем курсе бакалавриата НИУ ВШЭ – мне хотелось повыпендриваться и написать наукоёмкую выпускную работу. Тогда был расцвет графовой кластеризации: люди придумывали быстрые алгоритмы оптимизации модульности, исследовали её пределы разрешающей способности, и писали на эту тему красиво свёрстанные стостраничные обзоры. Я набрёл на новую функцию, альтернативную модульности, с говорящим названием Surprise. Для неё тогда не было показано результатов жадного алгоритма (который для модульности называется алгоритмом Лёвена), вот его я придумал, заимплементировал, и чуток побенчмаркал. Хоть тогда он никому не приглянулся, начало было положено.

После вышки я пошёл в сколтех, где мне повезло работать с Panagiotis Karras, у которому тоже были интересны графы. Сначала мы пытались придумать что-то про influence maximization, но потом, ближе к концу магистратуры, я набрёл на тему графовых эмбеддингов – вот с этого момента всё и завертелось, потому что стало понятно, что их можно глубоко изучать в аспирантуре.

В изучении графов меня подкупает несколько аспектов. Во-первых, интуитивно простая модель данных: объяснить понятие графо можно за чашкой чая бабушке. При этом в области много интересных и глубоких результатов, связывающих графы с другими областями математики. Во-вторых, широкая применимость: если ты придумаешь хороший метод решения почти любой задачи на графах, шанс, что им воспользуются учёные в прикладной области, довольно велик. В-третьих, связанность с реальным железом: из-за неприспособленности компьютеров для работы с графами, для разных размеров задач можно придумывать новые алгоритмы, которые будут использовать, например, распределённые вычисления.

Почти на любые данные можно смотреть, как на граф, а иногда это даже бывает полезно. С другой стороны, любителям машинного обучения как область для вкатывания рекомендовать графы тоже не особо хочется. 😐

epsilon correct

03 Oct, 18:26


Gemini 1.5 Flash 8B теперь доступна всем

После обновления 1.5 Flash мы выпустили Flash 8B для всех. Вдвое дешевле Gemini 1.5 Flash, по бенчмаркам – на уровне майской версии. Также подняли количество запросов в минуту до 4000. 😰

Стоит $0.0375/1M input, $0.15/1M output tokens. Цена примерно соответствует цене LLaMA 3.2 3B у together.ai, ну а по бенчмаркам она совершенно в другой категории. Мой ответ на вопрос “что вы делали этим летом”. 😛

epsilon correct

03 Oct, 14:42


Запустили Gemma 2 зафайнтьюненную на японский. Веса – на HuggingFace.

Заодно запустили соревнование на Кэггле на $150k 👀 на адаптацию Gemma к 73 разным языкам, включая русский и украинский. Ждём ваших сабмитов!

epsilon correct

02 Oct, 11:20


Последний раз я писал о себе чуть больше года назад. За последний год канал вырос больше, чем вдвое, я стал работать над совсем другими вещами, ну и вообще, пора закрепить новый пост.

Зовут меня всё ещё Антон. 👋 В 2021 я защитил PhD по машинному обучению в Германии, и с тех пор работаю исследователем в Google Research. Два года назад я перебрался в Нью-Йорк на постоянку, где теперь и обитаюсь. В гугле я устроился в команду, которая занимается алгоритмами на графах, оптимизацией, приватностью и рыночными механизмами. Вот тут можно прочитать пост с хайлайтами за 22 год.

Часть своего времени я работаю над графовыми нейросетями, эмбеддингами на огромных объёмах данных, и всякими около-графовыми штуками по мелочи. Публикую статьи и иногда внедряю нарисёрченное в прод. С этого года частично перекатился в LLMки и теперь занимаюсь данными для претрейна Gemini и Gemma, и парой более специализированных направлений, например, модельками, которые завоевали серебро на международной математической олимпиаде. Пока, вроде, получается неплохо.

Интересно, куда занесёт в следующем году. 🤔

epsilon correct

01 Oct, 11:05


Очередной день, очередной кризис репликации в науке. Три недели назад я писал про дело Франчески Джино, теперь под подозрением Элизер Маслия – один из топовых учёных по исследованиям болезней Альцгеймера и Паркинсона. У него примерно 800 опубликованных статей, и до недавнего времени был главной подразделения нейронаук в National Institute of Aging.

Журнал Science опубликовал свою выжимку из полного досье – и там полная жесть. Проблемы в 132 👽 статьях, следы уже почти профессиональной манипуляции. Важен ещё и домен, в котором работал Маслия: налажать в лекарстве от Паркинсона – это вам не исследования честности, от фальсификаций в которых плохо будет разве что паре сотен MBA с маккинзоидами. Интересно, будут ли какие-то последствия , кроме увольнения – всё-таки от Альцгеймера умирает больше ста тысяч человек в год, а прогресс замедлился буквально на годы.

Рекомендую почитать оригинал статьи в Science: там сильно больше подробностей. Обидно, что такими темпами доверие к науке как институту подорвётся полностью.

epsilon correct

26 Sep, 13:01


Эту статью приняли на NeurIPS. Увидимся в Ванкувере!

Также приняли ещё одну статью про бенчмарки GNN+LLM, о ней напишу как-нибудь позже.

epsilon correct

25 Sep, 11:04


У EleutherAI вышел классный гайд по muP параметризации LLMок.

Для тех, кто не знает, muP – Maximal Update Parameterization – это серия статей, в которых Greg Yang (сейчас в xAI) развивает теорию параметризации глубоких сетей. Что-то вроде Neural Tangent Kernel или анализ сетей при помощи теории среднего поля, но с выводами более таргетированными на обучение сеточек градиентным спуском. Один из результатов – стабильная инциализация параметров сетей, которая позволяет избавиться от необходимости тюнить learning rate градиентного спуска.

В статье "Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer" с ребятами из OpenAI Грег выводит методы инициализации трансформеров. Нужно сказать, что, скорее всего, в индустрии не все инициализируют веса по muP, всё-таки теория и практика отличаются на практике. Тем не менее, с muP для каждой части нейросети мы можем (хотя бы в теории) сказать, корректно ли она пропускает через себя градиенты. Градиентные энергетические блоки – бич многих глубоких сеток, и дебажить такое – сплошная головная боль.

Сам Грег предлагает начинать знакомиться с теорией со статьи "A Spectral Condition for Feature Learning", к чему мы с уважаемыми подписчиками и приступим. 🤓

epsilon correct

24 Sep, 16:38


Апдейт моделей Gemini 1.5 Pro & Flash

Вышла в свет очередная вещь, над которой я работал летом – обновление основных моделей Gemini. Из хайлайтов: +8% MMLU Pro, +23% 👽 на Hendrycks MATH, +10% на GPQA Diamond для Flash модели.

Цена на Gemini 1.5 Pro порезана больше чем в два раза. Также добавили Gemini 1.5 Flash 8B в Gemini API и Google AI studio.

epsilon correct

19 Sep, 17:42


Часто говорят, что PhD плохо влияет на психическое здоровье, а вот теперь подъехали данные: доля медикаментозного вмешательства существенно увеличивается к концу программы.

Берегите кукуху, дорогие подпичики, она стоит того. 🫂

epsilon correct

18 Sep, 11:33


Сколько на самом деле стоит инференс GPT-4o?

Почему-то многие думают, что провайдеры больших языковых моделей продают API чуть ли не себе в убыток. Я бы хотел поделиться прикидками о том, почему это совсем не так, и заодно помечтать о том, сколько параметров мы можем себе позволить тратить на модель, которая сможет заменить человека в работе.

Все расчёты можно воспроизвести в колабе, меняя цифры, как вам захочется. Выводы остаются неизменны.

Для расчётов нам нужно сделать несколько допущений:
1. Количество активированных параметров в модели. Для GPT 4 Turbo широко ходили слухи про 200 миллиардов параметров, так что 4o должна быть меньше. По данным Artificial Analysis, пропускная способность GPT-4o – 95 tok/s, что находится между LLama 3.1 7b (182 tok/s) и 70b (80 tok/s). Для наших целей предположим, что в 4o 100 миллиардов активированных параметров, делая скидку на то, что в OpenAI инференсом занимаются крайне толковые люди. Кстати, Gemini Flash 1.5 с последним обновлением выдаёт 330 tok/s.
2. Амортизированная стоимость сервера с 8 H100. Чтобы не сильно расстраиваться, возьмём оценку сверху как цену такого сервера на AWS – на сегодняшний день $39.33 в час. На рынке цены могут быть минимум в пять раз меньше.
3. MFU – какой процент вычислений используется эффективно. Стандартом является 30-50%, для наших прикидок возьмём 30%.

При таких допущениях (а с другими вы можете поиграть в колабе), стоимость инференса миллиона токенов получается $0.23. Сравним это с официальной ценой в $2.5 за input и $10 за output и получим наценку API в ~50 раз. И это – оценка сверху со всеми допущениями в сторону удорожания. С другой стороны, кому-то же надо скидываться Саме на Koenigsegg. 😮‍💨

Заодно мы можем посчитать, насколько дешевле модели в сравнении с кожаными мешками. Взяв минимальную зарплату в Нью-Йорке ($16) и производительность в 100 токенов в минуту (среднее у людей примерно 50 слов в минуту), получим стоимость миллиона токенов в $2666.67. Даже o1 со своими $60 / Mtok тут рядом не стоит. Есть, куда расти!

epsilon correct

17 Sep, 10:57


CVPR – крупнейшая в мире конференция по компьютерному зрению – анонсировала несколько существенных изменений процесса подачи и рецензирования статей. CVPR – конференция крупнейшая не только в компьютерном зрении, но и вообще в мире. Например, она занимает второе место в мире по цитируемости, аккурат после Nature.

Во-первых, всех авторов статей заставят рецензировать. В более лёгком формате такая система уже работает на конференциях типа NeurIPS и ICLR, вот только там заставляют рецензировать хотя бы одного автора. Интересно, что станет с нагрузкой на рецензентов: по идее, она может очень существенно снизиться в результате такого нововведения.

Во-вторых, если ты свою работу рецензента делаешь спустя рукава, твои работы могут быть не приняты к публикации. С одной стороны, это много раз предлагалось кровожадной частью научного сообщества (никому не нравится получать пустую рецензию), с другой – непонятно, будет ли система полностью справедливой. Конечно, ещё интересно, сколько у авторов CVPR рецензии съест собака или испепелит робот на кухне. 🤤

В-третьих, запрещается подавать более 25 статей на конференцию. Тут нужно заметить, что принимается на CVPR примерно четверть поданных статей, так что самым плодовитым авторам (в 23 году у одного китайского профессора было 24 принятых статей) придётся начать выбирать, что подавать. Таким машинам для публикаций придётся либо мигрировать на других площадки, либо улучшать качество статей.

Остальные нововведения касаются запретов на использование языковых моделей для анализа статей (переписывать текст рецензии можно) и видимости имён рецензентов во время фазы дискуссии. Как думаете, все эти нововведения останутся и перекочуют в ML конференции?

epsilon correct

16 Sep, 11:09


Впечатления от Remarkable Paper Pro

Чуть больше недели назад Remarkable анонсировал последнее поколение своих e-ink планшетов – теперь в цвете! Я не смог удержаться от заказа: как мне казалось, от чтения статей на e-ink меня останавиливало только то, что графику и эксперименты было видно ужасно. Мелкие формулы на обычном kindle, с которого я читаю книжки, тоже читать довольно напряжно. К сожалению, технологии до сих пор не преодолели какого-то порога удобства, по крайней мере для меня. 🤓

Сначала про хорошее: девайс монофункциональный, никаках чёрно-белых инстаграмов в нём не привидится, при пользовании придётся не отвлекаться. В этом смысле девайсу жирный плюс, что не ушли от изначального концепта ради поднятия метрик использования планшета. Во-творых, писать на нём реально удобно: буковки появляются при написании практически сразу, сохраняются и синхронизируются тоже почти моментально. В целом, это было и в предыдущих версиях этого планшета, но всё-таки приятно, что продукт продолжают полировать. 👍

Теперь минусы. Их, к сожалению, настолько больше, что рекомендовать этот девайс я не могу никому. Во-первых, не исправили проблему с зумом – скорость отвратительная, а тачпад не распознаёт все движения. В результате user experience получается 🤬очень бесящий. Остались надежда только на daylight computer, ну или не выпендриваться и продолжать читать на айпаде. Во-вторых, передача цветов очень сильно хромает. Для сравнения на фото (за качество вы уж извините, телеграм ужасно жмёт) справа – скриншот из моей статьи, где я цветами что-то показываю; слева – то, как это видно на Remarkable Paper Pro. Все цвета слились в один, смысл картинки полностью потерялся. Графики с множеством цветных линий, так популярные в нашем с вами машинлёрнинге, тоже читаются очень плохо. При письме цвета не получаются натуральными, так ещё и при стирании оставляют за собой след до полного обновления экрана; меня как перфекциониста такое просто вымораживает. В результате основной функционал девайса превращается в UX-пытку.

Зачем я вообще этим делюсь? В медия планшет получил восторженные отзывы от всяких изданий, а мне как-то вообще не зашло. Надеюсь, кому-нибудь смогу сэкономить немножно денег. Если вам понравился данный формат постов, дайте знать в комментариях: я всегда могу написать обзор на вилки. 🔪

epsilon correct

12 Sep, 18:01


Пример решения довольно нетривиальной задачки, с которой текущие модели не справляются

epsilon correct

12 Sep, 17:39


У конкурентов анонс: выпустили новые модельки o1 и o1-mini с серьёзным CoT. Как Reflection, только не мем, а реально рабочее. Самые большие приросты на сложных задачах олимпиадно-университетского уровня. Без скатывания канала в совсем бестолковую аналитику, хочется сразу пару наблюдений:

1. Очень дорогой инференс, порядка 100 раз увеличения затрат. Для простых работяг пока лимиты 30 сообщений в неделю (!). Придётся учиться формулировать весь запрос за раз. 😰

2. Мы всё дальше отходим от сравнимости моделей. Хотя для кодинга и существует арена, доверять простым людям на LLM-арене становится всё проблематичнее. Особенно тяжело сравнивать в околонаучных задачах, где мало бенчмарков, на которых согласны бенчмаркать люди.

3. Модели всё больше разделяются на “болталки” и профессиональные. Я об этом уже писал раньше, и вот теперь стало совсем понятно, что никаких клубничек в продуктах не будет.

4. Этот результат – заслуга пост-тренинга. Показывает, насколько много чего в моделях мы ещё даже не понимаем, как использовать (другими примером за последний месяц был Gemini 1.5 Pro-0827, который сильно вырвался по бенчмаркам относительно майской модели).

Вот тут можно найти o1 system card, где должно быть больше деталей (кроме самого интересного, конечно).

epsilon correct

12 Sep, 11:02


Вчера суд Массачусетса вынес решение отклонить иск Франчески Джино к Гарварду и коллективу DataColada, который раскрыл фальсификации в нескольких работах Франчески. Этот скандал с фальсификациями – самый громкий за последние несколько лет: Джино была одним из ведущих учёных-бихевиористов, её работы были классикой в области. Дополнительную перчинку придаёт скандалу название её книги, вышедшей за пару лет до разоблачения: "Rebel talent: Why it pays to break the rules at work and in life". Такая вот ирония судьбы. 🤔

Мне кажется решение довольно важным в контексте прецедентности: расследовать чужой фрод в исследованиях – можно и нужно, в науке должно быть больше разоблачений плохих методов и сомнительных практик. Один из моих любимых блогов по теме ведёт Лиор Пахтер, который знатно проезжался по сомнительно известному в узких кругах исследователю графов Альберту-Ласло Барабаши.

А в ваших областях существуют такие правдорубы? Приглашаю обсудить в комментариях. 👀

epsilon correct

09 Sep, 11:07


В комментариях ко вчерашнему посту дорогие подписчики просят рассказать, как написать статью так, чтобы она прошла на NeurIPS. Отвечу сразу – я без понятия, у меня туда попала только одна статья, хотя, может, в этом году появятся ещё.

Успешно убив всякую надежду на полезность советов, могу себе позволить свободно пуститься в спекуляции. Во-первых, стоит послушать других умных людей – одна из лучших презентаций от широко известного подписчикам этого канала Eamonn Keough (в прошлом году я писал про его шикарный доклад "Getting an h-index of 100 in Twenty Years or Less!"), называющаяся "How to do good research & get it published". Также можно прочитать версию на несколько лет раньше, называющуюся "How to do good research, get it published in SIGKDD and get it cited" (с другой стороны, зачем кому-то в 2024 публиковаться на KDD?.. 🗑). Презентация изначально создавалась для data mining сообщества, но для нашего с вами машинного обучения тоже должна работать: обе области опираются во многом на эмпирические доказательства и основные научные парадигмы ещё не сформированы.

С другой стороны, есть программный комитет конференции – в общих чертах, именно он и решает, что входит в сборник. Конкретно для NeurIPS в далёком 2013 программный комитет прямо писал о том, что они, вообще говоря, хотят видеть. Приятно удивляет, что ещё в дедовские времена 👴 понимали, что на тогда ещё NIPS люди подают совершенно разные типы статей.

Свои хот тейки я приберегу для отдельного поста. Над этим придётся подумать, ну и не всё же сразу. 😛

epsilon correct

08 Sep, 11:40


До анонса принятых статей на NeurIPS – самую большую конференцию по машинному обучению – осталось чуть меньше трёх недель, но за кулисами кипит работа по финальному отбору статей. За последние годы конференция достигла колоссальных размеров – в прошлом году на конференцию было подано чуть более 13000 статей. 👥👥

Обслуживает этот поток ценных идей пирамида из 13000 рецензентов, 1000 area chair и 100 senior area chair. Каждый рецентент должен отрецензировать 6 статей, а area chair назначается на пачку из 12 статей, по которым должен принять окончательное решение, советуясь со своим senior area chair. В этом году меня первый раз повысили до смотрящего area chair 😎, из-за чего у меня немного поменялись взгляды на весь процесс.

Во-первых, сильно начали меняться оценки авторов после фазы rebuttal (ответа авторов на рецении). Рецензенты как будто боятся сразу поставить высокую оценку и выжидают, когда им станут доступны рецензии других людей. Сверяются с ними, что ничего не пропустили, и потом поднимают оценку. В моей пачке в среднем скор вырос на полбалла – и это с учётом статей, которые авторы сняли с процесса.

Во-вторых, авторы слишком увлекаются спорами с рецензентами. В двух случаях авторы в своих ответах писали то, что в конечном итоге цементировало моё решение о реджекте статьи. В одном особенно неудачном случае авторы решили конфиденциально сообщить о том, что, по их мнению, рецензент некачественно выполняет свою работу и вообще дурак . Пришлось глубоко разобраться в статье и прочитать сопровождающий код – оказалось, неправы были авторы. 🤦‍♂️

Ещё из новых ощущений – конфликт интересов: в этом году четыре статьи из моей пачки – работы, написанные на основе моих предыдущих статей. Для таких статей тяжело найти баланс – с одной стороны, я область знаю наизусть и поэтому могу склоняться выбирать понятные для себя статьи. С другой стороны, любые ошибки и сокрытия я тоже вижу с пол-пинка, так что авторам приходится несладко.

С увеличением ответвенности стало интереснее заниматься процессом – если честно, рецензировать я уже подзадолбался. За всё время я написал уже больше 100 рецензий, и сил моих читать одинаковые ошибки больше нет. Посмотрим, все ли мои решения останутся неизменными после поверки с senior AC.

Кстати, если у уважаемых подписчиков есть какие-то вопросы по всему процессу, могу попробовать ответить в комментариях. 👉

epsilon correct

05 Sep, 11:23


Из-за прошлого поста задался вопросом, у какого же флага самый высокий ранг. Скачал SVG флагов отсюда, сконвертировал при помощи imagemagick в png, посчитал два варианта "мягкого" ранга из нашей статьи на чёрно-белой версии флагов. Получилось интересно: stable rank явно предпочитает кресты, а RankMe, который двигает ЛеКун – сложные изображения. В общем зачёте победила Намибия, с чем её и поздравим. 💐