gonzo-обзоры ML статей @gonzo_ml Channel on Telegram

gonzo-обзоры ML статей

@gonzo_ml


Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

gonzo-обзоры ML статей (Russian)

Добро пожаловать в канал "gonzo-обзоры ML статей"! Этот канал создан для всех любителей и профессионалов в области искусственного интеллекта, машинного обучения и глубокого обучения. Здесь вы найдете множество интересных и актуальных обзоров статей по теме, а также обсуждения и анализы от опытных специалистов. Канал предоставляет возможность быть в курсе последних тенденций и разработок в мире AI/ML/DL, а также биоинформатики. nnАвторы канала Гриша Сапунов и Лёша Тихонов - опытные профессионалы в своих областях. Гриша ранее работал руководителем разработки в Яндекс-Новостях и в настоящее время занимает должность CTO в Intento. Его область интересов включает в себя AI/ML/DL и биоинформатику. Лёша Тихонов, в свою очередь, имеет опыт работы аналитиком в Яндексе, а также является автором проектов, таких как Автопоэт и Нейронная Оборона. Его область интересов включает в себя дискретное программирование, обработку естественного языка и обучение с подкреплением. nnПрисоединяйтесь к нашему каналу, чтобы узнавать первыми о новых статьях, исследованиях и тенденциях в мире машинного обучения. Обменивайтесь мнениями, задавайте вопросы и участвуйте в обсуждениях с другими участниками канала, чтобы развивать свои знания и навыки в этой увлекательной области! Мы рады видеть всех любителей и профессионалов AI/ML/DL на нашем канале.

gonzo-обзоры ML статей

16 Nov, 21:27


Вот вам зыкое субботнее.

Пока тут идут разговоры про возможную нехватку энергии для датацентров и AI и необходимость строить ядерные реакторы, некоторые смотрят глобальнее! Например, предлагают, как выйти за лимиты шкалы Кардашёва:

"Civilizations like this that consume stars, which we call 'stellivores,' would be able to expand in energy use beyond the luminosity limits of the Kardashev scale," said Haqq-Misra. "We are not at this level as a civilization on Earth yet, but we can at least think about the possibility that harvesting mass and converting it into energy (as Einstein's famous equation describes) provides a way for a civilization to reach energy use scales beyond those envisioned by the Kardashev scale."

Популярно:
New study examines how extraterrestrial civilizations could become 'stellivores'
Arxiv:
Projections of Earth's Technosphere: Luminosity and Mass as Limits to Growth

Так что AI будет чем заняться. Может где-то уже и занимается. Вон, в 1952-м спёрли три звезды и так и не вернули...

Популярно:
In 1952, a group of three 'stars' vanished—astronomers still can't find them
Arxiv:
A bright triple transient that vanished within 50 minutes


Blue Marble Space Institute of Science вообще отжигает. Вот вам ещё забористое:

Projections of Earth's technosphere. I. Scenario modeling, worldbuilding, and overview of remotely detectable technosignatures
Jacob Haqq-Misra, George Profitiliotis, Ravi Kopparapu
https://arxiv.org/abs/2409.00067

gonzo-обзоры ML статей

12 Nov, 08:27


Подвезли 5+ часов Дарио Амодеи

https://youtu.be/ugvHCXCOmm4?si=Uq84ke42TrmgzLPD

gonzo-обзоры ML статей

11 Nov, 22:03


Кажется, назревает опенсорсная 1.4T модель.

Причём с crowdsourced обучением и токенизацией.

https://cointelegraph.com/news/near-plans-to-create-world-s-largest-1-4-t-parameter-open-source-ai-model

gonzo-обзоры ML статей

08 Nov, 19:36


Во втором эксперименте предложена Latent Space Diffusion Evolution, вдохновлённая latent space diffusion models (https://arxiv.org/abs/2112.10752). Она позволяет решать проблемы с многомерными пространствами параметров, исследуя низкоразмерное латентное пространство. Здесь метод применили для RL задач, где сеть должна научиться управлять классической тележкой с шестом (которая cart-pole). Для управления использовалась двуслойная сетка с 58 параметрами. Напрямую Diffusion Evolution работает плохо, зато если перейти в латентное пространство с двумя параметрами, то всё хорошо. Я так понял, что преобразование выполняется через случайную матрицу проекции, и через него считаются только расстояния между решениями, а сами решения обновляются в исходном пространстве. Результат хороший, работает и с более крупными сетками (проверили также на трёхслойной сети с 17410 параметров).

В общем, зачёт. Заодно показали, что можно переносить работающие решения из других областей (как перенесли идею из латентных диффузионок). Это похоже на подход, активно используемый Tri Dao и Albert Gu в их SSM, когда сводят в один класс SSM и что-то известное типа линейного трансформера и переносят на SSM идеи, работающие на этом трансформере, как было в работе про Mamba-2 (https://t.me/gonzo_ML/2718), например.

Это всё очень прикольная движуха, показывающая, что обучение и эволюция по большому счёту делают одно и то же. А вспоминая работу про сравнение обучения нейросети через SGD с диффузионным процессом (Neural Network Diffusion, https://t.me/gonzo_ML/2394), то транзитивно можно, наверное, сказать, что и градиентные спуски -- это тоже эволюционные алгоритмы? Снова объединяются эволюция и обучение? И может в таком случае термодинамический компьютер (https://t.me/gonzo_ML/2313) -- универсальное железо для всего этого будущего AI? Есть над чем подумать.

Есть и открытые вопросы, например, очень большой вопрос про то, что диффузионки работают на конечном времени, а реальная эволюция потенциально бесконечна и open-ended. Как адаптировать Diffusion Evolution к open-ended сеттингу? Могут ли другие варианты диффузионных моделей привести к новым эволюционным алгоритмам? (почему нет?) Можно ли в эволюционные алгоритмы привнести inductive biases из диффузионок? Как латентные диффузионные модели соотносятся с нейтральными генами? Можно ли продвинуть диффузионки идеями из эволюции?

Короче, давайте активно кросс-опыляться!

gonzo-обзоры ML статей

08 Nov, 19:36


С другой стороны и диффузия может быть рассмотрена с точки зрения эволюции. Во время обучения точки данных зашумляются и модель учится предсказывать этот добавленный шум для того, чтобы обратить процесс вспять (кстати, над диффузионной машиной времени никто пока не работает?). В фазе сэмплинга модель стартует с точек из Гауссова распределения и инкрементально их обновляет через денойзинг, где сэмплы без шума являются идеалом. В этом случае направленный денойзинг может быть интерпретирован как направленный отбор, и каждый шаг добавляет небольшой шум (со знаком минус?) по аналогии с мутациями. Это всё напоминает эволюционный процесс и алайнится с идеями, интерпретирующими геном как параметризацию в латентном пространстве мультимасштабного генеративного морфогенетического процесса, а не просто чертежа организма. Если эволюционный процесс обратить, то эволюционировавшая популяция высококоррелированных и высокоприспособленных индивидов будет постепенно растворяться, аналогично прямому (forward) диффузионному процессу.

По аналогии с энергией и вероятностью в статфизике, эволюционные задачи можно связать с генеративными через отображение фитнеса в плотность вероятности: высокий фитнес соответствует высокой плотности вероятности. Авторы в итоге математически выводят новый алгоритм под названием Diffusion Evolution -- эволюционную оптимизационную процедуру, основанную на итеративной коррекции ошибок по аналогии с диффузионными моделями, но не полагающуюся на нейросети.

Вот его ключевые особенности:
1. Начинаем с популяции случайных решений (как с шума в диффузионных моделях)
2. На каждом шаге:
* Каждое решение оценивается фитнес-функцией
* Для каждого решения оценивается его "очищенная от шума" версия путем взвешенного усреднения с соседними решениями (больший вес у более успешных соседей)
* Решение делает небольшой шаг в сторону своей "очищенной версии" и получает небольшую случайную мутацию
3. По мере продвижения:
* Радиус поиска соседей постепенно уменьшается (как уменьшение шума в диффузионных моделях)
* Это позволяет сначала исследовать пространство решений глобально, а затем локально оптимизироваться

Ключевое преимущество алгоритма в том, что он может находить и поддерживать множество различных хороших решений одновременно, в отличие от многих классических эволюционных алгоритмов, которые обычно сходятся к одному решению.

С новым алгоритмом провели несколько экспериментов.

В первом эксперименте использовались пять разных двумерных ландшафтов приспособленности: Rosenbrock и Beale с одним оптимумом, и Himmelblau, Ackley, и Rastrigin со множественными. Сравнивались с другими эволюционными стратегиями: CMA-ES, OpenES и PEPG.

Эволюцию запускали 100 раз для каждого метода. В каждом эксперименте была популяция размером 512 и делалось 25 итераций (кроме OpenES, где понадобилась 1000 шагов до сходимости). Diffusion Evolution находит качественные и разнообразные решения, особенно на последних трёх ландшафтах, где остальным методам сложно и они скатываются к одному решению.

В эволюционных алгоритмах оценка фитнеса часто самая тяжелая операция, поэтому авторы попробовали уменьшить число итераций, позаимствовав cosine scheduling из работ про диффузионки. Это сильно уменьшило количество оцениваний приспособленности.

gonzo-обзоры ML статей

08 Nov, 19:36


Diffusion Models are Evolutionary Algorithms
Yanbo Zhang, Benedikt Hartl, Hananel Hazan, Michael Levin
Статья: https://arxiv.org/abs/2410.02543
Код: https://github.com/Zhangyanbo/diffusion-evolution

Анатолий Левенчук жалуется, что AI-блогеры опопсели (https://ailev.livejournal.com/1741494.html). Да, что-то в этом есть, мы опопсели. Мне тоже это не очень нравится, но про LLM и анонсы продуктов писать, конечно, проще, чем про фундаментальное. LLM нас всех совратили. Ну и кстати не только нас, многие рисёчеры (не буду показывать пальцем), что раньше выдавали классные статьи про новые архитектуры и разные другие прорывные вещи в ML, теперь клепают статьи про LLM. Один Лекун, молодец, держится. Ну ладно, не один, конечно, но всё равно молодец (хоть я и не согласен с некоторой его аргументацией). Давайте вернёмся к хардкору. Тем более, что он есть!

Интересное заявление от Майкла Левина (писали про него, например, тут https://t.me/gonzo_ML/1042) и ко: диффузионные модели -- это эволюционные алгоритмы. Как так?

В биосфере по крайней мере два процесса способны к генерализации и созданию новизны: эволюция (медленный процесс адаптации к среде в течение поколений организмов через естественный отбор) и обучение (быстрый процесс, позволяющий индивидам приобретать знание и генерализовать субъективный опыт в течение жизни). В последнее время стало особенно много работ про связь эволюции и обучения, от старого доброго Хинтона с “How Learning Can Guide Evolution” (1987) (https://content.wolfram.com/sites/13/2018/02/01-3-6.pdf) до Ванчурина, Вольфа, Кацнельсона, Кунина с “Toward a theory of evolution as multilevel learning” (2022) (https://www.pnas.org/doi/10.1073/pnas.2120037119) и Уотсона (не того) и Левина (того) с “The collective intelligence of evolution and development” (2023) (https://journals.sagepub.com/doi/10.1177/26339137231168355). Текущая работа утверждает, что конкретный класс диффузионных моделей, где генеративная модель занимается последовательным стохастическим денойзингом, может быть понят через эволюционный процесс, выполняющий естественный отбор, мутации и репродуктивную изоляцию.