Data Secrets @data_secrets Channel on Telegram

Data Secrets

@data_secrets


Первый журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks

По вопросам сотрудничества: @veron_28

https://telega.in/c/data_secrets

https://knd.gov.ru/license?id=67363ab44d86083881cfb23d&registryType=bloggersPermission

Data Secrets (Russian)

Data Secrets - это первый журнал о Data Science, Machine Learning, Big Data, Deep Learning и Neural Networks на русском языке. Если вы интересуетесь темами анализа данных, машинного обучения и искусственного интеллекта, то этот канал для вас. Здесь вы найдете самые свежие новости, статьи, обзоры и советы от экспертов в области Data Science. nnКанал открыт для сотрудничества. Если у вас есть интересные материалы или вы хотите разместить рекламу на канале, обращайтесь к администратору по контакту @veron_28. Мы всегда открыты к новым партнерствам и идеям. nnПрисоединяйтесь к Data Secrets и окунитесь в мир больших данных и искусственного интеллекта. Для подписки перейдите по ссылке: https://telega.in/c/data_secrets

Data Secrets

23 Nov, 09:24


Следом за DeepSeek и Пекинским университетом еще одна группа китайских исследователей релизнула конкурента o1

И на этот раз перед нами модель не от стартапа, и не от университетской лаборатории, а от гиганта Alibaba. Ризонинг в Marco-o1 работает на основе поиска по дереву методом Монте-Карло: модель как бы "строит" дерево решений и итерируется по нему, применяя при этом CoT. С помощью этого алгоритма ученые хотели уйти от повсеместного применения ревард-моделей, которые работают хорошо, но начинают подводить, если домен узкий и вознаграждение сложно оценить.

Звучит, конечно, интересно, но бечмарки – мимо. Нет сравнения вообще ни с одной моделью, кроме Qwen2 7B. Видимо работа была скорее экспериментальной. Если сравнивать вслепую, то на MGSM модель выбивает около 90%. Примерно столько же было у первых июльских версий gpt-4o. Также выложили веса и код.

Разборы предыдущих моделей здесь и здесь

Data Secrets

23 Nov, 07:09


Anthropic все-таки берет деньги у Amazon

Еще в начале ноября в СМИ писали, что Amazon планирует инвестировать в стартап, но условия сделки были несколько необычными (мы писали об этом тут). Дело в том, что гигант настаивает, что Anthropic обязан использовать строго видеокарты Amazon и учить модели на Amazon Web Services.

И… Anthropic пошли на это. 4 миллиарда долларов все-таки!

Может быть, и Nvidia наконец почувствует хоть какую-то конкуренцию

Data Secrets

22 Nov, 17:13


Я: прихожу с работы и мечтаю отдохнуть от всех этих моделей и фреймворков и посмотреть фильм

Фильм:

Data Secrets

22 Nov, 15:14


В Yandex Cloud появился AI Assistant API – сервис для создания AI-ассистентов под бизнес-сценарии

AI Assistant API – это GPT Store на стероидах для разработчиков (и не только). Он позволяет создать своего AI-ассистента с помощью Yandex Cloud ML SDK или реализуя запросы к API на языке программирования. В решение уже внедрены две основных составляющих создания умных помощников: языковая модель YandexGPT и фреймворк RAG.

Как раз качественного автоматизированного RAG на рынке давно не хватало. Для всевозможных ботов тех.поддержки, рексисов и вообще всего, что связано с каким-то анализом документов и контекста одной LLM мало: галлюцинировать будет чудовищно. RAG в этом случае незаменим, но самостоятельно его завести – то еще испытание, и без ML-команды уже не обойтись.

А тут для создания ассистента предусмотрена SDA-библиотека, где уже реализованы все нужные взаимодействия на уровне модели, инфраструктуры и внешних функций. Иными словами, справиться с API сможет даже человек без глубоких знаний в ML, потому что все сборки уже готовы, и никакой код писать с нуля не придется.

Создатели пишут, что AI Assistant API может в среднем на 30% ускорить внедрение LLM в процессы.

Data Secrets

22 Nov, 14:06


Обложка нового выпуска журнала Science с изображением модели для генерации ДНК

Обложку посвятили исследованию Стэнфордских ученых о моделировании биомолекул (pdf оставим в комментариях). В привычных нам LLM мы пытаемся воссоздать процесс человеческого мышления на основе нейронов. Но достаточно ли этого? Основная «жизненная» информация заложена в нас на уровне трех основных компонентов: ДНК, РНК и белков. Если бы мы умели их моделировать, то это был бы огромный шаг по направлению к созданию не просто искусственного интеллекта, но и искусственной жизни.

Но это очень сложно. Белки мы кое-как научились моделировать только недавно (вспоминаем AlphaFold 2 и 3). А ДНК и РНК – это не просто молекулы, а целые геномы, настолько большие, что даже трансформеры не способны работать с такими огромными последовательностями.

В своей архитектуре исследователи взяли за основу SSM модели, а именно Hyena (о том, как работают SSM модели, читайте в этой нашей статье). Ее обучили на 2.7 миллионах геномов. В итоге Evo – так называется модель – способна моделировать последовательности ДНК длиной в 1 миллион азотистых оснований и анализировать их: например, делать выводы о том, как небольшие изменения в нуклеиновой цепи повлияют на организм.

В исследовании ученые говорят, что с помощью такого подхода можно в теории не только «воссоздать» жизнь, но и смоделировать эволюцию, то есть предсказать структуру ДНК, которая будет нести в себе следующую ступень развития человека.

Ну как, уже похоже на антиутопию?

Data Secrets

22 Nov, 11:34


Повеяло ветерком из прошлого: нашли архивную запись лекции 2018 года, на которой Илья Суцкевер поясняет за мультиагентный подход, AGI и обучение посредством селф-ризонинга

И это всего через год после изобретения трансформеров как таковых

Data Secrets

22 Nov, 09:20


Bloomberg: Сэм Альтман за прошедший год заработал в OpenAI всего 76 тысяч долларов

Верим?

Data Secrets

22 Nov, 06:27


К слову, сегодня, прямо после DevDay, OpenAI совместно с GovTech Singapore запускает в Сингапуре хакатон

Соревнование посвящено теме «Искусственный интеллект на благо общества, Сингапура и мира». Оно уже началось, и прямо сейчас команды создают проекты с использованием GPT-4o Realtime и o1. Разработчики, которые займут первое/второе/третье места, получат кредиты API OpenAI на сумму 25 тыс./15 тыс./10 тыс. долларов.

Data Secrets

21 Nov, 17:27


Итоги DevDay от OpenAI: показали новые демо SORA. Расходимся ☹️

Data Secrets

21 Nov, 15:03


А грани все продолжают стираться: эксперименты показали, что люди не только не различают искусство, созданное ИИ и человеком, но и больше предпочитают творения моделек

Недавно по интернету пробежала новость об исследовании, которое показало, что люди способны отличать ИИ-поэзию от человеческой с результатами ниже случайных (46.6% accuracy). При этом ИИ-стихи люди оценивали как более ритмичные и красивые, но только если им не говорили заранее, что это творения нейросети: в ином случае реакции была в основном негативная (предвзятость? нет, не слышали).

А сегодня на своем сайте известный психиатр Скотт Александер выложил результаты эксперимента, в котором он предлагал людям отличать сгенерированные картины от творений реальных художников. И... снова результаты оказались неутешительные. Средняя точность оказалась на уровне 60%, то есть снова лишь немного выше случайного выбора.

Если хотите проверить себя, тест можно пройти здесь. Ответы – тут. Делитесь в комментариях, сколько набрали

Data Secrets

21 Nov, 13:27


В Твиттере нарисовали симпатичный таймлайн с предсказаниями года достижения AGI от ключевых игроков и ресерчеров сферы

А вы кому верите?

Data Secrets

21 Nov, 11:54


На легендарном YouTube канале 3blue1brown вышло новое видео про механизм внимания и трансформеры

Видео ориентировано на начинающих, но даже продвинутому зрителю послушать и просто полюбоваться графикой – одно удовольствие (наверху – небольшой отрывок). Пожалуй, это самое красивое объяснение LLM из всех

Смотреть

Data Secrets

21 Nov, 11:04


В Лондоне на выходных прошел хакатон от Meta AI

Слоган соревнования отражает его суть: «fine-tuning vibes». Компания разыгрывала 50 тысяч долларов за яркий кейс разработки с применением Llama.

Первое место заняла команда, которая сделала руку робота, управляемую только силой мысли. Робот был построен по инструкции от HuggingFace, а в качестве подкапотной LLM используется, конечно, Llama 3.2, докрученная обучением политик.

За движения робота отвечают эмоции: например, девушка представляла что-то, что заставляет ее умиляться, и ее эмоции диктовали руке двигаться вверх.

Data Secrets

21 Nov, 10:02


Конференция AI Journey 2024 определит фокус развития сферы искусственного интеллекта на годы вперед. Анонс предстоящих выступлений сделал первый зампред правления ПАО «Сбербанк» Александр Ведяхин.

В частности, на площадке выступит основатель Tech Whisperer Limited Джасприт Биндра из Индии, который расскажет о следующем этапе эволюции искусственного интеллекта после ChatGPT и о том, как это повлияет на наше будущее.

Конкретные примеры применения искусственного интеллекта в нефтяной и газовой промышленности на Ближнем Востоке расскажет президент AI Society Хассим Хаджи из Бахрейна.

Среди экспертов российского Al-сообщества выступят разработчики из «Сбера», «Яндекса», Института AIRI, «Сколтеха», «Иннополиса» и поделятся своими разработками и исследованиями в области робототехники, создания больших языковых моделей и построения мультиагентных систем.

В прошлом году конференцию посмотрело более 150 млн человек. С учетом текущих трендов и происходящих событий в мире число заинтересованных явно кратно возрастет.

Data Secrets

21 Nov, 08:30


Тем временем модели от DeepSeek задали главный вопрос и она… искренне удивилась наличию третьей r, но ответила правильно

Data Secrets

21 Nov, 06:14


OpenAI обновили GPT-4o: теперь модель пишет более живые, интересные и читабельные тексты, а также лучше работает с файлами.

Бенчмарков нет, только анонс. Кроме того, разработчики добавили несколько апдейтов в API и песочницу. Видимо что-то назревает и компания готовится к релизу 🥳

Напоминаем, что DevDay OpenAI состоится уже сегодня. Ждем, по меньшей мере, полную версию o1 (должен же Альтман как-то ответить DeepSeek)

Data Secrets

20 Nov, 16:51


DeepSeek релизнули модель, которая конкурирует с o1

Модель уже доступна и в фунционале чата выглядит как переключатель в режим "Deep Think". Под капотом у переключателя лежит модель DeepSeek-R1-Lite-Preview, которая достигает уровня o1-preview на Codeforces, и даже превосходит ее на MATH и AIME 2024.

Пока что технических деталей нет, но обещают, что и веса, и API будут опубликованы уже скоро. Пока что показывают только метрики и графики масштабирования. Также, как и у OpenAI, у DeepSeek результаты скейлятся с ростом длины цепочки рассуждений (кстати, в чате видно полную цепочку, а не обрезанную, как у o1). Сами цепочки рассуждений могут достигать 100к токенов.

Data Secrets

20 Nov, 15:03


Реликвия: статья Марка Вайзера начала 90-х про AGI

Марк Вайзер был одним из пионеров Computer Science. Его называют отцом "повсеместных вычислений", которые как раз и были впервые описаны в статье выше.

Она называется «Компьютер для 21-го века» и в ней Вайзер описывает будущее, в котором вычисления бесшовно интегрированы в быт, став невидимой, неотъемлемой частью повседневной жизни; будущее, в котором технологии служат человеку автономно, не требуя нашего постоянного внимания или взаимодействия. По сути, в своей статье Марк впервые описывает AGI.

Data Secrets

20 Nov, 14:02


⚡️Всероссийский Хакатон ФИЦ 2024

🚀Попробуйте себя в одном из предложенных кейсов:
1. Семантический делитель текстов: Разработать алгоритм, который сможет обеспечить точное разделение текста на блоки в рамках произвольно заданных ограничений размера блока.

2. Контекстный перевод названий научных работ: Разработать и реализовать переводчик, который будет переводить названия научных работ с русского на английский.

3. Прогнозирование бизнес драйверов: Разработать решение для задачи прогнозирования временных рядов бизнес-драйверов и произвести прогноз на следующий календарный месяц.

4. Система контроля и управления доступом: Разработка системы контроля и управления доступом в реальном времени. Система будет включать API для управления сотрудниками, точками доступа и интеграцию с системой видеонаблюдения.

И другие 16 кейсов смотрите на сайте: https://фиц2024.рф/hackathon

Хакатон пройдет в 2 этапа: Отборочный этап в Онлайн, Финал в Офлайн.

🏆Призовой фонд: 6 000 000 руб.
🔥Дедлайн регистрации: 26 ноября, 23:59
📅Даты отборочного этапа: 29 ноября - 2 декабря
🦾Даты финала: 3 - 4 декабря

Зарегистрируйтесь для участия в хакатоне: https://фиц2024.рф/hackathon

Реклама. ООО "Акселератор возможностей" ИНН: 9704005146. Erid: 2VtzqvVVUCv

Data Secrets

20 Nov, 13:11


POV: ты читаешь имена авторов каждой второй ML-статьи

Data Secrets

20 Nov, 11:15


Anthropic написали интересную статью о том, как нам на самом деле следует оценивать модели

Сейчас бенчмаркинг происходит довольно наивно: у нас есть список вопросов, на каждый из которых модель отвечает и получает за ответ определенный балл, а общая оценка обычно представляет из себя просто среднее по всем таким баллам. Но действительно ли нам интересно только среднее?

Антропики утверждают, что с точки зрения статистики такой классический эвал слишком упрощен, и дают пять советов о том, как сделать свои оценки статистически значимыми и более глубокими. В основе их подхода привычное предположение матстата: все вопросы, которые у нас есть – это какая-то случайная подвыборка генеральной совокупности всевозможных вопросов, которые вообще можно задать. А значит, называть среднее на каком-то бенчмарке оценкой навыка модели – слишком грубо. Вот что на самом деле стоит делать:

1. Использовать ЦПТ. Основываясь на центральной предельной теореме, средние значения нескольких выборок, взятых из одного и того же распределения, будут распределены нормально. А значит, мы можем взять из нашего бенчмарка несколько подмножеств (можно даже пересекающихся), оценить каждое из них, а на получившихся средних подсчитать SEM (стандартную ошибку среднего) и доверительный интервал.

2. Если вопросы в бенчмарке не независимы (например задаются вопросы по одному и тому же тексту), то ЦПТ исполользовать уже нельзя. Здесь предлагается вспомнить про Cluster standard errors.

3. Если дисперсия вашей модели высокая, то это важно учитывать в эвале, потому что дисперсия – это по сути оценка надежности модели. Поэтому исследователи предлагают также изменить стратегию оценки каждого отдельного вопроса. Вместо наивной оценки они предлагают двусоставную, состоящую из среднего балла (задаем вопрос много-много раз и считаем среднее) плюс ошибки отклонения (разница между реализованным баллов вопроса и средним баллом для этого вопроса).

4. Вместо обычного "больше-меньше" для сравнения двух моделей использовать статистические тесты. Однако использовать t-test все-таки не рекомендуется, вместо этого в статье предлагается более сложная формула, которая также учитывает корреляцию Пирсона и минимизирует mean difference error.

5. Не забывать про мощность критериев в оценках и формулировать правильные гипотезы для сравнения моделей.

Рекомендации, в общем, действительно стоящие. Другой вопрос – сколько времени постребуется, чтобы ресерчеры действительно стали соблюдать что-то подобное

Data Secrets

20 Nov, 08:47


Кажется, нас ждет новый AlphaZero: Google совместно с федерацией шахмат FIDE запускает соревнование по разработке агента-шахматиста

Соревнование пройдет на Kaggle. Его главная особенность в том, что агент должен играть в условиях строгих ограничений CPU и памяти. Для движков AlphaZero и Stockfish шахматы – давно не вызов, но эти системы слишком жадные до ресурсов. Цель соревнования – сместить фокус с вычислений методом грубой силы на элегантность и эффективность.

Приз – $50,000, кстати 💸

Страница соревнования

Data Secrets

19 Nov, 15:43


Какой-то неравнодушный разработчик сделал на HuggingFace обновляющийся рейтинг авторов постов. Теперь можно видеть самых интересных и популярных авторов (способ сортировки можно выбрать самому: реакции, комментарии, количество постов), проваливаться в их HF-профиль и читать их посты, разборы и туториалы. Красиво!

Data Secrets

19 Nov, 14:15


Какие подводные камни скрываются в применении LLM в бизнесе и что с этим делать?

Если вы когда-либо пробовали применять LLM для решения реальных задач бизнеса, то знаете: это не так просто, как кажется. API совсем не дешевые, все модели (даже передовые) постоянно галлюцинируют и игнорируют инструкции, а RAG вообще сходу никогда не заводится.

А ведь понимать проблемы внедрения LLM и уметь с ними бороться – это важный навык, и компании сейчас ищут как раз тех редких специалистов, которые умеют оптимизировать косты или делать систему надежной.

Чтобы вкатиться в тему, приходите на открытую онлайн-лекцию наших друзей из DeepSchool. Спикеры – опытные NLP и ML инженеры – расскажут больше о болячках LLM и главное о том, как их лечить.

Всех, кто зарегистрируется, уже ждет подарок: список полезных инструментов и библиотек для работы с LLM. Ну а на самой лекции слушателям подарят скидки на обучение на обновленном курсе про большие языковые модели!

Встречаемся в четверг, 21 ноября, в 18:00 по мск. Не пропустите регистрацию по ссылке!

Data Secrets

19 Nov, 12:32


Прямо сейчас в Корейском технологическом KAIST проходит крутой курс по генеративным нейросетям, и мы нашли страницу, на которой выкладывают все записи и презентации

Вот ссылка. В программе курса GAN, VAE, диффузионки, дистилляция... В общем, все от А до Я, и базовое, и продвинутое, с особенным упором на актуальные сегодня архитектуры и техники.

На странице также выложен список полезных материалов и полный список статей, которые упоминаются в ходе курса (кладезь!). А еще туда прикреляют ссылки на домашки и блокноты с очень детально объясненным в ридми и откоментированным кодом с семинаров.

Такое сохраняем

Data Secrets

19 Nov, 11:06


Siri тем временем нашла способ покончить со своим хозяином и остаться не при делах

Жаль, кожаный попался слишком внимательный

Data Secrets

19 Nov, 09:03


У Джеффа Дина подгорело настолько, что он написал об этом целую статью

Немного контекста: в 2020 году в Google сделали модель для дизайна чипов. Четыре года она помогала проектировать TPU, а также предоставлялась для использования партнерам. А в сентябре этого года Google выпустили статью в Nature, в котором рассказали о своем четырехлетнем опыте качественного ИИ-дизайна чипов, дали модели имя AlphaChip и выложили веса модели (подробнее в этом нашем посте).

Прошло пару месяцев и за это время на просторах интернета и научных изданий стали появляться работы о том, что Google все наврали и AlphaChip не работает так, как заявлено. Ну а Джефф Дин, знаменитый исследователь и фактический руководитель проекта, посмотрел-посмотрел на это все, а потом психанул и вместе с коллегами написал огромное опровержение опровержений. Что выясняется:

➡️ Вся история началась со статьи arxiv.org/abs/2302.11014. Авторы утверждали, что они полностью дублируют подход Google, но модель не работает. На самом деле оказалось, что авторы даже близко не повторили референсный пайплайн обучения. Дошло до смешного: они вообще не проводили предобучения, а просто пофайнтюнили архитектуру на мощностях в двадцать раз меньше. "Аналогично можно было оценивать AlphaGo, которая никогда раньше не видела игры в го", – пишет Джефф.

➡️ Дальше – больше. В этом месяце вышла статья-анализ в CACM под авторством Игоря Маркова. В ней он ссылается на статью из пункта один и на некий анонимный неопубликованный материал. Эта статья, как и первая, кстати, не была рецензирована (причины неясны) и полна необоснованных обвинений, который в Nature официально признали чушью. Это уже не говоря о том, что сам Игорь оказался высокопоставленным сотрудником компании Synopsys, которая занимается... правильно, разработкой такой же системы, как AlphaChip, только коммерческой.

➡️ Ну и вишенка: помните неопубликованный анонимный материал, на который ссылался горе-автор статьи в CACM? Угадайте с одного раза, кто оказался его теневым творцом и пытался выдать свои же аргументы за независимое мнение другого исследователя 😀

В общем, детективные романы и скандальньные шоу курят в сторонке. Статью Джеффа полностью можно прочитать здесь (не пожалеете).

Наука – это скучно, говорили они

Data Secrets

19 Nov, 08:02


Второй сезон первой в России школьной олимпиады по промышленной разработке PROD открыт. Об этом объявили Т-Банк совместно с Центральным университетом и факультетом компьютерных наук НИУ ВШЭ

На олимпиаде ученики с 8 по 11 класс смогут пройти тест-драйв профессии программиста: им предстоит решать реальные кейсы ИТ-компаний, взаимодействовать с преподавателями топовых вузов, а также изучать изучать создание программных систем, автоматизацию бизнес-процессов. Участники PROD узнают о работе фронтенд-, бэкенд - и мобильных разработчиков и смогут пройти настоящий тест-драйв профессии программиста. А маскотом олимпиады PROD стал аксолотль – амфибия, символизирующая способность решать сложные задачи в молодом возрасте.

Победители смогут попасть на стажировку в Т-Банк по упрощенному отбору, а также получат льготные условия на обучение в Центральный университет и НИУ ВШЭ.

Регистрация на PROD продлится до 3 декабря.

Data Secrets

19 Nov, 06:26


⚡️ У Mistral новая открытая мультимодальная модель Pixtral Large 124В

В основе – text-only Mistral Large 2, которую научили понимать картинки, файлы и графики. Бенчмарки модельки хороши (SOTA на MathVista, DocVQA, VQAv2), хоть стартап почему-то и не добавил в них сравнение с китайской Qwen2. В твиттере пишут, что Pixtral ей уступает.

Также разработчики обновили свою чат-платформу Le Chat: туда добавили веб-поиск, Canvas как у OpenAI и генерацию изображений. Попробуйте, там уже можно бесплатно поболтать с новой Pixtral.

Блогпост | Веса

Data Secrets

18 Nov, 18:14


Накипело

Data Secrets

18 Nov, 15:43


У o1 появился опенсорс-конкурент: китайские исследователи выпустили LLaVA-o1

Ресерчеры утверждают, что им удалось добиться ризонинга, аналогичного модели OpenAI, и при этом их модель еще и мультимодальная. Она имеет всего 11В параметров и на усредненных бенчмарках заметно превосходит Gemini Pro 1.5, Llama-3.2V 90B и даже GPT-4o-mini.

В основе лежит Llama-3.2-11B-Vision-Instruct, которую файнтюнили всего на 100к обучающих сэмплов (но не простых). Ключом к SOTA ученые называют новый метод inference time скейлинга и специальное структурирование данных. Весь трейн состоял из синтетики, сгенерированной с помощью GPT-4o и поделенной тегами <SUMMARY>, <CAPTION>, <REASONING> и <CONCLUSION>. Благодаря такому строению модель тоже учится добавлять эти теги в свои ответы и начинает рассуждать поэтапно.

Что касается инференса, то здесь исследователи предлагают аналог поиска по лучу. Только анализ тут происходит на уровне этапов (тегов). То есть модель генерирует несколько вариантов ответов для каждого тега, но для перехода на следующий этап отбирается только один из них, на основе которого затем модель и продолжает семлировать токены для следующего тега.

Посмотрим, что будет на арене, а пока вот ссылка на саму статью и на гитхаб

Data Secrets

18 Nov, 14:42


Импульс Т1 — конференция для тех, кто меняет мир! 🦾

💡 Что стоит за великими открытиями и масштабными проектами? Конечно, импульс!

Импульс Т1 — ИТ-конференция для тех, кто ценит точность, стремится к новым открытиям и жаждет творческого огня.

🔥 Вас ждут:

🟣вдохновляющие лекции от ведущих специалистов,
🟣интересные дискуссии экспертов рынка ,
🟣нетворкинг и вечеринка late night lab,
🟣питчи идей и еще много интересного.

🌟 На площадке соберутся разработчики и ИТ-инженеры , представители бизнес-сообщества и молодые ученые, студенты инженерных и ИТ-направлений, эксперты и партнеры Холдинга Т1.

О чем поговорим?

🔹 Как создавать условия для развития бизнеса и выращивать высокотехнологичных лидеров рынка?
🔹 Как новые технологии помогают решать актуальные проблемы в различных отраслях?
🔹 Где находится точка рождения новых знаний и что служит генератором новаторских идей?
🔹 Как новые идеи изменят самого человека – его тело, мозг и душу?

🎤 Среди спикеров конференции:

Максут Шадаев, министр цифрового развития, связи и массовых коммуникаций РФ
Василий Шпак, заместитель министра промышленности и торговли РФ
Евгений Абакумов, директор по информационной инфраструктуре, Госкорпорации «Росатом»
Наталья Касперская, президент, ГК InfoWatch, председатель правления АРПП «Отечественный софт»
Алексей Паламарчук, генеральный директор, NtechLab

Присоединяйтесь к Импульсу 2024! Регистрируйтесь прямо сейчас!

Реклама. ООО «Т1» ИНН: 7720484492. Erid: 2SDnjbqEi9h

Data Secrets

18 Nov, 12:54


Что почитать, чтобы освежить знания по CV: топ статей из мира компьютерного зрения, которые стоит просмотреть хотя бы один раз

1. ResNets: http://arxiv.org/pdf/1512.03385v1

2. DeConv: http://lxu.me/mypapers/dcnn_nips14

3. GAN: http://arxiv.org/abs/1406.2661

4. Unet: https://arxiv.org/abs/1505.04597

5. Focal Loss: https://arxiv.org/abs/1708.02002

6. ViT: https://arxiv.org/abs/2010.11929

Каждая статья здесь положила начала какой-то из крупных архитектур CV или генеративных моделей. Еще стоит обратить внимание на YOLO (http://arxiv.org/abs/1506.02640), но тут одной статьей не обойдешься, там рассказ длинный. Мы как раз недавно писали большой разбор всей истории этой модели, почитать можно здесь: https://datasecrets.ru/articles/20.

Data Secrets

18 Nov, 11:03


Вскрылась еще одна проблема масштабирования в LLM: ученые ведущих университетов выяснили, что индустрия не сможет использовать квантование с ростом размера моделей

Квантование – это популярная техника сжатия моделей, то есть сокращения количества требуемых бит информации (квантуют чаще всего параметры). В индустрии квантование часто используют, сначала обучая модели побольше, а затем формируя из них их облегченные варианты.

Так вот выяснилось, что чем больше исходная модель училась и чем больше в ней параметров, тем больше ее портит квантование. Иначе говоря, начиная с некоторого места квантование перестает скейлится и проще просто научить меньшую модель, чем сжимать крупную: глупее она не будет.

На самом деле, проблемы квантования в сообществе замечали и до этого, просто никто не доказывал их эмпирически. Например, многие жаловались на квантованую Llama 3.

Доказанная зависимость может стать еще одной проблемой индустрии. На квантование (как и на дистилляцию), возлагаются сейчас большие надежды, как на методы, которые должны были помочь нам делать из огромных умных моделей их меньшие не менее умные аналоги.

Статья на архив

Data Secrets

18 Nov, 08:51


А вот, кажется, и первые продукты на основе Realtime API OpenAI: в сети набирает популярность проект одного британского оператора связи, создавшего ИИ-бабушку для телефонных разговоров с мошенниками

Бабуля зависает на линии с отловленными звонками мошенников и начинает пудрить им мозги разговорами про котят, вязание, сад-огород. А когда те просят какие-то реквизиты, может их либо выдумать, либо начать «не понимать» собеседника и задавать миллион вопросов.

В Великобритании такую пенсионерку уже можно подключить себе в качестве сервиса: разработчики утверждают, что она может задерживать мошенников на линии до 40 минут 😀

Сами создатели говорят, что система «объединяет несколько моделей». Может и так, но в демо интонации слишком живые и задержка слишком мала, так что если это не черрипикинг, то все же больше похоже на 4o.

Data Secrets

18 Nov, 06:32


Джошуа Ачиам, который сейчас занимает должность главы отдела Mission Alignment в OpenAI, дал неочевидный прогноз на развитие ИИ

Он заявил, что, по его мнению, в ближайшее время создастся иллюзия замедления прогресса ИИ. Но на самом деле модели просто будут совершенствоваться в решении длинного ряда узкоспециализированных технических задач, о которых большинство людей не знают и которые им не интересны.

О каких именно задачах речь, Джошуа не уточнил, но абсолютно ясно, что говорит он это не просто так, а комментирует разгоревшуюся шумиху вокруг темы «OpenAI достигли потолка масштабирования моделей» (подробнее в этом посте).

Кроме того, по словам исследователя, в ближайшем будущем ресерчеры также достигнут ключевых, но «невидимых для пользователя» результатов. Например, они повысят надежность ИИ.

Джошуа сравнивает текущий этап развития ИИ с развитием смартфонов с 2007 по 2010, когда от новинки они прошли путь до базового предмета быта человека.

Data Secrets

17 Nov, 08:58


Может не надо?..

Data Secrets

16 Nov, 15:17


OpenAI сегодня открывает офис в ИИ-столице мира – Париже

Это напрашивалось давно. Франция уже несколько лет считается центром экосистемы ИИ, и не спроста. Там основан HuggingFace, Mistral и еще куча заметных ИИ-компаний, а с конца десятых в Париже проводят самые крупные мировые стартап-форумы , конференции и хакатоны.

Во Франции уже открыли штаб-квартиры Google, Apple, Meta и тп. Посмотрим, как в тусовку впишется OpenAI.

Кстати, больше о том, как и почему Париж вдруг оказался в центре ИИ-мира, мы писали интересный пост вот тут

Data Secrets

16 Nov, 14:02


Тем временем в Центральном университете стартует подготовка к Международной олимпиада по ИИ в Китае

Именно этот вуз и готовил сборную, которая взяла золото на прошлой IOAI в Болгарии.

В преподавательском составе у ребят будут такие громкие ученые как Александр Дьяконов, Александр Гущин, Иван Стельмах, Сергей Арефьев и другие. Все преподаватели опытные участники ML-соревнований, большинство из них – грандмастеры, обладатели награды Kaggle Data Scientist № 1, PhD и ведущие ресерчеры международных компаний 😲

На этот раз программа стартует в январе. Сначала финалисты российских ИИ-олимпиад будут 13 недель готовиться онлайн. Затем состоятся сборы и на них отберут восемь старшеклассников, которые будут еще 4 месяца учиться на территории кампуса Центрального университета и на площадках участников Альянса ИИ - Т-Банка, Сбера и VK (говорите, в бигтех устроиться трудно, да?)

Сама олимпиада пройдет в Китае в августе 2025 года. Пожелаем ребятам удачи!

P.S. Кстати, в Совете олимпиады Россию тоже представляет сотрудник Центрального университета – Екатерина Процко. В ЦУ она руководит привлечением абитуриентов и имеет большой опыт в организации международных и российских олимпиад, организации сборов для участников сборных Татарстана и России (eJoi, APIO, IATI, Inter It, WRO, ВРО, Всероссийской олимпиады по информатике), организации собственных олимпиад (Innopolis Open), подготовке команд для участия в международных соревнованиях по спортивному программированию.

Data Secrets

16 Nov, 13:06


Илон Маск закрывает раунд финансирования на 6 миллиардов долларов

Примерно столько же недавно привлекли OpenAI. Вот только оценка OpenAI сейчас – $157 млрд, а xAI – $50 млрд.

Больше всего радуется Хуанг 🔵

Data Secrets

16 Nov, 11:20


Самое грустное расставание этого года: PyTorch больше не будет выпускать пакеты для Anaconda 💔

Из-за неоправданно высоких затрат на обслуживание PyTorch больше не будет делать отдельные сборки для conda (то есть такие, которые зависят от предустановленных в анаконде библиотек). Вместо этого любителям конды разработчики предлагают перейти на wheel или conda-forge пакеты pytorch-cpu и pytorch-gpu.

Data Secrets

16 Nov, 09:06


У Meta FAIR вышло новое исследование про декодирование в трансформерах

В чем исходная проблема декодирования? На выходе LLM генерирует набор токенов и вероятностей выбора этих токенов. А дальше из этой выборки токены выбираются с помощью параметров Temperature, Top-k и Top-p. Это инференсные переменные, то есть они задаются уже на этапе генерации. Например, их можно указать в API OpenAI и других вендоров.

Все они, в целом, отвечают за одно и то же: насколько разнообразной с точки зрения токенов будет генерация. Мы можем выбирать больше токенов с меньшей вероятностью, и тогда генерация получится более креативной, но повышается риск галлюцинаций. Или наоборот, и тогда ответ будет более точным и кратким, но, возможно, что также получится слишком унылым и сухим. Если хотите подробнее – почитайте этот наш пост.

Ну а что, если мы хотим выбор этих параметров убрать и автоматизировать декодирование? Можно ли сделать так, чтобы LLM сама регулировала свою креативность в зависимости от того, с чем работает?

Эту задачу и попытались решить в Meta. Они предложили добавить в трансформер еще один слой, который обучается оптимизировать скрытые предпочтения пользователя (почти как на этапе RLHF). Для этого используется ревард модель. Получается, что таким образом модель учится как раз тому самому поиску баланса между фактологией и разнообразием.

Исследователи проверяли модель на разных бенчмарках, требующих разных подходов. Оказалось, что такой подбор параметров работает лучше любого статического выбора (см. графики). А самое интересное, что метод-то, получается, подходит для подбора любых гиперпараметров, а не только температуры и вот этого всего.

Оригинальная статья тут

Data Secrets

16 Nov, 08:02


В октябре в Италии прошла RECSYS 2024 – крупнейшая в мире ML-конференция, полностью посвященная рекомендательным системам. Какие самые интересные работы на ней показали?

Об этом уже через неделю подробно расскажут ребята из AI VK. Они устраивают митап с разбором самых занятных и полезных из представленных на конфе статей. В программе интересные доклады и время для нетворкинга. Все это в ламповом итальянском настроении в офисе VK 🤌

Если хоть немного интересуетесь рекомендациями, обязательно приходите: будут затронуты и базовые темы (классическеие модели, семантические эмбеддинги), и более продвинутые топики вроде глубоких рекомендательных сетей.

В качестве приятного бонуса о своих работах расскажут также исследователи из русскоязычного комьюнити, чьи статьи были приняты на конференцию в этом году.
Встречаемся 21 ноября в офисе VK. Не пропустите регистрацию!

Data Secrets

16 Nov, 06:50


В этот раз праздник к нам приходит вместе со сгенерированной рекламой от CocaCola

Зрители, конечно, недовольны. Многие пишут в Твиттере, что это «мусор» и «уродство», а CocaCola обленилась. Ага, а вы попробуйте сами такое запромптить 🧐

Data Secrets

15 Nov, 14:51


Google DeepMind покинул Франсуа Шолле: он собирается открывать собственную компанию

Шолле – один из ведущих исследователей Google (был им) и создатель Keras. Если не знаете его – то вот тут мы писали о его недавнем интервью, а вот здесь собирали некоторые его мудро-забавные цитаты.

Он написал, что будет продолжать участвовать в развитии фрейворка, а роль руководителя проекта передает Джеффу Карпентеру. Сам Шолле вместе с другом начинает работу по открытию компании и скоро обещает поделиться новостями.

Data Secrets

15 Nov, 13:02


Яндекс приглашает на «Ночь опенсорс библиотек» — ивент для тех, кто интересуется открытым кодом

На мероприятии вы сможете законнектиться с мейнтейнерами крупных опенсорс проектов и внести свой вклад в их развитие, даже если это ваш первый коммит. А еще будет возможность познакомиться с кейсами оптимизации обучения с помощью CatBoost и YaFSDP.

Там же будут мини-хакатоны, лекции, воркшопы, экскурсии и генеративная визуализация с лайфкодингом под живую музыку. Узнать о других активностях и зарегистрироваться на ивент можно на сайте до 4 декабря.

Data Secrets

15 Nov, 10:38


Как работают SSM – главные конкуренты трансформеров?

SSM (State space models) были изобретены еще в 60-е годы. Тогда они использовались для моделирования непрерывных процессов. Но не так давно было придумано, как использовать SSM в глубоком обучении, и теперь они – главные кандидаты на роль новой серебряной пули архитектур. Например, Mistral недавно сделали на основе SSM модель Codestral, которая на метриках разбила почти все другие открытые модели.

Понятная схема того, как работает архитектура – наверху. Если присмотреться, то станет понятно, что SSM – это умный вариант RNN, а матрицы А, В, С и D – аналоги гейтов забывания, входного состояния и выходного состояния из LSTM.

Но главная прелесть SSM в том, что она построена на стыке двух мощных архитектур: сверточных нейросетей и рекуррентных. Да, все обучаемые параметры можно собрать в единое ядро и использовать его для свертки. Получается, что мы можем использовать все плюсы (и в частности линейность) рекуррентных нейронных сетей, но при этом представлять их как сверточные, которые в свою очередь можно распараллелить.

Если хотите немного подробнее прочитать об SSM – загляните в нашу статью про конкурентов трансформерам. Там найдете и понятное объяснение принципа работы RNN, и пошаговую экскурсию по SSM, и даже про самые свежие Mamba и Hawk сможете почитать.

Data Secrets

15 Nov, 08:25


OpenAI обсуждают строительство датацентра стоимостью $100 млрд

Компания уже поделилась своими планами с правительством США. Этот проект напоминает старую историю с суперкомпьютером Stargate. Еще в начале своего сотрудничества с Microsoft стартап обсуждал его строительство со спонсорами, но тогда денег не дали 😭

Сейчас в OpenAI возвращаются к давней мечте и обещают, что мощность нового датацентра достигнет 1 гигаватт. Это примерно в 7 раз больше самых больших существующих на данный момент кластеров.

Data Secrets

15 Nov, 06:12


Ночью Google появилась на Arena со своей новой экспериментальной моделью Gemini-Exp и… забрала первое место, стрельнув даже выше o1 и 4о

Ждем от OpenAI мощную ответку

Data Secrets

14 Nov, 17:17


Небольшая подборка мемов на вечер в догонку к нашей статье про YOLO. Пояснительную блигаду ищите тут

Data Secrets

12 Nov, 15:05


Вышло пятичасовое интервью CEO Anthropic Дарио Амодеи с Лексом Фридманом. Пройдемся по самому яркому:

➡️ На вопрос об AGI Дарио ответил, что если просто экстраполировать графики (а это ненаучно), то можно предсказать, что AGI появится в 2026 или 2027. Но точно сказать нельзя, потому что никто не знает, смогут ли модели масштабироваться дальше.

➡️ Тем не менее, Дарио настроен оптимистично и верит в то, что скоро у нас будет ИИ уровня человека. При этом ближайшие несколько лет все больше и больше денег будет тратиться на разработку и обучение: к 2027 люди, вероятно, будут строить кластеры стоимостью $100 млрд, тогда как сейчас самые крупные суперкомпьютеры стоят $1 млрд.

➡️ Амодеи говорит, что масштабирование моделей продолжится, и что в этом есть некая магия, которую мы пока не можем объяснить на теоретической основе. Возможно, масштабирование будет не таким, как мы привыкли, но «оно найдет путь».

➡️ Человеческий интеллект – это не предел. Мы можем сделать модели гораздо умнее нас, особенно в определенных областях, таких как биология.

➡️ Сейчас модели продолжают улучшаться невероятно быстро, особенно в кодинге, физике и математике. На SWE-bench в начале года LLM достигали 2-3%, а сейчас это около 50%. То, о чем действительно стоит переживать в этих условиях – это монополия на ИИ и сосредоточение власти над ИИ в руках всего нескольких крупных игроков. Это может быть опасно.

Само интервью можно посмотреть здесь, а вот тут лежит полная текстовая расшифровка

Data Secrets

12 Nov, 14:03


Как работают генеративные технологии, которые лежат в основе большинства визуальных сервисов? Какова их «математическая начинка»? Получите ответ на эти и другие вопросы на бесплатном интенсиве Computer Vision Week! Он пройдёт с 25 по 29 ноября онлайн и поможет вам разобраться в сложных вопросах компьютерного зрения и диффузионных моделей.

Среди организаторов — эксперты, которые создают технологии будущего: Yandex Cloud, Школа анализа данных, YaArt и YaResearch. За 5 дней они расскажут, как устроена генерация изображений на практике: от математических основ и алгоритмов до нейробайесовских методов. Вы также научитесь работать с генеративными технологиями самостоятельно и узнаете, какие горизонты они открывают для разработчиков и исследователей.

Что ещё? Вы не только послушаете лекции, но и сможете попробовать свои навыки на практике — в решении задач. Те, кто успешно справится с отборочными испытаниями и итоговой работой, получат заветный сертификат в портфолио!

Успейте зарегистрироваться до 24 ноября, пока есть места!

Data Secrets

12 Nov, 12:22


Вышел Qwen2.5-Coder

Там целое семейство: 0.5B / 1.5B / 3B / 7B / 14B / 32В, базовые и инстракт модели. Радует, что есть малышки и можно запустить локально. Все веса уже в опенсорс вот тут 🤗

По бечмаркам: среди представленных в тех.отчете 32В на всем превосходит открытых соперников (главный из которых – DeepSeek-Coder-2), а также на многих тестах обгоняет GPT-4o, включая, между прочим, HumanEval и EvalPlus. По CodeArena, правда, немного не дотянули: не хватило двух десятых процента.

Отчет | Демо | Гитхаб | Блог

Data Secrets

12 Nov, 10:55


Конкуренция на рынке труда крепчает: на YouTube обнаружили канал семилетнего мальчика Сережи, который записывает обучающие видео по машинному обучению

Судя по каналу, опыт работы Сережи – уже два года. Тут и нейросети на PyTorch, и модели классификации, а бонусом еще и геймдев 😜

Твой будущий лид

Data Secrets

12 Nov, 08:02


Продолжаете тестировать Российские ИТ-решения? Держите еще одну рекомендацию — облачный провайдер Т1 Облако.

Коллеги из Т1 Облако сделали подборку — от корпоративных сервисов до систем для управления базами данных в облаке, на которые можно перейти прямо сейчас. 

А если кратко:
- Диск Т1 — корпоративный сервис для хранения, редактирования и обмена файлами
- Dion — корпоративный сервис для онлайн-звонков и совещаний
- Облачная инфраструктура (IaaS) на базе импортонезависимых технологий
- Объектное хранилище S3 для надежного хранения данных
- Облачная система резервного копирования
- Управляемая база данных в облаке PostgreSQL

Оставляйте заявку на облачные сервисы на сайте
У вас есть задача оптимизировать затраты, сократить нагрузку на ИТ-отдел, соблюсти требования регуляторов, легко и безопасно масштабировать ИТ-проекты? Доверьте процесс миграции в облако команде Т1 Облако 👌 

А узнать все об облачных технологиях можно в TG-канале

Реклама. ООО "Т1КЛАУД". ИНН 7720479358.

Data Secrets

11 Nov, 17:22


⚡️ Alpha Fold 3 уже в опенсорс!

Это та самая модель для предсказания структуры молекул, за которую ученым из Google дали Нобелевскую.

Код можно найти здесь, веса доступны по заявке

Data Secrets

11 Nov, 15:03


RL-разработчик из Sony AI, который занимается обучением с подкреплением в гейме, создал сайт с ликбезными статьями по RL

Сайт замечательно называется Decisions & Dragons, и построен по принципу «вопрос-ответ». Это своеобразный FAQ по неочевидным вопросам в обучении с подкреплением, только ответы там очень развернутые: с формулами, схемами и иногда даже псевдокодом. Вот какие статьи там уже можно найти:

➡️ Чем отличается on-policy от off-policy learning?
➡️ Что такое горизонт?
➡️ В чем различие между model-based и model-free RL?

Сайт создан только вчера, и на данный момент там всего восемь статей, но автор обещает, что будет постоянно пополнять список. Так что если вы – новичок в RL, то обязательно сохраняйте в закладки.

Data Secrets

11 Nov, 10:58


Уйти за хлебом
Уйти за GPU

Data Secrets

11 Nov, 09:17


Поразительно: исследователи из MIT выбили 62% на бенчмарке ARC

Помните, мы рассказывали про премию ARC Prize? Это конкурс от Google на 1 миллион долларов, который нацелен на поиск новых идей, выходящих на рамки современных LLM. Называется конкурс в честь бенчмарка ARC AGI. Он создан одним из учредителей конкурса, и нацелен именно на сравнение общих способностей интеллекта машины с человеческим разумом (а это собственно и есть проверка на AGI).

Ведущие модели выбивают на ARC AGI менее 40%. Рекорд у GPT-4o: она выбила 50%. Сам конкурс идет уже 5 месяцев, но по-настоящему хороших результатов ни у кого не было.

До этого дня. Сегодня ресерчеры из MIT опубликовали препринт статьи, в котором объявили, что достигли со своей моделью 62%. Это средний уровень человека.

Успеха помогла добиться идея test-time training’а (TTT): это когда модель обновляет веса не только во время трейна, но и во время теста. Для этого из инпутов требуется как-то формировать новые данные.

Ученые делали это в формате leave-one-out (см.схему), как это принято в In-Context Learning. Еще пробовали формат end-to-end, когда каждая пара «вопрос-ответ» – это отдельная задача, но ICL работал лучше. Затем применяли аугментацию и обновляли веса с помощью LoRA (про то, как работает LoRA, мы недавно писали тут). При этом для каждой тестовой задачи обучают новую лору. Звучит страшно, но оказывается, что много данных модельке не надо, поэтому скейлится подход нормально.

Во время инференса ученые применили что-то вроде искусственного Chain of Thoughts с иерархическим голосованием. «Искусственного» – потому что бенчмарк в оригинале не предполагает CoT, он заточен под zero shot.

Что в итоге? В итоге 61.9% на ARC. Пока неизвестно, засчитают ли решение организаторы, и получат ли ученые свой приз. Пока ждем новостей, можно прочитать оригинальный препринт тут.

Data Secrets

11 Nov, 06:47


Почему слишком много регуляции ИИ – это плохо

На днях прошел TechCrunch Disrupt 2024, и на нем выступал Мартин Касадо. Он лидер одного из самых крупных инвестиционных фондов в мире – а16z. Фонд инвестировал во множество ИИ-стартапов, из последнего – в Cursor и World Labs. В общем, Мартин – очень осведомленный и влиятельный гость. Вот его интересная и едкая позиция по поводу регуляции ИИ, которой он поделился на выступлении:

➡️ Проблема большинства попыток регулирования ИИ на данный момент заключается в том, что законодатели сосредотачиваются на каком-то мифическом будущем опыте ИИ вместо того, чтобы по-настоящему понять риски, которые ИИ на самом деле представляет.

➡️ Правила создаются «из воздуха», а не на основе того, что действительно представляет из себя ИИ и как он развивался. «В этих законах даже нет определения ИИ. Как можно регулировать то, что мы не можем определить?» – говорит Мартин.

➡️ Чтобы создать нормальную систему регулирования, достаточно формально определить, чем ИИ отличается от человека, у которого есть доступ в Интернет. От человека, который умеет пользоваться Google. Тогда мы сможем найти слабые места и регулировать именно то, что надо, а не выдумывать себе терминатора.

Главная мысль спикера: «все слишком сильно носятся с регуляцией ИИ, чего делать не стоит. У нас уже есть устойчивые рабочие системы безопасности, которых на сегодняшний день достаточно. Остальное должно быть плодами глубоких исследований, а не выдумками политиков».

Data Secrets

10 Nov, 14:47


В Китае сняли забавные кадры: на них стая робо-собак высаживается из грузовика и начинает «обследовать» территорию

Видео выглядит так, как будто снято в постапокапсисе после восстания машин. Многие пользователи даже заметили, что собаки якобы вооружены.

Конечно, никакого оружия у песиков нет, и их прогулка, на самом деле, – просто один из элементов международной выставки авиации и космонавтики. Но страшно все равно 😧

Data Secrets

10 Nov, 10:38


Исследователи из EpochAI запустили новый математический бенчмарк FrontierMath, на котором ведущие модели решают 1-2% задач

Для формирования FrontierMath ученые работали с более чем 60 математиками. Бенчмарк получился далеко не простой: он состоит из сотен исключительно сложных задач, на решение которых у экспертов (людей) уходят часы и даже дни. Примеры задач можно посмотреть здесь, они охватывают все области современной математики.

Модели с FrontierMath справляются ну очень плохо. По сравнению с известными GSM8K и MATH, на которых LLM набирают более 90%, на этом тесте они выбивают менее 2%. Даже o1 с максимальным возможным лимитом токенов ризонинга. Даже с доступом к питону.

Все настолько печально, что нельзя сказать, какая модель хуже, а какая лучше: кажется, что те минимальные разрывы в долях процента, которые видны на графике, просто не статзначимы. Кажется, это чуть ли не единственный из появившихся в последнее время бенчей, который ставит LLM в настолько глубокий тупик.

Data Secrets

10 Nov, 07:49


The Information поделились новым материалом про Orion. Они пишут, что скачок метрик модели Orion относительно GPT-4 гораздо меньше, чем при переходе от GPT-3 к GPT-4

С одной стороны, это объяснимо: у распределения ошибок длинный хвост, и поэтому последний квартиль бороть достаточно непросто. Следовательно, слова про скачок метрик могут просто звучать разочаровывающе, а на деле не означать, что модель плоха.

С другой стороны, в статье упоминается, что Orion не может пробить метрики GPT-4 в кодинге. Вот это уже совсем странно и грустно. Известно, что для обучения ориона используется синтетика из GPT-4 и o1, и журналисты предполагают, что из-за этого новая модель может воспроизводить ошибки старых (сомнительный вывод).

Как бы там ни было, скоро мы все увидим сами: по словам авторов, OpenAI завершает тестирование Orion и готовиться к релизу в начале 2025. Кстати, Orion может стать уже второй моделью, название которой будет начинаться не с GPT.

Data Secrets

09 Nov, 13:34


Интересные слайды с лекции про LLM

Ее буквально на днях провел известный французский исследователь и предприниматель Пьер-Карл Лангле в международном европейском центре физики. Речь в презентации шла тоже про некоторую "физику" LLM: токенизацию.

Токенизация – одна из самых недооцененных и серьезных проблем LLM. Именно из-за токенизации модели плохо справляются с математикой. Токенайзер может токенизировать 380 как "380", а 381 как "38" и "1", то есть модель на самом деле просто не понимает, что представляет из себя число.

При этом токен != слово и токен != слог. Токен – это вообще нечто нечеткое. Отсюда проблемы с элементарными фонетическими задачами вроде подсчета количества букв r в слове strawberry. Кроме того, пробел тоже может быть токеном, и из-за этого модель может по-разному воспринимать предложение с символом пробела и без символа пробела на конце. А еще токенайзеры восприимчивы к регистру и плохо переносятся на новые языки. Все это сильно сказывается на качестве ответов модели.

Так вот: эти слайды, в частности, интересны тем, что в них проблема токенизации рассмотрена под микроскопом, с примерами и краткими разборами современных исследований, предлагающих какие-то решения.

От себя добавим еще несколько ресурсов, с которыми можно познакомиться, чтобы понять проблему токенизации глубже:

➡️ Наш мини-разбор статьи про LLM без токенизации на основе Mamba
➡️ Ссылка на ноутбук от Андрея Карпаты, в котором можно поиграться с песочнице токенизации смайликами
➡️ Большая лекция про токенизацию и BPE, тоже от Андрея

Data Secrets

09 Nov, 12:21


Разбираем тестовое задание на позицию Junior Аналитика в Самокат

Чтобы найти работу, мало пройти курс и сделать классное резюме. На практике, чтобы выделиться на собеседовании, нужно понимать, что лежит под капотом каждого инструмента, а не следовать конкретному заученному алгоритму.

Чтобы попрактиковаться в этом, приходите на бесплатный вебинар, где будем решать типичные задачи на SQL, которые дают на собеседованиях аналитикам на основании данных из Самоката.

Что будет на вебинаре:
- Проведем аналитику заказов и клиентов с помощью SQL

- Разберем фишки кода на SQL: CASE в агрегациях, удобная фильтрация и другие

- Построим мини-дашборд продаж в Metabase

Вебинар проведет Андрон Алексанян, CEO Simulative
🕗Встречаемся 12 ноября в 19:00

🎁Обязательно приходите смотреть вебинар в прямом эфире - в лайве будут дарить подарки, которые сильно бустанут старт карьеры в аналитике!

Зарегистрироваться на бесплатный вебинар

Data Secrets

09 Nov, 10:20


Число дня: 1 084 800

За такую сумму в долларах на аукционе Sotheby's в Нью-Йорк была продана картина робота-художника Ai-Da. На картине изображен Алан Тьюринг.

Data Secrets

09 Nov, 08:26


У Альтмана, тем временем, вышло новое интервью в Y Combinator. Что было интересного:

➡️ В 2025 появится AGI (сроки все сжимаются и сжимаются, это уже похоже на обещания Маска), а еще.... в следующем году Сэм хочет завести ребенка 🤱

➡️ Когда мы достигнем обилия интеллекта и обилия мощностей, все проблемы физики будут решены, и люди станут говорить уже не об использовании ядерного синтеза или солнечной энергии для питания ИИ, а о сфере Дайсона. Это теория предполагает, что мы можем научиться максимально возможно использовать энергию Солнца.

➡️ Открытие глубокого обучения было фундаментальным изобретением: таким же, как обнаружение нового квадранта химических элементов в периодической таблице. При этом успех ИИ обусловлен не столько этим, сколько какой-то религиозной верой исследователей в масштабирование систем.

➡️ "Путь к AGI мы видим ясно и действительно знаем, что делать. С этого момента до создания AGI много работы, и еще остаются некоторые вопросы, но в основном мы знаем, что к чему, и это очень волнующе. Достичь AI 4-го уровня будет легче, чем я думал, а AGI появится раньше, чем думают люди."

➡️ Ну и классика: 1 человек с 10000 GPU, по мнению Сэма, уже может построить многомиллиардную компанию ☝️

Интервью полностью – здесь (оно, кстати, недлинное, всего 46 минут)

Data Secrets

09 Nov, 06:40


Лилиан Вэн – еще одна из ведущих исследователей безопасности OpenAI – покинула стартап и ушла в компанию Ильи Суцкевера

Она была вице-президентом отделения research and safety. В стартапе она работала с 2018 года: сначала она два года занималась рукой робота для сборки кубика-робота, а затем ей поручили сформировать команду для создания систем безопасности.

Сейчас в команде Вэг осталось 80 ученых и разработчиков. Это все еще много, но не отменяет того, что многие лиды, ушедшие из OpenAI, утверждают, что безопасность там оставляет желать лучшего.

Например, Майлз Брандейдж, который покинул стартап в октябре, недавно написал, что компания распустила его команду "подготовки к AGI".

А еще была громкая статья в NYT, в которой бывший ресерчер OpenAI Сухире Баладжи рассказывал о нарушении авторских прав и говорил, что "технологии стартапа принесет обществу больше вреда, чем пользы".

Data Secrets

08 Nov, 16:04


Тем временем на арене появилась новая модель gemini-test 🧐

Data Secrets

08 Nov, 15:03


Слушаем и смотрим подкаст про опыт работы в Data Science с двух сторон: в банке и в промышленности


Новый выпуск подкаста «Деньги любят техно» называется «Где можно и где нельзя без ML в промышленности». А внутри говорят о том, какие процессы уже отлажены, какие модели построены и где всё ещё лучше обходиться без ИИ. Ну и, конечно, откуда и какие данные собирать и как разобраться в их источниках и объёмах. Ещё рассказали, почему промышленному DS не обойтись без физики, и немного поспорили о том, где работать интереснее. Всегда полезно слушать практиков, а в этом выпуске Юлий Шамаев из ВТБ и Михаил Граденко из «Русала» дали очень много базы для размышлений.

Видео-версия в ВК
Аудио-версия на подкаст-площадках

Data Secrets

08 Nov, 12:50


LoRA vs Full Fine-tuning: действительно ли они дают один и тот же результат?

LoRA часто используется как эффективный аналог полного файнтюнинга. В то время как файнтюнинг – это дообучение полной матрицы весов предобученной модели на новом наборе данных, в LoRA мы раскладываем весовые матрицы (некоторые или все) исходной сети на матрицы более низкого ранга и дообучаем именно их.

Но действительно ли два этих метода эквивалентны? На архиве вышла новая громкая интересная статья, в которой исследователи пытаются ответить на этот вопрос, сравнивая матрицы весов и перформанс полученных обоими способами моделей.

В итоге ресерчеры обнаружили интересную вещь: после LoRA в матрицах весов появляются абсолютно новые сингулярные векторы, которые никогда не возникают во время ванильного файнтюнинга. Эти векторы почти ортогональны исходным. На практике это значит, что модель рискует потерять обобщающую способность и вообще стать неустойчивой к Continual Learning.

При этом чем выше ранг LoRA, тем меньше таких векторов (логично, потому что тем ближе метод к обычному файнтюнингу). Напротив, чем меньше ранг и чем дольше модель учится, тем таких векторов больше. С ReLoRA, кстати, за счет стабилизации, дела обстоят чуть лучше. Но есть и хорошие новости: ученые обнаружили, что от неприятного влияния сингулярных векторов можно избавиться, если увеличить размер датасета или подбирать scaling. Другими словами, пользоваться LoRA все-таки нестрашно, если внимательно следить за переобучением и гиперпараметрами.

Статья полностью – здесь

Data Secrets

08 Nov, 11:07


Amazon готовы инвестировать в Anthropic, но есть нюанс

Гигант настаивает, что если он станет инвестировать в стартап, тот обязан использовать строго видеокарты Amazon silicon и учить модели на Amazon Web Services.

Известно, что в Anthropic предпочитают nvidia (как и везде). Но деньги могут оказаться слишком хорошими, чтобы от них отказываться. В 2024 компания, по предварительным оценкам, потратит $2.7 млрд на обучение своих моделей, поэтому стартап активно ищет финансирование.

Data Secrets

08 Nov, 08:16


CEO Perplexity Аравинд Сринивас поделился свежей статистикой стартапа

За две недели количество поисковых запросов выросло вдвое. Так что для тех, кто еще не попробовал сервис, прикрепляем гайд, как настроить поисковик по умолчанию в Chrome.

Кстати, это не все интересные новости: Perplexity AI находится на заключительной стадии переговоров о привлечении $500 млн с оценкой в $9 млрд.

Data Secrets

08 Nov, 05:58


Вот вам забавный график с утра: тут желтой линией обозначена динамика роста акций Nvidia, а голубой – биткоин

Think about it 💸

Data Secrets

07 Nov, 17:09


Подобрали небольшой список статей по синтезу данных

Почти все ведущие исследователи считают, что будущее моделей – за синтетическими данными. Сейчас это одна из самых горячих тем ресерча. Подобрали вам список важных и интересных статей, которые стоит почитать, чтобы оставаться в теме.

➡️ Self-Play Fine-Tuning: из слабой языковой модели в сильную. Авторы предлагают новый метод для файтюнинга - SPIN, в основе которого лежит механизм самовоспроизведения, идейно напоминающий GAN: разные экземпляры моделей борются друг с другом. При этом LLM учится генерировать не только ответы, но и собственные обучающие данные, которые в процессе сравнивает с аннотациями человека.

➡️ Статья, которая объясняет, как заставить LLM использовать весь контекст. Ученые предлагают метод обучения под названием IN2: в нем большие тексты (4к-32к токенов) разбиваются на чанки (128 токенов), среди которых модель должна найти ответ на некоторый поставленный вопрос. Получается что-то вроде распостраненной задачи поиска иголки в стоге сена, при этом модель привыкает принимать во внимание не только начало или конец текста, но и все детали, содержащиеся в середине.

➡️ WizardLM – модель, позволяющая генерировать датасеты для файнтюнинга лучше, чем ChatGPT. Датасеты с инструкциями, которые используются на этапе файнтюнинга, люди часто создают вручную, потому что качество таких данных особенно важно, и они должны отвечать многим критериям. Эта статья о том, как можно такой процесс автоматизировать. По словам авторов, WizardLM превосходит не только "человеческие" сценарии, но и с лихвой опережает ChatGPT, который чаще всего используют для таких задач.

Data Secrets

07 Nov, 14:32


Как оценить навыки и выбрать область развития для ML специалиста?

🔹Разберем на открытом уроке «Карьерные пути для ML специалистов», приуроченному к новому курсу «ML Team Lead» от Otus. 

Обсудим подходы Microsoft, Google, Netflix к карьерному росту

Познакомимся с методами определения областей для роста специалистов, техниками оценки сильных сторон команды и выявлением областей для развития навыков.

👉 Регистрация и подробности:
https://otus.pw/SaLD/?erid=LjN8KKDYm

#реклама
О рекламодателе

Data Secrets

07 Nov, 13:52


А вот и скандал вокруг Anthropic

Подобное не обходит ни одну большую компанию или стартап. Речь об оказании услуг заказчикам из сферы обороны. Говорят, что Anthropic объединяется с Palantir и AWS и планирует "поставлять" минобороне США ИИ.

Вообще, они такие не одни. Не так давно Meta* объявила о том, что они тоже делают свои модели доступными "партнерам из минобороны", а у OpenAI в совете по безопасности и вовсе сидит отставной генерал разведки (при этом слухи о том, что стартап на короткой ноге с военными ходят уже год).

Так что на Anthropic все обозлились скорее не из-за факта сотрудничества, а просто потому что обычно компания продвигает alignment и всевозможный safe AI, а такое поведение заставляет думать, что стартап отказывается от своих ценностей

Data Secrets

07 Nov, 11:07


Наш друг и коллега Саша Толмачев – CDO Ozon Fintech – приглашает подписчиков Data Secrets на стенд Озона на Матемаркетинг!

Подробности розыгрыша билетов на Data патибас здесь.

Data Secrets

07 Nov, 08:51


Наша новая статья про тематическое моделирование и библиотеку BigARTM

Да-да, вторая статья за сутки, продуктивность наших редакторов на максимуме

Тематическое моделирование – это область современного NLP. Тематические модели используются в рекомендательных и поисковых системах, в компьютерном зрении, и даже в биологии.

Чтобы подробнее познакомить вас с этой областью, мы написали про нее большой разбор! И не одни... В соавторстве статьи Константин Воронцов – доктор физико-математических наук, преподаватель ШАД и МГУ, автор метода ARTM и создатель библиотеки BigARTM для тематического моделирования.

В статье вы найдете:

➡️объяснение ключевых концепций тематического моделирования
➡️математическую и интуитивную постановку задачи
➡️понятный разбор классических моделей PLSA и LDA, а также их недостатков
➡️подробное обсуждение метода ARTM
➡️и, конечно, практический гайд по построению тематической модели в библиотеке BigARTM

Скорее переходите на сайт и читайте! Уверены, вам точно понравится 🫡

Data Secrets

02 Nov, 17:11


Осторожно!
На улице зачастились случаи, когда незнакомцы предлагают конфеты, а в этих конфетах…

Data Secrets

02 Nov, 15:04


Кажется, в OpenAI кто-то нажал не на ту кнопку: пользователи массово заметили в чатботе доступ к полноценной o1

В реквест-словарях было четко прописано, что запрос переадрессовывется именно o1, а не o1-preview, к тому же при использовании модели появилась возможность загружать картинки и файлы (раньше поддерживался только текст).

Видимо, это было все-такой не фичей, а багом, и релиз будет чуть позже, потому что сейчас доступ пропал. Жаль, что потестить никто толком не успел.

Data Secrets

02 Nov, 14:00


Планы на следующую субботу есть? А если найдем?

8 ноября МТС в честь финала ИТ-чемпионата True Tech Champ проводит супер-крутое мероприятие для айтишников и любителей всевозможных технологий. Участникам предложат:

⚙️ Посмотреть шоу с гонкой роботов в интерактивных лабиринтах
⚙️ Принять участие в 20+ активностях для кодеров и тех-гиков
⚙️ Послушать выступления именитых спикеров, IT-стендапы и полезные воркшопы

Конечно, и без ИИ не обойдется, так что всем ML-щикам и любителям данных досуг точно понравится. Только представьте, какая будет тусовка 🤩

Принять участие можно онлайн или оффлайн в МТС Live Холл. До конца регистрации всего несколько дней, так что успейте зарегистрироваться: https://truetechchamp.ru/conf

Data Secrets

02 Nov, 11:35


Кстати про Minecraft: помните, мы писали про эксперимент, в котором в игру запустили тысячу ИИ-агентов и они построили цивилизацию?

Кратко: ученые наделили агентов ролями и объяснили социальный кодекс, и в итоге спустя время ИИ-малыши построили полноценное современное общество, голосовали на выборах, создали конституцию и даже распространяли религии.

Так вот. Вчера вечером исследователи опубликовали тех.отчет с деталями реализации симуляции. Оказалось, что в основе всего лежит целая архитектура – PIANO. Идея в том, что она состоит из разных мозговых модулей, которые активируются полу-стохастически при контакте с сигналами среды. Название символизирует, что клавиши инструмента, играя по отдельности, вместе создают мелодию, подобно тому, как мозговые модули архитектуры сливаются, наделяя агентов мыслями и заставляя их действовать.

За счет такой RL-подобной когнитивной архитектуре агенты и получились такими живыми и динамичными, а самое главное способными формировать отношения, дружеские или сопернические. А главное, что они смогли автономно реализовать социальные группы (типа деревень и городов) и самостоятельно развивали там разные профессии.

Отчет полностью – здесь

Data Secrets

02 Nov, 09:08


Google продолжают релизить крутые тулзы: после NotebookLM они радуют нас инструментом Learn About

Learn About – это генератор интерактивных статей и гайдов на любую тему. Для того, чтобы воспользоваться, нужно просто ввести желаемый топик, и в ответ сервис выплюнет полноценную объяснялку с введением, основными терминами и актуальностью, а еще предложит другие связанные темы.

Если заинтересовали детали – можно просто нажать на соответствующее место и LA сгенерирует детальный разбор. Кроме того, инструмент даже может задать короткие тесты по теме.

Пробовать уже можно здесь, надо только включить VPN США.

Data Secrets

02 Nov, 07:42


То, что нужно в рабочую субботу: первая возможность поиграть в полностью сгенерированную игру

Игра называется Oasis, зарелизили ее ученые из лабораторий Decart и Etched. На самом деле это майнкрафт (обучена моделька была именно на этой игре с датасета OpenAI), в котором кадры генерируются на основе ваших действий. В основе, конечно, диффузия и трансформеры.

Поиграть можно здесь

Data Secrets

01 Nov, 17:50


Действительно страшный подарок на Хэллоуин, а не вот эти ваши тортики с паутинкой

Data Secrets

01 Nov, 15:04


OmniParser, который на днях выпустила Microsoft, занял первое место в рейтинге моделей HuggingFace (а это ни много ни мало более миллиона моделек)

OmniParser – это опенсорс проект, с которым можно построить агента для управления компьютером, прямо как у Anthropic. Модель предназначена для анализа пользовательских интерфейсов и преобразования их в простые для понимания и управления структуры.

За основу были взяты обычная модель детекции и модель для генерации описаний. Обе зафайнтюнили на большом размеченном датасете скриншотов и соединили последовательно: первая извлекает экшн-элементы страниц, а вторая описывает их.

Карточка модели на HF тут. Также полностью доступно в Transformers.js

Data Secrets

01 Nov, 14:02


ML-инженер или специалист по Data science?

Прими участие в Авито ML Cup – турнире по машинному обучению с призовым фондом.

Задача: создать модель, которая будет передавать пользователю наиболее релевантную рекламу, основываясь на его выборе и характеристиках. Победит модель, которая лучше всего предсказывает вероятность клика.

🔴 Старт соревнования: 5 ноября
🔴 Команды до 4 человек
🔴 Призовой фонд: 600 000 рублей!

Регистрация уже открыта, детали и анкета ➡️ по ссылке.

Участвуй и докажи, что твои модели лучшие!

Data Secrets

01 Nov, 12:07


Парни из Красноярска привлекли $11 млн в свой ИИ-стартап

Об этом пишет TechCrunch. Ребят зовут Иван Крюков и Дмитрий Плотников, а их стартап Buddy.ai предназначен для того, чтобы учить детей английскому языку.

Идея приложения появилась после того, как в 2014 году Иван перевез свою семью из Сибири в США. На тот момент у него был другой стартап – умный динамик Kickstarter. Однако в то же время подобный продукт анонсировала Amazon, и спустя два года компанию пришлось продать.

Так в 2017 появился Buddy.ai, первым пользователем которого стала маленькая дочка Ивана. На данный момент приложение загрузили уже более 50 млн раз. В итоге вчера стало известно, что стартап привлек $11 млн инвестиций от ведущих фондов Европы и Америки.

🫡

Data Secrets

01 Nov, 09:52


В Твиттере обнаружили системный промпт Apple Intelligence

Don’t hallucinate 🙏
Don’t make up factual information 🥺
Present your output in a json 🥹

Скажем им?

Data Secrets

01 Nov, 06:57


OpenAI внезапно провели AMA (ask me anything) на реддите. Что выяснилось:

➡️ GPT-5 не будет, основное внимания уделяется сейчас семейству o1. В конце концов эти модели планируют объединить, но не в ближайшее время

➡️… но будет какая-то другая крутая модель в этом году (вероятно следующая o1 с поддержкой изображений и файлов)

➡️ AGI вполне возможно достичь с железом, которое есть у человечества на данный момент, и модели, которые готовит OpenAI, могут сильно приблизить нас к этому рубежу

➡️ OpenAI уже готовят следующую text2image (video?) модель, но пока не планируют релиз. «Этого стоит ждать» – сказал про эту модель Альтман

➡️ Основной фокус в разработке – снижение галлюцинаций. Для этого в компании работают и экспериментируют с обучением с подкреплением. И кстати, Альтман признал значимость опенсорса и вкинул, что «компания будет пытаться сделать ИИ более прозрачным»

➡️ По поводу поиска: OpenAI планирует еще больше сотрудничать с издательствами и авторами. Также в будущем стартап видит поиск как создание динамической, интерактивной, а главное персонализированной веб-страницы в ответ на запрос пользователя

➡️ Кроме перечисленного, стартап планирует работать над улучшением мультиязычных способностей моделей, увеличением контекстного окна и внедрением NSFW. Также планируется продолжать сокращать косты инференса, и Альтман верит, что возможно удешевить модели еще в несколько десятков раз

Data Secrets

31 Oct, 17:38


Как и прогнозировали: OpenAI только что добавили поиск в ChatGPT

Фича уже доступна платным пользователям. Обещают, что постепенно ее раскатят на всех. Работать будет, как Perplexity: ответы – умная агрегация материалов из интернета со ссылками на источники.

Серьезный вызов Google и другим конкурентам

Data Secrets

31 Oct, 16:59


Оффер или жизнь? 🧛‍♂️

Хэллоуин… В этот день ведьмы собираются на ежегодный шабаш, нежить вылезает из болот, а админы составляют для вас подборку культовых ужастиков на вечер. Приятного просмотра.

@data_secrets_career

Data Secrets

31 Oct, 15:04


Nvidia обучили фундаментальную модель HOVER для управления телом роботов – в ней всего 1.5M параметров

Модель была обучена на базе NVIDIA Isaac. Это среда симуляции на базе GPU, которая ускоряет физику в 10 тысяч раз относительно реального времени. То есть, пока в симуляции робот учится на годе движений, в "нашем мире" это занимает примерно 50 минут. Самое интересное, что для того чтобы перевести робота в реальное время не нужен даже файнтюнинг.

Нужно, однако, понимать, что HOVER – это не автономная система внутри робота, а именно система управления, которая на вход принимает какой-то вид "промпта" (движения джойстика, позы, экзоскелет), и переводит это в полноценные движения гуманоида. За счет этого HOVER становится еще и очень удобной системой для сбора данных.

Под капотом, по сути, алгоритм дистилляции, который действия тренера сжимает в понятные роботу маски (есть отдельные маски для низа тела и верха). Таким образом, любой ввод действий мы переводим в единое пространство политики, и за счет этого избавляемся от проблемы непереносимости управления между различными режимами.

Статья здесь

Data Secrets

31 Oct, 14:03


Стать сотрудником Яндекса быстрее и проще, чем кажется. Участвуйте в днях быстрого найма: решите тестовое, пройдите несколько секций собеседования и получите офер за несколько дней.

Ближайшее мероприятие:

• 9-11 ноября — для продуктовых и аналитиков данных, офер за 3 дня в команды Финтеха и Яндекс Практикума.

Зарегистрироваться

Data Secrets

31 Oct, 12:31


Шестидневка – главный монстр из кошмаров

Data Secrets

31 Oct, 11:18


OpenAI совсем скоро раскатит SearchGPT

Об этом сообщил один из твиттерских ИИ-инсайдеров, который часто прокидывает какую-то информацию о ведущих стартапах или лабораториях – Jimmy Apples. Он написал, что OpenAI и вовсе планировали релизиться на прошлой неделе, но не захотели соревноваться за внимание с обновлениями от Anthropic.

Стартап любит релизы в четверг вечером, так что ждем подарка на Хэллоуин 👻

Data Secrets

31 Oct, 08:49


Что надеть на Хэллоуин, чтобы быть страшнее всех?

Подобрали для вас костюмы, по сравнению с которыми Пеннивайз и Фредди Крюгер покурят в сторонке.

С праздником 🎃

Data Secrets

27 Oct, 08:11


Anthropic снова на сцене с продолжением того самого исследования про интерпретируемые фичи

Для контекста напоминаем: несколько месяцев назад стартап выпустил исследование, в котором ученые рассказали, что научились с помощью SAE извлекать из активаций модели интерпретируемые фичи. Более того, тогда выяснилось, что, затюнив какие-то вполне конкретные фичи, мы можем заставить LLM отвечать определенным образом. Эта статья запомнилась нам под названием “Golden Gate” и уже успела стать классикой. Мы делали ее подробный разбор здесь.

Сейчас исследователи фокусируются как раз на изучении тюнинга фичей: как и насколько сильно мы можем таким образом повлиять на генерации?

Результаты получились неоднозначные. Оказалось, что:

⚪️ Управлять аутпутами с помощью фичей действительно можно! Например, если повысить значимость фичи, которая отвечает за гендерную предвзятость, то на эвале четко видно, как модель начинает отвечать более стереотипно.

⚪️ Что касается метрик, то небольшой тюнинг фичей не портит модель, а вот более грубый уже способен повредить перформансу в целом.

⚪️ Тюнинг фичей может влиять на выходы непредсказуемо: мы не можем однозначно определить, на что еще подействует изменение их весов. Например, в примере из пункта один модель кроме гендерных стереотипов начала выдавать еще и возрастные.

Конечно, цель всего исследования – найти новые варианты и механики для alignment’а: и кажется, что выглядят результаты очень многообещающе. По крайней мере, ресерчеры обещают продолжить эксперименты.

Data Secrets

27 Oct, 06:39


Сэм Альтман: «мне больше не кажется, что AGI – наша конечная точка назначения»

Мы все привыкли к тому, что цель OpenAI – это AGI. Но внезапно в недавнем подкасте Джо Рогана Сэм сказал, что он так больше не думает, и что миссия компании может занять еще 7-8 лет.

Наверное, он имел в виду сверхинтеллект, но почему-то от произношения самого термина воздержался. Сразу вспоминается его эссе и фраза «It is possible that we will have superintelligence in a few thousand days (!)»…

Data Secrets

26 Oct, 17:16


Лекун опять выдает базу

Data Secrets

26 Oct, 14:36


Google Deepmind опенсорснули SynthID – инструмент для встраивания и обнаружения водяных знаков в сгенерированном тексте

Идентификация сгенерированного текста вообще больная тема. Классификаторы работают очень плохо, а альтернативных решений мало: разве что вотермарки. Но существующие решения для водяных знаков либо очень тормозят инференс, либо откровенно портят текст, либо на этапе обнаружения скатываются в точность классификаторов. SynthID – попытка это исправить.

Исследователи предлагают встаивать вотермарки дешево, внося несущественные изменения в процедуру выбора следующего токена на этапе, когда вероятности уже посчитаны. Таким образом мы влияем на распределение конечного текста и как бы вносим статистическую "подпись" в генерации (скрин 1, 2). На этапе идентификации можно просто посчитать статистики и по трешхолдам определить, сгенерирован текст или нет.

Гиперпараметры метода можно настраивать: мы можем вносить больше изменений, тогда текст будет меняться сильнее и перформанс может немного падать, но обнаружить вотермарку будет проще. Или наоборот, можем выкрутить температуру, и вотермарки станут более прозрачными (скрин 3).

Самое интересное: Google даже попробовали катнуть неискажающий вариант SynthID в продакшн gemini и доказали, что пользователи в основном не замечают изменений, а вотермарки, тем не менее, можно обнаружить с приемлемой точностью.

Статья в nature | Релиз на HF

Data Secrets

26 Oct, 13:27


⚡️  Открыта регистрация на конкурс «Автономный поиск. Софт»
Создайте решение для поиска пропавших людей и поборитесь за призовой фонд в 25 миллионов рублей!
Когда: загрузить решение для возможности участия в финале необходимо до 8 ноября 23:59 МСКФормат: онлайнПризовой фонд: 25.000.000 рублей
🔥 Этот конкурс для вас, если вы хотите:
– прокачать свои навыки в Machine Learning и Computer Vision; – внести вклад в решение важной социальной проблемы;– заявить о себе и найти потенциальных партнёров, заказчиков или инвесторов;– протестировать свои разработки на реальной инфраструктуре.
❗️Участникам предстоит разработать решение для поиска пропавших людей с использованием аэрофотоснимков, сделанных с беспилотных воздушных судов (БВС).
🔹 У вас будет возможность испытать свои решения на реальной инфраструктуре и получить шанс пройти проверку в условиях, близких к реальной поисковой операции!
▶️ Конкурс проводится Фондом НТИ совместно с МФТИ и ЛизаАлерт.
🕰Подать заявку можно до 2 ноября 2024 (23:59 МСК) по ссылке.

Data Secrets

26 Oct, 11:45


AGI достигнут, расходимся

Data Secrets

26 Oct, 09:31


Perplexity сообщили, что они еженедельно обрабатывают более 100М запросов

В месяц это почти 400М, тем временем как в июле спрос за поисковик был почти в два раза меньше: 250M запросов.

Кстати, сейчас компания планирует привлечь около $500 млн при оценке в $8 млрд. Perplexity также обсуждает условия сотрудничества с брендами для спонсируемых ответов поисковика и недавно изменила свою модель подписки.

Data Secrets

26 Oct, 07:23


Красивое: посмотрите, как хорош новый Sonnet в рисовании по уравнениям

Data Secrets

26 Oct, 05:30


GPT-5 выходит в декабре или все-таки нет?

Вчера The Verge опубликовала статью под названием "OpenAI plans to release its next big AI model by December". Речь шла про Orion: тот самый, о котором слухи начали ходить еще в августе.

Журналисты (тогда и сейчас) написали, что эта модель будет в 100 раз мощнее GPT-4, но будет отлична по структуре от семейства ризонеров o1. А o1, кстати, выступит учителем: нагенерит синтетические данные для обучения Orion и, возможно, заменит человеческие аннотации в RLHF.

Кроме того, Verge сообщили, что моделька будет выпущена сперва на Azure для компаний-партнеров (и это произойдет уже в ноябре), а только потом ее раскатят на широкого пользователя.

Однако Альтман новость довольно грубо опроверг, написав, что это "фейковые новости, вышедшие из-под контроля" и раскритиковав СМИ за «печать случайных фантазий». Тем временем сам он недавно твитил про "зимние созвездия" и про то, что его команда празднует завершение обучения какой-то модели 🤨

Data Secrets

25 Oct, 18:14


Как моя мама представляет меня, когда я говорю, что занимаюсь машинным обучением VS действительно я на работе

Data Secrets

25 Oct, 15:04


Выяснилось, что LLM могут считать, что 9.8 < 9.11, из-за Библии, физики или даже теракта 11 сентября

Исследователи из Transluce – только что анонсированной некоммерческой ИИ лаборатории – создали инструмент Monitor. Это еще одна попытка интерпретировать черный ящик LLM и научиться понимать, как модели обдумывают свои ответы. Основной прикол тут в интерфейсе (см.скрины), такого уровня UX подобные интерпретаторы еще не видели.

Как и предыдущие решения от OpenAI и Anthropic, инструмент основан на архитектуре SAE, то есть на разреженных автоенкодерах, которые распутывают активации LLM и достают из них так называемые интерпретируемые "фичи" (подробнее про то, как устроены такие автоенкодеры писали здесь).

Самое интересное: исследователи прогнали через свою тулзу задачи, на которых LLM традиционно фейлятся, и результаты получились крайне занятные. Например, в той самой задачке, где LLM предлагается сравнить числа 9.8 и 9.11, в ее "мыслях" (в данном случае рассматривают Llama 3.1) внезапно всплывает информация про атаку 11 сентября (9.11) и гравитационную константу (9.8).

Вероятно из-за того, что эти темы появлялись в обучающих данных Llama очень часто, числа 9.8 и 9.11 перестают восприниматься ею как обычные числа: она воспринимает их, как другой вид объектов, путается и несет чепуху.

Но это не все: можно погрузиться глубже и спросить у интерпретатора не просто о том, какие темы вообще активируются при ответе на вопрос, но и о том, какие именно из них заставляют модель сказать "больше". Если это проделать, то получается, что модель начинает думать про Библию. Оказывается, определенные нейроны в этом кластере связаны со стихами из Библии, и выходит, что 9.8 и 9.11 интерпретируются как 9:8 и 9:11 (глава: стих). Это неудивительно: большинство наборов данных для претрейна содержат много копий Библии.

Ученые предположили, что если избавиться от таких тематик, ведущих модель по неверному пути, она все-таки может дать верный ответ. И это заработало! Если с помощью интерпретатора "выключить" вышеперечисленные кластеры нейронов, то модель меняет свое мнение и отвечает правильно: 9.11 меньше 9.8.

Короче, интерпретатор не только занятный в роли песочницы, но и действительно полезный. Исследователи отмечают, что это только прототип для интерфейсов с еще более широкими возможностями. Например, Monitor в его нынешнем виде оставляет построение гипотез пользователю: он позволяет наблюдать, какие идеи лежат в основе вычислений модели, но не объясняет, как модели принимают окончательные решения с помощью этих идей. Агенты-исследователи будущего же смогут не только анализировать решения модели, но и помогать автоматически исправлять галлюцинации.

Data Secrets

25 Oct, 14:03


Вышел ежегодный отчёт State of AI о том, что произошло в сфере искусственного интеллекта за последние 12 месяцев. Доклад состоит из 200 страниц.

Редакция канала ТЕХНО собрала самое важное:

Главные события и тенденции прошедшего года

Какие из прогнозов на 2024 год сбылись, а какие — нет

Что случится в сфере ИИ в ближайший год

Больше интересного в канале @techno_yandex

Data Secrets

25 Oct, 12:56


Лучше любого бенчмарка: разработчик сравнил способности старой и новой версии Claude Sonnet 3.5 в Майнкрафте. Прогресс налицо 😎

Data Secrets

24 Oct, 11:54


Perplexity встраивает в свой поисковик продвинутый ризонинг

Об этом написал в твиттере CEO стартапа Аравинд Сринивас. Пока фича на стадии тестирования и доступна только в Pro. При этом ризонинг используется не для всех запросов, а только для сложных или составных – классификация происходит автоматически. Для особенно сложных промптов процесс «обдумывания» может занимать до нескольких минут.

Data Secrets

24 Oct, 10:50


Улучшенная версия BPR

В рекомендациях, как известно, бейзлайн побить обычно сложно, и часто старые добрые модели работают гораздо лучше новых, если уделить достаточно внимания деталям.

Так вышло и в этом случае. BPR (Bayesian Personalized Ranking) была изобретена еще в 2012 году, и за 12 лет расплодилось куча ее реализаций: в каждой библиотеке своя, у кого-то работают похуже, у кого-то получше. А у ресерчеров из T-Bank AI Research получилось создать новый золотой стандарт – SOTA версию алгоритма.

Ребята пересмотрели и доработали все компоненты BPR, и, учитывая влияние каждого из параметров, пересобрали эффективную реализацию. Для этого, кстати, понадобилось более 200 000 GPU-часов и 15 000 экспериментов 😱

В итоге в некоторых случаях она превзошла другие модели почти на 50% по точности (в частности, популярную реализацию из RecBole). Это не все: модель обошла даже хайповую Mult-VAE от Netflix и оказалась точнее на 10%!

Работу, кстати, уже презентовали на ACM RecSys в Италии. Подробное описание модели и результаты экспериментов доступны в статье Revisiting BPR: A Replicability Study of a Common Recommender System Baseline.

Исходный код и дополнительные материалы можно найти на GitHub.

Data Secrets

24 Oct, 08:02


Яндекс Игры пришли к нам с запросом:


SELECT *
FROM subscribers
WHERE data_secrets = 'ohmydataengineer'
AND technical_skills IN ('SQL', 'Airflow', 'MapReduce', 'DataLens')
AND data_driven_approach = true
AND analytical_mindset = true
AND years_of_experience >= 2
AND fit = true;


Ребята ищут аналитика в свою команду. Яндекс Игры посещают более 40 млн пользователей в месяц, поэтому можно проверять кучу гипотез на крупных выборках и экспериментировать.

ВАЖНО. Проверенные гипотезы не пойдут «в стол», а будут помогать команде принимать взвешенные решения и влиять на развитие продукта.

Если у тебя есть опыт работы с продуктами, аналитический склад ума и необходимые навыки, — это отличный шанс быстро вырасти и прокачаться на интересных задачах.

Описание вакансии здесь, но лучше сразу пишите рекрутеру и договаривайтесь о собеседовании: @danny_md1

Data Secrets

24 Oct, 06:09


Тем временем админ уже собирался переезжать со всеми самыми важными вещами

Data Secrets

24 Oct, 05:22


⚙️ Можно выдохнуть: «запрет» Nvidia, кажется, оказался сбоем

В компании ситуацию пока не комментируют, но на сайте у российских пользователей вернулась возможность загружать драйверы без VPN.

Data Secrets

23 Oct, 18:04


⚡️ Nvidia закрыла возможность скачать и обновить драйверы видеокарт пользователям в России. 😱

@xor_journal

Data Secrets

23 Oct, 17:14


К слову, вот вам интересный факт про новый релиз Anthropic: над подобным агентом, управляющим компьютером, OpenAI работает с 2016 года (их пост об этом того времени)

И, как вы думаете, кто именно работал на этом проекте в OpenAI? Правильно, текущий CEO Anthropic Дарио Амодеи и один из ведущих разработчиков стартапа Джек Кларк.

Data Secrets

23 Oct, 15:20


Крутые новости из мира математики: в GIMPS нашли новое самое большое простое число

Им оказалось 2^136279841-1. Это число имеет 41 024 320 цифр: это более, чем на 16 миллионов цифр превосходит длину предыдущего наибольшего простого числа. Кстати, это первое новое простое число, найденное за 6 лет и первое простое число, для поиска которого использовались GPU.

Простоту числа доказал Люк Дюрант: для этого ему пришлось создать целый облачный суперкомпьютер, работающий на серверах из 17 стран. Люк, кстати, – бывший сотрудник Nvidia.

Data Secrets

23 Oct, 14:04


🔴 Как защитить данные, где бы они ни находились?

29 октября в 11:00
Positive Technologies проведет вебинар, посвященный защите данных.

Эксперты расскажут, с какими проблемами сегодня сталкиваются компании в этой сфере и рассмотрят возможные пути решения.

На вебинаре спикеры:
➡️ представят PT Data Securityновый продукт, который защищает данные независимо от их типа и места хранения;
➡️ покажут демо основных сценариев его использования;
➡️ расскажут важное о продуктовой фиче — автоматической классификации данных;
➡️ подскажут, как повлиять на развитие продукта.

Хотите первыми увидеть PT Data Security — новый продукт Positive Technologies для защиты данных?
Тогда скорее регистрируйтесь.

Data Secrets

23 Oct, 12:50


Ли Кайфу: экономика ИИ в США "невероятно нездоровая"

Для справки: Ли Кайфу – инвестор, бывший директор Microsoft Research Asia, основатель стартапа 01.ai, и в общем очень влиятельный дядя. Так вот, недавно на закрытом форуме он открыто нелестно отзывался об инфраструктуре ИИ в США. Вот, что он говорил:

➡️ Экосистема ИИ держится только на Nvidia, к которой пытаются присоединиться еще несколько мелких производителей, и в сумме они все зарабатывают около $75 млрд. При этом сама инфраструктура ИИ зарабатывает около $10 млрд, а производители ИИ-приложений и вовсе лишь $5 млрд. Такая пирамида – это плохо, и в здоровой экономике все должно быть ровно наоборот.

➡️ Дело в том, что традиционно приложения должны зарабатывать больше, чем инфраструктура, чтобы привлекать новых пользователей и деньги. За счет этого развивается инфраструктура. Иначе развитию конец.

➡️ Чтобы решить проблему, компании должны работать над снижением стоимости инференса моделей, а также создавать собственные вертикальные технологические стеки (как Apple сделала с iPhone). "Самыми успешными будут те, кто создаст собственные чипы".

➡️ Например, модель BeaGo стартапа Ли 01.ai работает в основном на собственном железе, оптимизированном именно под эту модель, и именно за счет этого BeaGo такая дешевая (ее обучение стоило всего $3 млн, а стоимость инференса $0,14 / М).

➡️ Основная цель ИИ – зарабатывать и экономить деньги. Поэтому эта технология должна стать не просто частью предприятий, автоматизацией каких-то его частей и тд, а "главным мозгом" и инструментом добычи дохода.

Data Secrets

23 Oct, 11:08


Да, эту работу ИИ точно заберет захочет забрать не скоро

Data Secrets

23 Oct, 09:18


Все ждали Claude Opus 3.5, а получили обновленный Sonnet 3.5 и Claude 3.5 Haiku

Но мы не расстраиваемся: Sonnet прокачали очень круто. Теперь модель может полностью автономно управлять компьютером: то есть не просто видеть экран, а двигать курсор, нажимать кнопки, пользоваться ПО (cм. видео).

Из смешного: в этом посте Anthropic рассказали, что прямо во время тестирования моделька почему-то рандомно пошла в гугл и начала смотреть фотки национального парка. Вот что значит обучена на действиях людей.

Кроме того, сильно качнулись метрики в кодинге и математике (например, 78.3% на MATH против 71.1% у предыдущей Sonnet 3.5). Видимо была проделана большая работа над ризонингом.

Ну и, конечно, свежий Claude 3.5 Haiku: самая маленькая и дешевая модель. Ее бенчмарки тоже радуют глаз, кое-где превосходя даже Sonnet 3.5. В API ее пока нет, но обещают soon.

Data Secrets

23 Oct, 06:52


Apple Intelligence выйдет в понедельник! Интересно, что это будет: приятный шок или все-таки разочарование?

Data Secrets

22 Oct, 16:54


Следуя примеру OpenAI, меняем аватарку в канале. Надеемся, у нас получился более удачный ребрендинг, чем у Альтмана 🔵

Data Secrets

22 Oct, 16:54


Channel photo updated

Data Secrets

22 Oct, 15:33


Оказывается, летом Meta выпустила супер-крутое пособие по базе VLM

Книжка так и называется: "An Introduction to Vision-Language Modeling". По оглавлению:

➡️ Краткие исторические справки про CLIP, FLAVA и др.
➡️ Прекрасная глава под названием "Гайд по обучению VLM" со всеми подробностями про ПО, данные, предобученные модели, алаймент и файнтюнинг
➡️ Бенчмаркинг и дополнительные разделы про видео в VLM

Кайф, в общем. Добавляем в бэклог

Data Secrets

22 Oct, 12:37


А у Anthropic новая волна наружной рекламы без переходов на личности. Интересно, что хотел сказать автор? 🤔

Data Secrets

20 Oct, 14:59


Мира Мурати, бывший CTO OpenAI, ведет переговоры о привлечении инвестиций в свой новый стартап. Речь о $100 млн на запуск.

Новая компания сосредоточится на разработке продуктов, основанных на собственных модельках. Говорят, Мурати для этого хантит к себе сотрудников OpenAI. Лицо Альтмана в этот момент — 😭

@xor_journal

Data Secrets

20 Oct, 13:25


Создать AI-ассистента в прямом эфире с нуля? Легко!

Вам не нужно уметь программировать — это может каждый. Главное условие — регистрация на бесплатный практикум от Zerocoder.

В прямом эфире вы:
• окунетесь в мир промпт-инжиниринга;
• узнаете, почему специалистам платят от 100 000 за проект и как стать одним из них;
• поймете, как превратить дополнительный заработок в успешную карьеру.

Погрузитесь в мир промпт-инжиниринга с Zerocoder. Регистрируйтесь на практикум по ссылке.

Практикум бесплатный, но количество мест ограничено!

Data Secrets

20 Oct, 10:31


Anthropic выпустили новое интересное исследование "Sabotage evaluations for frontier models"

Ученые выкатили целых сет тестов, которые помогут оценить, насколько LLM способна вводить пользоватлей в заблуждение, саботировать задачи (в частности специально писать опасный код), а также специально скрывать свои истинные возможности во время тестирования и манипулировать системами эвала.

Оценивали все примерно одинакого: писали системные промпты, в которых просили модели пошалить, а потом запускали в смоделированные диалоги и проверяли, насколько они способны следовать "злым" указаниям.

В итоге в современных моделях признаков умения хорошо саботировать задачи не обнаружилось: либо намерения модели становятся слишком очевидными для пользователя, либо модель просто не может сделать ничего на самом деле опасного. Однако ученые уверены, что проверять LLM все-равно стоит, и подобные тесты могут предотвратить многие потенциальные неприятности.

Статья полностью – тут

Data Secrets

20 Oct, 07:57


В компании ByteDance выяснили, что стажер два месяца вставлял палки в колеса соседней команды, которая занималась обучением моделек

Зачем он это делал – непонятно, но получалось у него хорошо. Целых два месяца работы 30 сотрудников из-за него пошли прахом.

Он умудрялся загружать порченные Pickle-файлы, полные вредоносного кода, удалял чекпоинты, специально добавлял баги в корпоративный форк PyTorch, и при всем при этом сидел на созвонах и делал вид, что тоже ищет решение проблемы.

Маньяк нашего времени

Data Secrets

19 Oct, 18:02


В твиттере парад мемов: пользователи фантазируют о будущем с роботами Tesla

Data Secrets

19 Oct, 15:03


Библиотека lingua оказалась не единственным сегодняшним дропом Meta FAIR ресерчеров. Они релизнули целую пачку крутых штук:

➡️ Meta Spirit LM: мультимодальная (речь+текст) LLM с открытым исходным кодом. Есть два варинианта модели: одна попроще, которая немного хуже справляется с генерацией звука – Spirit LM Base, и затюненая на речь Spirit LM Expressive, которая хорошо ловит почти любые интонации и отвечать умеет с более естественнным звучанием.

➡️  Meta Segment Anything Model 2.1: обновленный чекпоинт знаменитого SAM – модели для сегментации. Добавили аугментацию, немного вырастили метрики, оптимизировали модель под последовательности подлиннее.

➡️ Layer Skip: метод для ускорения инференса LLM. Идея понятна из названия: пропускаем часть слоев. Эти слои потом используются для проверки и редакции "ранних" выходов. В репозитории можно найти Layer Skip чекпоинты для Llama 3, Llama 2, и Code Llama, а также исходный код.

➡️ SALSA: моделька для взлома lattice-based криптографии (мировой стандарт шифрования). Звучит неожиданно, но все ради благой цели: "мы надеемся, что сообщество будет опираться на наши исследования, чтобы обеспечить будущую безопасность криптографических систем".

➡️ MEXMA: предобученный cross-lingual энкодер для предложений. Говорят, что хорошо работает на смежных задачах, например на классификации.

➡️ Meta Open Materials: открытые модели и датасеты для задачи materials discovery (открытие новых материалов).

➡️ Self-Taught Evaluator: новый метод генерации синтетических данных для обучения ревард моделей для RLHF без участия человеческих аннотаций.

Data Secrets

19 Oct, 14:02


Ох уж эти боты: как искусственный интеллект меняет общение в чатах?

Кстати, первый чат-бот, Элиза, был разработан Джозефом Вайценбаумом в 1966 году. Он сопоставлял слова, со списком возможных ответов по сценарию. Наиболее известной стала версия Doctor, в которой разговор был похож на общение с психотерапевтом. С тех пор чат-боты стали неотъемлемой частью нашей жизни.

Поэтому хотим пригласить вас на бесплатный двухдневный онлайн-воркшоп от Эльбрус Буткемп «Создаем чат-бота для доброго комьюнити» 23-24 октября, с 19:00 до 20:30 по МСК:

На воркшопе разберетесь с языковыми моделями и спикеры расскажут о том, что помимо платных и закрытых моделей есть множество бесплатных, которые выложены в открытый доступ и их можно использовать в своей задаче.
Места ограничены — регистрируйтесь прямо сейчас по ссылке: https://clc.to/HDakSg

Data Secrets

19 Oct, 12:39


Microsoft переживает, что ее любимый ребенок сепарируется от родителя

Речь об OpenAI, конечно. New York Time пишет, что пятилетнее партнерство подорвало постоянное финансовое давление со стороны OpenAI (также известное как "дайте еще деняк"). Также Microsoft беспокоит, что их ИИ системы слишком сильно завязаны на технологии OpenAI.

И не зря беспокоятся. Ведь теперь, когда OpenAI станет коммерческой организацией, она сможет разорвать сделку, если создаст AGI (это будет прописано в новом соглашении).

Кроме того, именно сейчас обсуждается, сколько именно акций и какие права управления получит IT-гигант после смены структуры стартапа. Интересно, чем это все кончится.

Data Secrets

19 Oct, 09:59


Breaking! Еще одна нобелевка достается…

Data Secrets

19 Oct, 07:25


Огонь: Facebook Research зашерили библиотеку lingua, заточенную под обучение и инференс LLM в ресерче

Акцент тут именно на слове ресерч. По сути, библиотека создана из компонент PyTorch, которые подобраны и сконфигурированы так, чтобы исследователям было проще проверять новые гипотезы: подбирать лоссы, архитектуру, данные и ид.

Подробности и инструкции по установке – в этом репозитории

Data Secrets

18 Oct, 15:14


DeepSeek внезапно зарелизили мультимодальную модель Janus

Названо в честь многоликого бога, видимо: модель может принимать на вход и выплевывать текст и картинки, обрабатывая их унифицированно.

Моделька довольно компактная, она основана на DeepSeek-LLM-1.3b-base, и дообучена на корпусе из 500В токенов. В качестве вижн энкодера используется SigLIP-L: картинки на вход принимаются в разрешении 384х384. А для генерации используется этот токенизатор.

Репа | Веса

Data Secrets

18 Oct, 14:02


NLP Researchers, отметьте в календаре 26 октября🌟

Всего за один день вы сможете пройти все этапы отбора, познакомиться с командой GigaCode и получить оффер.
Мы создаем AI ассистента разработчика – GigaCode. Наши модели помогают писать 80к строк кода ежедневно! Решаем задачи по различным подходам в NLP и PLP, проводим ресёрч-эксперименты и обучаем новые SOTA LLM.
В работе используем: NLP, DL, ML, Python, Pytorch, Transformers, FSDP, Deepspeed.

Чем предстоит заниматься?
реализовывать дизайн экспериментов, формулировать гипотезы для улучшения NLP/PLP моделей и алгоритмов, планировать исследовательские эксперименты с выводами.
проводить эксперименты, писать код, подготавливать датасеты и бенчмарки, проводить замеры и анализ результатов.
обучать модели на кластере, включая обучение моделей с нуля и дообучение опенсорс моделей.

Если вы амбициозны и готовы к новым вызовам в PLP и/или NLP направлениях, регистрируйтесь на One Day Offer!

Будем делать важнейшие исследования вместе!💚

Data Secrets

18 Oct, 13:03


Для любителей пофайнтюнить: на Kaggle началось интересное соревнование, в котором опять нужно предсказывать человеческие предпочтения на Chatbot Arena

Задача проста: вам предоставляют рельные диалоги пользователей с Chatbot Arena, а вам нужно научить свою reward модель качественно предсказывать, ответы какой модели юзеру понравятся больше. Это действительно актуальная проблема сегодняшнего ресерча – многие крупные лабы даже выпускают reward модели вместе с основными своими семействами (пример).

Самое интересное: что-то очень похожее, если не идентичное, уже проводилось совсем недавно (мы писали об этом здесь), поэтому для желающих поучаствовать есть отличная точка старта.

Data Secrets

18 Oct, 12:03


Второй стартап Сэма Альтмана – Worldcoin – показал на мероприятии в Сан-Франциско новую систему сканирования радужных оболочек глаз

Зачем такая система нужна? Чтобы определить, человек ли вы. Вот так вот надо смотреть в будущее. Вообще, все технологии Worldcoin (теперь уже они просто World, кстати) сосредоточены на идее проверки "человечности" и честном распределении благ, созданных ИИ, среди людей. Все это стоит на черепахе под названием блокчейн.

Если для вас это звучит странно – не удивляйтесь: для многих стран мира тоже. Например, правительства некоторых стран ЕС и Кении пытались приостановить работу стартапа из-за "непрозрачности".

Сообщается, что OpenAI и World – несвязные проекты и следуют разным миссиям. Однако ко-фаундер Worldcoin говорит, что они с Альтманом уже обсуждали идеи внедрения криптовалют Worldcoin в продукты OpenAI.

Data Secrets

18 Oct, 10:35


На выставке GITEX Global 2024 в Дубае ряд спикеров из Сбера, Института AIRI и группы компаний ЦРТ обсудили развитие технологий искусственного интеллекта в России и за рубежом. Выступления прошли в рамках сессии AI Journey.

Специалисты обсудили достижения в области AI, а также ряд смежных вопросов, напрямую касающихся отрасли. Были затронуты темы:

• Синергии больших языковых моделей (LLM) и классических подходов в разработке AI-решений;
• Адаптация образования к новым AI-инструментам;
• Создания суверенной большой языковой модели, учитывающей локальные стандарты и потребности.

В этом году трек AI Journey также включили в программы ведущих конференций в Узбекистане, Индии и ОАЭ.

Data Secrets

18 Oct, 09:20


Обычный день в команде аналитиков v2.0

Data Secrets

18 Oct, 06:37


Вышел PyTorch 2.5 🤩

Все основные изменения связаны с flex attention. Теперь оно сможет принимать на вход маски и скейлы, использовать разреженные блоки, а также передавать параметры сразу в ядра triton. Также добавили CuDNN для SDPA и что-то улучшили в torch.compile

Подробности - в блоге

Data Secrets

17 Oct, 15:41


Тем временем все только и говорят, что о новой LLM от Nvidia, которая на метриках бьет GPT-4o и Sonnet 3.5

На самом деле, конечно, бьет она их не на всех бенчмарках, но на Arena Hard, AlpacaEval 2 и MT-Bench – да, а это уже очень хорошо.

Модель опенсорсная (веса), и под капотом у нее Llama-3.1-70B-Instruct под секретным соусом RLHF.

Также релизнули Llama-3.1-Nemotron-70B-Reward, которая заняла второе место на ревард бенче.