Паша AI AI AI @pashaaiaiai Channel on Telegram

Паша AI AI AI

@pashaaiaiai


Про технологии в бизнесе и не только — от первого VP по технологиям МТС Павла Воронина.

Актуальные новости из мира IT
Экспертиза без воды
Советы для бизнеса
Личные кейсы и практика

Честно, открыто, по делу. Подписывайтесь.

Паша AI AI AI (Russian)

Канал "Паша AI AI AI" - это источник информации о технологиях в бизнесе и не только, от первого вице-президента по технологиям МТС Павла Воронина. Здесь вы найдете актуальные новости из мира IT, экспертизу без воды, советы для бизнеса, а также личные кейсы и практику. Все материалы подаются честно, открыто и по делу. Подписывайтесь на канал "Паша AI AI AI" и оставайтесь в курсе последних технологических тенденций и рекомендаций от опытного специалиста в области IT.

Паша AI AI AI

21 Nov, 12:06


Видеонейросеть PIKA сконцентрировалась на спецэффектах

В обновлении диффузионной нейросети PIKA до версии 1.5 разработчики добавили возможность разрушать и сдувать объекты в видео, заставлять их исчезать и левитировать, а также делать киношные переходы от одного кадра к другому. Всего на данный момент доступно 12 спецэффектов.

Пользователю достаточно загрузить на сайт нейросети изображение (Image-to-Video), выбрать спецэффект, который он хочет использовать, и на выходе получить клип продолжительностью до 5 секунд.

Также для генерации можно использовать только текстовую подсказку (Text-to-Video) или другое видео (Video-to-Video).

Создатели Pika сознательно сделали выбор не в пользу реализма, а в пользу продвинутых возможностей для редактирования видео с сохранением консистентности роликов. 

Таким образом разработчики хотят выделиться на фоне конкурентов, которых у Pika сегодня великое множество. Стартап также делает ставку на профессиональных создателей контента, а не рядовых пользователей.

Попробовать новую версию Pika можно на сайте. Бесплатно каждому пользователю доступно 150 кредитов для генераций (5-секундное видео «стоит» 10 кредитов). Платная подписка стоит от $8 до $76 в месяц.

В начале лета стартап получил от инвесторов $80 млн. Одним из инвесторов, кстати, стал актер Джаред Лето. Всего Pika удалось привлечь $135 млн при оценочной стоимости почти $500 млн.

Паша AI AI AI

11 Nov, 12:17


​Знаете, что объединяет сооснователя Google Сергея Брина, математика и соучредителя ByteDance Цао Чжихэ и лауреата Филдсовской премии математики Теренса Тао? Все они участвовали в олимпиадах по математике и программированию.

И пускай не каждому удалось стать призером, участие, по их словам, помогало качать логическое мышление, вырабатывать нестандартный подход к задачам и находить возможности там, где их вроде бы нет.

Именно такие цели мы преследуем, организовывая наш ИТ-чемпионат по программированию True Tech Champ. На днях мы подвели его итоги, хочу поделиться интересными фактами:

▪️В этом году мы получили почти вдвое больше регистраций на участие — 12,5 тысяч. Среди них — победители международных соревнований, члены сборной России.

▪️Помимо трека по алгоритмическому программированию, мы добавили еще один — по программированию роботов. Финалисты писали код для роботов-мышей, чтобы те как можно быстрее выбирались из лабиринтов с подвижными стенами и задымлением.
Мы сделали упор на командной работе. Участники второго трека проходили финальные испытания сообща.

▪️Общий призовой фонд соревнований превысил 10 млн рублей. Призерами стали 14 человек со всей страны. В первом треке победу одержал Александр Бабин из ВШЭ, он единственный сумел решить все шесть задач. Робот команды победителей второго трека «Котята и роботы» выбрался из лабиринта за минуту и пять секунд. А разрыв между вторым и третьим местом составил всего три секунды.

▪️На площадке за шоу-кодингом и гонкой роботов наблюдали 3,5 тыс. офлайн-гостей и более 600 тыс. онлайн-зрителей.

▪️У нас было более 10 развлекательных зон: ИИ-скалодром, кодинг с препятствиями, роборейсинг, тату-студия, лекторий «Гараж», мастер-классы по пайке плат, шоу-баттл «Плохие прогерские шутки» и другие.

▪️На главной сцене с докладами на темы ML, GenAI, Open Source выступили топовые эксперты отрасли и ученые: гендиректор Postgres Professional Олег Бартунов, профессор кафедры физиологии человека и животных МГУ Вячеслав Дубынин, руководитель лаборатории Центра прикладного AI Сколтеха Алексей Зайцев и другие.

▪️Вечером в гости даже зашел глава Минцифры Максут Шадаев.

Поздравляю победителей и благодарю всех гостей и участников.
Прикладываю несколько фотографий в духе «как это было».

Паша AI AI AI

31 Oct, 08:59


Gartner назвал главные технологические тренды на 2025 год

Исследователи из Gartner выпустили очередной отчет — на этот раз эксперты назвали 10 главных технологических трендов, которые станут определяющими в следующем году. Разберемся в прогнозах компании.

AI-агенты
В Gartner считают, что к 2028 году AI-агенты будут автономно принимать до 15% решений в повседневной работе компаний. По мнению авторов, AI-агенты смогут увеличить продуктивность компаний, упростив менеджмент сложных проектов.

Платформы для управления AI 
Такие платформы позволяют следить, чтобы AI-модели соответствовали стандартам безопасности компании. Это особенно важно в условиях, когда количество областей, где применяется AI, постоянно растет, а сами AI-модели получают доступ к все более конфиденциальной информации. Gartner прогнозирует, что к 2028 году компаниям, использующим такие платформы, пользователи будут доверять на треть больше, чем остальным.

Защита от дезинформации
Это системы, которые могут подтвердить достоверность информации, отследить и предотвратить распространение дипфейков и другого вредоносного контента. Для этого может использоваться мониторинг поведения пользователя, алгоритмы выявление синтетического контента и т.д. По прогнозам Gartner, к 2028 году такое ПО будет использовать половина компаний.

Постквантовая криптография
В Gartner считают, что квантовые компьютеры будут использовать повсеместно еще в этом десятилетии, а значит все предыдущие методы защиты от взлома станут бесполезными. Соответственно, компаниям уже сейчас надо задумать о защите своих данных от будущих атак.

Эмбиентный невидимый интеллект
Это использование небольших дешевых датчиков для отслеживания местоположения и состояния разных предметов и объектов. В качестве примеров использования авторы приводят управление светом, музыкой и рекомендациями для покупателей в ритейле; отслеживание состояния пациентов без использования носимых устройств и т..д.

Энергоэффективные вычисления
Под этим Gartner подразумевает новые алгоритмы работы и усовершенствованное аппаратное обеспечение не только компьютеров, но и ЦОДов, которые должны минимизировать энергопотребление и вредные выбросы в атмосферу. Это особенно актуально на фоне быстрой эволюции AI-моделей.

Гибридные вычисления
Использование CPU и GPU одновременно с квантовыми, нейроморфными и другими системами с целью создания гибридной вычислительной среды для решения сложных задач. Это должно позволить компаниям эффективно распределять мощности между задачами, которые можно выполнять в облаке, и теми которые требуют локальных ресурсов. 

Пространственные вычисления
Рынок создания иммерсивного пространства с помощью MR и AR-устройств, где пользователи смогут продуктивно взаимодействовать с информацией, увеличится со $110 млрд в 2023 году до $1,7 трлн в 2033 году. Пример использования: удаленная рабочая встреча с коллегами по работе в дополненном пространстве или AR-симуляции для проведения рабочих тренингов. К 2028 году такой экспириенс будут хотя бы раз в неделю получать до 20% людей против 1% сегодня. 

Многофункциональные роботы
В Gartner считают, что уже к 2030 году 80% людей будет в той или иной мере взаимодействовать с роботами, которые могут выполнять несколько задач. Речь не только о работе на складах, но и техобслуживании различных механизмов, в том числе в опасных условиях, помощи маломобильным пациентам в больницах и т.д.

Когнитивные улучшения с помощью нейроинтерфейсов
Улучшение когнитивных способностей человека с помощью технологий и устройств, анализирующих мозговую деятельность. Применять их будут не только в медицинских целях, но и для повышения работоспособности. В Gartner считают, что уже к 2030 году подобными устройствами будут пользоваться 60% сотрудников сферы IT.  

Паша AI AI AI

28 Oct, 15:59


Anthropic показали AI-агента, который может управлять компьютером

Разработчики представили несколько обновлений для своей LLM Claude 3.5 Sonnet, например, функцию Computer Use. По сути, Computer Use — это AI-агент в формате API, который может автономно выполнять многоэтапные задачи по промпту пользователя. 

В опубликованном Anthropic видео Claude самостоятельно заполняет Excel-табличку информацией, которую он нашел в релевантных источниках.

После получения задачи от пользователя Claude анализирует то, что видит перед собой пользователь на экране ПК, а затем высчитывает количество пикселей по горизонтали и вертикали, на которое ему надо передвинуть курсор, чтобы выполнить задачу.  

Разработчики считают Computer Use прорывом. Они объясняют, что до сих пор нужно было создавать инструменты, которые модель сможет использовать для выполнения задач. С появлением Computer Use уже сама модель подстраивается под существующие инструменты и использует их. 

Похожий функционал своих LLM уже показывали и Microsoft со своим Copilot Vision, и OpenAI в десктопном приложении ChatGPT, где LLM могла взаимодействовать с изображением на компьютерном экране. OpenAI еще в начале года анонсировала появление полноценных AI-агентов собственной разработки. В октябре компания уточнила, что их запуск состоится в 2025 году.

Пока Computer Use доступен в бета-версии и только для разработчиков. Среди компаний, которые тестируют новый функционал — GitLab, Canva и Replit. 

Anthropic отмечают, что AI-агент работает вовсе не идеально и с трудом выполняет задачи, которые для пользователя будут элементарными — скроллинг, масштабирование страниц и т. д. Сейчас агент успешно справляется в лучшем случае с половиной задач. 

По соображениям безопасности, Anthropic не дают Claude пользоваться соцсетями при работе в режиме Computer Use. Стартап также не использует информацию, полученную во время использования Computer Use, для обучения модели.

Помимо Computer Use, Anthropic усовершенствовали возможности Claude 3.5 по работе с программным кодом. Разработчики также выпустили новую модель Haiku, которую Anthropic называют своей самой скоростной моделью. Haiku превосходит по производительности модель Opus, которая считалась лидером до этого. При этом стоимость использования модели останется такой же. 

Паша AI AI AI

17 Oct, 09:49


Британские ученые создали «вечный» кристалл для хранения информации

Ученые из Саутгемптонского университета в Великобритании смогли записать весь человеческий геном на кристалл. Исследователи утверждают, что информация на таком носителе может храниться «миллиарды лет».

«Вес» генома одного человека составляет около 3,5 гигабайта, а один кристалл может хранить до 360 терабайт информации. 

Авторы эксперимента надеются, что с помощью таких кристаллов человечество можно будет возродить через миллионы лет, если наш вид по какой-то причине исчезнет с лица Земли. Ученые предполагают, что это могли бы сделать другие разумные виды или машины с искусственным интеллектом. Специально для них на кристалл нанесли «ключ», который поможет понять, что находится внутри.

В настоящий момент невозможно «синтезировать» человека, используя только его геном, но в Саутгемптонском университете надеются, что в далеком будущем ситуация изменится. 

Ученые также предлагают хранить в кристалле информацию о животных и растениях.

Информацию о геноме нанесли на кристалл с помощью сверхбыстрых лазеров, записывая ее внутрь пустот в кристалле. Для этого использовались три координаты — высота, длина, ширина —  а также ориентация и позиция.

Кристалл состоит из наноструктурного стекла. По химическому составу этот материал аналогичен кварцевому стеклу — одному из самых прочных материалов на Земле. Например, кварцевое стекло может выдержать температуру до 1 000 °C. 

Такое стекло иногда называют «кристаллом Супермена» — в комиксах супергерой хранил в кристалле AI-версию своего биологического отца. 

Сейчас кристалл хранится в качестве капсулы времени в одной из соляных пещер Австрии, в городке Халльштатт. 

Паша AI AI AI

14 Oct, 12:22


Сравнение сервисов для написания кода

Мы уже разбирались, какие LLM лучше всего показывают себя на аренах и в отдельных задачах. Сегодня узнаем, как популярные сервисы справляются с генерацией программного кода. Для этого я выбрал сервисы, которые чаще всего упоминаются в профессиональном комьюнити — в обсуждения на Reddit, статьях на Хабре, отзывах на GitHub и т.д. В итоге получилось 6 сервисов. 

GitHub Copilot

По состоянию на август 2024 года, Copilot использовал языковую модель GPT-4o.
Плюсы:
Обучение на множестве публичных репозиториев GitHub;

Широкая поддержка языков программирования: лучше всего работает с JavaScript, Python и TypeScript.

Минусы:
Конфиденциальность
: иногда генерируется код, защищенный авторским правом;
Нестабильность качества кода: его качество сильно зависит от четкости и полноты исходного промпта.
Tabnine
Сервис работает на языковых моделях GPT-4o, GPT-3.5

Turbo и Tabnine Protected

Плюсы:
Может работать с данными локально;
Обучение на собственном коде и репозиториях.

Минусы
Иногда выдает фрагменты кода, которые не соответствуют контексту задачи;
Хуже справляется с преобразованием запросов на естественном языке в код.
Replit Ghostwriter

Это комплексная IDE, которая интегрирована в платформу онлайн-кодирования Replit. Replit использует для генерации собственную опенсорcную LLM Replit

Code

Плюсы:
Интеграция с Replit —
AI-платформы для разработки и запуска ПО;
Мощные функции автозавершения кода: Ghostwriter умеет генерировать целые блоки, исправлять ошибки и объяснять код;
Поддержка 50+ языков программирования.

Минусы:
Доступен только в среде Replit;
Проблемы с производительностью
Могут возникнуть сложности с масштабированием проектов.

Cursor

Сервис работает на базе Visual Studio Code (VSC), использует GPT-4o, как и Tabnine. 

Плюсы

Прирост скорости в работе у некоторых пользователей с Cursor вырос на треть;

Формирует граф знаний обо всей вашей кодовой базе, предоставляя предложения с учетом контекста;
Предвосхищает правки, основываясь на предыдущих.

Минусы

ИИ работает неидеально: иногда промпты нужно переписывать несколько раз;

Не подходит новичкам;

Сгенерированный код иногда бывает излишне сложным.

Codeium

Codeium использует проприетарную LLM, сравнимую по производительности с GPT-3.5.

Плюсы

Поддерживает более 70 языков программирования;
Закрепление контекста: в качестве постоянного контекста можно выбрать каталоги, файлы, репозитории или элементы контекста кода.

Минусы


Справляется с генерированием кода хуже, чем с дополнением;

Некоторые пользователи жалуются на подтормаживания в работе;

Периодически приходится отключать подсказки Codeium из-за их бесполезности.

Cody  

Сервис позволяет подключать для работы самые популярные LLM — GPT-4, Claude, Mixtral, Gemini и др.

Плюсы

Позволяет использовать inline-редактирование;

Не зависит от одной LLM: можно менять LLM в процессе генерации кода;
Интеграция с GitHub: это значительно сокращает время, затрачиваемое на проверку кода.

Минусы

Качество кода: может отличаться в зависимости от используемой LLM;
Некоторые пользователи отмечают слабое понимание контекста.

Что выбрать?

Мы с командой попробовал все шесть сервисов и в итоге нам больше всего понравился Tabnine. Его функционал максимально отвечает тем задачам, с которыми он бы мог в теории нам помогать. Для нас критично использование кода только с разрешительной лицензией. Плюс они никогда не берут код клиента для обучения своих моделей.

Поэтому при выборе стоит отталкиваться от потребностей, но в целом могу предложить такой рейтинг:

1.  Tabnine — широкофункционален и хорош для тех, кто заботится о приватности;
2.  GitHub Copilot — оптимален для разработчиков с комплексными задачами;
3.  Codeium — для тех, кто хочет потестировать возможности GitHub Copilot, но не готов за это платить;
4.  Cursor подходит опытным кодерам, знакомых с VSC;
5.  Cody оценят те, кто не хочет быть привязан в работе к одной единственной LLM;
6.  Replit Ghostwriter — подходит для новичков и простых проектов.

Паша AI AI AI

02 Oct, 14:33


Нейросети воссоздают игровой процесс без кода и графики из оригинала

Модели машинного обучения теперь не просто копируют оригинальный игровой код, а заново конструируют процесс игры, предлагая интерактивные и динамичные симуляции. Такие технологии открывают новые горизонты для симуляций, где ИИ не просто реагирует на команды игрока, но и самостоятельно генерирует бесконечно развивающийся виртуальный мир. Одни из самых многообещающих примеров таких технологий — это GameGen-O от Tencent и GameNGen от Google Research.

Tencent: GameGen-O — ИИ для открытых миров
Tencent с несколькими университетами из Китая и Гонконга разработал ИИ-модель GameGen-O для создания симуляций видеоигр с открытым миром. Исследователи обучали модель на OGameData — наборе данных из более чем 100 современных видеоигр. Всего отобрали 15 тыс. видеороликов геймплея. Сначала ее научили генерировать игровой контент, а затем добавили компонент InstructNet, чтобы пользователь мог интерактивно управлять этим контентом.
GameGen-O воссоздает действия персонажа и окружение, а игрок может управлять героем и наблюдать изменения в игровом мире в реальном времени. Поддержка существующих игровых движков делает эту технологию легко внедряемой в разработку игр, автоматизируя процесс создания игровых миров и контента.

GameNGen: опыт Google Research и DeepMind

Ранее исследователи из Google Research, Google DeepMind и Тель-Авивского университета создали модель GameNGen. Основа GameNGen — диффузионная нейросеть, которая предсказывает каждый следующий кадр игры, используя последовательность ранее сгенерированных кадров и поток команд игрока на входе.
Сначала исследователи научили ИИ-агента играть в Doom с помощью алгоритма проксимальной оптимизации политики (Proximal Policy Optimization). Так он накопил записи действий и 900 млн кадров обучающих данных. Затем с их помощью обучили диффузионную модель на базе Stable Diffusion v1.4 генерировать следующий кадр.
В итоге модель оказалась способна реагировать на действия игрока в реальном времени, правильно изменять цифры счетчиков здоровья, патронов и брони в зависимости от действий игрока и урона от монстров и другого окружения в игре. Игровой мир также меняется в зависимости от действий игрока: открываются и закрываются двери, появляются новые монстры и др.
Как и в случае с разработкой Tencent, GameNGen не «пишет» реальную игру, а попиксельно воссоздает видео прохождения этой игры, причем потенциально бесконечное — может генерировать новые и новые уровни. В ней игрок в реальном времени взаимодействует с виртуальной средой.
Модель выдает настолько высокое качество графики (20 кадров в секунду), что с первого взгляда очень сложно отличить реальную игру от симуляции. Для симуляции хватает вычислительных мощностей одного TPU.

Для демонстрации возможностей исследователи воссоздали классику игр 90-х — первый Doom.

Паша AI AI AI

18 Sep, 13:19


Какая из ИИ-моделей самая мощная? Смотрим по тестам и выбираем лучшую  

В прошлый раз я рассказывал, как сравнивать LLM по бенчмаркам и на аренах. Теперь разберем, как себя показывают топовые модели по конкретным задачам. Ключевые показатели, по которым тестируют модели, — это качество ответов, скорость вывода токенов (TPS) и задержка ответа (TTFT). Сначала сделаем обзор по бенчмаркам, а потом — по арене. В обзоре будут участвовать модели LLama 3.1 405B, GPT-4o, Gemini 1.5 Pro, Claude 3 Opus, Mistral Large и Grok-2.

Бенчмарки Artificial Analysis. Этот сводный индекс рассчитывает средний результат по качеству и скорости ответов моделей. Качество означает точность и полноту ответов, оцениваемых такими контрольными показателями, как MMLU или HumanEval. 

MMLU (Massive Multitask Language Understanding) оценивает знания моделей в условиях с нулевыми и несколькими примерами. Бенчмарк охватывает 57 тем из STEM, гуманитарных и социальных дисциплин. Уровни сложности варьируются от начального до профессионального, тестируя как общие знания, так и навыки решения задач. HumanEval оценивает способности ИИ в программировании. Показатель включает 164 задачи по программированию, оценивающие понимание языка, алгоритмов и простой математики.

• Качество ответов. GPT-4o и Claude-3-5-Sonnet набрали самые высокие баллы. Это указывает на то, что их архитектуры и алгоритмы хорошо справляются с обработкой естественного языка. За ними следуют Mistral Large 2, Llama 3.1 405B и Gemini 1.5 Pro. Хотя модель от Google имеет огромное контекстное окно (2 млн токенов), она все еще недостаточно производительна. В целом модели от OpenAI и Anthropic лидируют по качеству и эффективности, в то время как остальные модели слабее.

• Скорость ответов. По TPS картина совсем другая. Из рассматриваемых моделей в топ попали модификации Gemini 1.5 Flash и Llama 3.1 8B, а GPT-4o и Claude 3.5 Sonnet уехали вниз рейтинга. По TTFT Mistral 7B и Llama 2 Chat 7B стали моделями с самой низкой задержкой ответа. Прежние фавориты оказались снова внизу.

LMSYS Chatbot Arena. На этой платформе более 1 млн людей оценивают ИИ-модели. В тройку лидеров по выполняемым задачам попали GPT-4o, Gemini 1.5 Pro и Grok-2. Дальше идут остальные модели и их модификации. Причем модель от OpenAI удерживает лидерство по кодингу, следованию инструкциям и сложным промптам. А вот по математическим задачам она уступает Claude 3.5 Sonnet. 
Другие модели не такие универсальные комбайны — в зависимости от задачи их рейтинг меняется. Например, по программированию 2-е место занимает тот же Claude 3.5 Sonnet. 

А скандальная нейронка Grok, которую еще весной критиковали за ответы с криминальным контентом, неплохо обрабатывает сложные инструкции от пользователей. Видимо, благодаря более раскованным цензурным фильтрам от своих создателей.

Паша AI AI AI

17 Sep, 16:39


LLM, которая способна «рассуждать» — o1 от OpenAI 

OpenAI представил первую в серии «рассуждающих» AI-моделей. o1 выстраивает «цепочку размышлений» при обработке запросов — так же, как человек постепенно подходит к задачам. Вместе с ней выпустили облегченную o1-mini для генерации кода.

o1 рассуждает как человек
Модели дали задачу решить головоломку. Она размышляла 30 сек., описывая все шаги рассуждений.

o1 способна улучшать свой мыслительный процесс, пробовать различные стратегии и признавать свои ошибки. Если GPT-4o решила 13% задач отборочного экзамена Международной математической олимпиады, то «рассуждающая» модель — 83%.

Кардинально иной подход в обучении — но деталей не раскрыли
Как рассказал руководитель исследований OpenAI Джерри Творек, модель обучили с помощью совершенно нового алгоритма оптимизации и набора данных. Его разработали специально под o1. Разработчики также применяли обучение с подкреплением (модель дообучается в процессе работы после первичного обучения)

Совсем не повседневный помощник
o1 медленнее и дороже предыдущих GPT, она предназначена именно для решения многоэтапных задач в науке, математике, программировании. Для разработчиков o1 стоит в 3-4 раза дороже, чем GPT-4o.

Open AI заявляет, что о1 вышла на 2й из 5 уровней AGI.

Паша AI AI AI

09 Sep, 09:51


Новый сезон чемпионата True Tech Champ стартует сегодня

Мы ежегодно проводим True Tech Champ — всероссийский чемпионат по алгоритмическому и робототехническому программированию. В этом году он проходит с 9 сентября по 12 октября, а его победители получат крупные денежные призы. Сегодня стартовал прием заявок. Какие этапы ждут участников:  

• В первом треке в ходе отборочных испытаний предстоит решить алгоритмические задачи онлайн, соревнуясь в индивидуальном зачете

• Второй трек посвящен программированию роботов. Нужно просканировать виртуальный лабиринт и создать алгоритм для самого быстрого поиска оптимального маршрута «робомыши»

• Полуфиналисты будут писать алгоритмический код для робота, чтобы быстрее пройти масштабные лабиринты

• В финальные матчи выйдут девять команд, для которых создадут секретные «ловушки» со спецэффектами: роботам участников нужно будет на скорость найти выход и не попасть в тупик

Полуфинал и финал пройдут в формате гонки роботов на площадке МТС Live Холл в Москве 8 ноября. Гостей ждет серия «айтивностей» — от сборки креативных роботов, лекций и воркшопов до концертной программы с участием популярных артистов. 

Для финалистов алгоритмического трека мы приготовили:
▪️ ₽1 млн за первое место,
▪️по ₽500 тыс. за два вторых места,
▪️по ₽250 тыс. за три третьих места. 

▪️Команда-победитель трека по программированию роботов получит ₽4 млн,
▪️за «серебро» полагается ₽2,5 млн,
▪️за «бронзу» — ₽1 млн. 

Паша AI AI AI

06 Sep, 13:11


Оценивать ИИ-модели сложно, но нужно. Вот как это делают сегодня

Новые ИИ-модели появляются регулярно, поэтому их не получается даже сосчитать и протестировать. И все же тестировать их нужно, чтобы получить хотя бы примерное представление о возможностях алгоритмов.


Для этого сегодня существуют бенчмарки, которые способны оценить способности модели в выполнении разных задач. Но у бенчмарков есть свои ограничения и им в помощь появились так называемые чат-бот-арены. Вот как работают эти методы:

В бенчмарках сравнивают модели по качеству выполнения типовых задач

Зачем вообще нужны бенчмарки ИИ-моделей? С помощью них можно сравнить несколько моделей и оценить их эффективность по разным параметрам: точность ответа, скорость работы, работа со сложными задачами и т. д. Важно не ставить знак равенства между бенчмарком и просто тестом. Тест нужен, чтобы оценить работу модели (корректность выполнения задач, отсутствие ошибок и т. д.), а бенчмарк — чтобы сравнить модель с конкурентами.

Для бенчмарков существуют таблицы лидеров, где можно сравнить результаты разных ИИ-моделей.

Типичным примером бенчмарка можно считать ImageNet, который позволяет оценить, как ИИ-модель справляется с классификацией изображений — чем больше изображений «узнает» ИИ, тем лучше.

Есть и другие бенчмарки, заточенные под оценку выполнения одной конкретной задачи. Скажем, тест Glue/SuperGlue позволяет оценить способности ИИ-модели в обработке естественного языка; LibriSpeech тестирует ИИ на распознавание речи; FRMT дает представление о том, насколько хорошо модель справляется с машинным переводом.

Для бенчмарков используют специальные датасеты

Возьмем для примера Glue. Внутри этого бенчмарка 9 тестов, каждый из которых проверяет ИИ-модель на качество работы с разными аспектами естественного языка: классификация предложений, ответ на вопрос, анализ тональности текста и т. д.

Каждый тест — это отдельный датасет, на котором и проверяют ИИ-модель, давая ей задания разной сложности (например, противоречит ли одно предложение другому и т. д.).

По каждому из тестов бенчмарк выставляет оценку по шкале (чаще всего от 0% до 100%), а затем выводит среднее значение.

SuperGlue отличается более сложными задачами: ИИ тестируют на более длинных отрывках текста, от модели требуется более глубокое понимание языка, его логики и т. д.

У бенчмарк-тестов есть свои недостатки

Например, велика вероятность, что тестируемая модель обучалась на тех же датасетах, что присутствует в бенчмарке. В этом случае говорить об объективной оценке производительности ИИ-модели невозможно.

Еще бенчмарки не всегда могут дать реальное представление о том, как ИИ поведет себя в «полевых» условиях. Бенчмарк — это контролируемая среда, где невозможно учесть все варианты того, как будет использоваться модель.

Чтобы справиться с этими недостатками, появились чат-бот-арены
В качестве альтернативы обычным бенчмаркам появилась LMSYS Chatbot Arena. Принцип ее работы следующий: пользователю предлагают задать вопрос двум LLM, названия которых он не знает, а затем выбрать лучший. Пользователь также может выбрать модели, которые он хочет протестировать.

Появление арен стало ответом на усложнение самих языковых моделей, которые теперь могут отвечать не только на закрытые, но и открытые вопросы. Качество ответов на открытые вопросы оценить сложнее, поэтому создатели LMSYS обратились к краудсорсингу. Так разработчик видит оценку производительности своей модели не только со стороны «бездушного» бенчмарка, но и от непосредственных пользователей сервиса. То есть арена не заменяет обычные бенчмарки, а дополняет их.

Для составления таблицы лидеров в арене используется рейтинг Эло — универсальный метод оценки навыков в любой игре, где соревнуются 2 игрока (или 2 команды). Изначально рейтинг Эло использовали в шахматах.