Не успели мы толком привыкнуть к большим языковым моделям, а крупные компании на рынке ИИ уже обещают нам новую волну хайпа — агентов. Гугл, когда прогнозировал тренды ИИ в 2025 году, поставил их на 2 место.
В отличие от своих предшественников, которые способны были лишь пассивно генерировать поток подходящих токенов, агенты могут демонстрировать большую активность, планируя, действуя автономно и даже «обучаясь» — получая доступ к сторонним инструментам и API. Что-то вроде промежуточного этапа перед AGI. Собственно, в утёкшем плане OpenAI это 3 шаг на пути к «сильному» ИИ.
В агенте помимо модели (часто LLM) есть и инструменты, и целый уровень оркестратора. Модель, как мозг, обрабатывает информацию и принимает решения, инструменты служат руками, взаимодействуя с внешним миром, а оркестратор, словно дирижер, управляет всем этим действом. Для улучшения мыслительного процесса модели используются техники вроде «цепочки мыслей» (CoT) и «древа мыслей» (ToT), а память позволяет этим агентам учиться на своих ошибках.
Применять ИИ-агентов можно в самых разных сферах: от разработки ПО (сервисы вроде OpenHands), робототехники (LM-Nav) до здравоохранения (LLaVA-Med), социальных наук (Social Simulacra) и так далее. Они автоматизируют задачи, анализируют данные, моделируют взаимодействия и дают советы. Однако тут есть и свои подводные камни, вроде галлюцинаций, ограниченной обучаемости и сложности с бенчмарками.
Что мы имеем сегодня? Anthropic недавно первыми выпустили Claude 3.5 Sonnet с функцией «использования компьютера» — теперь ИИ может смотреть на экран пользователя, перемещать курсор, нажимать кнопки и печатать текст. Google уже тестирует подобного агента — Project Mariner — который может управлять браузером за пользователя, искать авиабилеты или делать покупки. Microsoft развивает свой Copilot для ПК с Windows для того же, а Amazon мечтает об электроовцах о своём агенте, который дополнит функции ассистента Rufus и будет делать покупки вместо пользователей по их запросу.
Но сделать тему агентов «хайповой» в начале 2025 года помогли 2 других компании — OpenAI и Nvidia.
Для начала Сэм Альтман заявил, что предвидит запуск ИИ-агентов уже в 2025 году. По сведениям Bloomberg, OpenAI уже разрабатывают агента под названием Operator, способного выполнять действия от имени пользователя. Сразу после этого они появились с другой новостью — вроде как OpenAI собираются производить собственных роботов, датчики и вычислительные элементы, хотя раньше ограничивались только инвестициями в эту сферу (5 миллионов вложили в Figure AI, например, и возглавили раунд инвестиций 1X).
Вероятно, шевелиться их заставили слова директора Nvidia Дженсена Хуанга, который на CES 2025 заявил о переходе от генеративного ИИ к интеллектуальным цифровым агентам и анонсировал соответствующие инструменты и платформы (Project G-Assist, Project R2X, AI Blueprints, NIM и так далее). Платформа NVIDIA Cosmos вообще предназначена для разработки моделей мира, необходимых для тренировки роботов и автономных транспортных средств с ИИ в основе — то бишь агентов. А недавно Nvidia купили Run:ai, которые отвечают за оркестрацию ИИ-моделей и оптимизацию их работы — компания стремится захватить не только рынок железа, но и рынок физических симуляций с помощью ИИ, создания синтетических данных и тренировки роботов-агентов.
Тренд любопытный, хотя тот же Copilot от Microsoft прославился не тем, что облегчает жизнь пользователям Виндоус, а тем, что съедал под 2 гига оперативной памяти и переставал работать. Поэтому польза ИИ-агентов на ПК или телефонах не очевидна и ими ещё предстоить научиться пользоваться, возможно, даже заставляя себя менять привычный паттерн взаимодействия с устройством. А вот в случае с роботами всё иначе, и там агенты с интеграцией мультимодального ИИ способны подарить роботу возможность «видеть», «думать» и «принимать решения» почти в реальном времени, что расширит список доступных им для освоения занятий.