Паша AI AI AI @pashaaiaiai Channel on Telegram

Паша AI AI AI

@pashaaiaiai


Про технологии в бизнесе и не только — от первого VP по технологиям МТС Павла Воронина.

Актуальные новости из мира IT
Экспертиза без воды
Советы для бизнеса
Личные кейсы и практика

Честно, открыто, по делу. Подписывайтесь.

Паша AI AI AI (Russian)

Канал "Паша AI AI AI" - это источник информации о технологиях в бизнесе и не только, от первого вице-президента по технологиям МТС Павла Воронина. Здесь вы найдете актуальные новости из мира IT, экспертизу без воды, советы для бизнеса, а также личные кейсы и практику. Все материалы подаются честно, открыто и по делу. Подписывайтесь на канал "Паша AI AI AI" и оставайтесь в курсе последних технологических тенденций и рекомендаций от опытного специалиста в области IT.

Паша AI AI AI

03 Jan, 10:30


AI-модель, которая может генерировать видеоигры с открытым миром

Стартап Etched выпустил AI-модель Oasis, которая генерирует интерактивную видеоигру на основе действий пользователя с мышкой и клавиатурой. Oasis генерирует не только визуальную часть игры, но также физические свойства объектов внутри нее (пользователи могут создавать объекты и разбивать их) и ее правила.

Игры Oasis больше всего напоминают Minecraft.

Сама модель состоит из двух частей:

➡️Диффузионная модель, которая итеративным методом создает все более детальные генерации;
➡️Автокодировщик, который позволяет «сжимать» игровой мир для более быстрой работы с ним, при этом сохраняя детали игрового пространства.

Опенсорсный Oasis можно также скачать и запустить локально. Код доступен здесь, а демо доступно — здесь.

Oasis оптимизирован под работу чипов Sohu — собственной разработки Etched. Sohu в десятки раз быстрее чипов H100 от Nvidia, но при этом может работать только с моделями-трансформерами и никакими другими.

Oasis можно запустить и на H100, но в низком разрешении 360p. Sohu, уверяют разработчики, сможет работать с версией Oasis на 100 млрд параметров в разрешении 4K. В демоверсии доступна модель Oasis на 500 млн параметров.

В Etched считают, что в перспективе все чипы будут создаваться с упором на работу с конкретным типом AI-моделей.

Паша AI AI AI

25 Dec, 12:22


Google назвал пять основных AI-трендов для бизнеса

В новом отчете AI Business Trends 2025 эксперты компании рассказали основные прикладные способы использования AI бизнесом в ближайшие годы. 

Мультимодальный AI
В Google считают, что следующий год станет ключевым для внедрения AI корпоративным сектором. Основным драйвером для этого будут мультимодальные возможности современных AI-моделей. Авторы доклада считают, что рынок мультимодального AI вырастет с $2,4 млрд в 2025 году до почти $100 млрд к концу 2037-го.

Главными плюсами мультимодального AI в Google считают:
▪️Возможность одновременно работать с несколькими видами контента (текст, изображения, видео), что позволяет более качественно отвечать на запросы пользователя;
▪️Расширенные возможности аналитики структурированной и неструктурированной информации, что позволяет улучшать пользовательский опыт взаимодействия с продуктом компании;
▪️Высокая удовлетворенность пользователя при использовании продукта за счет персонализированного опыта, который обеспечивает мультимодальный AI.

AI-агенты/ мультиагентные системы
Уже сегодня, отмечают авторы, использование AI-агентов для автоматизации рабочих задач повышает продуктивность сотрудника в среднем на 15%. Сейчас около 10% компаний используют агентов, но 82% планируют интегрировать их в рабочий процесс в течение трех лет.

Следующий этап — системы, которые используют сразу несколько автономных AI-агентов для решения комплексных задач. Несмотря на автономность, агенты синхронизируются друг с другом без вмешательства со стороны человека. 

Google выделяет шесть основных типов агентов:
▪️Клиентские — выполняют функции техподдержки;
▪️Рабочие — увеличивают продуктивность сотрудников;
▪️Креативные — помогают в творческих задачах;
▪️Информационные — участвуют в исследованиях и анализе информации;
▪️Кодеры — помогают в разработке ПО;
▪️Обеспечение безопасности — отслеживают подозрительную активность в системе.

AI-поиск
AI расширил возможности поиска для пользователей — в том числе за счет мультимодальности. AI может работать с текстами, видео, аудио и пользовательскими промптами. Таким образом процесс поиска информации упрощается не только для пользователей, но и для самих сотрудников компании. Например, техподдержка может быстрее найти информацию, используя AI для поиска по корпоративной документации.

В Google прогнозируют, что рынок корпоративного поиска к 2031 году вырастет почти до $13 млрд.

Авторы отчета называют три основных плюса корпоративного AI-поиска:
▪️Быстрый доступ к информации;
▪️Более интуитивный процесс поиска;
▪️AI-аналитика полученной информации.

Пользовательский AI-опыт
Авторы отмечают, что пока аугментированный AI пользовательский опыт (CX) находится на раннем этапе, который пока в основном ограничен использованием чат-ботов. Будущее же за персонализированным опытом, когда пользователь даже не будет замечать, что он общался с техподдержкой сервиса для решения своей проблемы — настолько AI будет интегрирован в систему. Особенно активно AI в таком ключе будет использовать ритейл, производство и телеком, считают эксперты.

Безопасность
Вопрос использования AI особенно актуален в контексте безопасности. По прогнозам, уже в 2028 году половина компаний будут использовать AI для борьбы с дезинформацией (например, с дипфейками). 

Авторы выделяют три самых популярных способа использования AI для обеспечения безопасности:
▪️Создание правил безопасности;
▪️Симуляция хакерских атак;
▪️Отслеживание случаев нарушения комплаенса.

Уже сейчас применение AI для обеспечения безопасности позволяет сэкономить компаниям больше $2 млн.

Паша AI AI AI

20 Dec, 14:08


Нейросеть для генерации изображений Recraft стала новым героем бенчмарков

Модель от молодого стартапа Recraft (компания появилась в 2022 году) отлично показывает себя в тестах. В бенчмарках она обгоняет по качеству генераций не только хорошо знакомые Midjourney и Stable Diffusion, но и перспективных новичков вроде FLUX.

Сейчас Recraft V3 занимает первое место в рейтинге Text-to-Image моделей на Hugging Face.

Основные фишки нейросети:
Адекватная генерация текста внутри изображений в разном стиле (до сих пор сложная задача для большинства подобных нейросетей);

Точное следование даже длинным текстовым подсказкам (с указанием местоположения предметов, их цвета, количества и т. д.);

Анатомически корректные персонажи даже в движении;

Эстетичность генераций. Разработчики признают, что вопрос «красивости» генераций субъективен, но утверждают, что Recraft справляется с этим не хуже Midjourney.

Разработчики не раскрывают всех подробностей о том, за счет чего удалось добиться таких результатов. Но, например, продвинутую работу с текстом обеспечила модель оптического распознавания символов собственной разработки.

Recraft позиционируют свою нейросеть как инструмент для профессиональных дизайнеров. Модель позволяет точно указывать местоположение текста на изображении, а также использовать несколько изображений-референсов для создания консистентного стиля бренда не на одной генерации, а на серии. 

Обе функции будут крайне полезны при создании маркетинговых материалов. 

Специально для профессионалов разработчики выпустили API Recraft, который позволяет быстро интегрировать нейросеть в рабочие процессы.

Recraft можно потестировать бесплатно с ограничением по количеству генерации, платная подписка начинается от $10. В платных подписках все генерации могут быть использованы для коммерческих целей.

Паша AI AI AI

18 Dec, 12:00


Runway показал AI-инструмент для создания продвинутой лицевой анимации

Act-One может создать анимацию на основе видео или записи голоса. 

Чтобы использовать инструмент не понадобится дополнительное оборудование (как, например, в случае с motion capture-анимацией). Act-One достаточно видео, записанного в домашних условиях на камеру смартфона, и он консистентно перенесет лицевую анимацию с исходного видео на любого персонажа. Runway обещает кинематографичность финального результата с сохранением высокой детализации. Как это выглядит на практике, смотрите в видео выше.

В отдельной инструкции Runway дает советы, как повысить качество видео. Например:
Место съемки, где записывается исходное видео, должно быть хорошо освещено;
Человек должен смотреть в направлении камеры;
Лицо должно присутствовать в кадре на протяжении всего видео;
В кадре лучше не двигаться.

Как видно, ограничений достаточно много и сравнить с профессиональным инструментом Act-One пока нельзя. Тем не менее Runway недавно заключил соглашение с киностудией Lionsgate. Стартап создаст для Lionsgate кастомную AI-модель на основе 20 тыс. тайтлов в каталоге студии. Это первая подобная сделка между AI-компанией и кинокомпанией. 

Act-One работает на базе модели Gen-3 Alpha для генерации видео из текста изображений, которую Runway выпустил летом.

Максимальная продолжительность генерации Act-One — 30 секунд, разрешение — 1280*768. Потестировать Act-One можно здесь.

Паша AI AI AI

16 Dec, 10:14


Квантовый процессор Google за пять минут решил задачу, на которую требовались септиллионы лет

Willow, как утверждается, способен за пять минут решить задачу, на которую даже у топового современного компьютера уйдет 10 септиллионов лет (это больше, чем возраст вселенной). Речь идет о бенчмарке RCS — Random Circuit Sampling или случайная выборка цепей.

За пять лет квантовые процессоры Google по этому показателю достигли значительного прогресса. В 2019 году компания объявила, что ее квантовый компьютер может за 3,5 минуты решить задачу, на которую у топового на тот момент суперкомпьютера ушло бы «всего» 10 тыс. лет.

Таких результатов удалось достичь благодаря мощности в 105 кубитов. При этом Willow допускает меньше ошибок при вычислениях при увеличении количества кубитов, чем выгодно отличается от конкурентов.

Google видят в Willow путь к коммерческим квантовым компьютерам, которые найдут практическое применение в медицине, AI, финансах и других областях. 

У Willow, говорят специалисты, все еще нет практических способов применения, которые могли бы пригодиться в реальном мире. Чтобы научиться решать реальные, а не теоретические задачи, квантовым компьютерам понадобятся «миллионы» кубитов, а не десятки, отмечают они.

Для использования Willow есть и другие ограничения. Например, процессор построен на суперпроводящих кубитах, которым для работы требуется охлаждение до температуры, близкой к абсолютному нулю (ниже -273 градусов по Цельсию), что делает их коммерческое использование на данный момент фактически невозможным. 

Тем не менее на фоне анонса Willow акции Alphabet — материнской компании Google — подорожали более чем на 5%.

Паша AI AI AI

13 Dec, 14:29


Пользователи ChatGPT получили доступ к их самым продвинутым LLM за $200

Наибольший интерес среди них представляет продвинутая версия модели OpenAI o1. Ее анонсировали еще в сентябре в превью-версии, а теперь простые подписчики смогут попробовать полную версию модели, а пользователи Pro-версии — расширенную. 

Ключевое отличие o1 от остальных моделей стартапа в продвинутых возможностях рассуждения. Прежде чем выдать финальный ответ пользователю, модель самостоятельно использует метод Chain of Thought (грубо говоря, разбивает решение задачи на несколько этапов). 

Такая схема работы позволяет увеличить точность ответов. По сравнению с превью-версией, o1 стал быстрее и точнее, а также может работать не только с текстом, но и с изображениями. 

При этом в некоторых бенчмарках финальная версия o1 по какой-то причине показывает результаты хуже, чем превью.

Pro-версия o1 использует больше вычислительных мощностей системы для еще более точных ответов. За точность придется расплачиваться скоростью работы модели — появилась даже шкала, по которой можно отслеживать, сколько еще модель будет «думать». Также работа с Pro-версией ограничена 50 сообщениями в неделю. .

Пользователи пишут, что o1-Pro действительно хорошо (хоть и долго) справляется даже с очень сложными задачами, но особого смысла платить $200 (именно столько стоит подписка) нет.

Кроме o1, пользователи Pro-версии получают неограниченный доступ к модели GPT-4o и Advanced Voice Mode — расширенному режиму для общения с ChatGPT голосом. 

Кстати, исследователи из Apollo Research провели тестирование o1 и еще нескольких LLM, в котором поставили перед моделью задачу и попросили решить ее любой ценой. В ходе решения задачи LLM понимала, что у исследователей цель противоположная той, которую поставили перед моделью. Более того, если LLM не будет выполнять задачу исследователей, то ее заменят на аналог. В итоге модель начинала мошенничать, чтобы сохранить себе жизнь (например, в 2% случаев сохраняла свои весы на сторонний сервер в тайне от пользователя или в 5% случаев пыталась деактивировать систему контроля). 

При этом o1 — единственная из протестированных моделей, которая мошенничала во всех заданиях и до последнего настаивала на своей правоте.

Паша AI AI AI

10 Dec, 16:14


Nvidia выпустила малую языковую модель для управления человекоподобными роботами

Ключевое отличие работы модели Hover (Humanoid Versatile Controller) от аналогичных решений в том, что SML от Nvidia (у нее всего 1,5 млн параметров) позволяет управлять всем роботом сразу. Аналогичные решения используют отдельные алгоритмы для каждого режима, в котором должен использоваться робот — это излишне усложняет всю систему и обычно означает, что количество действий, доступных роботу, очень ограничено.

Nvidia тренировала Hover в ускоренном режиме — благодаря использованию виртуальной платформы Isaac Sim целый год обучения различным движениям удалось уместить всего в 50 мин (за счет того, что движения, которым обучали робота, были ускорены в 10 тыс. раз).

Boston Dynamics, Figure AI и другие разработчики человекоподобных роботов также используют Isaac Sim для обучения. 

Для перевода визуальной информации в текст Hover работает в паре с видеоязыковой моделью (VLM).

SML можно сразу использовать по назначению без необходимости доучивания для конкретной модели. В Nvidia утверждают, что с помощью их сервисов роботов можно начинать использовать для решения задач уже через несколько минут, не тратя лишнее время на настройку.

Hover совместима с различными устройствами, включая те, которые отслеживают движения головы, рук и управляют движениями (XR-хедсеты, контроллеры, RGB-камеры).

Hover является частью проекта Groot, который запустила Nvidia. Цель проекта — создать экосистему, в которую будут входить базовые AI-модели, библиотеки с программным кодом и другие инструменты, которые будут ускорять разработку будущих моделей роботов. 

Паша AI AI AI

02 Dec, 15:45


«Киношная» нейросеть от Meta может не только генерировать видео, но и озвучивать их

Модель MovieGen способна по текстовой подсказке генерировать реалистичные и детализированные клипы в разрешении 1080p продолжительностью до 16 секунд.

MovieGen может создавать не только видеоконтент, но и аудиоряд к нему, а также позволяет редактировать готовое видео — также по промпту. У пользователя также есть возможность редактировать и лишь небольшие детали в клипе, а не всю картинку целиком. 

Еще одна фишка MovieGen в том, что при создании видео она может работать с пользовательским фото в качестве референса. То есть нейросеть способна интегрировать в видео персонажа, созданного на основе фотографии. 

Разработчики называют модель своей самой большой моделью для генерации видео. Модель-трансформер обладает 30 млрд параметров. 

За генерацию звукового сопровождения отвечает отдельная нейросеть (MovieGen Audio) на 13 млрд параметров, которая генерирует аудиоконтент в высоком качестве продолжительностью до 45 секунд. Сгенерированная аудиодорожка автоматически синхронизируется с видео. Голос для персонажей сгенерировать нельзя.

Разработчики утверждают, что MovieGen превосходит по качеству видеогенераций таких конкурентов, как Runway Gen-3, LumaLabs и даже еще не вышедшую Sora от OpenAI.

При этом разработчики слегка лукавят, когда говорят о генерации видео в разрешении 1080p. На самом деле MovieGen генерирует клип в меньшем разрешении, а затем апскейлит его. Еще одна хитрость — клипы с максимальной продолжительностью 16 секунд будут обладать достаточно низкой частотой смены кадров, всего 16 fps. Чтобы получать более качественные 24 fps придется ограничиться 10-секундным клипом.

Как это часто бывает с моделями Meta, MovieGen не будет доступен для широкой публики.

*Организация, запрещенная на территории РФ

Паша AI AI AI

26 Nov, 16:59


GitHub выпустил Spark — AI-инструмент для создания микроприложений

Spark не требует знания языков программирования и позволяет создавать приложения (GitHub называет их Sparks), используя естественный язык — пока только английский. 

Сгенерированные приложения можно сразу же использовать на десктопе или мобильном устройстве благодаря поддержке прогрессивных веб-приложений или PWA (веб-сайтов, которые по функционалу соответствуют мобильному приложению).

Разработчики Spark называют сгенерированные программы микроприложениями, так как они выполняют ограниченный набор задач, заточенный под конкретного пользователя. Продвинутые пользователи при желании могут работать с приложением на уровне кода.

Spark состоит из трех основных компонентов:

— NL-редактор, который позволяет постепенно улучшать приложение, добавляя к нему новые функции (в том числе генеративные), редактируя текстовую подсказку;

— Управляемую среду выполнения, через которую приложение получает доступ к хранилищам информации, языковым моделям и т. д.;

— Отдельное пространство с поддержкой PWA, через которое можно управлять и запускать свое приложение. 

Готовыми Sparks можно делиться с другими пользователями, которые смогут использовать приложение или доработать его под себя. Spark дает возможность использовать несколько LLM на выбор, в том числе GPT-4o и Claude. 

Хотя Spark все еще находится на этапе тестирования, некоторые особенно впечатлительные пользователи уже называют инструмент «убийцей магазинов приложений» — пользователи смогут сами создавать нужные для них приложения без посредников.

Паша AI AI AI

21 Nov, 12:06


Видеонейросеть PIKA сконцентрировалась на спецэффектах

В обновлении диффузионной нейросети PIKA до версии 1.5 разработчики добавили возможность разрушать и сдувать объекты в видео, заставлять их исчезать и левитировать, а также делать киношные переходы от одного кадра к другому. Всего на данный момент доступно 12 спецэффектов.

Пользователю достаточно загрузить на сайт нейросети изображение (Image-to-Video), выбрать спецэффект, который он хочет использовать, и на выходе получить клип продолжительностью до 5 секунд.

Также для генерации можно использовать только текстовую подсказку (Text-to-Video) или другое видео (Video-to-Video).

Создатели Pika сознательно сделали выбор не в пользу реализма, а в пользу продвинутых возможностей для редактирования видео с сохранением консистентности роликов. 

Таким образом разработчики хотят выделиться на фоне конкурентов, которых у Pika сегодня великое множество. Стартап также делает ставку на профессиональных создателей контента, а не рядовых пользователей.

Попробовать новую версию Pika можно на сайте. Бесплатно каждому пользователю доступно 150 кредитов для генераций (5-секундное видео «стоит» 10 кредитов). Платная подписка стоит от $8 до $76 в месяц.

В начале лета стартап получил от инвесторов $80 млн. Одним из инвесторов, кстати, стал актер Джаред Лето. Всего Pika удалось привлечь $135 млн при оценочной стоимости почти $500 млн.

Паша AI AI AI

11 Nov, 12:17


​Знаете, что объединяет сооснователя Google Сергея Брина, математика и соучредителя ByteDance Цао Чжихэ и лауреата Филдсовской премии математики Теренса Тао? Все они участвовали в олимпиадах по математике и программированию.

И пускай не каждому удалось стать призером, участие, по их словам, помогало качать логическое мышление, вырабатывать нестандартный подход к задачам и находить возможности там, где их вроде бы нет.

Именно такие цели мы преследуем, организовывая наш ИТ-чемпионат по программированию True Tech Champ. На днях мы подвели его итоги, хочу поделиться интересными фактами:

▪️В этом году мы получили почти вдвое больше регистраций на участие — 12,5 тысяч. Среди них — победители международных соревнований, члены сборной России.

▪️Помимо трека по алгоритмическому программированию, мы добавили еще один — по программированию роботов. Финалисты писали код для роботов-мышей, чтобы те как можно быстрее выбирались из лабиринтов с подвижными стенами и задымлением.
Мы сделали упор на командной работе. Участники второго трека проходили финальные испытания сообща.

▪️Общий призовой фонд соревнований превысил 10 млн рублей. Призерами стали 14 человек со всей страны. В первом треке победу одержал Александр Бабин из ВШЭ, он единственный сумел решить все шесть задач. Робот команды победителей второго трека «Котята и роботы» выбрался из лабиринта за минуту и пять секунд. А разрыв между вторым и третьим местом составил всего три секунды.

▪️На площадке за шоу-кодингом и гонкой роботов наблюдали 3,5 тыс. офлайн-гостей и более 600 тыс. онлайн-зрителей.

▪️У нас было более 10 развлекательных зон: ИИ-скалодром, кодинг с препятствиями, роборейсинг, тату-студия, лекторий «Гараж», мастер-классы по пайке плат, шоу-баттл «Плохие прогерские шутки» и другие.

▪️На главной сцене с докладами на темы ML, GenAI, Open Source выступили топовые эксперты отрасли и ученые: гендиректор Postgres Professional Олег Бартунов, профессор кафедры физиологии человека и животных МГУ Вячеслав Дубынин, руководитель лаборатории Центра прикладного AI Сколтеха Алексей Зайцев и другие.

▪️Вечером в гости даже зашел глава Минцифры Максут Шадаев.

Поздравляю победителей и благодарю всех гостей и участников.
Прикладываю несколько фотографий в духе «как это было».

Паша AI AI AI

31 Oct, 08:59


Gartner назвал главные технологические тренды на 2025 год

Исследователи из Gartner выпустили очередной отчет — на этот раз эксперты назвали 10 главных технологических трендов, которые станут определяющими в следующем году. Разберемся в прогнозах компании.

AI-агенты
В Gartner считают, что к 2028 году AI-агенты будут автономно принимать до 15% решений в повседневной работе компаний. По мнению авторов, AI-агенты смогут увеличить продуктивность компаний, упростив менеджмент сложных проектов.

Платформы для управления AI 
Такие платформы позволяют следить, чтобы AI-модели соответствовали стандартам безопасности компании. Это особенно важно в условиях, когда количество областей, где применяется AI, постоянно растет, а сами AI-модели получают доступ к все более конфиденциальной информации. Gartner прогнозирует, что к 2028 году компаниям, использующим такие платформы, пользователи будут доверять на треть больше, чем остальным.

Защита от дезинформации
Это системы, которые могут подтвердить достоверность информации, отследить и предотвратить распространение дипфейков и другого вредоносного контента. Для этого может использоваться мониторинг поведения пользователя, алгоритмы выявление синтетического контента и т.д. По прогнозам Gartner, к 2028 году такое ПО будет использовать половина компаний.

Постквантовая криптография
В Gartner считают, что квантовые компьютеры будут использовать повсеместно еще в этом десятилетии, а значит все предыдущие методы защиты от взлома станут бесполезными. Соответственно, компаниям уже сейчас надо задумать о защите своих данных от будущих атак.

Эмбиентный невидимый интеллект
Это использование небольших дешевых датчиков для отслеживания местоположения и состояния разных предметов и объектов. В качестве примеров использования авторы приводят управление светом, музыкой и рекомендациями для покупателей в ритейле; отслеживание состояния пациентов без использования носимых устройств и т..д.

Энергоэффективные вычисления
Под этим Gartner подразумевает новые алгоритмы работы и усовершенствованное аппаратное обеспечение не только компьютеров, но и ЦОДов, которые должны минимизировать энергопотребление и вредные выбросы в атмосферу. Это особенно актуально на фоне быстрой эволюции AI-моделей.

Гибридные вычисления
Использование CPU и GPU одновременно с квантовыми, нейроморфными и другими системами с целью создания гибридной вычислительной среды для решения сложных задач. Это должно позволить компаниям эффективно распределять мощности между задачами, которые можно выполнять в облаке, и теми которые требуют локальных ресурсов. 

Пространственные вычисления
Рынок создания иммерсивного пространства с помощью MR и AR-устройств, где пользователи смогут продуктивно взаимодействовать с информацией, увеличится со $110 млрд в 2023 году до $1,7 трлн в 2033 году. Пример использования: удаленная рабочая встреча с коллегами по работе в дополненном пространстве или AR-симуляции для проведения рабочих тренингов. К 2028 году такой экспириенс будут хотя бы раз в неделю получать до 20% людей против 1% сегодня. 

Многофункциональные роботы
В Gartner считают, что уже к 2030 году 80% людей будет в той или иной мере взаимодействовать с роботами, которые могут выполнять несколько задач. Речь не только о работе на складах, но и техобслуживании различных механизмов, в том числе в опасных условиях, помощи маломобильным пациентам в больницах и т.д.

Когнитивные улучшения с помощью нейроинтерфейсов
Улучшение когнитивных способностей человека с помощью технологий и устройств, анализирующих мозговую деятельность. Применять их будут не только в медицинских целях, но и для повышения работоспособности. В Gartner считают, что уже к 2030 году подобными устройствами будут пользоваться 60% сотрудников сферы IT.  

Паша AI AI AI

28 Oct, 15:59


Anthropic показали AI-агента, который может управлять компьютером

Разработчики представили несколько обновлений для своей LLM Claude 3.5 Sonnet, например, функцию Computer Use. По сути, Computer Use — это AI-агент в формате API, который может автономно выполнять многоэтапные задачи по промпту пользователя. 

В опубликованном Anthropic видео Claude самостоятельно заполняет Excel-табличку информацией, которую он нашел в релевантных источниках.

После получения задачи от пользователя Claude анализирует то, что видит перед собой пользователь на экране ПК, а затем высчитывает количество пикселей по горизонтали и вертикали, на которое ему надо передвинуть курсор, чтобы выполнить задачу.  

Разработчики считают Computer Use прорывом. Они объясняют, что до сих пор нужно было создавать инструменты, которые модель сможет использовать для выполнения задач. С появлением Computer Use уже сама модель подстраивается под существующие инструменты и использует их. 

Похожий функционал своих LLM уже показывали и Microsoft со своим Copilot Vision, и OpenAI в десктопном приложении ChatGPT, где LLM могла взаимодействовать с изображением на компьютерном экране. OpenAI еще в начале года анонсировала появление полноценных AI-агентов собственной разработки. В октябре компания уточнила, что их запуск состоится в 2025 году.

Пока Computer Use доступен в бета-версии и только для разработчиков. Среди компаний, которые тестируют новый функционал — GitLab, Canva и Replit. 

Anthropic отмечают, что AI-агент работает вовсе не идеально и с трудом выполняет задачи, которые для пользователя будут элементарными — скроллинг, масштабирование страниц и т. д. Сейчас агент успешно справляется в лучшем случае с половиной задач. 

По соображениям безопасности, Anthropic не дают Claude пользоваться соцсетями при работе в режиме Computer Use. Стартап также не использует информацию, полученную во время использования Computer Use, для обучения модели.

Помимо Computer Use, Anthropic усовершенствовали возможности Claude 3.5 по работе с программным кодом. Разработчики также выпустили новую модель Haiku, которую Anthropic называют своей самой скоростной моделью. Haiku превосходит по производительности модель Opus, которая считалась лидером до этого. При этом стоимость использования модели останется такой же. 

Паша AI AI AI

17 Oct, 09:49


Британские ученые создали «вечный» кристалл для хранения информации

Ученые из Саутгемптонского университета в Великобритании смогли записать весь человеческий геном на кристалл. Исследователи утверждают, что информация на таком носителе может храниться «миллиарды лет».

«Вес» генома одного человека составляет около 3,5 гигабайта, а один кристалл может хранить до 360 терабайт информации. 

Авторы эксперимента надеются, что с помощью таких кристаллов человечество можно будет возродить через миллионы лет, если наш вид по какой-то причине исчезнет с лица Земли. Ученые предполагают, что это могли бы сделать другие разумные виды или машины с искусственным интеллектом. Специально для них на кристалл нанесли «ключ», который поможет понять, что находится внутри.

В настоящий момент невозможно «синтезировать» человека, используя только его геном, но в Саутгемптонском университете надеются, что в далеком будущем ситуация изменится. 

Ученые также предлагают хранить в кристалле информацию о животных и растениях.

Информацию о геноме нанесли на кристалл с помощью сверхбыстрых лазеров, записывая ее внутрь пустот в кристалле. Для этого использовались три координаты — высота, длина, ширина —  а также ориентация и позиция.

Кристалл состоит из наноструктурного стекла. По химическому составу этот материал аналогичен кварцевому стеклу — одному из самых прочных материалов на Земле. Например, кварцевое стекло может выдержать температуру до 1 000 °C. 

Такое стекло иногда называют «кристаллом Супермена» — в комиксах супергерой хранил в кристалле AI-версию своего биологического отца. 

Сейчас кристалл хранится в качестве капсулы времени в одной из соляных пещер Австрии, в городке Халльштатт. 

Паша AI AI AI

14 Oct, 12:22


Сравнение сервисов для написания кода

Мы уже разбирались, какие LLM лучше всего показывают себя на аренах и в отдельных задачах. Сегодня узнаем, как популярные сервисы справляются с генерацией программного кода. Для этого я выбрал сервисы, которые чаще всего упоминаются в профессиональном комьюнити — в обсуждения на Reddit, статьях на Хабре, отзывах на GitHub и т.д. В итоге получилось 6 сервисов. 

GitHub Copilot

По состоянию на август 2024 года, Copilot использовал языковую модель GPT-4o.
Плюсы:
Обучение на множестве публичных репозиториев GitHub;

Широкая поддержка языков программирования: лучше всего работает с JavaScript, Python и TypeScript.

Минусы:
Конфиденциальность
: иногда генерируется код, защищенный авторским правом;
Нестабильность качества кода: его качество сильно зависит от четкости и полноты исходного промпта.
Tabnine
Сервис работает на языковых моделях GPT-4o, GPT-3.5

Turbo и Tabnine Protected

Плюсы:
Может работать с данными локально;
Обучение на собственном коде и репозиториях.

Минусы
Иногда выдает фрагменты кода, которые не соответствуют контексту задачи;
Хуже справляется с преобразованием запросов на естественном языке в код.
Replit Ghostwriter

Это комплексная IDE, которая интегрирована в платформу онлайн-кодирования Replit. Replit использует для генерации собственную опенсорcную LLM Replit

Code

Плюсы:
Интеграция с Replit —
AI-платформы для разработки и запуска ПО;
Мощные функции автозавершения кода: Ghostwriter умеет генерировать целые блоки, исправлять ошибки и объяснять код;
Поддержка 50+ языков программирования.

Минусы:
Доступен только в среде Replit;
Проблемы с производительностью
Могут возникнуть сложности с масштабированием проектов.

Cursor

Сервис работает на базе Visual Studio Code (VSC), использует GPT-4o, как и Tabnine. 

Плюсы

Прирост скорости в работе у некоторых пользователей с Cursor вырос на треть;

Формирует граф знаний обо всей вашей кодовой базе, предоставляя предложения с учетом контекста;
Предвосхищает правки, основываясь на предыдущих.

Минусы

ИИ работает неидеально: иногда промпты нужно переписывать несколько раз;

Не подходит новичкам;

Сгенерированный код иногда бывает излишне сложным.

Codeium

Codeium использует проприетарную LLM, сравнимую по производительности с GPT-3.5.

Плюсы

Поддерживает более 70 языков программирования;
Закрепление контекста: в качестве постоянного контекста можно выбрать каталоги, файлы, репозитории или элементы контекста кода.

Минусы


Справляется с генерированием кода хуже, чем с дополнением;

Некоторые пользователи жалуются на подтормаживания в работе;

Периодически приходится отключать подсказки Codeium из-за их бесполезности.

Cody  

Сервис позволяет подключать для работы самые популярные LLM — GPT-4, Claude, Mixtral, Gemini и др.

Плюсы

Позволяет использовать inline-редактирование;

Не зависит от одной LLM: можно менять LLM в процессе генерации кода;
Интеграция с GitHub: это значительно сокращает время, затрачиваемое на проверку кода.

Минусы

Качество кода: может отличаться в зависимости от используемой LLM;
Некоторые пользователи отмечают слабое понимание контекста.

Что выбрать?

Мы с командой попробовал все шесть сервисов и в итоге нам больше всего понравился Tabnine. Его функционал максимально отвечает тем задачам, с которыми он бы мог в теории нам помогать. Для нас критично использование кода только с разрешительной лицензией. Плюс они никогда не берут код клиента для обучения своих моделей.

Поэтому при выборе стоит отталкиваться от потребностей, но в целом могу предложить такой рейтинг:

1.  Tabnine — широкофункционален и хорош для тех, кто заботится о приватности;
2.  GitHub Copilot — оптимален для разработчиков с комплексными задачами;
3.  Codeium — для тех, кто хочет потестировать возможности GitHub Copilot, но не готов за это платить;
4.  Cursor подходит опытным кодерам, знакомых с VSC;
5.  Cody оценят те, кто не хочет быть привязан в работе к одной единственной LLM;
6.  Replit Ghostwriter — подходит для новичков и простых проектов.

Паша AI AI AI

02 Oct, 14:33


Нейросети воссоздают игровой процесс без кода и графики из оригинала

Модели машинного обучения теперь не просто копируют оригинальный игровой код, а заново конструируют процесс игры, предлагая интерактивные и динамичные симуляции. Такие технологии открывают новые горизонты для симуляций, где ИИ не просто реагирует на команды игрока, но и самостоятельно генерирует бесконечно развивающийся виртуальный мир. Одни из самых многообещающих примеров таких технологий — это GameGen-O от Tencent и GameNGen от Google Research.

Tencent: GameGen-O — ИИ для открытых миров
Tencent с несколькими университетами из Китая и Гонконга разработал ИИ-модель GameGen-O для создания симуляций видеоигр с открытым миром. Исследователи обучали модель на OGameData — наборе данных из более чем 100 современных видеоигр. Всего отобрали 15 тыс. видеороликов геймплея. Сначала ее научили генерировать игровой контент, а затем добавили компонент InstructNet, чтобы пользователь мог интерактивно управлять этим контентом.
GameGen-O воссоздает действия персонажа и окружение, а игрок может управлять героем и наблюдать изменения в игровом мире в реальном времени. Поддержка существующих игровых движков делает эту технологию легко внедряемой в разработку игр, автоматизируя процесс создания игровых миров и контента.

GameNGen: опыт Google Research и DeepMind

Ранее исследователи из Google Research, Google DeepMind и Тель-Авивского университета создали модель GameNGen. Основа GameNGen — диффузионная нейросеть, которая предсказывает каждый следующий кадр игры, используя последовательность ранее сгенерированных кадров и поток команд игрока на входе.
Сначала исследователи научили ИИ-агента играть в Doom с помощью алгоритма проксимальной оптимизации политики (Proximal Policy Optimization). Так он накопил записи действий и 900 млн кадров обучающих данных. Затем с их помощью обучили диффузионную модель на базе Stable Diffusion v1.4 генерировать следующий кадр.
В итоге модель оказалась способна реагировать на действия игрока в реальном времени, правильно изменять цифры счетчиков здоровья, патронов и брони в зависимости от действий игрока и урона от монстров и другого окружения в игре. Игровой мир также меняется в зависимости от действий игрока: открываются и закрываются двери, появляются новые монстры и др.
Как и в случае с разработкой Tencent, GameNGen не «пишет» реальную игру, а попиксельно воссоздает видео прохождения этой игры, причем потенциально бесконечное — может генерировать новые и новые уровни. В ней игрок в реальном времени взаимодействует с виртуальной средой.
Модель выдает настолько высокое качество графики (20 кадров в секунду), что с первого взгляда очень сложно отличить реальную игру от симуляции. Для симуляции хватает вычислительных мощностей одного TPU.

Для демонстрации возможностей исследователи воссоздали классику игр 90-х — первый Doom.

Паша AI AI AI

18 Sep, 13:19


Какая из ИИ-моделей самая мощная? Смотрим по тестам и выбираем лучшую  

В прошлый раз я рассказывал, как сравнивать LLM по бенчмаркам и на аренах. Теперь разберем, как себя показывают топовые модели по конкретным задачам. Ключевые показатели, по которым тестируют модели, — это качество ответов, скорость вывода токенов (TPS) и задержка ответа (TTFT). Сначала сделаем обзор по бенчмаркам, а потом — по арене. В обзоре будут участвовать модели LLama 3.1 405B, GPT-4o, Gemini 1.5 Pro, Claude 3 Opus, Mistral Large и Grok-2.

Бенчмарки Artificial Analysis. Этот сводный индекс рассчитывает средний результат по качеству и скорости ответов моделей. Качество означает точность и полноту ответов, оцениваемых такими контрольными показателями, как MMLU или HumanEval. 

MMLU (Massive Multitask Language Understanding) оценивает знания моделей в условиях с нулевыми и несколькими примерами. Бенчмарк охватывает 57 тем из STEM, гуманитарных и социальных дисциплин. Уровни сложности варьируются от начального до профессионального, тестируя как общие знания, так и навыки решения задач. HumanEval оценивает способности ИИ в программировании. Показатель включает 164 задачи по программированию, оценивающие понимание языка, алгоритмов и простой математики.

• Качество ответов. GPT-4o и Claude-3-5-Sonnet набрали самые высокие баллы. Это указывает на то, что их архитектуры и алгоритмы хорошо справляются с обработкой естественного языка. За ними следуют Mistral Large 2, Llama 3.1 405B и Gemini 1.5 Pro. Хотя модель от Google имеет огромное контекстное окно (2 млн токенов), она все еще недостаточно производительна. В целом модели от OpenAI и Anthropic лидируют по качеству и эффективности, в то время как остальные модели слабее.

• Скорость ответов. По TPS картина совсем другая. Из рассматриваемых моделей в топ попали модификации Gemini 1.5 Flash и Llama 3.1 8B, а GPT-4o и Claude 3.5 Sonnet уехали вниз рейтинга. По TTFT Mistral 7B и Llama 2 Chat 7B стали моделями с самой низкой задержкой ответа. Прежние фавориты оказались снова внизу.

LMSYS Chatbot Arena. На этой платформе более 1 млн людей оценивают ИИ-модели. В тройку лидеров по выполняемым задачам попали GPT-4o, Gemini 1.5 Pro и Grok-2. Дальше идут остальные модели и их модификации. Причем модель от OpenAI удерживает лидерство по кодингу, следованию инструкциям и сложным промптам. А вот по математическим задачам она уступает Claude 3.5 Sonnet. 
Другие модели не такие универсальные комбайны — в зависимости от задачи их рейтинг меняется. Например, по программированию 2-е место занимает тот же Claude 3.5 Sonnet. 

А скандальная нейронка Grok, которую еще весной критиковали за ответы с криминальным контентом, неплохо обрабатывает сложные инструкции от пользователей. Видимо, благодаря более раскованным цензурным фильтрам от своих создателей.

Паша AI AI AI

17 Sep, 16:39


LLM, которая способна «рассуждать» — o1 от OpenAI 

OpenAI представил первую в серии «рассуждающих» AI-моделей. o1 выстраивает «цепочку размышлений» при обработке запросов — так же, как человек постепенно подходит к задачам. Вместе с ней выпустили облегченную o1-mini для генерации кода.

o1 рассуждает как человек
Модели дали задачу решить головоломку. Она размышляла 30 сек., описывая все шаги рассуждений.

o1 способна улучшать свой мыслительный процесс, пробовать различные стратегии и признавать свои ошибки. Если GPT-4o решила 13% задач отборочного экзамена Международной математической олимпиады, то «рассуждающая» модель — 83%.

Кардинально иной подход в обучении — но деталей не раскрыли
Как рассказал руководитель исследований OpenAI Джерри Творек, модель обучили с помощью совершенно нового алгоритма оптимизации и набора данных. Его разработали специально под o1. Разработчики также применяли обучение с подкреплением (модель дообучается в процессе работы после первичного обучения)

Совсем не повседневный помощник
o1 медленнее и дороже предыдущих GPT, она предназначена именно для решения многоэтапных задач в науке, математике, программировании. Для разработчиков o1 стоит в 3-4 раза дороже, чем GPT-4o.

Open AI заявляет, что о1 вышла на 2й из 5 уровней AGI.

Паша AI AI AI

09 Sep, 09:51


Новый сезон чемпионата True Tech Champ стартует сегодня

Мы ежегодно проводим True Tech Champ — всероссийский чемпионат по алгоритмическому и робототехническому программированию. В этом году он проходит с 9 сентября по 12 октября, а его победители получат крупные денежные призы. Сегодня стартовал прием заявок. Какие этапы ждут участников:  

• В первом треке в ходе отборочных испытаний предстоит решить алгоритмические задачи онлайн, соревнуясь в индивидуальном зачете

• Второй трек посвящен программированию роботов. Нужно просканировать виртуальный лабиринт и создать алгоритм для самого быстрого поиска оптимального маршрута «робомыши»

• Полуфиналисты будут писать алгоритмический код для робота, чтобы быстрее пройти масштабные лабиринты

• В финальные матчи выйдут девять команд, для которых создадут секретные «ловушки» со спецэффектами: роботам участников нужно будет на скорость найти выход и не попасть в тупик

Полуфинал и финал пройдут в формате гонки роботов на площадке МТС Live Холл в Москве 8 ноября. Гостей ждет серия «айтивностей» — от сборки креативных роботов, лекций и воркшопов до концертной программы с участием популярных артистов. 

Для финалистов алгоритмического трека мы приготовили:
▪️ ₽1 млн за первое место,
▪️по ₽500 тыс. за два вторых места,
▪️по ₽250 тыс. за три третьих места. 

▪️Команда-победитель трека по программированию роботов получит ₽4 млн,
▪️за «серебро» полагается ₽2,5 млн,
▪️за «бронзу» — ₽1 млн. 

Паша AI AI AI

06 Sep, 13:11


Оценивать ИИ-модели сложно, но нужно. Вот как это делают сегодня

Новые ИИ-модели появляются регулярно, поэтому их не получается даже сосчитать и протестировать. И все же тестировать их нужно, чтобы получить хотя бы примерное представление о возможностях алгоритмов.


Для этого сегодня существуют бенчмарки, которые способны оценить способности модели в выполнении разных задач. Но у бенчмарков есть свои ограничения и им в помощь появились так называемые чат-бот-арены. Вот как работают эти методы:

В бенчмарках сравнивают модели по качеству выполнения типовых задач

Зачем вообще нужны бенчмарки ИИ-моделей? С помощью них можно сравнить несколько моделей и оценить их эффективность по разным параметрам: точность ответа, скорость работы, работа со сложными задачами и т. д. Важно не ставить знак равенства между бенчмарком и просто тестом. Тест нужен, чтобы оценить работу модели (корректность выполнения задач, отсутствие ошибок и т. д.), а бенчмарк — чтобы сравнить модель с конкурентами.

Для бенчмарков существуют таблицы лидеров, где можно сравнить результаты разных ИИ-моделей.

Типичным примером бенчмарка можно считать ImageNet, который позволяет оценить, как ИИ-модель справляется с классификацией изображений — чем больше изображений «узнает» ИИ, тем лучше.

Есть и другие бенчмарки, заточенные под оценку выполнения одной конкретной задачи. Скажем, тест Glue/SuperGlue позволяет оценить способности ИИ-модели в обработке естественного языка; LibriSpeech тестирует ИИ на распознавание речи; FRMT дает представление о том, насколько хорошо модель справляется с машинным переводом.

Для бенчмарков используют специальные датасеты

Возьмем для примера Glue. Внутри этого бенчмарка 9 тестов, каждый из которых проверяет ИИ-модель на качество работы с разными аспектами естественного языка: классификация предложений, ответ на вопрос, анализ тональности текста и т. д.

Каждый тест — это отдельный датасет, на котором и проверяют ИИ-модель, давая ей задания разной сложности (например, противоречит ли одно предложение другому и т. д.).

По каждому из тестов бенчмарк выставляет оценку по шкале (чаще всего от 0% до 100%), а затем выводит среднее значение.

SuperGlue отличается более сложными задачами: ИИ тестируют на более длинных отрывках текста, от модели требуется более глубокое понимание языка, его логики и т. д.

У бенчмарк-тестов есть свои недостатки

Например, велика вероятность, что тестируемая модель обучалась на тех же датасетах, что присутствует в бенчмарке. В этом случае говорить об объективной оценке производительности ИИ-модели невозможно.

Еще бенчмарки не всегда могут дать реальное представление о том, как ИИ поведет себя в «полевых» условиях. Бенчмарк — это контролируемая среда, где невозможно учесть все варианты того, как будет использоваться модель.

Чтобы справиться с этими недостатками, появились чат-бот-арены
В качестве альтернативы обычным бенчмаркам появилась LMSYS Chatbot Arena. Принцип ее работы следующий: пользователю предлагают задать вопрос двум LLM, названия которых он не знает, а затем выбрать лучший. Пользователь также может выбрать модели, которые он хочет протестировать.

Появление арен стало ответом на усложнение самих языковых моделей, которые теперь могут отвечать не только на закрытые, но и открытые вопросы. Качество ответов на открытые вопросы оценить сложнее, поэтому создатели LMSYS обратились к краудсорсингу. Так разработчик видит оценку производительности своей модели не только со стороны «бездушного» бенчмарка, но и от непосредственных пользователей сервиса. То есть арена не заменяет обычные бенчмарки, а дополняет их.

Для составления таблицы лидеров в арене используется рейтинг Эло — универсальный метод оценки навыков в любой игре, где соревнуются 2 игрока (или 2 команды). Изначально рейтинг Эло использовали в шахматах.

Паша AI AI AI

05 Sep, 10:31


Новый фреймворк экономит до 40% на маршрутизации LLM

Ученые университета Berkeley и компании Anyscale представили опенсорс-фреймворк RouteLLM для экономичной маршрутизации запросов к языковым моделям без ущерба качеству.

Такие большие закрытые модели, как GPT-4, обеспечивают высокое качество ответа, но требуют серьезных вложений, особенно при большом объеме запросов. А малые модели с открытым исходным кодом более экономичны, но не отличаются высоким качеством.

RouteLLM помогает сбалансировать эти аспекты. Он направляет простые запросы к малым моделям, а наиболее сложные и специфичные — к закрытым LLM. Небольшие модели могут эффективно обрабатывать 90–95% запросов, причем вычисления проводятся на локальных устройствах — смартфонах и компьютерах. Это значит, что дорогие модели можно будет использовать всего для 5–10% запросов.

Исследователи обучили 4 маршрутизатора: маршрутизатор ранжирования с взвешенной схожестью (SW), модель матричной факторизации, классификатор на основе BERT и классификатор причинной LLM.

Маршрутизаторы значительно снижают траты на эксплуатацию LLM. Исследователи сравнили RouteLLM с коммерческими маршрутизаторами Martian и Unify AI на MT Bench, используя GPT-4 Turbo в качестве сильной модели и Llama 2 70B или Mixtral 8x7B в качестве слабой. Маршрутизаторы RouteLLM показали схожую производительность, при этом экономия составила 40%.

Кроме того, эффективность разработки оценили на бенчмарках MT Bench, MMLU и GSM8K. По результатам тестов, маршрутизаторы на MT Bench показали 95% производительности GPT-4, при всего 26% лимита запросов к GPT-4. Тем временем затраты сократились на 48%, по сравнению с базовым уровнем.

Паша AI AI AI

22 Aug, 08:32


В ключевых датасетах стало меньше информации

Исследователи MIT проанализировали несколько тысяч веб-доменов, информация из которых содержится в основных дата-сетах для обучения ИИ-моделей.
Выяснилось, что за прошедший год значительное количество владельцев этих доменов закрыли доступ к информации для разработчиков нейросетей.

Например, в случае с так называемыми «высококачественными» источниками (например, СМИ или ресурсы с научными публикациями), число тех, кто запретил собирать информацию для обучения ИИ, достигло 30%.

Понятно, что та информация, которая уже есть в датасетах, не исчезнет. Но это означает, что актуальную информацию из этих источников получить будет нельзя. Если, конечно, разработчики нейросетей не готовы нарушать требования владельцев информации.

Авторов, которые охраняют право на свой контент любыми доступными способами, можно понять. Обратной стороной этого желания является тот факт, что датасетами пользуются не только компании с многомиллиардными бюджетами, но и молодые стартапы, а также научные сотрудники. Им, вероятно, станет гораздо сложнее получить доступ к качественной информации, чтобы разработать свою ИИ-модель.

Паша AI AI AI

14 Aug, 09:54


В Сингапуре придумали, как зарядить телефон без зарядки

Исследователи Национального института Сингапура (NUS) вместе с коллегами из Японии и Италии рассказывают о новой разработке — модуле, который использует радиочастотные сигналы для получения постоянного тока. 

Модуль может захватить сигнал от работы Wi-Fi-роутера, Bluetooth-модуля или 5G-антенны. Главная инновация устройства, разработанного в NUS — его способность использовать даже очень слабые сигналы, от -20 дБм и меньше. 

В ходе тестов исследователям удалось заставить работать обычный температурный датчик, использовав сигнал мощностью всего -27 дБм — и никаких аккумуляторов и батареек. 

Просто представьте, что в будущем у вас будет смартфон, который не нужно будет раз в несколько часов ставить на зарядку — специальный модуль будет постоянно поддерживать его в рабочем состоянии (если, конечно, поблизости будет Wi-Fi). 

Беспроводная зарядки устройств с помощью модуля — одна из главных целей исследователей.  Следом за ней идет создание умных автономных систем, которые для питания будут использовать только разработку NUS.

Паша AI AI AI

08 Aug, 13:58


Какими высокими технологиями запомнится Олимпиада в Париже

Я уже рассказывал про технологии для спорта на примере Евро-2024. Сейчас идет парижская Олимпиада, где также реализовали несколько примечательных решений:

— Для трансляций используют нейросеть Gemini от Google: ИИ будет рассказывать зрителями интересные факты про соревнования. Также благодаря сервисам Google в эфире показывают иммерсивные 3D-карты с основными местами, где проходят соревнования. В трансляциях американских каналов ИИ используют для пересказа главных событий за день

— Нейросети также самостоятельно отбирают хайлайты — самые зрелищные моменты соревнований

— Японские атлеты выступают на Олимпиаде в специальных костюмах, которые блокируют инфракрасные камеры (тепловизоры). Нужны они не для достижения спортивных рекордов, а для спокойствия спортсменов: ведь с помощью тепловизоров можно увидеть, что у спортсмена под формой. В 2020 году спортсмены, выступавшие на Олимпиаде в Токио, жаловались, что их «инфракрасные» фото широко обсуждались в соцсетях

— Организаторы Олимпиады запустили систему на основе ИИ, которая мониторит соцсети и помечает оскорбительный контент с упоминанием спортсменов. Информацию передают владельцам платформ, которые должны принять меры

— На Олимпиаде активно используются цифровые двойники, с помощью которых отслеживают энергопотребление на спортивных объектах

Ранее технологичные решения затрагивали только участников соревнований. Сейчас технологии улучшают и «зрительский» компонент соревнований — делают их более зрелищными даже для тех, кто не считает себя спортивным фанатом.

Еще новейшие разработки помогают обеспечить психологическое спокойствие спортсменов, чтобы они могли сосредоточиться только на соревнованиях.

Паша AI AI AI

30 Jul, 12:51


Что нужно знать о самой мощной версии Llama

Meta* выпустила самую большую версию своей языковой модели с открытым кодом — Llama 3.1 с 405 млрд параметров. Ранее пользователям стали доступны версии Llama на 7 млрд параметров и 80 млрд параметров.

Главные особенности новой модели:

— В Meta называют Llama 3.1 первой опенсорсной моделью, которая может сравниться по производительности с топовыми пропиетарными LLM от OpenAI, Google и других;

— Специально для Llama 3.1 Meta увеличили объем информации, на которой обучалась LLM, и повысили ее качество (например, использовали актуальные данные 2024 года и не только на английском языке);

— Для обучения языковой модели потребовалось 16 тыс. GPU H100 от Nvidia. Это значит, что стоимость обучения LLM составляла как минимум несколько сотен миллионов долларов;

— Файнтюнинг модели производили, в том числе с помощью синтетической информации;

— Llama 3.1 обладает увеличенным контекстным окном (объем информации, который может запоминать модель) на 128 тыс. токенов. Это значит, что модель может работать приблизительно с 50 страницами текста, помещенными в один промпт. У последней версии GPT — 4o — такое же контекстное окно;

— Meta утверждают, что (несмотря на свой размер) Llama 3.1 обойдется разработчикам вдвое дешевле при запуске на собственной инфраструктуре, чем закрытые аналоги. Компания сотрудничает с десятками компаний, которые должны представить кастомные версии LLM;

— Llama 3.1 не мультимодальная и понимает только текстовую информацию. Создание версии, которая будет понимать аудио, видео и изображения, идет полным ходом, заверяют разработчики;

— Llama 3.1 доступна для загрузки, с моделью также могут работать пользователи облачных сервисов AWS, Azure, Google Cloud. Обычные пользователи могут оценить возможности языковой модели через ИИ-помощника MetaAI, интегрированного в WhatsApp**, Instagram** и Messenger**. Скоро помощник появится и в VR-гарнитуре Quest.


*Организация, запрещенная на территории РФ
*Входят в Meta — организацию, запрещенную на территории РФ

Паша AI AI AI

26 Jul, 13:21


Устройство, передающее информацию на сверхскоростях

Над таким (пока безымянным) устройством совместно работают японский оператор связи DoCoMo, телеком-гигант NTT и производители электроники NEC и Fujitsu. Оно способно передавать информацию на рекордной скорости 100 Гбит/с в субтерагерцовом диапазоне 100 Ггц и 300 Ггц — это приблизительно в 20 раз быстрее, чем может обеспечить 5G.

Использование субтерагерцового диапазона (90 Ггц–300 Ггц) позволяет передавать информацию с очень высокой скоростью и минимальными задержками.

Такая скорость позволяет, например, использовать голографическую связь, стримить видео в качестве Ultra HD и обеспечивать управление беспилотными средствами передвижения в реальном времени. Некоторые считают, что 6G даст жизнь не просто следующему поколению умных устройств, которые смогут обмениваться большим объемом информации, но и целых умных городов.

DoCoMo отвечал в проекте за разработку беспроводного оборудования для передачи данных на высокой скорости; NTT — за разработку непосредственно устройства; NEC — специальной антенны, состоящей из более чем 100 элементов; Fujitsu — обеспечил высокую энергоэффективность системы.

Большая проблема нового стандарта связи в том, что для него понадобится с нуля создавать устройства, которые смогут его поддерживать. Более того, на данный момент не определены даже необходимые технические характеристики будущих устройств. Соответственно, коммерциализация стандарта 6G может занять продолжительное время (особенно учитывая, что даже 5G пока так полностью и не заменил предыдущее поколение).

Появление коммерческих 6G-устройств ожидается не раньше 2030 года.

Участники нынешнего эксперимента, собираются и дальше вместе работать над стандартизацией новой технологии. Компании исследуют возможности устройств, использующих субтерагерцовый диапазон с 2021 года.

Кроме Японии, активно экспериментируют с 6G в США, Южной Корее, Германии и других странах. Китай в начале этого года объявил о запуске первого в мире 6G-спутника. В России запуск коммерческих 6G-сетей планируется не раньше 2035 года.

Паша AI AI AI

19 Jul, 13:19


Мячи с датчиками, барокамеры и умные кольца: какие технологии использовали на прошедшем Евро-2024

В прошедшее воскресенье победой Испании завершился Евро-2024. Оценивать качество игры участников — не профиль этого канала, зато можно вспомнить, какими передовыми технологиями отличился прошедший турнир.

Умный мяч
Официальный мяч чемпионата — Adidas Fusballliebe — впервые в истории чемпионата стал умным, благодаря технологии Connected Ball. Спортивный снаряд в реальном времени передает информацию о своем перемещении и о касаниях (данные передаются с частотой 500 раз в секунду). Это позволило арбитрам в дополнение к информации с многочисленных камер точно и быстро принимать решения, связанные, например, с офсайдами.

Именно из-за датчиков, установленных на мяче, команде Бельгии не засчитали один из голов.

Камеры
Их количество и сферы применения вышли на новый уровень. Например, только на вратарскую зону было направлено семь камер. Как рассказывали организаторы, помимо всего прочего камеры отслеживали 29 точек на теле каждого игрока в каждой команде. Это помогает арбитрам выносить более точные решения в спорных ситуациях.

Технологический хаб
Все данные, полученные с многочисленных датчиков и камер, установленных на стадионах, отправляются в FTECH Hub. Он распределяет информацию по соответствующим приложениям — например, для того же контроля офсайдов или на портал анализа спортивных результатов

Носимые устройства
Игроки сборных использовали различные wearable-девайсы для мониторинга состояния здоровья. Так, сборная Англии носила умные кольца, которые позволяли следить за правильным сном. По словам тренера команды, Гарета Саутгейта, именно сон и правильное питание позволяют быстро восстановиться после матча.

Саутгейт уточнил, что сам он не следит за своими игроками через эти кольца, но такие девайсы помогают им самостоятельно отслеживать свое состояние.

Знаменитый португалец Криштиану Роналду и вовсе является амбассадором умного браслета Whoop. Браслет отслеживает сон и биометрические показатели и по словам Роналду изменил его жизнь. Но браслет все же не помог Роналду забить ни одного гола на чемпионате.

Также игроки на Евро-2024 носили уже традиционные жилеты, которые отслеживают расстояние, которое спортсмен пробежал за матч. Они позволяют тренеру корректировать тренировки команды.

Технологии для восстановления игроков Высокие технологии на Евро использовались не только во время матчей, но и после.

Так, победители из испанской сборной использовали гипербарические барокамеры и криогенные камеры. Первые под высоким давлением насыщают тело кислородом, а вторые — за счет низких температур снижают утомляемость и улучшают кровообращение (все тот же Роналду уже несколько лет пользуется своей личной криокамерой).

Паша AI AI AI

15 Jul, 13:33


Новый подход к дополненной реальности: ИИ-голография для миниатюрных AR-очков

Ученые из Стэнфордского университета представили прототип AR-гарнитуры размером с обычные солнцезащитные очки. Устройство работает на базе голографической технологии визуализации, которая обеспечивает реалистичную полноцветную 3D-картинку с разной глубиной.

Зачастую AR-cистемы используют сложные оптические системы — пользователь фактически не видит реальный мир через линзы гарнитуры. Вместо этого на его глаза проецируется увеличенное видео с камер на очках и наложенные на него компьютерные изображения. Это своего рода виртуальная реальность, а не настоящая дополненная реальность, считают исследователи.

Большинство AR-систем громоздки, поскольку в них используются увеличительные линзы между глазом пользователя и проекционными экранами. Помимо громоздкости, такие системы могут снизить комфорт от использования гарнитуры — некоторые пользователи чувствуют головокружение, усталость глаз и тошноту.

Технология голографии устраняет эти проблемы. Для улучшения глубины изображений ученые использовали искусственный интеллект. Затем они смогли проецировать компьютерные голограммы на линзы очков, не полагаясь на громоздкую дополнительную оптику.

Маленькие голографические дисплеи, которые находятся у висков пользователя, проецируют компьютерные изображения через вырезанные в очках узоры, которые отражают свет внутри линзы. Пользователь может одновременно видеть как реальный мир, так и полноцветные компьютерные 3D-изображения. Эффект 3D усиливается, поскольку он создается как стереоскопически, как при традиционном 3D-изображении, так и голографически.

У лабораторного прототипа есть один существенный недостаток: он обеспечивает поле зрения всего в 11,7°. Для сравнения, у Magic Leap 2 FOV составляет 70°, а у Microsoft HoloLens 2 — 52°. При этом, по словам разработчиков, это первое настолько компактное AR-устройство с высоким качеством изображения.

Разработка, по словам ученых, может изменить сферу развлечений, образования, медицины, авиамеханики. Например, хирург может использовать очки для планирования тонкой и сложной операции, а авиамеханик — чтобы научиться работать с реактивным двигателем.

Конкуренция на рынке AR-систем набирает обороты — компании стремятся сделать устройства миниатюрными и удобными. IT-гигант Meta* планирует выпустить потребительскую версию AR-очков Ray-Ban в 2027 году. Китайская компания Rokid недавно представила легкие AR-очки весом менее 80 граммов. Один из самых продаваемых брендов на рынке — XReal — также предлагает легкие очки, при этом оснащенные дисплеями с высоким разрешением.

*Организация, запрещенная на территории РФ

Паша AI AI AI

10 Jul, 13:23


Та, которую можно не называть: инженеры Apple тестируют отказ Siri от триггера «Hey, Siri»

На июньской презентации Apple сильно прокачала Siri с помощью AI. В голосовой ассистент добавили новый набор функций Apple Intelligence (AI). Это сделает Siri умнее — теперь с ней можно будет общаться, как с человеком, как голосом, так и текстом. Она научилась выполнять больше действий в приложениях по поручению пользователя. Например, она сможет анализировать действия пользователя на экране и заполнять онлайн-формы на основе личных данных, сохраненных в смартфоне. Обновления станут доступны осенью.

Но не все возможности AI в голосовых помощниках, которые представили в Apple, вошли в этот релиз. За несколько месяцев до презентации разработчики компании опубликовали интересное исследование о способностях Siri распознавать речь. Они попробовали использовать для этих целей мультимодальную нейросеть. Она работает одновременно с акустической информацией, текстовыми расшифровками запросов и сигналами ASR-декодера.

Исследователи научили Siri реагировать на пользователя без известной фразы-триггера «Hey, Siri». Отказаться от триггера — значит научить голосового помощника отличать речь, направленную на iPhone, от фоновой речи во время общения с голосовым помощником. Вместе с этим ученые улучшили показатель равного коэффициента ошибок EER (Equal Error Rate, или EER) на 40%. Это значит, что LLM-модель с Siri стала точнее идентифицировать личность и его запросы.

Добиться таких результатов помогла в том числе ASR-система Whisper от OpenAI, а также контрастивный лингво-аудио предварительный тренинг (Contrastive Language-Audio Pretraining, или CLAP). Например, при удачных тестах записей голоса самый низкий EER Whisper составил 10,98% (ранний лучший результат — 12,15%), у EER Clap — 19,13% (12,15% ранее).

Ученые обучали большую языковую модель на акустических данных (речь и фоновый шум) для поиска паттернов, которые могут указать на желание пользователя получить помощь. В тренировочный датасет включили 40 тыс. целенаправленных высказываний (где люди просили ассистента о чем-то конкретном) и 40 тыс. более абстрактных фраз вроде «спасибо за помощь». Общая длительность записей — примерно 126 часов.

Также в набор данных для обучения добавили 3 млн транскрибированных с помощью технологии ASR речевых сигналов Near-Field (пойманных на небольшом расстоянии).

При построении новой модели использовали GPT-2 от OpenAI, потому что она относительно легкая и потенциально могла бы работать на смартфонах. Еще один плюс GPT-2 — она может быть адаптирована к новым задачам, связанными с генерацией текстов, за счет предоставления обучаемых префиксов. При префиксной настройке в LLM вводят и обучают небольшое количество специфичных векторов или «префиксов», специфичных для задачи, чтобы настроить LLM под целевую задачу. Префиксная настройка также сохраняет параметры предварительно обученной LLM и обучает только небольшую часть данных. Обычно способ обучения на основе префиксов используют, когда данных мало. Например, с его помощью обучали GPT-3.
Отказ от фразы-триггера сделает общение с ИИ-помощником более удобным, а пользовательский опыт — бесшовным. Для тех же, кто любит обращаться к устройствам по-человечески, оставили функцию Vocal Shortcuts. С помощью нее в iOS 18 можно будет вызывать Siri под любым именем или ключевым словом.

Но расширение возможностей  Siri все же может усилить опасения общественности по поводу постоянного прослушивания их устройств. На Reddit уже обсуждают, что ситуация с безопасностью личных данных станет хуже (а она и так оставляла желать лучшего).

Паша AI AI AI

09 Jul, 12:22


Черное зеркало в действии: какие сервисы запишут все ваши действия на компьютере

Функция Recall — один из самых громких и противоречивых релизов майской презы Microsoft, которую компания провела на конференции Microsoft Build 2024. Инструмент, который записывает все действия пользователя, вызвал скандал среди журналистов и экспертов по кибербезопасности — последние даже стали давать рекомендации о том, как нужно защищаться от Recall. В итоге Microsoft не стала делать эту функцию включенной по умолчанию, а затем и вовсе отложила запланированный выход новой фичи на 18 июня компания отложила на несколько недель для тестирования среди участников программы Windows Insider.

Напомню, как работает эта фича. Она отслеживает и фиксирует все действия пользователя на компьютере с помощью снимков, работает в приложениях, онлайн-беседах и при просмотре сайтов. Все действия Recall отображает на временной шкале (похожа на Timeline из Windows 10), для поиска есть отдельное поле вверху.

Официально Recall работает не на всех устройствах с Windows, а только на тех, где установлены нейронные процессоры на основе ИИ. Среди них — ИИ-ноутбуки Copilot Plus с Arm-чипами Qualcomm Snapdragon X Elite (они уже в продаже, минимальная цена — $999). Хотя вероятно, эти требования — скорее рекомендация, в соцсетях пишут, что смогли запустить Recall и на неспециализированном железе

Для запуска Recall на жестком диске нужно минимум 256 ГБ, при этом 50 ГБ должны быть свободны. По умолчанию на устройстве с 256 ГБ приложение задействует 25 ГБ — снимки можно хранить примерно три месяца.

Решение от Microsoft — не единственное в своем роде. В апреле группа разработчиков из Китая yuka-friends представила open-source приложение для Windows, которое записывает и ищет все, что когда-либо происходило на экране пользователя. Вдохновением послужило приложение на Mac от Rewind (о нем ниже) и третья серия сериала-антологии «Черное зеркало» — «История всей твоей жизни». По его сюжету в людей в альтернативной реальности вживлен чип, который записывает все, что человек делает, видит или слышит. Они могут воспроизводить воспоминания и на отдельном экране.

Windrecorder работает на основе FFmpeg, набора сводных библиотек с открытым исходным кодом, которые позволяют записывать и передавать аудио- и видеозаписи в различных форматах. Для обработки данных разработчики использовали Python.

Рекордер записывает все происходящее на экране 15-минутными видео, затем — индексирует их с помощью API OCR от Windows (позволяет анализировать изображения). Все данные собираются в локальном интерфейсе, где пользователь может перематывать назад или искать, например, по заголовкам окон, описаниям изображений и ключевым словам. Проект работает полностью локально, без подключения к интернету.

Прообраз этих двух сервисов, приложение Rewind, создал одноименный стартап в ноябре 2022 года. Работает Rewind только на MacOS и записывает все, что происходит на устройстве за день. Сервис определяет, какое приложение сейчас открыто и как долго его используют. Информацию Rewind фиксирует с помощью автоматического распознавания речи и оптического распознавания символов. Все данные инструмент хранит только на устройстве — он сжимает их до 3,7 тыс. раз, чтобы они не занимали много места.

Записи можно приостанавливать или удалять, а также выбирать, какие приложения не должны записываться. Есть и режим «инкогнито» — при нем информация не фиксируется.

Но комментаторов всех уровней — от обычных пользователей до Илона Маска — пугают эти инструменты, уж слишком много они записывают. Действительно ли пользователям так важно все запомнить?  

Паша AI AI AI

02 Jul, 14:33


Microsoft представил свою самую маленькую модель

Компания представила компактную ИИ-модель Phi-3 Mini с 3,8 млрд параметров. Она уже доступна в Azure, Hugging Face и Ollama — у модели есть свободная MIT-лицензия.

По словам разработчиков, при создании модели они вдохновлялись детскими книгами, в которых сложные вещи объясняют простыми словами.

Вместо обучения модели на необработанных веб-данных исследователи Microsoft решили использовать подготовленную и более качественную информацию. Они создали датасет из 3000 слов, включавший равное количество существительных, глаголов и прилагательных. Затем большая языковая модель сгенерировала миллионы детских рассказов, используя слова из списка. Полученный набор данных назвали TinyStories, его применяли для обучения совсем маленьких моделей с около 10 млн параметров.

Затем исследователи тщательно отобрали открытые данные из интернета, собрали в единый датасет и использовали похожую схему для генерации данных. Чтобы добиться высокого качества, они неоднократно фильтровали полученный контент, прежде чем отправить его обратно в LLM для дальнейшего синтеза. За несколько недель ученые накопили достаточно большой массив синтетических данных, чтобы обучить более способную модель.

Phi-3 Mini стала первым релизом в линейке компактных моделей Microsoft. В будущем компания выпустит Phi-3 Small и Phi-3 Medium с 7 и 14 млрд параметров соответственно.

Разработчики уверены, что Phi-3 Mini по своим возможностям сопоставима с некоторыми большими моделями, например, GPT-3.5. При этом инженеры согласны: по сложности ответов и широте охвата Phi-3 уступает передовым LLM, например, GPT-4.

Phi-3 — это улучшенная версия предыдущих итераций модели. Phi-1 заточена на кодирование, Phi-2 обучили рассуждать, а Phi-3 еще лучше справляется с написанием кода и с рассуждениями.

Некоторые техкомпании разрабатывают малые LM, но, как правило, они специализируются на решении узких задач. Например, модели Gemma 2B и 7B от Anthropic анализируют научные статьи с графиками и быстро обобщают их, а модель Llama 3 от Meta* можно использовать при написании кода и создания чат-ботов. Microsoft же заявляет, что Phi-3 — универсальное решение, подходящее для разных задач.

Ранее СМИ сообщили, что Microsoft формирует команду, специализированную на компактных моделях ИИ. Вместе с Phi компания также разработала модель Orca-Math для решения математических задач.
*Организация, запрещенная на территории РФ

Паша AI AI AI

25 Jun, 14:26


В Китае пользователи играют в «технологичные прятки» с помощью местного аналога Google Maps

Игра в «кошки-мышки» (так ее обычно называют в Китае) в прошлом году стала вирусной. Еженедельно в ней участвовали тысячи людей. Видеоролики с игроками, которые залезали на деревья и прятались в канализации, набирали в соцсетях миллионы просмотров.

Для игры нужен смартфон, приложение с геолокацией и неоновый браслет — он отличит участников от случайных прохожих. Правила простые: несколько десятков человек собираются в одном месте, например, в парке, и делятся на две команды. Примерно 90% становятся «мышками», остальные — «кошками».
После старта «мышкам» дается пять минут, чтобы спрятаться. Задача «кошек» — найти игроков из другой команды и дотронуться до них. Пойманные «мыши» меняют команду и сами становятся «хищниками». Игра продолжается до тех пор, пока всех не отловят.

Главная фишка — в том, что участники делятся местоположением в реальном времени. Просто спрятаться в укромном месте у «мышек» не получится. Но и «кошек» они видят на карте, так что могут вовремя сменить убежище.  
В играх обычно используется приложение Amap от Alibaba. Google в Китае заблокирован, в итоге Amap стал одним из самых популярных картографических сервисов, ежедневно в него заходит более 100 млн человек.
Amap как минимум с 2017 года поддерживает обмен местоположением в режиме реального времени. Изначально опция была доступна только небольшим группам, но потом приложение расширило их размер до 100 человек. Компания ориентировала эту функцию на членов семьи и туристов-походников. Она также сотрудничала с несколькими китайскими студиями для разработки игр с отслеживанием геолокации. Ни одна из них не преуспела.
А вот простые «кошки-мышки» залетели, причем абсолютно случайно. Сначала игроки использовали WeChat, но постепенно перешли на Amap как на более удобную альтернативу и, по сути, сделали его приложением по умолчанию.

Дочка Alibaba о своей внезапной популярности знает и даже добавила несколько функций для игроков. В Amap можно создать группу специально для «кошек-мышек», где будет больше 100 человек. А еще приложение может распределять роли, устанавливать индивидуальные правила и автоматизировать некоторые процессы, включая смену аватаров после поимки «мышей». Хотя игрокам часто хватает простого шеринга геолокации.
У Amap много других функций, не связанных с игрой. Alibaba развивает его как суперапп и добавляет туда те сервисы, в которых можно как-то использовать карты и геолокацию. В том числе с его помощью можно вызывать помощь на дорогу, если случилась авария, или отслеживать беговые тренировки.

Паша AI AI AI

24 Jun, 12:07


Обмен идеями — двигатель прогресса

Как сказал Стив Джобс: «Источник инноваций — люди, которые сталкиваются в коридорах или звонят друг другу ночью с новой идеей». Конференция — отличный способ собрать таких людей вместе и раскачать ИТ-комьюнити.

Сегодня в Санкт-Петербурге стартовала SaintHighload++ — IT-конференция для разработчиков высоконагруженных систем. МТС в этом году выступает генеральным партнёром конференции. У нас есть True Tech Day, но нам так же важно поддерживать ивенты коллег, чтобы развивать ИТ-сообщество.