Заголовки пестрят новостями про Грок. Некоторые пишут о его сногсшибательном превосходстве. Решил проверить. Вот не поверите — отложил все дела и стал проверять. Так на меня повлияли ожидания и его PR.
Использовал доступ через Арену. Вот что узнал:
Качество ответа
Результаты по моему любимому тестовому промпту (формирование перечня идей в ответ на сложный вопрос) — средние. Вот, посмотрите сами. Я бы оценил на уровне 4 из 5 возможных. Сильно ниже ожиданий (которые, признаюсь, были подогреты хвалебными публикациями).
Объем контекста «на вход»
Неизвестен. Но промпт на целую страницу А4 взял.
Объем контекста «на выход»
Так себе. Дважды не смог довести до конца список из 12 ответов (1,5 стр А4). С другими промптами на перечни решений/идей ситуация та же самая. Ответ обрывается примерно на 10 идее. Но я тестировал на Арене, возможно, в родном интерфейсе это будет чудо. Однако он очень цепко держит контекст даже на Арене и может продолжить свой ответ (но с каждым следующим ответом дополнение становится все короче и короче).
Удержание контекста в цепочке промптов
Очень, очень хорошее (даже на Арене). Вцепляется как бультерьер и даже на 6-7-м промпте в цепочке «помнит», что отвечал в начале (и даже какой номер имела каждая идея).
Скорость ответа
На Арене — от ниже среднего до приемлемой.
Стилистика ответа и фишки
Обратил на себя внимание какой-то «вкрадчивый» стиль введения и заключения. Не могу точно подобрать слова — но обратите внимание:) Какой-то он «обволакивающий». Или мне показалось? Понимаете, он как будто бы и запрос резюмировал, и первые фразы продающей презентации подготовил. Никогда с таким не сталкивался.
«Для разработки нетривиальных тем курса лидерского обучения, которые будут максимально релевантны и полезны для нашей целевой аудитории — опытных менеджеров с высоким потенциалом, — важно сначала глубоко понять их типичные боли. Эти боли должны отражать реальные вызовы, с которыми сталкиваются такие лидеры, учитывая их опыт, амбиции и контекст быстро меняющейся бизнес-среды. Ниже приведены 12 типичных болей, их острота, а также негативные последствия как для самого менеджера, так и для компании»
Вот такие дела.
По содержательным аспектам — пока, увы, не нашел ничего, что оправдало бы переключение на него.
А вы уже пробовали? Получили сногсшибательные результаты? Пишите!
А если сравнить с другими (это саммари прошлого поста)
DeepSeek: (4/5), на мой взгляд, на уровне GPT-4.
А вот о1 (вот ее ответ) выигрывает по полноте, форматированию и ощущению «исчерпывающих рассуждений».
Ответ ГигаЧат (через Тг-интерфейс). 3,5-4/5. Качество идей, даже в сравнении с ChatGPT-o1, порадовало.
Мой главный вывод
На этой стадии развития технологии, по моему скромному мнению, прорывы маловероятны. Однако некоторые улучшения в отдельных областях (логика, код, решение прикладных задач) вполне возможны. Поэтому для себя, после шума по поводу сначала ДипСика, а потом Грока, я решил, что пора выдохнуть и спокойно использовать то, что и так нравится. Ради интереса раз в месяц тестируя что-то новое:) Всё равно принципиальных улучшений для задач поиска решений задач бизнеса и HR с «новой вау-нейросетью» вряд ли удастся получить.
============
Каталог промптов и кейсов применения нейросетей в бизнесе и HR при принятии решений (30+ кейсов)