Раньше я пробовал голосовой режим в ЧатГПТ бесплатной версии. Не помню, когда это было. Но было как-то не очень, например, он делал элементарные ошибки при произнесении французских слов, типа произносил "s" на конце в слове "chaussettes" (носки). Не помню, какие были еще ошибки и неудобства, но от идеи его использования я сразу отказался, было слишком плохо.
В декабре в комментариях писали про продвинутый режим, который появился позже и доступен в платной версии. Я хотел его попробовать, но потом я болел, а потом меня выбило из изучения языка. А потом я думал, какую страну указывать в billing address, т.к. сказали, что в Европе этот режим не работает. Только сегодня я решил все-таки все выяснить, оплатить и попробовать. Оказалось, что в Европе уже работает.
Разница между бесплатным и платным голосовым режимом просто огромна, примерно как между gpt3.5 и gpt4.
Моментальная реакция. (Обычный режим долго тупит, прежде чем ответить.)
Он может менять скорость речи - медленнее, быстрее.
Его можно перебивать.
Понимает намного лучше. Помню, бесплатную версию я просил перевести фразу "я купил хомяка", а он мне говорит "поздравляю с покупкой!". Не то чтобы он совсем не тупит, бывает, конечно, но стало сильно лучше.
Я просил его перевести всякие фразы типа "мне надо одеться и выходить", "сыну надо делать уроки, но он спит", "носки лежат на диване". Работает офигенно.
Старая версия работает через текст. То, что вы говорите, сначала переводится в текст, затем скармливается модели GPT, получается текст ответа, и этот текст преобразуется в звуки. Короче, теряется много контекста - эмоции, скорость, число говорящих и т.п. Новая модель работает как-то по-другому. Вот, например, из этого видео видно, что он спокойно ведет диалог с двумя людьми, понимая, кто из них кто.
Попробовал я поработать с произношением.
Например, слова "paume", "pomme" произносятся для русского уха одинаково, но для французов они разные.
Я попросил, чтобы он произнес три слова в разном порядке. Например, paume/pomme/paume или pomme/pomme/paume, чтобы я учился их определять на слух. А тут сразу обнаружилось множество проблем. Почему-то он всегда произносил их в одном порядке: pomme/pomme/paume. Я так и сяк просил его поменять порядок, он говорил "хорошо" и затем выдавал в том же порядке. Другая проблема в том, что какой бы ответ я ему ни дал, правильный или неправильный, он всегда говорил "хорошо, вы все правильно определили". Я подумал, может быть, я просто не могу их различить. Попробовал на английском со словами sink/think, их-то я точно различаю, но результат оказался таким же. Итог - с произношением пока он особо помочь не может.
Продвинутый голосовой режим не получится мучать 24 часа в сутки, лимит 1 час в день. За 20$ в месяц это, конечно, неплохо (и даже очень хорошо), но хочется больше.
Обратная связь. Я спрашиваю его какую-то фразу, потом пытаюсь повторить. Он всегда говорит "хорошо, вы все верно произнесли", даже если я точно знаю, что не произнес артикли. Есть надежда, что это лечится какими-то продвинутыми промптами, но не уверен.
Кстати, вопрос. Каждый раз объяснять ему, что я от него хочу и какая его роль, будет утомительно. В Claude на этот счет есть проекты, где можно прописать инструкции. А тут есть какое-то решение? Записать промпт и копировать его вручную в каждый новый чат?