Мне всегда было сложно оценить, насколько мощна та или иная LLM модель, т.к. большинство задач были либо слишком простые и решались всеми, либо слишком сложными, и не решались никем.
В результате я прошу модель написать код, который разбивает слова (и предложения) по слогам, так чтобы пройти 15 тестов из таблицы внизу. И вот все утро я пробую разные варианты, и смотрю, у кого сколько из 15 получается.
Тесты закинул в комменты, потом добавлю еще кейсов.
Результаты получились такие:
upd: по совету @vitalypavlenko попробовал Claude sonnet (claude-3-5-sonnet-20241022) в курсоре с агентами - мгновенно выдал результат 14/15, потом сразу 15/15
✅✅✅✅✅✅✅✅✅✅✅✅✅✅✅
Claude sonnet (claude-3-5-sonnet) в курсоре с агентами - Мгновенно выдал результат 13/15, потом 14/15, потом 15/15
✅✅✅✅✅✅✅✅✅✅✅✅✅✅✅
Вчера я потратил с ним час, и он еле добрался до 14/15
Gemini 2.0 flash - Мгновенно выдал результат 13/15
Самый короткий и простой код
✅✅✅✅✅✅✅✅✅✅✅✅✅⛔⛔
ChatGTP O1 - Думал 4:32, результат 13/15
✅✅✅✅✅✅✅✅✅✅✅✅✅⛔⛔
Claude sonnet - Мгновенно выдал результат 4/15
✅✅✅✅⛔⛔⛔⛔⛔⛔⛔⛔⛔⛔⛔
Но пожаловался, что нагрузка велика, поэтому он выдает плохие ответы
ChatGPT 4O в курсоре выдал 4/15, запустил тесты, переделал, запустил тесты, завис, переделал, и попал в странный цикл, где он ничего не менял, но постоянно запускал тесты
✅✅✅✅⛔⛔⛔⛔⛔⛔⛔⛔⛔⛔⛔
Но пожаловался, что нагрузка велика, поэтому он выдает плохие ответы
| Word | Hyphenation
|-------------------------|-----------
| мама | ма-ма
| страна | стра-на
| мама, папа | ма-ма, па-па
| ёлка | ёл-ка
| стрст | стрст
| рукавом? | ру-ка-вом?
| тропинку | тро-пин-ку
| завесила. | за-ве-си-ла.
| грустно | груст-но
| собеседование | со-бе-се-до-ва-ни-е
| инфраструктура | ин-фра-струк-ту-ра
| восстановление | вос-ста-нов-ле-ни-е |