شما درخواست دادید :
این ۳ تا مدل رو باهم مقایسه کردم (غیر لوکال)
chatgpt 4o, mistral ai, deepseek r1
تمام مواردی که میگم روی
Python
هست (چون دوستان پرسیدن زبانهای دیگه چطوری هست؛ مخصوصا
Rust, C
گفتم اعلام کنم؛ من برای
Rust
دائما از
Qwen2.5-coder 33b
استفاده میکنم)
به هیچکدوم از مدلها هم تسک پیچیده ندادم؛ که برو ۰-۱۰۰ این پروژه رو بزن و بیار؛ اما تسکهای کوچیک زیاد بوده؛ استانداردهای کدهام رو مکتوب میکنم همون
code contribution agreement
یک چندتا نمونه از بخشهاش رو پیادهسازی میکنم و باقی موارد رو میدم به این مدلها ازشون پیادهسازی میخوام و اما نتایج :
mistral ai
:
توی تمام موارد عملکرد نسبتا خوبی داره؛ اما بیش از حد تایپ میکنه.
بعضی وقتا بطور کامل راهحل درست رو میگه یا اینکه چطوری باید پیادهسازی کنید و ... ولی بعد خودش توی پیادهسازی فراموش میکنه و دقیقا کدی که ورودی بهش دادید رو برمیگردونه.
توی کدهای کوچیک (تک فایل و زیر ۲۰۰-۳۰۰ خط) مشکلی نداره و همه چیز درست هست.
سعی میکنه syntax کاربر رو هم تا جایی که میشه رعایت و دنبال کنه.
سرعت پاسخ خیلی خیلی بالایی داره.
chatgpt 4o
:
هیچ جواب اضافه ای نمیده؛ بخصوص اگر اولش بهش گفته باشید و یک راست میره سر اصل مطلب و نکات مهم.
به شرط پرامپت خوب و کدهای کوچیک عملکرد خیلی خوبی داره.
سرعت پاسخش کمی از
mistral
کمتر هست.
اما ۳ تا مشکل اساسی من باهاش دارم:
۱- کلا کد بزرگ رو درست نمیفهمه؛ چندتا مازول رو کنار هم بذاری و ازش چیزی بخوای.
۲- اگر کد بزرگ رو بفهمه و بهت جواب هم بده؛ جوابش توی بیش از ۸۰٪ مواقع بدرد نمیخوره درست هست ولی
syntax
شما رو رعایت نکرده (مثلا بجای کلاس؛ همرو با تابع مینویسه و ...)
۳- خیلی زود به
memory full
میخوره و حتی اگر به اون هم نخوره خیلی زود
code contribution agreement
رو فراموش میکنه.
اما بطور کلی اگر چیزی رو درست جواب بده و بخواد راهحلش رو توضیح بده خیلی روان و صریح توضیح میده که اگر موضوع کد نبود بنظرم برنده بود.
deepseek r1
:
حتما؛ حتما؛ حتما حتی شده در نهایت کدها رو بهش میدم و ازش میخوام ایراداتش رو بگیره یا اگر چیزی رو با استاندارد رعایت نکردم بهم بگه.
زمان پاسخش بخاطر مرحل تفکر؛ از باقی موارد بالاتر هست ولی بطور کلی توی کدهای بزرگ همزمان خروجی نهایی رو میدهند.
همیشه و در همه شرایط
syntax
رو رعایت کرده توی تستهای من.
فایلهای بزرگ و
dependency
های زیاد خوراکش هست (تعداد مسیج روزانهاتون رو خرچ سوالات ساده و کدهای کوچیک نکنید.)
قوانین
contribution
رو همیشه رعایت میکنه؛ مثلا از دیروز بهش گفتم کد بدون تست نباید تحویل بدی؛ همواره داره تست نویسی رو هم انجام میده (بیش از ۸۰ پیام از اون پیام تست نویسی گذشته)