چرا دیپسیک همه رو انگشت به دهن گذاشته و موجب ریزش یک روزه 18 درصدی مارکت کپ ۲ تریلیون دلاری انویددیا شده و دیگر شرکت های فناوری مرتبط را هم با چنین وضعیتی مواجه کرده.
در ابتدا ی مقدار توضیح زمینه ای:
فعلا فرایند آموزش مدلهای AI به شدت پرهزینهست. شرکت هایی مثل OpenAI Anthropic و ... بیشتر از ۱۰۰ میلیون دلار فقط برای محاسبات خرج میکنند فلذا نیاز به مراکز داده بسیار بزرگ با هزاران GPU چهل هزار دلاری دارند. درست مثل اینکه یه نیروگاه برق بسازی برای راهاندازی ی کارخانه.
حالا DeepSeek اومده گفته من همه این کارها رو با ۵ میلیون دلار انجام میدم! و در حقیقت نیز این کارو انجام داده!
و بهمین دلیل مدلی که بکار گرفتن تونسته در تسکهای زیادی GPT-4 و Clause را شکست بده و همین مساله باعث شگفتی دنیای هوش مصنوعی شده.
چطور این کارو انجام دادن؟
همه چیزو از اول بازاندیشی کردن.
بعنوان مثال، مدل های سنتی هوش مصنوعی هر عددو با ۳۲ اعشار مینویسند ولی دیپسیک گفته چرا با ۸ تا ننویسیم؟ تقریبا همون قدر دقیقه! و این یعنی۷۵٪ کاهش در حافظه مورد نیاز!
بعد رفتن سراغ سیستم Multi token
مدل های نرمال هوش مصنوعی مثل یه بچه کلاس اولی میخونن: « بابا .... نان .... داد»
ولی دیپسیک کل جمله رو یکجا میخونه با سرعت ۲ برابر و دقت ۹۰٪! حالا وقتی قراره میلیاردها کلمه رو تحلیل کنی این خیلی مهمه!
ولی بخش هوشمندانهشون اینه که ی چیزی ساختن مثل «سیستم تخصص»و به جای اینکه یه AI غولآسا همه چیزو بدونه (مثل شخصی که هم دکتر باشه هم مهندس، هم جامعهشناس و ... )، فقط از متخصصینی استفاده میکنن که در مواقع نیاز فراخوان میشن.
بنابراین در مدلهای نرمال و سنتی هوش مصنوعی تمام ۱.۸ تریلیون پارامتر در لحظه فعالند.
و اما دیپ سیک در مجموع ۶۷۱ بیلیون پارامتر داره که ۳۷ بیلیونش در لحظه فعالن!
مثل این میمونه که تیم بزرگی داشته باشی ولی فقط اونی رو صدا بزنی که الان برای یک کار خاص بهش نیاز داری.
نتیجه حیرتانگیزه: هزینه آموزش مدل 5میلیون دلار در مقایسه با رقم 100 میلیون دلاری ChatGPT!!! و تعداد GPUدو هزار در مقابل صد هزار!! هزینه API نود و پنج درصد ارزونتر!!
جالب اینکه دیپ سیک میتونه روی کارت گرافیکهای گیمینگ هم ران بشه بدون نیاز به سختافزار مرکز داده!
قسمت جذاب داستان اینه که همهش اُپِن سورسه! همه میتونن کارشونو بررسی کنن. کدش عمومیه. راهنمای تکنیکال همه چیز رو توضیح میده. جادو جنبل نکردن، صرفا هوشمندانه مهندسی کردن.
چرا این مهمه؟
چون این فرض که «فقط کمپانیهای بزرگ میتونن توی عرصه AI بازی کنن» باطل میکنه!
برای انویدیا این ترسناکه! کل مدل بیزنس انویدیا بر مبنای این بود که با مارجین ۹۰ درصد GPU های گران قیمت بفروشن. حالا اگر همه بتونن با GPUهای گیمینگ مدل هوش مصنوعی بسازن، تکلیف انویدیا چی میشه؟!
ضربه نهایی این بود که دیپسیک این کارو با تیمی کمتر از ۲۰۰ نفر انجام داده! در حالیکه هزینههایی که متا برای حقوق کارکنانش میپردازه از کل بودجه آموزش دیپسیک بیشتره و مدلشون هم به این اندازه خوب نیست!
یه داستان کلاسیک از شکستن وضع موجود:
عواقبش چشمگیره:
- دسترسی به توسعه هوش مصنوعی بیشتر میشه
- رقابت به شدت افزایش پیدا میکنه
- «سنگر»های بزرگ شرکتهای تکنولوژیک مثل دستاندازهای کوچیک جلوه می کنه.
- نیازهای سختافزاری و هزینهها به شدت کم میشه.
البته غولهایی مثل OpenAI و Anthropic بیکار نخواهند نشست. احتمالا همین الان هم شروع کردن به استفاده و به کارگیری این ابداعات. ولی غول بهرهوری از چراغ جادو اومده بیرون. دیگه نمیتونی برگردی به دورانی که مدام سختافزار اضافه کنی.
به نظر میرسه این لحظه از اون لحطه هاست که بعدا به عنوان نقطه عطف بهش نگاه خواهیم کرد. درست مثل زمانی که PCها، کامپیوترهای بزرگو از رده خارج کردن، یا محاسبات ابری همه چیزو تغییر داد.
هوش مصنوعی قراره باز هزینه بسیار کمتر و به مقدار بیشتری در دسترس قرار بگیره.
اکنون دیگه سوال این نیست که آیا این باعث تغییر زمین بازیگران بزرگ این عرصه میشه یا نه، بلکه پرسش اصلی اینه که با چه سرعتی این کارو میکنه.