ادعا جدید
Deepseek
؛ ۲ برابر سرعت بیشتر برای inference
و کدی که توسط خود deepseek R1
زده شده.توی تستهای بسیاری از کاربران هم این موضوع نشون داده شده.
self improving AI
شخصاً تست نکردم.
با خوشحالی ما به شما کانال 'دستاوردهای یادگیری عمیق(InTec)' را معرفی میکنیم. این کانال تخصصی در زمینه هوش مصنوعی، یادگیری ماشین و یادگیری عمیق فعالیت میکند. اگر به اطلاعات جدید و جذاب در این زمینهها علاقهمندید، این کانال مکانی مناسب برای شماست.
کانال 'دستاوردهای یادگیری عمیق(InTec)' یک بلاگ شخصی با طرز تفکر شخصی است که شما را به دنیای پیچیده یادگیری عمیق هدایت میکند. همچنین، در این کانال تلاشی برای یادگیری زبان Rust نیز صورت گرفته و داکیومنتهای مربوط به این زبان نیز به اشتراک گذاشته میشود.
اگر تمایل دارید نکات و تکنیکهای خاص یادگیری عمیق را بیاموزید و به بحثهای جذاب در زمینه هوش مصنوعی و یادگیری ماشین بپیوندید، به کانال 'دستاوردهای یادگیری عمیق(InTec)' ملحق شوید. همچنین، میتوانید از زیرکانالهای مرتبط نیز استفاده کنید: Core Python @PyHints و Rust @PyRust. منتظر حضور گرم شما در این کانال فعال و پراطلاعات هستیم.
28 Jan, 17:05
Deepseek
؛ ۲ برابر سرعت بیشتر برای inference
و کدی که توسط خود deepseek R1
زده شده.self improving AI
28 Jan, 16:53
28 Jan, 16:38
deepseek
و به سمت ابزارهای آمریکا و اروپا chatGpt3.5
روی متن کتابهایی آموزش دیده بود که از راه غیرقانونی دریافت شده بود یا روی کدهایی که LICENSE
اونها ضد اینکار بود.DeepSeek
راجب تعداد GPU , ...
حقیقت داره یا خیر برای من و شما نباید مهم باشه.deepseek
رو هم نمیکنند روی R&D
هوش مصنوعی.api
و مقالهای که تیم deepseek
منتشر کرده و توییتهای Andrej Karpaty
توی این مدت راجب دستاوردهای deepseek
خیلی دور از ذهن هم نیست.deepseek
اینکار رو کرده تا سهامهایی مثل Nvidia
و ... پایین بیاد و بتونه سرمایهگذاری کنه هم نکتهای هست که بخاطر اون میگویند که deepseek
دروغ میگه.deepseek
خیلی خیلی سودمند بوده و هست.distill
مدل جدید میتونستند گارد و سانسور انجام بدند بخصوص اینکه llama3
و ... این رو در اختیار گذاشته 28 Jan, 15:58
groq
رو دوس دارم بخصوص این ویژگی که بالای ۲۰۰ توکن هم میزنه برای thinking
, ... خیلی عالیه ولی شرمنده chat.deepseek.com
رو استفاده میکنم چون خروجی مدل بزرگتر به مراتب از مدل ۷۰ میلیارد پارامتری بهتره. 28 Jan, 14:32
openweb-ui
رو حل کرده هم مشکلاتم با LM-Studio
tauri
نوشته بودنش. (این پست آپدیت میشه) 28 Jan, 12:14
deepseek
deepseek
یک side project
برای یک تیم در زمینه الگوریتم و محاسبات و مایننگ و ... بوده ؟24 Jan, 10:51
deepseek
فابلیت استفاده همزمان از Search, DeepThink
رو فعال کرده که نتابیج رو چندین برابر بهتر کرده.24 Jan, 07:33
23 Jan, 12:06
crash
کردن باید از اول دوباره کل پیامهارو بفرستم برای کارشناس دیگر و در یک چت دیگر که میشه همون لوپ مشکل ۱ و ۲ X
ارسال شد، X
هم که مجهول پس هیچ راه حلی نیست و خرید بسته اینترنتی و ... بدون استفاده میشه سود 100%
برای شرکت.LLM, AI, ...
هم هستند؛ مشتی تو توی API, MobileAPP
نویسی موندی (چیزی که با ۴ تا تست در میاد) بعد میخوای بری روی مواردی کار کنی که BlackBox هست ؟23 Jan, 10:31
open-webui
هیچ اهمیتی به پارامترهایی که روی مدل Modelfile
توی ollama
گذاشتید نمیده.Settings > General > Advanced Parameters
Admin Panel > Settings > Models > Edit > Advance Params
22 Jan, 22:19
22 Jan, 09:45
22 Jan, 09:37
500
میلیارد دلاری (حداقل) روی زیرساختهای هوش مصنوعی؛ این فقط برای سرور و ... هست طبق متنی که Close/Open AI
منتشر کرده. 22 Jan, 08:50
oh oh
chatgpt
برای DDOS
کردن هر سایتی استفاده میشه کرد.chatgpt
هم درخواستها ارسال میشه مقابله باهاش راحت نیست؛ قطعا تیم close ai
جلوی این رو میگیره ولی به این فکر کنید که همه شرکتهایی که این خدمات رو میدند به احتمال زیاد این باگ رو دارند.21 Jan, 08:21
deepseek r1
commercial use
رو هم داده15 Jan, 17:20
11 Jan, 17:23
26 Dec, 16:30
19 Dec, 13:09
16 Dec, 08:11
15 Dec, 12:28
LCM
LLM
جواب خواهد داد برای تعداد زیادی از تسکها LCM: Large Concept Model
08 Dec, 10:15
07 Dec, 18:34
06 Dec, 08:03
03 Dec, 19:12
Image Processing
Image
کار کردم هیچ موقع یک کتاب یا یک دوره مخصوص پردازش تصویر که شامل همه چیز باشه ندیدم و و احتمال ۹۹٪ هم نخواهم دید.02 Dec, 19:28
LLM
ها که مقدماتی هم هست (بخش سوم)02 Dec, 17:35
QwQ
اومده ۳۲ میلیارد پارامتر داره؛ خیلی هم شباهت داره به deepseek r1
و قطعا خیلیهاتون تا امروز ازش استفاده کردید Query
خیلی ساده هم پیدا شده که اول سوالتون بذارید (برای کد زدن) خروجی مدل Qwen2.5-coder
QwQ
بهبود پیدا میکنه تو بسیاری از سناریوهای مربوط به کد زدن و پرامپت اینه :Analyze the system and then write the code in python
Qwen2.5-coder
استفاده کنید و از نتایج بسیار بهتر لذت ببرید.QwQ
هم بدید خروجیش بهتر میشه و زمان تفکر رو هم پایین میاره برای مدل. 02 Dec, 11:47
28 Nov, 09:12
RSA
هم برای اولین بار شکسته شد.Encryption
جدید و قویتر27 Nov, 18:52
chatgpt 4o, mistral ai, deepseek r1
Python
هست (چون دوستان پرسیدن زبانهای دیگه چطوری هست؛ مخصوصا Rust, C
گفتم اعلام کنم؛ من برای Rust
دائما از Qwen2.5-coder 33b
استفاده میکنم)code contribution agreement
یک چندتا نمونه از بخشهاش رو پیادهسازی میکنم و باقی موارد رو میدم به این مدلها ازشون پیادهسازی میخوام و اما نتایج :mistral ai
:chatgpt 4o
:mistral
کمتر هست.syntax
شما رو رعایت نکرده (مثلا بجای کلاس؛ همرو با تابع مینویسه و ...)memory full
میخوره و حتی اگر به اون هم نخوره خیلی زود code contribution agreement
رو فراموش میکنه.deepseek r1
:syntax
رو رعایت کرده توی تستهای من.dependency
های زیاد خوراکش هست (تعداد مسیج روزانهاتون رو خرچ سوالات ساده و کدهای کوچیک نکنید.)contribution
رو همیشه رعایت میکنه؛ مثلا از دیروز بهش گفتم کد بدون تست نباید تحویل بدی؛ همواره داره تست نویسی رو هم انجام میده (بیش از ۸۰ پیام از اون پیام تست نویسی گذشته) 26 Nov, 17:59
open-source
منتشر خواهد شد. 26 Nov, 17:49
Deepseek R1
Deep think
رو روی سایت فعال کنید و باهاش کد بزنید؛ بذارید تصمیم بگیره که بهترین طراحی و ... برای کد شما چیه chatgpt, mistral
(نسخههای جدید) رو بهش میدم و میگم کدهاشون رو review کنه و بهبود بده.preview
هست.24 Nov, 12:07
24 Nov, 12:05
EaGame
بزنید و ببینید چه کارهای خفنی که نمیکنند. 21 Nov, 09:03
ML Engineer
توی رزومه، باهاش مصاحبه میکنم Prompt Engineer
میری جلوتر میبینی از Enginner
بودنش هم سوادی نداره Prompt Engineer
اسم خوبی نیست یک چیزی بذارید که توش Engineer
نباشه 16 Nov, 21:42
MIT
هم اومده بسیار جذابهها (نه برای پروداکشن البته؛ حداقل فعلا نه). 15 Nov, 14:13
15 Nov, 14:12
from adopt import ADOPT
#optimizer = Adam(model.parameters(), lr=1e-3)
optimizer = ADOPT(model.parameters(), lr=1e-3)
13 Nov, 18:06
Rust
انجام دادم. 08 Nov, 20:25
open source
سعی نکنید سو استفاده کنید. 08 Nov, 18:09
Pull Request
AI
رو هم داره خراب میکنه open source
هم گذاشته.06 Nov, 07:36
04 Nov, 08:47
29 Oct, 19:40
28 Oct, 09:25
27 Oct, 10:17
AI
کار میکنند و سطح Senior (با توجه به لینکدین) API
هوش مصنوعی شرکتهای خارجی استفاده میکند.v
alidate کنید این مسیری هست که ما رفتیم : 24 Oct, 21:07
۷۰٪
سوالاتی که توی چندماه اخیر (بعد از راهاندازی @PyRust ) پرسیدید رو جواب میده و خیلی هم عالی :PyData
اخیر سخنرانی خوب کم نداشت واقعا 22 Oct, 20:28
Rapids
توی شرکتی که اون زمان کار میکردم گفتم.cuGraph
هم صحبت کردم.networkX
سالها طول میکشهcuGraph
و پردازش تا 300x
سریعتر شد؛ قطعا بیشتر هم میشد ولی نیاز به اپتیمایز کردن نبود.18 Oct, 20:56
BitNet.cpp
efficiency
بالا مدلها رو میبره روی 1bit برای inference
داستان اونجایی قشنگ میشه که خیلیها دارن مدلهای 70B
رو باهاش میبرن روی لوکال و CPU
اجرا میکنند.07 Oct, 12:26
06 Oct, 10:15
04 Oct, 20:46
02 Oct, 18:54
02 Oct, 18:42
25 Sep, 23:58
chatgpt
روشون گزارش گرفتم؛ ۵-۶ مورد توسط متخصص تایید شد و باقی هم اشتباهاتش در اومد.llama3.2 90B
روی این تسک خیلی خوب نبود؛ وقتی بهش میگم جوابت رو توضیح بده شروع میکنه اشتباه کردن و یا حتی جواب اول رو تغییر دادن.allenai/Molmo
meta
ولی هنوز روی تصاویر مربوط به چارت و گراف و آنالیز تخصصی hallucination
بالایی داری شاید ورژنهای بعدی.1B
رو تست کردم). روی تسکی که توی ماه قبل برای تمیز کردن داده داشتم تست گرفتم و نتایجش از هر سه مورد Phi3, Gemma, Qwen2
بهتر بود. (یادم نبود این تسک رو روی Qwen2.5
هم تست کنم)Flux-Dev --> Image generation.
Molmo --> general vision tasks.
Llama3.2 1B and 3B --> Data cleaning (small model).
Qwen2.5 32B --> General use cases.
Qwen2.5-coder & yi-coder & deepseek-coder-v2 --> coding
Qwen2.5-coder 32B
قطعا با deepseek
خدافظی میکنم ولی تا اون موقع باشه شاید لازم شد. 25 Sep, 21:22
24 Sep, 10:27
Rocky Linux
و ترکیبش با آخرین نسخه nvidia-driver
که منتشر شده مشکل sleep
حل شده طبق بحثهای فروم راکی (البته ۹۹٪ این مشکل رو نداشتند؛ روی تنظیمات و سختافزارهای خاصی این مشکل دیده میشده)etc/default/grub
اضافه کردم رو پاک کردم و فقط ۲ مورد مربوط به غیر فعال کردن nouveau
رو نگه داشتم:nouveau.modeset=0 rd.driver.blacklist=nouveau
sleep
میشد و همه چیز عالی بود.sleep
نمیشد؛ هیچ لاگ بدردبخوری هم نمیوفتاد.GPU Acceleration
) پس اومدم برنامههای اصلی رو تک تک باز کردم باهاشون یک مقدار کار کردم و sleep
زدم و همه چیز درست بود.Telegram Desktop
و رفتم:Setting > Advance > Performance
Hardware Acceleration, OpenGL
فعال بود که اصلا نمیدونم برای چی ؟ من با این فقط ۴ تا پست متنی مینویسم برای کانالها و هیچ چیز دیگری هم روش ندارم؛ خلاصه که بعد از غیرفعال کردن این ۲ مورد مشکلات حل شد.22 Sep, 16:45
SS7
خیلیها متوجه نمیشوند، برای همین همیشه با پیدا کردن مکان دقیق، تا ۵۰ متر این مورد رو مثال میزدیم. (وقتی میگفتند توی اعتراضات گوشی با خودتون نبرید، یا سیمکارت نداشته باشید و ... دقیقاً برای همین بود) Veritasium
(که شخصاً خیلی سال هست دنبال میکنم، قبلاً توی @pytens هم صحبت شده راجبش) با جزئیات و تاریخچه درمورد این نوع حملات صحبت کرده و حتی دمو هم انجام میدهend2end encrypted
رد و بدل کنید Signal گزینه خوبی هست.encrypted
بفرستید.two factor authentication
از ابزارهای مخصوص اینکار استفاده کنید مثلاً: Microsoft Authenticator, ...
21 Sep, 08:30
19 Sep, 14:16
Rust
کار میکردم؛ البته بیشتر برای یادگیری داشتم میخوندم و این ۲ مدل رو با chatgpt
مقایسه کردم؛ به همه مدلها دسترسی به اینترنت دادم برای سرچ زدن و البته برای مدلهای لوکل از duckduckgo
استفاده میکردم.context-length
مدل رو روی همون 8K
نگه داشتم.Rust
هم آموزش دیده خیلی راحت جواب میداد؛ qwen2
جاهایی رو اشتباه میزد مخصوصا وقتی مثال نزدیک بهش توی داکیومنت یا سرچ پیدا نمیکرد. اما نسخه 2.5
موردی نبود که نشه جواب بده خیلی جالب بود که وقتی مثال خوبی هم پیدا نمیکرد بر اساس توضیحات میتونست خودش مثال هم بزنه (دسترسی به سرچ رو میبستم و ازش میخواستم مثال بزنه) مدل chatgpt
هم همینکار رو میکرد اما مثالهای سختتری میزد lifetime
ازش سوال پرسیدم اما مثالی که تحویل داد ترکیبی از lifetime, generic
بود و وقتی گفتم با مفهوم دوم آشنا نیستم و مثالی بزنه که فقط lifetime
توی حالت خاصی که پرسیدم رو توضیح بده؛ یک مثال ساده زد که دیگه اون قوانین lifetime
رو نداشت.chatgpt
کمتر میشد هم نتایج بهبود پیدا میکرد ولی بطور کلی من امتیاز این بخش رو به qwen2.5
میدم.chatgpt
کمی با احتیاط پاسخ میداد (یک سری سوالات جزئی دیگر هم پرسیدم که مجبورش کنم جواب دقیقتر و بیپرده بده ولی با اینکه با توجه به fact
ها باید یک طرف رو انتخاب میکرد اینکار رو نکرد)qwen2.5
نبود و راحت تر میشد ازش جواب بر اساس دیتا گرفت (البته این مدل هم سانسور شده هست ولی به سوالات عمومی بر اساس دیتا راحتتر جواب میده)qwen2.5
روی سوالات بالا داشتم کم بودن context-length
بود؛ چون گزارش شده بود که مدل 32
میلیارد پارامتری عملکرد بهتری از chatgpt 4o-mini
داره برای همین منم از 32b
استفاده کردم بجای 7b
و مجبور شدم روی 8K context
بمونم.chatgpt o1
خواهد بود بدون شک.qwen2.5-coder
فعلا فقط مدل 7b
منتشر شده؛ و منم مستقیم رفتم سر وقت باگهایی که توی کدهای Rust
داشتم میگرفتم؛ خیلی سوالاتم سخت و پیچیده نبود شاید (چون تازهکار هستم توی Rust
و نمیتونم ارزیابی کنم سطح کدها رو) و تمام موارد رو با روش ۵ مرحلهای که چندشب پیش گفتم ارزیابی کردم.qwen2.5, qwen2.5-coder
قدرتشون توی دنبال کردن دستورالعملها بود.qwen2.5-coder 32b
هستم برای استفاده روزمره.70b
آپگرید کنم 🧐 18 Sep, 20:41
18 Sep, 20:11
17 Sep, 09:47
17 Sep, 09:17
chatGpt o1
رو پیادهسازی میکنه و شاید باعث سورپرایز شما هم بشه اما واقعا این روش باعث شده نتایج بسیار بهتری داده بشه توسط مدلها؛ llama3.1, gemini flash, qwen2, chatGpt-4omini
history
برای مرحله بعدی ارسال میکنی.chatGpt-o1
داره 15 Sep, 15:31
llm
استفاده میکنی چون نسخههای local
به chatgpt, sonnet , ... نمیرسه