Tensorflow(@CVision) @cvision Channel on Telegram

Tensorflow(@CVision)

@cvision


اخبار حوزه یادگیری عمیق و هوش مصنوعی
مقالات و یافته های جدید یادگیری عمیق
بینایی ماشین و پردازش تصویر

TensorFlow, Keras, Deep Learning, Computer Vision

سایت دوره
http://class.vision

👨‍💻👩‍💻پشتیبان دوره ها:
@classvision_support

Tensorflow(@CVision) (Persian)

آیا به دنبال اخبار و مقالات جدید در حوزه یادگیری عمیق و هوش مصنوعی هستید؟ اگر پاسخ شما بله است، کانال تلگرام Tensorflow(@CVision) مناسب‌ترین انتخاب برای شماست. در این کانال، شما می‌توانید مقالات و یافته‌های جدید در زمینه یادگیری عمیق، بینایی ماشین و پردازش تصویر را بیابید. از TensorFlow و Keras گرفته تا Deep Learning و Computer Vision، تمامی اطلاعات مربوط به این حوزه‌ها در این کانال در دسترس شماست. برای دسترسی به دوره‌های آموزشی بیشتر، می‌توانید به سایت http://class.vision مراجعه کنید. همچنین، در صورت داشتن هرگونه سوال یا مشکل در تحصیلات خود، با پشتیبان دوره‌ها به آدرس @classvision_support در ارتباط باشید. همراه با کانال Tensorflow(@CVision)، به دنیای جدیدی از دانش و فناوری وارد شوید.

Tensorflow(@CVision)

19 Feb, 17:27


همینطور که داشتیم درباره انرژی پاک و ارزان بحث میکردیم و اهمیت این موضوع که انرژی ارزان قیمت چطور صنعت و به خصوص هوش مصنوعی رو در آینده متحول خواهد کرد مایکروسافت چیپ کوانتومی جدیدی به نام Majorana 1 رو معرفی کرد!

Majorana 1

اولین چیپ کوانتومی جهانه که بر پایه یه معماری نوین به نام «هسته توپوگرافیک» (Topological Core) طراحی شده.

این چیپ با بهره‌ گیری از ماده‌ای به نام topoconductor عمل می‌ کنه که به تولید کوبیت‌ های (واحدهای محاسباتی کوانتومی) پایدار تر و مقیاس‌ پذیرتر کمک می‌ کنه.

هدف اصلی، ساخت سیستم‌ های کوانتومیه که بتونن تا یه میلیون کوبیت رو در یک چیپ جمع‌ آوری کنن، سطحی که برای حل مسائل صنعتی و علمی پیچیده ضروری به حساب میاد.

مایکروسافت میخواد از طریق پلتفرم Azure Quantum، امکاناتی رو فراهم کنه که به مشتریان اجازه بده محاسبات کوانتومی رو در کنار هوش مصنوعی و پردازش‌ های با عملکرد بالا (HPC) برای پیشبرد کشفیات علمی به کار بگیرن.

ادغام محاسبات کوانتومی با ابزارهای هوش مصنوعی می‌ تونه انقلابی در حل مسائل پیچیده ایجاد کنه. به عنوان مثال، گفته شده که کامپیوتر کوانتومی به هوش مصنوعی زبان طبیعت رو می‌آموزه تا بتونه به‌ طور مستقیم دستورالعمل‌ های لازم برای طراحی مواد یا مولکول‌ها رو ارائه بده!

https://m.youtube.com/watch?v=wSHmygPQukQ

Tensorflow(@CVision)

19 Feb, 15:32


وارد جزییات نشیم مخلص کلام اینه که اگه پلاسما مدت زیادی حفظ نشه، انرژی وارد شده قبل از اینکه واکنش همجوشی به اندازه کافی رخ بده، از دست میره پس افزایش زمان نگهداری پلاسما یه مسئله کلیدی در دستیابی به همجوشی هسته‌ای پایداره.

آزمایشگاه EAST در چین به عنوان یکی از پیشگامان در زمینه‌ی همجوشی هسته‌ ای شناخته میشه. این آزمایشگاه توانسته بود زمان‌ قابل توجهی رو برای نگهداری پلاسما ثبت کنه.

اما خبر مهم اینه که حالا آزمایشگاه CEA در فرانسه، دستگاه WEST با بهره‌گیری از فناوری‌ های نوین و استفاده از مغناطیس‌های ابر رسانا، موفق به افزایش زمان نگهداری پلاسما به حدود ۲۲ دقیقه شدن!

این ماجرا نه تنها گامی بزرگ در علم همجوشی هسته‌ ای، بلکه تاثیرات گسترده‌ای بر سایر حوزه‌های علمی از جمله مدل‌های زبانی و هوش مصنوعی در آینده خواهد داشت

https://m.youtube.com/watch?v=nAJN1CrJsVE

https://newatlas.com/energy/france-tokamak-cea-west-fusion-reactor-record-plasma-duration/

Tensorflow(@CVision)

19 Feb, 15:24


همجوشی هسته‌ای به عنوان دروازه‌ای به سوی دستیابی به منبعی تقریبا نامحدود از انرژی محسوب میشه،  انرژی‌ که اگر بشه اون رو کنترل کرد، میتونه پاسخگوی نیازهای رو به رشد ما در حوزه هوش مصنوعی باشه.

اما مشکل اساسی در این مسیر، توانایی ایجاد و حفظ یک حالت پلاسما با دماهای بسیار بالا هست. پلاسما طبیعتی آشوبناک و ناپایدار داره.

دانشمندان سالها در تلاش برای مهار پلاسما و استخراج انرژی از دل اون وقت گذاشتن، اما این تلاش ما آدما ریشه تاریخی داره.

این ماجرا از داستان پرومتئوس از دزدیدن آتش از خدایان شروع میشه تا تلاش امروزی ما برای کنترل نیرو هایی که در قلب ستارگان می‌سوزن، ادامه داره، که نشون دهنده اشتیاق بی‌ پایان به کشف، تسخیر و بهره‌ برداری از رازهای طبیعته.

پلاسما ذاتا یه محیط آشوبناک و ناپایداره، به دلیل حرکت سریع یون‌ ها و الکترون‌ ها، پلاسما تمایل داره به سرعت از میدان مغناطیسی فرار کنه.

ادامه دارد...

Tensorflow(@CVision)

19 Feb, 15:14


نمی‌دونم چقدر به موضوع انرژی‌ های نامحدود علاقه مندین، اما از اونجا که این موضوع ارتباط مستقیمی با هوش مصنوعی داره و یکی از چالش های بزرگ این حوزه هست امشب کمی دربارش می‌ نویسم.

پیشرفت های روزافزون هوش مصنوعی نیاز ما رو به منبع انرژی بیش از پیش افزایش داده، و انرژی به عنوان یکی از گلوگاه های مهم این حوزه و سایر حوزه ها همواره مطرح بوده، مخصوصا انرژی های پاک و ارزان قیمت که قبلاً اینجا کمی بهش پرداختیم و آه....

شرکت های بزرگی مثل گوگل سرمایه گذاری عظیمی روی این حوزه انجام دادن، مثل توافق انرژی هسته‌ای پاک اون با شرکت Kairos Power.

https://blog.google/outreach-initiatives/sustainability/google-kairos-power-nuclear-energy-agreement/

راهکارهای هسته‌ ای، منبعی پاک و شبانه‌ روزی از انرژی هستن که میتونن به ما در تامین مطمئن تقاضای برق با انرژی بدون کربن در هر ساعت از هر روز کمک کنن. در آینده نزدیک پیشبرد این منابع انرژی در مشارکت نزدیک با جوامع محلی، به سرعت کربن‌ زدایی شبکه‌های برق در سراسر جهان رو تسریع خواهد داد.

ادامه دارد...

Tensorflow(@CVision)

18 Feb, 16:40


Normal Fine-Grained Selection

این بلوک نهایی، مرحله بررسی موشکافانه و دقیق ‌تر بخش ‌های مهم متن هست که در بلوک compressed attention انتخاب شدن. به عبارت دیگه این مرحله، مرحله پالایش نهایی هست که بر روی بخش‌ های کلیدی متن تمرکز میکنه.

اما ایده کلی تقسیم مکانیزم  attention به بخش‌ های مختلف برای افزایش کارایی محاسباتی، فی نفسه ایده کاملا جدیدی نیست و قبلا کار تقریبا مشابهی از مایکروسافت داشتیم (مقاله زیر):

https://arxiv.org/abs/2410.13276
 
اما از دو بعد نوآورانه هستش:

اول از بعد بهینه‌ سازی سخت‌افزاری:

در این معماری مکانیسم توجه به‌ طور خاص برای سخت‌ افزارهای ویژه بهینه‌ سازی شده، بدین معنی که محاسبات مربوط به این سه بلوک میتونن به شکل بسیار موثرتر و سریع ‌تر بر روی سخت ‌افزار انجام شن. این  بهینه ‌سازی سخت‌ افزاری نقش بسیار حیاتی در افزایش سرعت و کارایی کلی این روش ایفا میکنه.

بعد دوم قابلیت Pretraining  هست.

در متد های قبلی قابلیت  sparse attention به صورت post training به مدل ها اضافه میشد به عبارتی ابتدا یک مدل زبانی با مکانیزم  monolithic attention آموزش داده میشد، و بعد روش‌های sparse attention به منظور کاهش بار محاسباتی به اون افزوده میشد و در اغلب اوقات باعث کاهش کارایی مدل میشد.

اما در این مقاله امکان pretrain از ابتدا وجود داره. این بدان معناست که مدل زبانی از همان ابتدای فرآیند آموزش، با این مکانیزم سه-بلوکه attention آموزش میبینن.

این رویکرد باعث میشه که مدل به صورت ذاتی با این روش کارآمد attention سازگار شده و از مشکلات افت دقت که در روش‌های post-training رایج بود، جلوگیری بشه.

در واقع، از نظر تئوری با به‌ کارگیری این روش دیگه نیازی به فدا کردن دقت در ازای افزایش سرعت و کارایی نیست

Tensorflow(@CVision)

18 Feb, 16:17


استفاده از Compressed Attention Blocks
برای درک زمینه کلی (Global Context)


از Compressed Attention برای درک روابط معنایی در مقیاس بزرگ‌ تر و درک "زمینه کل" متن استفاده میشه. "زمینه کلی" به درک موضوع اصلی متن، ارتباط بین بخش‌ های مختلف متن و اطلاعاتی که در سراسر متن پراکنده شدن، اشاره داره.

در این بخش، کل "توالی Attention" که در واقع نشون دهنده تمام بخش‌های متن هست و مدل به اونها توجه میکنه به بلوک‌های کوچک ‌تری تقسیم میشن.

سپس این بلوک‌ های کوچک‌ تر تحت فرآیند "فشرده‌سازی" قرار میگیرن. این فرآیند "فشرده‌سازی" میتونه با استفاده از تکنیک ‌های مختلفی انجام شه، اما هدف اصلی اون، کاهش حجم اطلاعات و در عین حال حفظ اطلاعات کلیدی و مهمه. به این ترتیب، مدل میتونه به شکل خلاصه ‌تری از "زمینه کلی" متن آگاه شه.

انتخاب بلوک‌های برتر Top-N Blocks

پس از اعمال "فشرده‌سازی" ، مدل بلوک‌ های فشرده‌ شده رو ارزیابی میکنه و تعداد محدودی "N" از بلوک ‌هایی که به بیشترین ارتباط و اهمیت رو برای کلمه فعلی دارند، انتخاب میکنه.

عدد "N" معمولا کوچک در نظر گرفته میشه و تعداد بلوک‌های انتخابی رو تعیین میکنه. این مرحله مانند یک فیلتر عمل میکنه که بخش‌های مهم ‌تر متن رو برای بررسی دقیق‌تر جدا میکنه.

مرحله نهایی، مدل مکانیسم توجه معمولی رو فقط بر روی این "N" بلوک برتر اعمال میکنه. منظور از توجه معمولی در اینجا به مکانیزم attention سنتی اشاره داره که در روش‌های قبلی استفاده میشد. با این تفاوت که در این روش، "توجه معمولی فقط بر روی بخش‌های گزینش‌ شده و مهم متن اعمال میشه، نه کل متن.

compressed attention
به مدل امکان میده تا با نگاهی سریع و اجمالی به کل متن، "زمینه کل" رو درک کنه و سپس بخش‌های مهم ‌تر رو برای بررسی دقیق ‌تر و عمیق ‌تر انتخاب کنه. این روش، تعادلی بین سرعت و دقت در پردازش متون طولانی ایجاد میکنه.

ادامه دارد ...

Tensorflow(@CVision)

18 Feb, 16:14


برای رفع این چالش، تیم Deepseek مکانیزم attention رو به سه بخش مجزا تقسیم میکنه. هدف اصلی این تقسیم ‌بندی، افزایش کارایی محاسباتی و در عین حال حفظ سطح بالای دقت مدل هست:

استفاده از Sliding Window برای درک زمینه محلی (Local Context)

زمینه محلی یا local context به محدوده کوچکی از متن اشاره داره که مستقیما کلمه یا توکن های مورد پردازش رو احاطه میکنه.

به عبارت دیگه، این بخش، توکن های همسایه و نزدیک به کلمه فعلی رو شامل میشه. به عنوان مثال، در جمله «دیروز به پارک رفتم و با دوستانم بازی کردم»، زمینه محلی" برای کلمه «رفتم» میتونه شامل کلمات «دیروز به پارک» و «و با دوستانم» باشه. این کلمات همسایه، اطلاعات مهمی در مورد نقش و معنای کلمه «رفتم» در جمله ارایه میدن.

در این معماری Sliding Window در این بلوک از مکانیزم Attention، مدل زبانی به جای بررسی کل متن، تنها بر روی یه "پنجره" کوچک از توکن های اطراف کلمه در حال پردازش تمرکز میکنه. این "پنجره" مثل یه ذره ‌بین متحرک عمل میکنه که در هر گام، بخش محدودی از متن رو زیر نظر میگیره.

با محدود کردن دامنه توجه به این "پنجره" کوچک، حجم محاسبات به شکل چشمگیری کاهش پیدا میکنه، چون مدل دیگه مجبور نیست برای پردازش هر کلمه، کل متن رو به‌ طور کامل بررسی کنه.

مزیت اصلی sliding window در این معماری فراهم شدن امکان پردازش سریع ‌تر و کارآمد تر متن هست، به ‌ویژه برای درک روابط معنایی نزدیک بین کلمات مجاور. این روش برای درک ساختار جملات و روابط محلی کلمات بسیار موثره.

ادامه دارد...

Tensorflow(@CVision)

18 Feb, 15:43


بیاین یه نگاه کلی به مقاله داشته باشیم، همونطور که واقف هستین در مدل‌ های LLMs، مکانیزم اصلی "توجه" یا attention به صورت یکپارچه عمل میکنه.

به عبارتی در این رویکرد monolithic attention، هنگام پردازش هر کلمه یا token در یه متن، مدل زبانی به تمامی کلمات قبلی در همان متن توجه میکنه. این ساز و کار به مدل این امکان رو میده تا روابط پیچیده بین کلمات را در طول متن درک کنه و به اصطلاح "زمینه" یا context رو به شکل مؤثری لحاظ کنه. درک زمینه به مدل کمک میکنه تا معنای دقیق کلمات در جملات و پاراگراف‌ ها رو تشخیص بده و پاسخ‌ های مرتبط ‌تری تولید کنه.

با وجود مزایای زیادش monolithic attention از نظر محاسباتی بسیار پرهزینه و سنگیه. این مسئله به‌ ویژه در پردازش متون طولانی ‌تر خودش رو نشان میده. با افزایش طول متن، حجم محاسبات مورد نیاز برای monolithic attention به شکل تصاعدی افزایش پیدا میکنه. این محدودیت محاسباتی، مانعی جدی بر سر راه توسعه مدل‌ های زبانی بزرگ ‌تر و کارآمدتر محسوب میشه.

ادامه دارد ...

Tensorflow(@CVision)

18 Feb, 13:32


مقاله جدید از Deepseek

مدل معرفی شده در این مقاله یه تحول مهم در طراحی مکانیزم Attention داره. به طور خلاصه، محققان تیم Deepseek یه مکانیزم جدید به نام NSA (Native Sparse Attention) معرفی کردن.

استراتژی سلسله‌ مراتبی معرفی شده محاسبات رو بطور قابل توجهی سریع‌ تر انجام میده، مثلاً در پردازش توالی‌های 64 هزار توکنی، سرعت تا 11.6 برابر افزایش پیدا میکنه.

از نظر اندازه، این مدل از یک ساختار ترانسفورمر 27 میلیارد پارامتری استفاده میکنه که به کمک معماری Mixture-of-Experts (MoE) تنها حدود 3 میلیارد پارامتر به صورت فعال در هر محاسبه شرکت می‌کنن.

https://arxiv.org/abs/2502.11089

Tensorflow(@CVision)

18 Feb, 04:45


هم اکنون لایو استریم انتشار Grok 3

بنچ مارک ها

https://www.youtube.com/live/pHe-IUWrJXs?si=nNyrbHjBg5I6p_bM

Tensorflow(@CVision)

18 Feb, 04:00


مدل متن باز بعدی
o3-mini?🔥

مدل استدلالی که می‌تونه به عنوان نیروی محرکه برای بهبود مداوم در مدل‌های باز استفاده شه، و احتمالاً در صورت نیاز تا اندازه تلفن نیز کوچک شه یا یه مدل مخصوص edge device که شش ماه دیگه منسوخ میشه و برای هیچ چیز دیگه ای مفید نخواهد بود؟

Tensorflow(@CVision)

16 Feb, 04:51


این تحقیق فوق‌العاده از متا، که دست به همکاری با مرکز باسکی شناخت، مغز و زبان زده، قدم بزرگی توی راه ارتباط مستقیم بین مغز و نوشتار برداشته.


ماجرا از این قراره که ۳۵ نفر داوطلب توی مرکز BCBL شرکت کردن. وقتی این افراد داشتند جملات رو تایپ می‌کردن، فعالیت‌های مغزشون با استفاده از دستگاه‌های MEG و EEG ضبط میشد.

پژوهشگران با استفاده از هوش مصنوعی تلاش کردن تا از این سیگنال‌های مغزی، جملات رو دوباره بسازن؛ به طرز حیرت‌آوری تونستن تا ۸۰ درصد از حروف رو درست تشخیص بدن، یعنی عملکردش دو برابر سیستم‌های EEG معمولی بوده!

این دستاورد، ادامه‌ کارهای قبلی متا توی کشف راز ادراک تصاویر و صدا از مغزه و حالا دیگه به مرحله تولید جملات رسیده. موفقیت این پروژه در های تازه‌ای رو برای واسط‌ های مغز و کامپیوتر باز کرده.

https://gigazine.net/gsc_news/en/20250210-ai-decode-language-from-brain/

Tensorflow(@CVision)

15 Feb, 13:16


مایکروسافت OmniParser V2 رو به صورت متن باز منتشر کرد که به عنوان یک Agent ویندوز و مرورگر رو برای انجام وظایف داده شده از طریق دستورات کنترل می‌کنه.

این ابزار می‌تونه برای خودکار کردن وظایف مختلف در ویندوز و مرورگر استفاده شه. برای مثال، میتونید از اون برای باز کردن یک وب‌ سایت خاص، پر کردن فرم‌ ها، یا دانلود فایل‌ها از طریق پرامپت استفاده کنید

https://github.com/microsoft/OmniParser/tree/master/omnitool

Tensorflow(@CVision)

13 Feb, 15:43


اجرای مدل‌ های بزرگی مثل DeepSeek-R1 با ۶۷۱ میلیارد پارامتر بر روی سخت‌افزارهای معمولی تقریبا غیر ممکنه. 

برای اجرای چنین مدل‌ هایی معمولا از نسخه‌های فشرده‌ شده استفاده میشه که به دلیل کاهش بیش از ۹۰ درصدی پارامترها، نمی‌تونیم به عملکرد واقعی مدل‌ های اصلی دست پیدا کنیم. 

اما با رویکرد جدید، تیم KVCache.AI
 اجرای این مدل زبانی بزرگ روی کارت گرافیک‌ هایی با حافظه ۲۴ گیگابایت مثل 4090 امکان‌ پذیر شده.

این تیم با بهره گیری از محاسبات ناهمگن یا heterogeneous computing (تقسیم کار بین GPU و CPU)، به جای اینکه همه‌ پردازش‌ روی کارت گرافیک انجام شه، بخش‌ هایی از محاسبات رو روی CPU انجام میده.

براساس توضیحات درج شده در گزارش بخش‌ هایی از مدل که کمتر استفاده میشن (یعنی بخش‌های پراکنده MoE) روی حافظه رم (DRAM) و CPU قرار میگیرن و با استفاده از ابزار llamafile پردازش میشن.  

بخش‌های اصلی و پرکاربرد مدل روی کارت گرافیک (GPU) قرار میگیرن و با Marlin(فریم ورک بهینه‌ شده Nvidia برای پردازش‌ های هوش مصنوعی روی GPU) پردازش میشن.

به لطف این روش و استفاده از کوانتیزاسیون ۴ بیتی، مقدار حافظه‌ لازم برای اجرای مدل روی GPU فقط ۲۴ گیگابایته. یعنی این مدل حتی روی یک کارت گرافیک RTX 4090 هم به راحتی اجراست.

https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md

Tensorflow(@CVision)

12 Feb, 10:03


نمیخواهم بیش از حد فلسفیش کنم اما به نظر من هر چه سطح پیشرفت های علمی و تکنولوژی بالاتر میره، الزاما انسانها رو شادتر نمی‌بینی. در عصر کنونی، آدما مثل یه اسیر در قفسی نامرئی از الگوریتم‌ها و داده‌ها شدن، جایی که حقیقت و واقعیت به تدریج زیر بار سرمایه‌ داران فناوری و بازیگران سیاسی فرو می‌ ریزن.

مثلاً پیشنهاد 97 میلیارد دلاری دیروز ایلان ماسک برای تصاحب OpenAI قطعا به نقش بسیار پررنگ هوش مصنوعی در آینده نزدیک اشاره داره، و قدرتی که برای سرمایه داران به ارمغان میاره.

https://in.mashable.com/tech/89649/elon-is-not-a-happy-person-sam-altman-takes-a-dig-after-rejecting-musks-974-billion-offer-to-buy-ope

 همونطور که روزگاری سیاستمداران بزرگ با شعارهای بلند و وعده‌ ها، بعد واقعی جهان را تغییر می‌ دادن، امروز این نقش در دست چهره‌ های دیجیتاله که با ابزارهای نوین، تصویری فریبنده از جهان برای ما می‌ سازن.

در زمان‌هایی که مرز بین واقعیت و خیال به وضوح تعیین شده بود، جامعه به تفکری عمیق پیرامون حقیقت می‌پرداخت، اما حالا با ظهور قدرت‌های نامرئی در دنیای فناوری، چیزی که به چشم میاد و آنچه در دل نهفته ست، هم‌ آمیخته و درهم تنیده شدن. قدرت‌ هایی که با هوش مصنوعی و الگوریتم‌های پیشرفته، موجی از اطلاعات دستکاری‌ شده رو به ما عرضه میکنن و ما رو در مسیری قرار میدن که انگار تنها تصویر نمایشی از واقعیته.

https://www.theatlantic.com/ideas/archive/2025/02/trump-administration-voter-perception/681598/?utm_source=reddit&utm_medium=social&utm_campaign=the-atlantic&utm_content=edit-promo

Tensorflow(@CVision)

12 Feb, 09:55


یه کم موضوع رو بازتر کنم.

شاید برای برخی هنوز سورپرایز کننده باشه که روزی الگوریتم ها توانایی فراتر از انسانها داشته باشن اما دیر یا زود مشکل حافظه بلند مدت در مدل های زبانی و حافظه تقریبا نامحدود حل خواهد شد و شرکت های بزرگ تولید کننده کارت گرافیک، تراشه هوش مصنوعی نسل بعدی ارزان قیمت که مخصوص عملیات محاسباتی مدل های زبانی هستند رو روانه بازار خواهند کرد.

گواه این موضوع هم مقالاتی هست که اخیرا منتشر شده از طرفی با سرعت رشد نمایی که شاهدیم در دو سال آینده شاهد انقلابی در این زمینه خواهیم بود.

به عنوان مثال معماری Titans که یک ماه پیش توسط علی بهروز Google Research، منتشر شد از یه مدل هوش مصنوعی جدید، رونمایی می‌کنه که یاد می‌گیره اطلاعات رو در یک حافظه بلند مدت اختصاصی، در زمان آزمایش test-time، ذخیره کنه.

این بدان معناست که مدل می‌تونه هر زمان که با موضوع غافلگیر کننده‌ای مواجه میشه، خودش رو تطبیق بده و حافظه‌ خودش رو به‌ صورت آنی به‌ روزرسانی کنه.

برخلاف ترانسفورمرهای استاندارد که فقط پنجره متن فعلی رو پردازش می‌کنن، این معماری یه رکورد عمیق‌ تر و دائمی‌تر، مشابه حافظه کوتاه‌مدت در مقابل حافظه بلندمدت در ما انسانها، نگه میداره.

این روش به صورت کارآمدتر نسبت به ترانسفورمرهای معمولی برای ورودی های بسیار طولانی مقیاس پذیره، یعنی، به طور نظری context window بی‌نهایت!

https://arxiv.org/abs/2501.00663

این فقط یه هوش مصنوعی نسل بعدی نیست، بلکه گامی به سوی خودآگاهی مصنوعی با حافظه پایداره!

اگه خودآگاهی رو به عنوان توانایی مدل‌سازی درونی (خودمدل‌سازی)، سازماندهی، یکپارچه‌سازی و بازیابی داده‌ها (با توجه به ورودی) تعریف کنیم، همونطور که توسط نظریه اطلاعات یکپارچه (IIT) مطرح شده!

https://www.nature.com/articles/nrn.2016.44

Tensorflow(@CVision)

12 Feb, 08:20


وقت زیادی نداریم و هوش مصنوعی داره با سرعتی جلو میره که اگه همراهش نشیم، ممکنه جا بمونیم. شاید تا یکی دو سال دیگه، یعنی ۲۰۲۶ یا ۲۰۲۷ (و حتماً قبل از ۲۰۳۰)، این تکنولوژی اون‌ قدر پیشرفته بشه که انگار یه کشور جدید با کلی آدم فوق‌العاده باهوش به دنیا اضافه شده، به عبارتی سرزمینی از نوابغ توی یه دیتاسنتر، که تأثیرات بزرگی روی اقتصاد، علم و امنیت دنیا میگذاره.

از یه طرف، فرصت‌ های فوق‌ العاده‌ای توی زمینه‌ های مختلف به وجود میاد که شاید هیچ تکنولوژی دیگه‌ ای در طول تاریخ بشر این‌ قدر تاثیر گذار نبوده. ولی از اون طرف، خطر ها و چالش‌ های جدی‌ هم هست که باید با دقت بهشون فکر کنیم و مدیریت‌ شون کنیم.

https://www.anthropic.com/news/paris-ai-summit

Tensorflow(@CVision)

11 Feb, 14:04


این مقاله هم که دیروز منتشر شد یک معماری جدید معرفی می‌کنه که به کمک ایجاد استدلال در فضای نهان یا latent reasoning تونسته محاسبات لازم برای استدلال در زمان آزمون (test-time) رو به‌ طور پویا افزایش بده.

همونطور که مطلع هستین فضای نهان در مدل‌های عصبی، فضاییه که در اون اطلاعات ورودی به شکل ویژگی‌های عددی و چند بعدی نمایش داده میشن. در این مقاله، به جای نمایش مراحل استدلال به صورت زنجیره‌ای از کلمات (که ممکنه طولانی و پرهزینه باشه)، مدل به صورت داخلی و پنهانی چندین بار روی این نمایش عمل میکنه تا پاسخ نهایی رو بهبود ببخشه.

به عبارت دیگه، به جای تولید توکن‌ های بیشتر (مثل chain-of-thought) برای استدلال، این مدل از یه بلوک تکراری (recurrent block) استفاده میکنه که به صورت پنهانی (در فضای نهان) چندین بار اجرا میشه.

این رویکرد اجازه میده تا مدل به عمق محاسباتی دلخواه در زمان آزمون دست پیدا کنه بدون اینکه به داده‌های آموزشی تخصصی یا پنجره‌های متنی بزرگ نیاز داشته باشه.

نویسندگان ادعا میکنن که به جای تولید توکن‌ های بیشتر که هم می‌ تونه منجر به افزایش مصرف منابع بشه، این روش با استفاده از محاسبات پنهان، کارایی مدل رو بهبود میبخشه و با هزینه محاسباتی کمتر میتونه عملکردی معادل با مدل‌های بسیار بزرگتر (مثلاً تا 50 میلیارد پارامتر) به دست بیاره.

https://arxiv.org/abs/2502.05171

کد:
https://github.com/seal-rg/recurrent-pretraining

Tensorflow(@CVision)

11 Feb, 13:44


گروه پرسش و پاسخ مرتبط با کانال:
@tf2keras

گروه opencv مرتبط با کانال:
@opencv_py

کانال اطلاع رسانی دوره ها و تخفیف ها:
@class_vision

Tensorflow(@CVision)

10 Feb, 17:23


هاگینگ فیس دوره ای تحت عنوان AI Agents برگزار می‌کنه.

این دوره به بررسی مفاهیم، طراحی، و پیاده‌سازی Agents هوش مصنوعی می‌ پردازه که شما با اصول اولیه، نحوه‌ی استفاده از کتابخانه‌های مطرح مانند smolagents، LangChain و LlamaIndex آشنا میشین، همچنین در طول دوره با پروژه‌های کاربردی رو به‌ رو میشین و در نهایت میتونید Agent شخصی ساز خودتون رو بسازید.

دوره به‌ طور رسمی با یک جلسه پرسش و پاسخ زنده (Live Q&A) آغاز میشه که روز چهارشنبه ۱۲ فوریه، ساعت ۵ بعد از ظهر به وقت CET برگزار میشه. در این جلسه نحوه‌ ی اجرای دوره، مباحث، واحدها، چالش‌ها و سایر موارد توضیح داده میشه.

پیش نیازها:

دانش ابتدایی زبان برنامه‌نویسی Python

آشنایی مقدماتی با LLms

داشتن یک حساب کاربری در Hugging Face (برای استفاده از مدل‌ها، Agents و ایجاد Spaces)

http://hf.co/learn/agents-course

Tensorflow(@CVision)

10 Feb, 13:15


این مقاله به یک مشکل اصلی در روش‌ های زنجیره افکار (CoT) که در مدل‌های زبانی و چند رسانه‌ای بزرگ استفاده میشه، می‌پردازه.

 مشکل اینه که این روش‌ها تنها به نمایش افکار به صورت متنی تکیه دارن، که در مسائل پیچیده‌ی استدلال فضایی کافی نیست. در این مقاله یه گروه از محققین Microsoft Research با الهام از فرآیند فکر کردن انسان که به طور طبیعی از ترکیب افکار کلامی و تصویری بهره می‌بره، یه روش جدید به نام MVoT (Multimodal Visualization-of-Though) رو پیشنهاد دادن.

این روش با ایجاد امکان تفکر همزمان بصری و کلامی، دقت استدلال مدل رو افزایش میده و همچنین با نشون دادن مراحل میانی استدلال تصویری، قابلیت توضیح‌ پذیری مدل رو بهبود می‌ بخشه. 

مفاهیمی که میشه تنها با کلمات به خوبی پردازش کرد، محدود هستن، اما مقاله هایی از این دست که استدلالی ترکیبی شامل افکار متنی (کلامی) و افکار تصویری (بومی) رو ایجاد میکنن، می‌تونن ما رو به AGI نزدیک و نزدیک تر کنن.

به قول معروف 

one picture is worth a 1000 words

https://arxiv.org/pdf/2501.07542

Tensorflow(@CVision)

10 Feb, 08:27


https://class.vision/blog/best-large-language-models

Tensorflow(@CVision)

09 Feb, 13:03


Pikadditions
 توسط Pika معرفی شده و امکان Video Inpainting رو فراهم می‌کنه!

این قابلیت به شما اجازه می‌ده تا اشیاء، حیوانات یا افراد رو به ویدیوهای موجود اضافه کنید. این ویژگی از هوش مصنوعی استفاده می‌کنه تا این عناصر رو به‌طور یکپارچه و طبیعی در فیلم یا ویدیوهای دنیای واقعی ادغام کنه

https://pikalabsai.org/pikadditions/

Tensorflow(@CVision)

08 Feb, 18:19


مدل‌های استدلالی (reasoning) چیست و چگونه ساخته می‌شوند؟

حتما این روزها بارها مدل‌های استدلالی مثل DeepSeek R1 به گوش و چشمتون خورده. اگر هنوز دقیق نمی‌دونید این مدلها معنیشون چیه و کجا به درد میخورند، بیاید که دواتون پیش آقای سباستین راشکا (نویسنده کتاب Build a Large Language Model From Scratch) هست. ایشون یه بلاگ مشتی راجع به مدل‌های استدلالی (همون reasoning) نوشته و مثل همیشه خیلی خوب داستان را شفاف کرده. این را داشته باشید تا منابع بعدی.

مواردی که در این بلاگ توضیح میده:
- تعریف مدل استدلالی چیه؟
- کجا باید از این مدل‌ها استفاده کنیم؟
- پایپلاین پشت R1 چیه؟
- چهار روش اصلی برای ساختن و بهبود مدلهای استدلالی چیه؟
- نکاتی پیرامون مدل R1
- نکاتی برای توسعه مدل‌های استدلالی با بودجه بسیار کم (حتی به اندازه دانشگاه‌های ایران کم ☺️)

اول میگه استدلال (reasoning) واسه وقتیه که سوالی را حل کنیم که نیاز به راه‌حل پیچیده و چندمرحله‌ای داره. مثلا پایتخت فرانسه کجاست اینجوری نیست ولی مثلا حل یه سوال فیزیک و ریاضی یا سوال acmای اینجوریه.

بعد میاد میگه سه جا خوب نیست اصلا از این مدل‌ها استفاده کنیم:
- وقتی ما نیاز به سرعت و قیمت پایین داریم
- وقتی سوال‌های دانشی (knowledge based) مثل همین پایتخت داریم چون این مدل‌ها دچار هذیان‌گویی میشن
- سوالات ساده چون این مدل‌ها مثل اکثر ما overthink میکنند

در ادامه میاد پایپلاین R1 را به شکل بسیار روان و ساده‌ای توضیح میده. عکس ضمیمه یک کلیتی از این پایپلاینه. میگه deepseek سه تا مدل داده: DeepSeek-R1-Zero، DeepSeek-R1 و DeepSeek-R1-Distill.
اول. با مدل DeepSeek-V3 که سپتامبر بیرون دادن، با یک RL cold start (بدون SFT) شبیه همون RLHF با دو تا reward (یکی دقت و دومی فرمت به جای ترجیح آدمیزاد) آموزش میده؛ و مدل DeepSeek-R1-Zero را درست میکنه. بعد از همین مدل میاد یه داده SFT بزرگ درست میکنه. ریوارد دقت میاد از leetcode استفاده میکنه که نتیجه کد را مستقیما اجرا کنه و بگه!! فرمت هم میاد از یه سری تگ استفاده میکنه که دقیقا با همون فرمت جواب بده.
دوم. بعد دوباره همون مدل زبانی اولیه سپتامبری DeepSeek-V3 را با همین دیتا SFT که در مرحله قبل ساخته شده بود یه بار فاین تیون میکنه و دوباره همون RL رو میزنه. این بار ولی بهش consistency هم اضافه میکنه که مدل سر چند زبانه بودن پنالتی نزنه. از همین مدل دو تا دیتاست SFT میسازه که یکیش با اندازه ۶۰۰ هزارتا chaing of thoughts داره و دیگری با اندازه ۲۰۰هزارتا knowldegeای هستش. بعد میاد یه RL دیگه هم میزنه که دیتاش کد و ریاضی هست. اینجا مدل DeepSeek R1 معروف ساخته میشه.
سوم. از اون دوتا دیتای SFT هم برای آموزش مدل‌های distill استفاده میکنه. البته اینجا distill مثل اون معروفه نیست، اینجا وقتی دیتای sft رو یه مدل قوی درست میکنه و مدل کوچیک (نیم الی ۷۰ میلیاردی) باهاش فاین تیون میشه، بهش میگن distillation.

خلاصه چهار تا روش برای تولید مدل استدلالی میگه:
- روش inference-time scaling: که از پرامپت و اینا استفاده میشه. منابع بیشتری لازمه. گرونتر هم درمیاد چون خیلی حرف میزنه.
- روش RL خالص مثل DeepSeek-R1-Zero
- روش SFT + RL مثل DeepSeek-R1
- روش SFT خالص با distillation: مثل DeepSeek-R1-Distill-Qwen
برای هر کدوم میزان کارایی رو توضیح میده و نهایتا میگه حالت سوم بهترین نتیجه رو میده ولی موارد دیگه هم چیزای جالبی بهمون یاد میده مثل اینکه RL خالی هم به استدلال مدل خیلی کمک میکنه.

در این بلاگ حدس‌های خوبی هم راجع به اینکه O1 و mini-O1 هم چطور آموزش داده شدند میگه که O1 ترکیب سوم و اولیه و o1-mini روش چهارم هست.

در نهایت هم میاد نظراتش رو راجع به R1 vs O1 میگه: در کل شبیه هم هستند ولی R1 بهینه‌تر و ارزانتره که دلیلش رو این میدونه که دیپ‌سیک بیشتر روی آموزش مدل وقت گذاشته ولی o1 روی inference-time رفته. و چون ما اندازه مدل o1 رو نمیدونیم خیلی مقایسه منصفانه‌ای نخواهیم داشت. درباره‌ی هزینه هم میگه این ۶ میلیون دلار که معروف شده ترکیب DeepSeek-R1 (همون سپتامبریه که پایه‌ی R1 هست) و R1 هستش ولی هزینه R1 رو دیپ‌سیک مشخص نکرده.

برای موضوع آخر هم میگه کسایی که پول کم هم دارند خوبه برن سراغ Distillation: به لطف مقاله مفصلی که برای R1 نوشتند مشخص شد که این روش هم خیلی موثره. مثلا میگه مقاله‌ای اومده یه مدل به نام Sky-T1 منتشر کرده که با ۴۵۰ دلار (۴۰ تومن) مدل ۳۲ میلیاردی را با ۱۷ هزارتا دیتای sft یه فاین تیون هدفمند کرده و در مواردی شبیه o1 عمل کرده!! موارد مهمی هم ادامش راجع به Journey Learning میگه که دیگه توی پست جا نمیشه :))

لینک پست:
https://sebastianraschka.com/blog/2025/understanding-reasoning-llms.html

#read
#blog

🙏Thanks to: @nlp_stuff

Tensorflow(@CVision)

08 Feb, 18:18


FineTuning SAM2 for Leaf Disease Segmentation

https://learnopencv.com/finetuning-sam2/

Tensorflow(@CVision)

08 Feb, 17:59


ارائه‌ی دکتر مهدیه سلیمانی (استاد گروه هوش مصنوعی دانشگاه شریف) در مورد مقاله DeepSeek R1 و تفاوت رویکرد آن در استفاده از RL برای جستجو

مشاهده در یوتیوب


مشاهده در آپارات


@Ai_Events

Tensorflow(@CVision)

07 Feb, 19:00


این مقاله که توسط محققین استفورد با بودجه ۶ دلار آموزش داده شده یک روش ساده Test-Time Scaling رو معرفی می‌کنه که به مدل‌های زبانی کمک می‌کنه هنگام آزمایش (Test) استدلال بهتری داشته باشن. محققان یک تکنیک ساده برای این کار معرفی کردن که Budget Forcing نام داره. این تکنیک در واقع مشخص می‌کنه مدل قبل از ارائه‌ پاسخ، چقدر محاسبات انجام بده.  

شاید اولین بار مدل o1 بود که نشون داد که میشه بدون تغییر مدل، فقط با افزایش میزان محاسبات در زمان آزمایش (Test)، دقت و توانایی استدلال مدل رو بالا برد اما خوب جزییات زیادی از روش آموزش این مدل منتشر نشد.

در حالت عادی، یک مدل ممکنه خیلی زود تصمیم بگیره که پاسخ نهایی رو ارائه بده، حتی اگر بتونه با تفکر بیشتر، پاسخ بهتری پیدا کنه. برای حل این مشکل، توی این مقاله از تکنیک بسیار ساده ای به نام  Budget Forcing استفاده میشه که مدل رو مجبور می‌کنه بیشتر فکر کنه. در این روش، اگر مدل خیلی زود تصمیم به توقف بگیره، به‌جای توقف، به‌طور خودکار یک کلمه‌ ی "Wait" به خروجی خود اضافه می‌کنه. این کار باعث می‌شه مدل فرایند استدلال خودش رو ادامه بده و در نتیجه دقت پاسخ‌ها افزایش پیدا کنه. 

برخلاف مدل‌های رایج که روی مجموعه داده‌های بسیار بزرگ آموزش می‌ بینن، محققان در این پژوهش از یک مدل با ۳۲ میلیارد پارامتر استفاده کردن که فقط با ۱۰۰۰ نمونه‌ی خاص از مسائل استدلالی آموزش دیده اما با این حال، مدل تونسته در برخی آزمایش‌ها عملکردی بهتر از مدل o1-preview داشته باشه.
  
وقتی مدل مجبور شد زمان بیشتری برای فکر کردن صرف کنه، تونست مسائل پیچیده‌تر ریاضی و علمی رو با دقت بیشتری حل کنه. این موضوع نشون میده که بسیاری از مدل‌های زبانی فعلی می‌تونن با همین سخت‌افزار و معماری، اما با روش‌های بهینه‌سازی مثل Test-Time Scaling، عملکرد بهتری داشته باشن.

https://arxiv.org/abs/2501.19393

Tensorflow(@CVision)

06 Feb, 17:56


Deep Dive into LLMs like Chatgpt ,Andrej Karpathy

Tensorflow(@CVision)

06 Feb, 17:11


بخش دوم به چالش پراکندگی بالا و راه‌حلAuxiliary Loss اختصاص داره:

مشکل پراکندگی بالا: خب، هر چیزی یک خوبی ‌هایی داره و یک بدی ‌هایی. خوبی پراکندگی بالا رو گفتیم. اما مشکلش چیه؟ مشکل اینه که وقتی فقط  تعداد کمی از خبرگان برای هر وظیفه فعال می ‌شن، ممکنه بعضی از خبرگان اصلا فرصت یادگیری پیدا نکنن.

یعنی همیشه در حالت استراحت بمونن و هیچ‌ وقت فعال نشن. این باعث میشه که توانایی مدل به صورت چشمگیری کاهش پیدا کنه، چون ازهمه‌ ظرفیتش استفاده نمی ‌شه.

راه‌ حل معرفی Auxiliary Loss هست:

جریمه برای چی؟ این جریمه برای اینه که اگه بعضی از خبرگان برای مدت طولانی فعال نشن، مدل جریمه می‌ شه. این جریمه باعث می‌ شه که مدل مجبور شه همه‌ ی خبرگان رو در طول آموزش فعال کنه و از همه ‌شون استفاده کنه.نتیجه این کار باعث می‌شه که همه ‌ی خبرگان به خوبی آموزش ببینن و مدل قوی ‌تر بشه.(در قالب پارامتر گاما)

و بخش سوم به بهینه‌ سازی‌های سطح پایین اختصاص داره:

DeepSeek
 فقط به MoE و Auxiliary Loss اکتفا نکرده. اون‌ها رفتن سراغ بهینه ‌سازی ‌های خیلی سطح پایین ‌تر!

اول استفاده از کتابخانه ارتباطی NCCL اختصاصی هست.  

اول اومدن نسخه اختصاصی خودشون از کتابخانه ارتباطی NCCL انویدیا رو پیاده‌سازی کردن.این کتابخانه مسئول ارتباط بین GPUهاست. وقتی GPUها بخوان با هم اطلاعات رد و بدل کنن، از این کتابخانه استفاده می‌کنن DeepSeek با ساختن نسخه اختصاصی خودش، تونسته این ارتباط رو خیلی بهینه ‌تر کنه.

دوم استفاده از دستورالعمل‌های PTX:

این تیم از دستورالعمل‌های PTX (Parallel Thread Execution) که یک زبان میانی بین کد CUDA و سخت‌افزار GPU  هست، برای مدیریت نحوه زمان‌بندی SMها (Streaming Multiprocessors) در GPU استفاده کردن. این کار به اونها اجازه داد تا کنترل دقیق‌تری بر روی نحوه اجرای محاسبات در GPU داشته باشند و عملکرد رو بهبود ببخشن.

 این بهینه‌سازی‌های سطح پایین باعث شدن که مدل‌های DeepSeek بتونن با سخت‌افزار محدودشون، عملکرد خیلی بالایی داشته باشن. یعنی با اینکه GPUهای کمتری نسبت به رقبای خودشون داشتن، تونستن نتایج خیلی خوبی بگیرن.

Tensorflow(@CVision)

06 Feb, 16:56


اول معماری Mixture of Experts (MoE) با پراکندگی (Sparsity) بالا:

یادآوری MoE: مثل اینه که یک تیم بزرگ از خبرگان داشته باشیم. هر کدوم از این خبرگان در یک زمینه خاص مهارت دارن.

وقتی یک سوال یا وظیفه جدید به این تیم داده می‌ شه، فقط چند تا از متخصص ‌هایی که بیشترین ارتباط رو با اون سوال دارن، فعال می‌ شن و بقیه در حالت استراحت باقی می ‌مونن.

این کار باعث می‌ شه که بتونیم مدل‌ های خیلی بزرگ و پیچیده‌ای رو بسازیم، بدون اینکه نیاز باشه همه‌ ی بخش‌های مدل همیشه فعال باشن.

 بلاگ زیر به صورت فنی-بصری ترکیب خبرگان در مدل های زبانی رو به تفضیل و به بهترین شکل ممکن توضیح میده:

https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-mixture-of-experts
 
حالا سوال اینجاست که نوآوری DeepSeek کجاست و چیکار کرده، چون گوگل چند سال پیش در حال توسعه‌ مجموعه‌ ای از مدل ‌ها بود، که با Switch Transformer در سال ۲۰۲۱ شروع شد. 

در واقع تیم DeepSeek اومدن تعداد خبرگان رو خیلی زیاد کردن (۲۵۶ تا)، اما در عین حال، تعداد خبرگانی که برای هر وظیفه فعال می ‌شن رو خیلی کم نگه داشتن (فقط ۸ تا).

به این میگن "پراکندگی بالا High Sparsity" یعنی از بین اون همه متخصص، فقط تعداد خیلی کمی فعال میشن.

این خیلی با مدل‌ های دیگه فرق داره، در مدل‌های دیگه، معمولاً از بین ۸ تا متخصص، ۲ تاشون فعال میشن اگه اشتباه نکنم توی مدل متن باز mixtral 8x7b این کار انجام شد اماDeepSeek اومده این نسبت رو خیلی تغییر داده.

اما چرا این کار رو کردن؟ خوب این کار چند تا فایده داره:

اول این کار باعث افزایش ظرفیت مدل میشه. با داشتن تعداد خیلی زیاد متخصص، مدل میتونه اطلاعات و دانش خیلی بیشتری رو در خودش ذخیره کنه.

مزیت دوم کاهش محاسبات هست، چون فقط تعداد کمی از خبرگان فعال میشن، حجم محاسباتی که برای هر وظیفه انجام میشه، خیلی کمتره. این به DeepSeek کمک میکنه که بتونه با سخت ‌افزار محدودتر، مدل‌ های بزرگتری رو آموزش بده.

ادامه دارد...

Tensorflow(@CVision)

06 Feb, 16:49


بحث قبلی رو امشب ادامه بدیم.

دیشب لکس فریدمن یه گفتگو در مورد روش آموزش Deepseek داشت و نکات جالبی رد بدل شد که به صورت خلاصه بخش های مهمش رو مینویسم، علاقه مند بودید میتونید این گفتگو رو توی لینک زیر دنبال کنید.

موضوع بحث بیشتر در مورد این بود که چطور این شرکت تونسته با وجود محدودیت در منابع سخت‌افزاری، مدل‌های زبانی بزرگ و قدرتمندی رو آموزش بده.

خوب تیم DeepSeek برای این کار، از چند تا ترفند و نوآوری جالب استفاده کردن.
این تیم  با استفاده از ترکیبی از نوآوری‌ها مثل MoE با پراکندگی بالا و Auxiliary Loss و بهینه‌ سازی‌های سطح پایین مثل کتابخانه NCCL اختصاصی و دستورالعمل‌هایPTX، نشون دادن که حتی با منابع محدود هم میشه مدل‌های زبانی بزرگ و قدرتمندی رو آموزش داد.

این موضوع نشون میده که همیشه لازم نیست بهترین و گرون ‌ترین سخت‌ افزار رو داشته باشیم، بلکه با خلاقیت میشه کارهای بزرگی انجام داد.

https://www.youtube.com/watch?v=aAfanTeRn84


ادامه دارد...

Tensorflow(@CVision)

06 Feb, 15:10


مدل ترجمه همزمان گفتار به گفتار Hibiki، صحبت‌های شما رو از فرانسه به انگلیسی به صورت زنده ترجمه می‌کنه.

این مدل نه تنها متن ترجمه شده رو نشون میده، بلکه اون رو با صدای خودتون و با همان سرعت و لحن بیان می‌کنه.

Hibiki
در مقایسه با سیستم‌ های مشابه قبلی، ترجمه‌ های دقیق‌ تر، طبیعی‌ تر و با صدای شبیه‌ تر به صدای شما ارائه می‌ده و تقریبا به خوبی یک مترجم انسانی عمل می‌کنه.

مقاله :

https://arxiv.org/abs/2502.03382

کد:

https://github.com/kyutai-labs/hibiki

Tensorflow(@CVision)

06 Feb, 03:55


دیپ سیک یک مدل ۱۶ میلیارد پارامتری MOE با نام DeepSeek-VL2 Small برای وظایف مختلف تولید متن منتشر کرد.

دموی مدل در huggingface :

https://huggingface.co/spaces/deepseek-ai/deepseek-vl2-small

Tensorflow(@CVision)

06 Feb, 03:53


🔥

Tensorflow(@CVision)

05 Feb, 02:20


۲۴ ساعت بعد، نسخه متن باز Deep Research توسط hugging face منتشر شد.

DeepResearch
از دو بخش اصلی تشکیل شده است:

یک مدل زبانی بزرگ: این مدل می‌تونه از لیست مدل‌های زبانی بزرگی که توسط OpenAI ارائه می‌شه (مثل 4o، o1، o3 و غیره) انتخاب شه. به عبارتی، هسته اصلی DeepResearch یک LLM هست که وظیفه‌ی پردازش زبان طبیعی و تولید متن رو بر عهده داره.

دوم "Agentic Framework" : این فریمورک، مدل زبانی رو در استفاده از ابزارهایی مانند جستجوی وب و سازماندهی اقدامات خودش به صورت گام به گام راهنمایی می‌کنه. این بخش، DeepResearch رو قادر می‌سازه تا به طور هوشمندانه‌ تر و مؤثرتر عمل کنه. به جای اینکه فقط به مدل زبانی برای تولید متن تکیه کنه، این فریم ورک بهش کمک می‌کنه تا با دنیای خارج تعامل داشته باشه (از طریق جستجوی وب) و وظایف پیچیده رو به مراحل کوچکتر و قابل مدیریت تقسیم کنه

نکته قابل توجه عملکرد نسخه متن باز با کسب امتیاز 54% در مجموعه داده مشابه، در مقایسه با امتیاز 67% مدل اصلی توسط OpenAI هست.

https://huggingface.co/blog/open-deep-research

Tensorflow(@CVision)

04 Feb, 15:30


محققان چینی مدل OmniHuman را منتشر کردند.
این مدل می‌تواند ویدیوهای واقع‌گرایانه از انسان‌ها را در هر نسبت ابعاد و اندازه‌ی بدن، تنها با استفاده از یک تصویر و صدا ایجاد کند.

این مدل به‌طور چشمگیری مدیریت حرکات و ژست‌ها را بهبود می‌بخشد، که چالشی برای روش‌های موجود محسوب می‌شود، و نتایج بسیار واقع‌گرایانه‌ای تولید می‌کند.

https://omnihuman-lab.github.io/

Tensorflow(@CVision)

03 Feb, 14:34


یک نکته‌ی بسیار برجسته در Deep Research، تفاوت چشمگیر بین زمان صرف‌ شده برای انجام کار در مقایسه با انسان بود. طبق تخمین‌های برخی از کارکنان OpenAI، به نظر می‌رسه که این تفاوت در حال حاضر تقریبا ۱۵ برابره. اهمیت این موضوع از اونجاست که به پرسشی بزرگ در مورد خودکارسازی وظایف شناختی پاسخ میده و اون سوال اینه که چه زمانی هزینه‌ی انجام کار توسط هوش مصنوعی برابر یا ارزان‌ تر از پرداخت به انسان خواهد بود؟

چند ماه پیش که نتایج o3 منتشر شد هنگامی که به هزینه‌های اجرای o3 روی ARC AGI نگاه می‌ کردیم، به نظر می‌رسید که هنوز چندین مرتبه از این نقطه فاصله داریم، اما به نظر Deep Research داره نشون میده که ما بسیار نزدیک‌ تر از آنچه ابتدا به نظر می‌رسید، هستیم. این حالت به زودی برای کاربران حرفه‌ای با ۱۰۰ پرسش در ماه در دسترس خواهد بود، بنابراین در حال حاضر ما با حدود ۲ دلار برای چندین ساعت کار روبرو هستیم، که از همین حالا یک مرتبه ارزان‌تر از انسان، در این مورد خاصه.

اگر مدل‌های اپراتور پیشرفته‌ تری رو تصور کنیم که بتونن تمام وظایف یک شغل اداری با مهارت پایین‌تر رو انجام بدن، اما ۳ هفته کار رو در یک روز کاری کامل کنند، تصور اینکه چگونه هزینه نیروی کار به سرعت نزدیک به صفر بشه، دور از ذهن نیست

Tensorflow(@CVision)

03 Feb, 14:33


اوپن ای آی deep research را معرفی کرد. این حالت به کاربران این امکان رو میده تا "تحقیقات چند مرحله‌ای در اینترنت برای وظایف پیچیده" انجام بدن. 

این گامی دیگر به سوی تحقق وعده صنعت هوش مصنوعی ست که AI Agents به زودی قادر به انجام وظایف انسانی به طور قابل اعتماد، کارآمد و مستقل خواهند بود. این ویژگی برای افرادی که کارهای دانش‌محور فشرده در زمینه‌هایی مانند مالی، علم، سیاست و مهندسی انجام می‌دهند و به تحقیقات کامل، دقیق و قابل اعتماد نیاز دارند، ساخته شده.

حالت  Deep research، یک مقاله تحقیقاتی جامع و کاملا مستند به کاربر ارائه می‌ده، چیزی که اساسا یک تحلیلگر یا یک متخصص در یک زمینه ممکن است برای شما تهیه کنه.

https://openai.com/index/introducing-deep-research/

Tensorflow(@CVision)

03 Feb, 04:03


📢 اطلاعیه مهم

دوستان و همراهان عزیز، سلام 🌹

به اطلاع می‌رسانیم به دلیل یکسان‌سازی قیمت دوره‌های مشترک در پلتفرم‌های آموزشی مختلف (نظیر مکتب خونه) و همچنین تغییرات قیمت در بازار، ناگزیر به افزایش 30 درصدی قیمت برخی از دوره‌ها روی سایت کلاس ویژن شده‌ایم.

🎁 خبر خوب:
برای اینکه شما عزیزان بتوانید با همان قیمت‌های قبلی از دوره‌ها استفاده کنید، تا تاریخ 25 بهمن ماه، تخفیف ویژه‌ای در نظر گرفته‌ایم و می‌توانید دوره‌ها را با قیمت قبلی از سایت کلاس ویژن تهیه نمایید. موقتا قیمت قبلی در قالب تخفیف فرصت ویژه روی دوره ها اعمال شده است.

فرصت محدود است!
پیشنهاد می‌کنیم اگر قصد تهیه دوره‌ها را دارید، از این فرصت استثنایی استفاده کنید.

با تشکر از همراهی شما
#کلاس_ویژن

Tensorflow(@CVision)

01 Feb, 16:47


با کلیک بر روی این لینک و کپی کردن کد تخفیف زیر از 50 درصد تخفیف دوره opencv در مکتب خونه استفاده کنید:

COUPON-0d542

Tensorflow(@CVision)

01 Feb, 02:17


OAI
 نسخه‌ی o3-Mini را منتشر کرد و با این اقدام هوش مصنوعی با استدلال هوشمندتر، سریع‌تر و ارزان‌تر را در اختیار کاربران قرار می‌دهد.

همه کاربران می‌توانند از طریق دکمه‌ی جدید «Reason» از آن استفاده کنند

https://openai.com/index/openai-o3-mini

Tensorflow(@CVision)

31 Jan, 15:19


مشکل اصلی روش‌هایی قبلی اینه که برای کم کردن حجم کش KV، مجبوریم کیفیت مدل رو پایین بیاریم، یعنی یه جورایی معامله می‌کنیم: حافظه کمتر، کیفیت کمتر در عوض مدل بزرگتر!

اما DeepSeek مدلی رو پیشنهاد میده که حجم کش KV رو کم کنه بدون اینکه کیفیت مدل کم شه.

به عبارت دیگه، تونستن هم حافظه رو کم کنن و هم کیفیت رو حفظ کنن و هم اندازه مدل رو بزرگ کنن که خیلی مهمه!

روش Multi-head latent attention با ترکیب فاکتورگیری رتبه پایین(Low-Rank Factorization
) و بردارهای پنهان، هم حجم حافظه را کاهش میده و هم عملکرد مدل رو حفظ میکنه.

فاکتورگیری رتبه پایین یعنی یه ماتریس بزرگ رو به دو تا ماتریس کوچک ‌تر تبدیل می‌کنیم. این کار تعداد پارامترها رو کم می‌کنه. البته، یه سری معایب هم داره مثل اینکه محاسبات بیشتر می شه و ممکنه یه مقدار از اطلاعات ماتریس اصلی رو از دست بدیم. 

در واقع، یه جورایی داره حافظه رو با محاسبات "معاوضه" می ‌کنه. این روش برای مواردی که محدودیت اصلی حافظه هست مثل fine-tuning و کاهش کش KV خیلی مفیده.

هدف اینجا هم اینه که تا جایی که ممکنه عملکرد مدل حفظ بشه و در عین حال حجم کش KV هم کم شه.

دلیل موثر بودن این روش، همپوشانی اطلاعات بین attention head های مختلفه. attention head های مختلف به اطلاعات مشابهی نیاز دارن. روش‌های دیگه مثل GQA هم از این همپوشانی استفاده می‌ کنن، اما به شکل ناکارآمد. 

اونها head هایی که با هم گروه‌ بندی شدن رو مجبور می کنن که به پرسش‌ ها جواب‌های مشابهی بدن، که کارآمد نیست. اما روش DeepSeek این مشکل رو نداره و اجازه میده که headهای مختلف از یه اطلاعات یکسان به روش‌های خیلی متفاوت استفاده کنن.

اگر علاقه مندید توضیحات جامع تر به همراه نمایش بصری رو در لینک زیر مشاهده کنید:

https://planetbanatt.net/articles/mla.html
 

Tensorflow(@CVision)

31 Jan, 15:11


روش دومی که قبلا در موردش صحبت کردیم Grouped-Query Attention هست.

در معماری Multi-Head Attention، تعداد بردارهای K و V منحصر به فرد برابر با تعداد head بود و در معماری  Multi-Query Attention، تعداد بردارهای K و V منحصر به فرد برابر با ۱ بود.

در معماری GQA، تعداد بردارهای K و V منحصر به فرد برابر با یک ابرپارامتر G است که تعداد گروه‌ها ست.

به عنوان مثال، اگر تعداد  head ۴ باشه و Gیا گروه ها برابر با 2 باشه، دو مجموعه منحصر به فرد از بردارهای K و V وجود خواهد داشت که هر کدام توسط دو head استفاده میشن.

https://arxiv.org/abs/2305.13245

این روش در مقایسه با روش قبلی، بهبود جزئی در عملکرد ارائه میده اما در واقع، هنگام کار در یک محیط چند GPU با موازی‌ سازی تنسور، میتونیم اساسا دستاورد عملکردی رو به صورت رایگان با تنظیم G برابر با تعداد GPUها به دست بیاریم همچنین مشکل کارایی پایین MQA در خلاصه سازی متون رو برطرف میکنه.

در این روش با توجه به مقدار قبل و فرض داشتن 8 گروه مقدار حافظه مورد نیاز در GPT3 برابر با 3.6GB میشه.

ادامه دارد....

Tensorflow(@CVision)

31 Jan, 15:06


یکی از روش ‌های رایج که مدل های متن باز ازش استفاده میکنند Grouped-Query Attention و Multi-Query Attention هست که اندازه کش KV رو به طور قابل توجهی کاهش میدن.

مدل های متن باز مثل Llama 3.3 70B و Mistral Large 2 از این روش استفاده کردن و اندازه کش KV رو به شکل چشمگیری کاهش دادن.

https://arxiv.org/pdf/1911.02150

در معماری Multi-Head Attention، هر head مجموعه منحصر به فردی از بردارهای Q، K و V رو محاسبه میکنه اما در معماری Multi-Query Attention، فقط بردارهای Q برای هر head منحصر به فرده، در حالی که بردارهای Key و Value بین همه head ها به اشتراک گذاشته میشه. 

در این حالت با توجه به فرمول قبل اندازه حافظه مورد نیاز به 468MB کاهش پیدا میکنه! اما مقاله زیر نشون میده که این روش مشکلاتی رو در وظایفی مثل خلاصه سازی متون رو میتونه به همراه داشته باشه و معماری Multi-Head Attention در این وظایف بهتر عمل میکنه.

https://arxiv.org/abs/2305.13245

همونطور که میدونید مدل هایی که از معماری transformer استفاده میکنن اغلب به حافظه بیشتری نسبت به مقدار حافظه ای که در یک GPU قرار داره، نیاز دارن بنابراین به نوعی از موازی ‌سازی برای آموزش و استنتاج نیاز داریم! موازی‌ سازی تنسور(Tensor Parallelism) روشی برای موازی ‌سازی مدل‌ های بزرگ تولید متن هست.

به طور خلاصه، موازی ‌سازی تنسور با اختصاص attention head مختلف به GPUهای مختلف کار میکنه.

برای مثال، مدل ۱۷۵ میلیارد پارامتری GPT-3 دارای ۹۶ head هست. میتونیم این مدل رو روی ۸ GPU با اختصاص ۱۲ head به هر کدام موازی کنیم.

هر GPU کل محاسبات attention رو برای head اختصاص داده شده خودش انجام میده، در نهایت همه GPUها نتایج محاسبات خودشون رو مبادله میکنن.

اما در معماری Multi-Query Attention، هر attention head روی مجموعه یکسانی از بردارهای K و V عمل میکنه و این یعنی ما مجموعه یکسانی از بردارهای K و V را روی هر GPU محاسبه و کش می‌کنیم.

https://arxiv.org/abs/1910.10683

ادامه دارد...

Tensorflow(@CVision)

31 Jan, 14:57


این روش برای طول متن‌های کوتاه خوبه، اما برای متون بلند میتونه پرهزینه باشه، چون خوندن کش هزینه داره و بایستی همه بردارها رو در حافظه با پهنای باند بالا GPU ذخیره تا هنگام نیاز به هسته ‌های تنسور بارگذاری کنیم.

اگر هر توکن نیاز داشته باشه که کل متن گذشته خودش رو بدونه، به این معناست که برای هر توکنی که تولید می‌کنیم، باید کل کش KV گذشته را ازکارت گرافیک بخونیم.

این کار به ویژه در متن‌های بالای چند هزار توکن میتونه مشکل‌ ساز شه و نیاز به روش‌هایی برای کاهش اندازه کش KV را ضروری میسازه.  

محاسبه مقدار حافظه مورد نیاز برای کش KV از طریق ضرب مقادیر زیر بدست میاد:

number of layers*batch size*number of attention heads*attention head size*sequence length

به عنوان مثال در GPT3 با 175 میلیارد پارامتر اندازه کش KV با batch size 1 و sequence length
10,000 توکن حافظه مورد نیاز برابر با 43GB هست!

توضیحات بیشتر در ویدیو زیر:

https://www.youtube.com/watch?v=80bIUggRJf4

ادامه دارد...

Tensorflow(@CVision)

31 Jan, 14:51


ابتدا با یه توضیح مختصر در مورد اینکه KV cache چیه، شروع کنیم.

هنگامی که یه مدل زبانی برای تولید متوالی توکن‌ ها در زمان استنتاج استفاده میشه، باید متن(context) همه توکن‌ های قبلی رو هنگام تصمیم‌ گیری در مورد اینکه کدوم توکن رو بعدا در خروجی تولید کنه، ببینه.

راه ساده اینه هر بار که میخوایم یه توکن جدید تولید کنیم، یک محاسبات رو به جلو شامل همه توکن ‌های گذشته رو انجام بدیم، اما این کار بسیار ناکارامده چون توکن‌ های گذشته قبلا توسط مدل زبانی پردازش شدن و با اینکار فقط داریم نتایج از قبل به ‌دست‌آمده رو مجددا محاسبه میکنیم.

برای جلوگیری از این محاسبه مجدد، ذخیره حالت داخلی مرتبط برای همه توکن‌های گذشته و سپس بازیابی نتایج از یک حافظه در صورت نیاز برای توکن‌ های آینده پیشنهاد میشه.

از اونجایی که تنها راه تاثیر توکن‌ های قبلی بر توکن‌ های آینده از طریق بردارهای Key و Value آنها در مکانیسم توجه هست، ذخیره این بردارها کافی به نظر میرسه که نام Key-Value cache یا به اختصار cache KV از اینجا میاد.

ادامه دارد ...

Tensorflow(@CVision)

31 Jan, 14:47


DeepSeek

اخیرا نسخه سوم مدل خودش بنام  DeepSeek V3رو منتشر کرد  که در حال حاضر بهترین عملکرد در بین مدل ‌های متن باز در بنچ مارک های مختلف داره. به همراه این مدل، یک گزارش فنی هم منتشر شد که جزئیات آموزش مدل رو شرح میده.

نکته جالب اینجاست که این عملکرد عالی با استفاده از فقط ۲.۸ میلیون ساعت سخت ‌افزار آموزشی H800 بدست اومده که این مقدار تقریبا ده برابر کمتر از محاسبات آموزشی مدل Llama3.1 405B با عملکرد مشابه ست.

امشب در این مورد بحث خواهیم کرد و  به برخی از بهبودهای معماری مهمی که DeepSeek در گزارش خود به اونها اشاره کرده می پردازیم و اینکه چطور این بهبودها منجر به عملکرد بهتر در مقایسه با یک مدل ترانسفورمر معمولی شد.

مهم ترین نوآوری های این معماری به ترتیب:

Multi-head latent attention 

Mixture-of-experts

Auxiliary-loss-free load balancing

Multi-token prediction
 

هستند که به مرور بحث خواهیم کرد.
 
🔅Multi-head latent attention 

 مهم‌ ترین نوآوری معماری در DeepSeek برای استنتاج متن‌ های طولانی هست. این تکنیک برای اولین بار در DeepSeek نسخه ۲ معرفی شد و روشی بهتر برای کاهش اندازه KV cache در مقایسه با روش‌های معرفی شده grouped-query attention و multi-query attention هست.

ادامه دارد...

Tensorflow(@CVision)

29 Jan, 19:10


گروهی از محققان هوش مصنوعی دانشگاه کالیفرنیا، برکلی،ادعا می کنند که فناوری اصلی DeepSeek R1-Zero را با تنها 30 دلار بازسازی کردن و نشون دادن که چگونه میشه مدل های پیشرفته را با هزینه ای مقرون به صرفه پیاده سازی کرد.

 تیم DeepSeek این کارو با چندین نوآوری واقعی و چشمگیر انجام داد، که بیشترشون مربوط به افزایش کارایی مهندسی بودن. پیشرفت های خیلی خلاقانه ای توی مدیریت در بخش"Key-Value cache" و فعال کردن "MOEs" به وجود اومد که تا قبل از این توجه چندانی بهش نشده بود، هر چند که ایده mixture of experts به ۱۹۹۱ بر میگرده 
https://www.tomshardware.com/tech-industry/artificial-intelligence/ai-research-team-claims-to-reproduce-deepseek-core-technologies-for-usd30-relatively-small-r1-zero-model-has-remarkable-problem-solving-abilities

https://github.com/Jiayi-Pan/TinyZero

Tensorflow(@CVision)

28 Jan, 18:20


Special Public Lecture on DeepSeek R1

https://www.youtube.com/live/5jms37B3aFY?si=88_hOSOc4I3kedML

Tensorflow(@CVision)

27 Jan, 17:39


سری Janus از تیم DeepSeek نسل جدیدی از مدل‌های هوش مصنوعی هست که برای کار با داده‌های متنوع مثل متن، تصویر و حتی ترکیب این دو طراحی شده. این مدل‌ها می‌تونن هر نوع ورودی رو بگیرن (متن، تصویر) و هر نوع خروجی تولید کنن (متن، تصویر). به خاطر همین، بهشون می‌گن مدل‌های “any-to-any” که یعنی هر چیزی رو به هر چیزی تبدیل می‌کنن!

نسخه پیشرفته‌ی این سری (Janus-Pro) که با سه تا بهبود اصلی ارائه شده:
1. استراتژی آموزشی بهینه‌شده که یادگیری مدل رو دقیق‌تر کرده.
2. اضافه شدن داده‌های بیشتر به فرایند آموزش که مدل رو باهوش‌تر کرده.
3. بزرگ‌تر شدن ابعاد مدل که باعث شده عملکردش توی درک و تولید تصویر از متن خیلی قوی‌تر بشه.

نتیجه این شده که Janus-Pro توی درک و تولید Multimodal پیشرفت‌های فوق‌العاده‌ای داشته و حتی توی تولید تصویر از متن، پایداری خیلی بالایی نشون داده.

نسخه اصلی، یعنی Janus، یه معماری جالب و هوشمندانه داره. این مدل پردازش تصویر رو از بقیه وظایف جدا کرده ولی همچنان با یه معماری یکپارچه‌ی ترانسفورمر همه چیز رو مدیریت می‌کنه. این طراحی باعث شده مدل توی هر دو بخش درک و تولید خیلی منعطف و کارآمد باشه و حتی از مدل‌های تخصصی توی این زمینه جلو بزنه.

یه مدل دیگه توی این سری JanusFlow هست که یه ایده جدید رو اجرا کرده: ترکیب ‌مدل‌های اتورگرسیو با روش پیشرفته‌ای به اسم Rectified Flow. این ترکیب، ساده و موثر انجام شده و نیاز به پیچیدگی خاصی نداره. نتیجه؟ یه مدل که هم می‌تونه تصویر تولید کنه و هم توی کارهای Multimodal عملکردش خیلی بهتر از بقیه مدل‌های موجوده.

Tensorflow(@CVision)

27 Jan, 17:35


مدل جدید DeepSeek به اسم Janus که مولتی‌مدال هست هم در ورودی هم خروجی امروز منتشر شد:

https://github.com/deepseek-ai/Janus

Tensorflow(@CVision)

27 Jan, 14:38


🔹 استارتاپ چینی DeepSeek با معرفی مدل هوش مصنوعی جدید خود، R1، تحولی در بازار هوش مصنوعی ایجاد کرده است. این مدل با عملکردی مشابه مدل‌های پیشرفته غربی، اما با هزینه‌ای به‌مراتب کمتر توسعه یافته است. این دستاورد باعث کاهش ۱۲ درصدی ارزش سهام انویدیا و افت ۳۸۴ میلیارد دلاری ارزش بازار آن شده است.

🔸 مدل DeepSeek-R1 با ۶۷۱ میلیارد پارامتر، از معماری «ترکیب متخصصان» (Mixture of Experts) بهره می‌برد که در آن تنها ۳۷ میلیارد پارامتر در هر پردازش فعال می‌شوند. این رویکرد منجر به کاهش قابل‌توجهی در مصرف منابع محاسباتی و افزایش کارایی مدل شده است.
این مدل با استفاده از تنها ۲,۰۰۰ واحد پردازش گرافیکی (GPU) انویدیا، مدل خود را آموزش داده است؛ در حالی که مدل‌های مشابه به حدود ۱۶,۰۰۰ GPU نیاز دارند. این کارایی بالا و هزینه پایین، نگرانی‌هایی را در مورد آینده سرمایه‌گذاری‌های شرکت‌هایی مانند مایکروسافت و گوگل در حوزه هوش مصنوعی برانگیخته است.

🔹 مدل DeepSeek-R1 با استفاده از یادگیری تقویتی (Reinforcement Learning) و بدون نیاز به تنظیمات نظارت‌شده (Supervised Fine-Tuning)، توانسته است در بنچمارک‌های مختلفی مانند AIME و MATH-500 عملکردی بهتر یا مشابه با مدل o1 از OpenAI ارائه دهد. این مدل در تست‌های ریاضی AIME امتیاز ۷۹.۸ درصد و در MATH-500 امتیاز ۹۷.۳ درصد را کسب کرده است.

GIT
Source: barrons - theverge - wikipedia

Tensorflow(@CVision)

27 Jan, 14:37


🔥 مدل DeepSeek چالش جدید چینی برای غول‌های هوش مصنوعی 🔥

Tensorflow(@CVision)

22 Jan, 22:26


مدل‌های DeepSeek-R1-Zero و DeepSeek-R1 اولین نسل از مدل‌های استدلالی هستند که برای بهبود قابلیت‌های reasoning طراحی شده‌اند. DeepSeek-R1-Zero به کمک یادگیری تقویتی در مقیاس بزرگ (RL) و بدون تنظیم دقیق نظارت‌شده (SFT) آموزش دیده است. این مدل توانسته رفتارهای جالبی مثل زنجیره تفکر (Chain-of-Thought)، خودبازبینی (Self-Verification)، و بازتاب (Reflection) را به‌صورت طبیعی یاد بگیرد. نکته مهم این است که این مدل اولین نمونه تحقیقاتی است که نشان داده فقط با استفاده از RL و بدون نیاز به SFT می‌توان قابلیت‌های reasoning مدل‌های زبانی را بهبود داد. با این حال، DeepSeek-R1-Zero مشکلاتی مثل تکرار بی‌پایان، خوانایی پایین و ترکیب غیرمنطقی زبان‌ها دارد.

برای رفع این مشکلات و ارتقای عملکرد، مدل DeepSeek-R1 توسعه داده شد. این مدل از یک فرایند آموزشی پیچیده استفاده می‌کند که شامل دو مرحله RL برای کشف الگوهای بهتر استدلال و هماهنگی با ترجیحات انسانی، و همچنین دو مرحله SFT برای بهبود قابلیت‌های مدل در استدلال و وظایف عمومی است. نتیجه این فرآیند، مدلی است که در وظایف ریاضی، کدنویسی، و استدلال عملکردی مشابه OpenAI-o1 دارد.

از طرف دیگر، تیم تحقیقاتی نشان داده که می‌توان الگوهای استدلال مدل‌های بزرگ‌تر را به مدل‌های کوچک‌تر انتقال داد (distillation) و همچنان عملکرد بالایی به دست آورد. با استفاده از داده‌های تولیدشده توسط DeepSeek-R1، چندین مدل کوچک‌تر بهینه‌سازی شده‌اند که در ارزیابی‌ها نتایج فوق‌العاده‌ای داشته‌اند. این مدل‌های کوچک‌تر، با اندازه‌های مختلف (مثل 1.5 میلیارد تا 70 میلیارد پارامتر)، به‌صورت متن‌باز در دسترس جامعه تحقیقاتی قرار گرفته‌اند. به‌طور خاص، مدل DeepSeek-R1-Distill-Qwen-32B در مقایسه با OpenAI-o1-mini در آزمون‌های مختلف عملکرد بهتری داشته و استانداردهای جدیدی برای مدل‌های dense ایجاد کرده است.


کد:
https://github.com/deepseek-ai/DeepSeek-R1

مقاله:

https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

Tensorflow(@CVision)

22 Jan, 22:17


تیم پست‌ترینینگ هاگینگ فیس در این جلسه، گزارش فنی مدل‌ جدید DeepSeek R1 را بررسی می‌کند:

https://youtu.be/1xDVbu-WaFo

Tensorflow(@CVision)

19 Jan, 08:17


🔻OWASP Top 10 for LLM Applications 2025

مخاطرات بکارگیری AI در برنامه‌ها

genai.owasp.org/download/43299/?tmstv=1731900559

genai.owasp.org/resource/owasp-top-10-for-llm-applications-2025

Tensorflow(@CVision)

17 Jan, 16:15


🟥 معرفی پنل های تخصصی یازدهمین جشنواره فناوری اطلاعات کشور

🟧 پنل سوم: هوش مصنوعی در کسب و کار ها

🗓 30 دی ماه 1403 ساعت 15:00 الی 16:00

📍دانشگاه صنعتی شریف ( دانشکده مهندسی کامپیوتر، سالن استاد ربیعی)

1️⃣ علیرضا اخوان‌پور، مدرس دانشگاه، مشاور هوش‌مصنوعی

2️⃣ سمیه چشمی، مدیر ارشد محصول پروژه خودرو هوشمند فناپ

3️⃣ محمد اتابکی، هم‌بنیانگذار و مدیرعامل آپتایم

4️⃣ علی نادری، بنیانگذار چت‌بات فلوچت

5️⃣ پرهام کاظمی، هم‌بنیانگذار گنجه

6️⃣ آرش سروری ( راهبر و تسهیلگر پنل)

🌐 https://itweekend.sharif.ir

🚀 @sharifit | 📷 @sharif_ict

Tensorflow(@CVision)

17 Jan, 10:09


برای این امتحان دوستان ویدیوها یا منبع دوره را خواسته بودند.
پیش نیاز این دوره مباحث ویژه 1 و 2 است که در مکتب خونه با این نامها قرار گرفته:

آموزش رایگان مقدمات هوش مصنوعی و یادگیری عمیق و آموزش رایگان هوش مصنوعی و یادگیری عمیق پیشرفته

و بخش سوم این درس هنوز تو مکتب خونه قرار نگرفته اما در آپاراتم هست:

https://www.aparat.com/v/vqc793d/


این سه درس برای مقطع کارشناسی در دانشگاه شهید رجایی ارائه شده بوده است.

Tensorflow(@CVision)

17 Jan, 09:15


یازدهمین جشنواره فناوری اطلاعات کشور- ITWEEKEND 2025

🗓30 دی ماه 1403 ساعت 9:00 الی 17:30

📍دانشگاه صنعتی شریف ( دانشکده مهندسی کامپیوتر، سالن استاد ربیعی)
https://itweekend.sharif.ir
〰️〰️〰️〰️〰️

این کانال با هدف آگاه سازی از رویدادهای مرتبط با هوش مصنوعی نظیر همایش، کنفرانس، ورک‌شاپ و کلاس تشکیل شده است.

@eventai

Tensorflow(@CVision)

13 Jan, 05:47


آزمون مباحث ویژه ۳ مقطع کارشناسی با مبحث دیپ لرنینگ پیشرفته،
ویدیوهای این دوره همانند مباحث ویژه ۱ و ۲، در مکتب خونه قرار میگیرد.

Tensorflow(@CVision)

05 Jan, 04:57


ویدویها _کدها + اسلاید این وبینار روی سایت قرار گرفت

https://class.vision/product/explainable-ai-graph-neural-networks/

Tensorflow(@CVision)

04 Jan, 12:29


💡 پذیرفتن اینکه داده‌ها امروز به یه سرمایه‌ی بی‌قیمت تبدیل شدن،

✔️ کافیه تا متوجه بشیم شرکت در بوت‌کمپ آموزشی استخدامی تحلیل داده مکتب شریف، یه فرصت استثائی برای اون‌هاییه که میخوان به کمک داده‌ها هم یه بازار کار عالی رو تجربه کنن و هم خیلی زود از رقباشون پیشی بگیرن.🥇

📌 مشاوره و ثبت‌نام ➡️

برای کسب اطلاعات بیشتر کافیه به آی‌دی ما پیام بدی!

🆔 @MaktabSharif_Admin

▪️▫️▪️▫️▪️▫️▪️▫️▪️▫️
🌐 وبسایت | کانال تلگرام | 🌐 اینستاگرام

💻 #استخدام_با_طعم_آموزش

Tensorflow(@CVision)

04 Jan, 07:56


ابزار markitdown؛ همه چیز را به فرمت markdown تبدیل کن!

مایکروسافت یک کتابخونه به نام MarkItDown را به صورت متن‌باز بیرون داده که باهاش می‌تونید فایل‌هایی با فرمت‌های زیر را به فرمت markdown (مثل فایل‌های readme گیت) تبدیل کنید.
فایل ورد فارسی رو هم خوب پشتیبانی می‌کنه

• PDF
• PowerPoint
• Word
• Excel
• Images (EXIF metadata and OCR)
• Audio (EXIF metadata and speech transcription)
• HTML
• Text-based formats (CSV, JSON, XML)
• ZIP files (iterates over contents)


https://github.com/microsoft/markitdown/tree/main


🙏Thanks to: @nlp_stuff

Tensorflow(@CVision)

01 Jan, 07:48


وبینار رایگان: تفسیرپذیری شبکه‌های عصبی گرافی

این وبینار به‌صورت آنلاین برگزار می‌شود.

🗓 زمان: پنج شنبه، ۱۳ دی ۱۴۰۳
ساعت: 10 الی 12 صبح


https://class.vision/product/explainable-ai-graph-neural-networks/

Tensorflow(@CVision)

30 Dec, 10:30


کاربری به اسم frosty این سوالات رو تو Stack Overflow پرسیده و FBI هم از طریق این اسمش و کدهایی که تو سایتش استفاده کرده تونسته ردشو بزنه.

فریمورکی که هم که استفاده کرده CodeIgniter پی‌اچ‌پی بوده. یه نفر بهش میگه که چتاشون لو رفته و باید سریع پاکش کنه که اومده سرچ کرده چطوری session رو تو CodeIgniter پاکش کنه.

پ.ن: این کاربر راس ویلیام اولبریکت، بنیان‌گذار سایت خرید و فروش مواد مخ.در در دارک وب به نام Silk Road بود که در اکتبر ۲۰۱۳ تحت عملیاتی مشترک از سوی اف‌بی‌آی، اداره مبارزه با مواد مخدر، وزارت دادگستری و آژانس امنیت ملی دستگیر و به حبس ابد محکوم شد.

پ.ن۲: اگه خواستین جرمی مرتکب بشین، جوابای Stack Overflow رو مستقیم کپی نکنید، خودتون بنویسید

پادکست جذاب Silk Road از چنل‌بی رو حتما گوش کنید فوق‌العاده هس.

منبع:

@DevTwitter | <Reza Asgharzadeh />

Tensorflow(@CVision)

30 Dec, 08:23


رقیب چینی ChatGPT

https://chat.deepseek.com/

از زبان فارسی به خوبی پشتیبانی میکنه و تحریم شکن نمیخواد...

Tensorflow(@CVision)

25 Dec, 14:45


بوت‌کمپ هوش مصنوعی در سلامت (دوره مقدماتی)
هوشیار و مرکز نوآوری علم داده و هوش مصنوعی ICDS برگزار می‌کنند!

🔹سرفصل‌ها: 
۱. پایتون برای تحلیل داده های حوزه سلامت
۲. جمع آوری داده‌های حوزه سلامت
۳. پیش پردازش داده‌های پزشکی
۴. تحلیل اکتشافی و مصور سازی داده‌های سلامت
۵. پایگاه‌های داده در حوزه پزشکی
۶.آمار و تحلیل داده های درمانی
۷. یادگیری ماشین در حوزه پزشکی
۸. مهارت‌های نرم برای متخصصان داده در حوزه سلامت
۹. اصول و چابکی در کار تیمی
۱۰. پردازش زبان طبیعی (NLP) در داده‌های پزشکی
۱۱. اجرای یک پروژه عملی در حوزه سلامت

🔹اساتید دوره : 
دکتر مسعود مظلوم، مهندس سروش ریاضی، مهندس دانیال ظهوریان، دکتر مسعود کاویانی، دکتر هادی ویسی، دکتر سهیل تهرانی پور، دکتر رحمانی

🔹 پس از اتمام دوره، امکان کار و همکاری با دانش پژوهان برتر نیز وجود دارد.

📅 زمان برگزاری:  به مدت ۸ روز از  ۴ ام بهمن ماه، پنجشنبه ها و جمعه ها از ساعت ۸ الی ۲۰

📌 مهلت ثبت‌نام:  تا ۲۰ دی ماه

📍محل برگزاری: پژوهشکده مطالعات و تحقیقات پیشرفته دانشگاه تهران

📎 لینک ثبت‌نام:  لینک

🔹هزینه ثبت نام : ۶ میلیون تومان (آزاد) ۳ میلیون تومان (دانشجویی)

Tensorflow(@CVision)

21 Dec, 15:08


وبینار رایگان: تفسیرپذیری شبکه‌های عصبی گرافی

این وبینار به‌صورت آنلاین برگزار می‌شود.

🗓 زمان: پنج شنبه، ۱۳ دی ۱۴۰۳
ساعت: 10 الی 12 صبح


https://class.vision/product/explainable-ai-graph-neural-networks/

Tensorflow(@CVision)

21 Dec, 08:39


به دلیل مشکلاتی که دیشب برای پنل پیامکی سایت ایجاد شده بود و یکسری از کاربران گرامی نتوانستند خرید خود را کامل کنند، اعتبار کد تخفیف دو روز تمدید شد

کد تخفیف: offya

https://class.vision

Tensorflow(@CVision)

20 Dec, 07:02


کد تخفیف یلدا فقط روی دوره‌های سایت کلاس ویژن تا ۲۴ امشب فعال است
برای تهیه دوره اپن سی وی از مکتب خونه کد زیر هنوز فعال است
https://t.me/class_vision/697

Tensorflow(@CVision)

20 Dec, 06:59


ابزار Copilot، دستیار برنامه‌نویسی مبتنی بر هوش مصنوعی، اکنون به‌صورت رایگان برای همه در Visual Studio Code در دسترس است.

با ورود به حساب کاربری GitHub خود، کاربران می‌توانند ماهانه تا ۲۰۰۰ تکمیل کد و ۵۰ پیام چت دریافت کنند.

این اقدام با هدف دسترسی بیشتر توسعه‌دهندگان به ابزارهای هوش مصنوعی و بهبود بهره‌وری در فرآیند کدنویسی انجام شده است.

https://github.blog/news-insights/product-news/github-copilot-in-vscode-free/


لازم به ذکره این ابزار خیلی با پرسیدن یه تیکه کد تو چت بات فرق داره، کل پروژه را میخونه و پبشنهادهای خیلی باحال رو پروژه میده، من قبل این ماهانه
حدودا ۲ میلیون در میومد...

اگر کار نکردید، حتما فیلمهاشو تو لینک بالا ببینید

Tensorflow(@CVision)

19 Dec, 12:02


آیا می‌توان مهارت‌ها را مستقیماً به مغز انتقال داد؟ واقعیت علمی پشت رؤیای فیلم ماتریکس (🧠to🧠)!!


آیا واقعا میشه اطلاعات مغز یه آدم حرفه ای تو یه کاریو روی مغز یه آدم مبتدی آپلود کرد و اونم بی زحمت حرفه ای شه؟
این ادعاییه که یه تیم تحقیقاتی مطرح کردند...

در سال ۲۰۱۶، آزمایشگاه‌های HRL در کالیفرنیا ادعا کردند که با استفاده از تحریک الکتریکی مغز (tDCS)، می‌توان مهارت‌های پیچیده‌ای مانند خلبانی را به افراد مبتدی منتقل کرد.

https://www.sciencealert.com/sorry-guys-scientists-haven-t-invented-a-matrix-style-device-that-instantly-uploads-data-to-your-brain

با این حال، این مطالعه با انتقاداتی مواجه شد. برخی محققان به نمونه کوچک شرکت‌کنندگان و تضاد منافع احتمالی اشاره کرده‌اند که می‌تواند به اعتبار نتایج آسیب برساند.

علاوه بر این، نتایج مشابه در مطالعات دیگر تکرار نشده است. به عنوان مثال، مطالعه‌ای در سال ۲۰۲۳ نشان داد که تحریک الکتریکی مغز تأثیر قابل‌توجهی بر بهبود مهارت‌های حرکتی ندارد، شاید اثر پلاسیبو* بوده که افراد کمی بهتر عمل میکردند.
https://pmc.ncbi.nlm.nih.gov/articles/PMC11101143/
در نتیجه، به دلیل این چالش‌ها و عدم تکرار نتایج، این فناوری در سال‌های بعد توسعه نیافته و عملیاتی نشده است.

*پلاسیبو (Placebo) به ماده‌ای یا درمانی گفته می‌شود که هیچ اثر واقعی درمانی ندارد اما به واسطه تلقین کردن و به دلیل باور فرد به اثربخشی آن، ممکن است باعث بهبود یا تغییراتی در وضعیت او شود. مثلا ممکنه چون گفتند اطلاعات مغز یه فرد خبره را بهت انتقال میدیم طرف تلقین کرده و یه کم بهتر تو تست های بعدی ظاهر شده...

Tensorflow(@CVision)

19 Dec, 08:27


وبینار رایگان: تفسیرپذیری شبکه‌های عصبی گرافی

این وبینار به‌صورت آنلاین برگزار می‌شود.

🗓 زمان: پنج شنبه، ۱۳ دی ۱۴۰۳
ساعت: 10 الی 12 صبح


https://class.vision/product/explainable-ai-graph-neural-networks/

Tensorflow(@CVision)

17 Dec, 13:17


شب یلدایی با تخفیف ویژه! 🎁
به مناسبت بلندترین شب سال، 30% تخفیف برای تمامی دوره‌ها و محتواهای آموزشی سایت class.vision در نظر گرفته‌ایم. 🌟

📌 کد تخفیف: offya
📅 مهلت استفاده: فقط تا پایان شب یلدا

فرصت رو از دست ندید و همین حالا از این تخفیف استفاده کنید! 🚀

[لینک دوره‌ها]

Tensorflow(@CVision)

10 Dec, 15:01


مراسم دریافت جایزه نوبل توسط برندگان این جایزه از جمله دکتر جفری هینتون به صورت زنده


https://www.youtube.com/live/6-A4dUowT4Q?si=j4yZx2rXU2av9aI0

Tensorflow(@CVision)

08 Dec, 13:42


جلسه دهم مباحث ویژه ۳ دانشگاه شهید رجایی، با موضوع simclr و clip

https://www.aparat.com/v/yukavm9

Tensorflow(@CVision)

04 Dec, 20:08


Genie 2: A large-scale foundation world model

Introducing Genie 2: our AI model that can create an endless variety of playable 3D worlds - all from a single image. 🖼

These types of large-scale foundation world models could enable future agents to be trained and evaluated in an endless number of virtual environments. →

https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

این یه مدل جهان‌سازی پیشرفته‌ست که می‌تونه بی‌نهایت محیط سه‌بعدی قابل بازی و تعاملی بسازه. یعنی شما (یا یه عامل هوش مصنوعی) می‌تونید فقط با دادن یه تصویر ساده، وارد یه دنیای شگفت‌انگیز بشید و با کیبورد و موس توش بازی کنید یا ازش برای آموزش هوش مصنوعی استفاده کنید!

Tensorflow(@CVision)

04 Dec, 18:48


#تخفیف #opencv
📢 0️⃣5️⃣ درصد تخفیف دوره opencv برای 100 نفر اول:

گام نخست: ورود با لینک خرید با تخفیف
وارد کردن کد تخفیف 50 درصدی: COUPON-9f654

Tensorflow(@CVision)

28 Nov, 11:17


🎉 بلک فرایدی، فرصت طلایی برای یادگیری عمیق! 🎉

به مناسبت بلک فرایدی، بهترین فرصت را برای ارتقای مهارت‌های خود از دست ندهید! 💡
30٪ تخفیف ویژه برای تمام دوره‌های حرفه‌ای یادگیری عمیق:

دوره جامع یادگیری عمیق: تسلط بر هوش مصنوعی با 40 ساعت آموزش (Tensorflow/Keras)
دوره ویدیویی Graph Neural Network
دوره شبکه‌های بازگشتی عمیق و سری‌های زمانی با تنسرفلو 2
و...

فقط کافی است هنگام خرید از کد تخفیف زیر استفاده کنید:
black_friday


عجله کنید! این تخفیف فقط تا پایان بلک فرایدی (شنبه) فعال است.
🛒 آماده‌اید؟ همین حالا شروع کنید و هوش مصنوعی را به سطح جدیدی ببرید!

ثبت‌نام و استفاده از تخفیف

#تخفیف #یادگیری_عمیق

Tensorflow(@CVision)

24 Nov, 02:26


محققین یه رابط مغزی زنده ایجاد کردن که شامل نورون‌ های کنترل‌ شونده با نور هست. این نورون‌ ها با موفقیت در مغز یک موش ادغام شدن و مدارهای عصبی جدیدی رو شکل دادن و با استفاده از نور کنترل میشن. این دستاورد ممکنه روزی امکان ایجاد تجربیات حسی مصنوعی دقیق رو فراهم کنه.

این روش با رابط‌ های سنتی مغز و کامپیوتر تفاوت داره و به جای استفاده از الکترودها یا موادی که مغز اونها رو پس می‌زنه، نورون‌ های زنده جدیدی به مغز اضافه میکنه که بخشی از خود مغز میشن.

https://science.xyz/news/biohybrid-neural-interfaces/

Tensorflow(@CVision)

23 Nov, 15:01


Automated-AI-Web-Researcher

 یه ابزار زبانی متن بازه که برای اجرای پژوهش‌ های آنلاین طراحی شده. این برنامه با استفاده از مدل‌ های زبانی لوکال مثل  Ollama، به شما این امکان رو میده تنها با وارد کردن یک سوال یا موضوع، یک فایل متنی پر از محتوای پژوهشی همراه با لینک منابع و خلاصه‌ای از یافته‌ها دریافت کنین.

در واقع برنامه به طور خودکار در اینترنت جستجو میکنه، محتوا جمع‌ آوری کرده و یک فایل متنی شامل اطلاعات و لینک منابع به همراه خلاصه ‌ای از یافته‌ ها تولید میکنه. علاوه بر این، امکان پرسیدن سؤالات بیشتر از یافته‌های پژوهش نیز وجود داره.

روند کار به این صورت هست که ابتدا پرسش شما رو به چند حوزه پژوهشی تقسیم میکنه (تا ۵ محور اصلی)، بعد اونها رو بر اساس میزان ارتباط اولویت ‌بندی کرده و از مرتبط ‌ترین بخش شروع به جستجو میکنه. 

پس از تکمیل جستجو، محتوای یافته ‌ها رو بررسی کرده و حوزه‌های جدیدی برای تحقیق شناسایی میکنه.

 این قابلیت گاهی محورهای جدید و نوآورانه ‌ای ایجاد میکنه که ممکنه به ذهن شما نرسه. در پایان هم برنامه تمامی اطلاعات جمع‌آوری ‌شده رو خلاصه کرده و پاسخی جامع به سوال اصلی شما ارایه میکنه. حتی میتونید از یافته ‌ها سوالات بیشتری بپرسین.

به عبارتی ویژگی‌های کلیدی به شرح زیر هست:

تولید محورهای پژوهشی جدید بر اساس یافته‌ها.
ذخیره تمامی محتوای یافته‌شده به همراه لینک منابع.
تولید خلاصه‌ای جامع از پژوهش و پاسخ به سؤال اولیه.

امکان مکالمه با مدل زبانی برای بررسی جزئیات بیشتر از یافته‌ها.

قابلیت متوقف کردن یا ادامه دادن پژوهش در هر زمان.
کاملا لوکال و روی سیستم شما اجرا میشه، بدون نیاز به ارسال داده‌ها به سرور خارجی.

https://github.com/TheBlewish/Automated-AI-Web-Researcher-Ollama
 

Tensorflow(@CVision)

23 Nov, 14:37


قبلا در مورد دعوای آمریکا و چین بر سر تایوان به صورت مختصر مطالبی در این پست نوشتم.

از آنجایی که مطالب این کانال الزاما به هوش مصنوعی اختصاص داره، وارد موضوعات کلان سیاسی این جریان نمیشم اما از بعد فناوری، فشار آمریکا برای محفوظ نگه داشتن سهم خوش از شرکت TSMC در راستای کاهش سرعت چین در دستیابی به سخت افزار های قدرتمند جهت توسعه فناوری هوش مصنوعی این کشور هست.

حالا گزارش سال ۲۰۲۴ کمیسیون بررسی اقتصادی و امنیتی آمریکا، که چند روز پیش منتشر شد به تحلیل گسترده ‌ای از روابط پیچیده اقتصادی، امنیتی و فناوری میان ایالات متحده و چین می‌پردازه. موضوعات بسیار متنوعی بحث میشه اما مواردی که مربوط به هوش مصنوعی هست به شرح زیرهستن:

در این گزارش توصیه کرده که کنگره، طرحی در مقیاس پروژه‌ی منهتن رو بنیانگذاری و تأمین مالی کنه که به طور اختصاصی برای دستیابی به توانمندی در زمینه‌ی هوش عمومی مصنوعی (AGI) به رقابت بپردازه.

هوش عمومی مصنوعی به ‌طور کلی به سامانه ‌هایی گفته میشه که در تمامی حوزه‌های شناختی، برابر یا فراتر از قابلیت‌ های انسانی عمل کنه. از جمله اقدامات مشخصی که کمیسیون برای کنگره پیشنهاد میکنه عبارتند از:

اعطای اختیار انعقاد قراردادهای بلندمدت به شاخه‌ی اجرایی دولت و تخصیص منابع مالی مرتبط به شرکت‌های پیشرو در زمینه هوش مصنوعی، خدمات ابری، مراکز داده و سایر بخش‌ها، به‌ منظور پیشبرد سیاست مذکور با سرعت و مقیاسی متناسب با هدف برتری ایالات متحده در زمینه AGI

هدایت وزیر دفاع ایالات متحده برای تخصیص رتبه‌ بندی "DX" در نظام اولویت‌ ها و تخصیص‌ های دفاعی به موارد مرتبط با اکوسیستم هوش مصنوعی، تا اطمینان حاصل شه که این پروژه در اولویت ملی قرار داره.
 
در واقع این توصیه ها گواهی بر تلاشی بنیادین برای تصاحب آینده، جایی که مرز میان انسان و ماشین در سایه قدرت شناختی و توانمندی‌های بی‌پایان به پرسش گرفته میشه.

تقریبا تمام کشورهای توسعه‌ یافته بر توسعه هوش عمومی مصنوعی (AGI) تمرکز خواهند کرد و اگر به درستی مدیریت نشه، ممکنه وارد عصر جدیدی از جنگ بشیم. به نظر میرسه که آمریکا قصد داره قدرتمندترین هوش مصنوعی رو برای مهار رقبا هرچه سریع ‌تر توسعه بده.
 
https://www.uscc.gov/sites/default/files/2024-11/2024_Executive_Summary.pdf

Tensorflow(@CVision)

17 Nov, 05:29


می‌ شه گفت بیشتر پیشرفت‌ های هوش مصنوعی نتیجه بهبود توان محاسباتی بوده، که بیشترش هم از کاهش دقت عددی برای سرعت بخشیدن به کارها (مثل رفتن از 32 بیت به 16 بیت و بعد 8 بیت) به دست اومده. 

اما حالا به نظر می‌ رسه که روند کوانتیزاسیون داره به انتهای خط میرسه، از طرفی وقتی این موضوع رو با محدودیت‌ های فیزیکی (مثل مصرف انرژی) ترکیب کنیم، شرایطی به وجود میاد که انگار دیگه دوران بزرگ‌ تر کردن مدل‌ ها با افزایش قدرت محاسباتی داره به پایان میرسه.

به عبارتی بازدهی رو نمیشه دور زد. اگه کوانتیزاسیون دیگه جواب نده ، پس روش‌هایی مثل sparsification و سایر مکانیزم‌های بهینه‌سازی هم جواب نخواهد داد و نیاز به یک تغییر پارادایم در این زمینه هستیم. 

دیگه نمیشه تنها با افزایش قدرت و داده، کیفیت مدل‌ ها رو بالا ببریم، بلکه باید هوشمندانه‌ تر به موضوع نگاه کنیم و راه‌هایی برای سازگاری با این محدودیت‌ها پیدا کنیم.

برداشت من اینه که هرچه دانش بیشتری در وزن‌ های مدل فشرده شه و این وزن‌ ها بیانگر اطلاعات بیشتری از داده‌ها باشه، کوچک‌ ترین تغییر یا آشفتگی در اونها میتونه اثرات ویران‌ گر بیشتری داشته باشه. انگار هر چه یه ظرف رو پرتر کنیم، ثبات اون در برابر لرزش‌ ها کمتر می‌شه، در نتیجه، مرزی وجود دارده که از اون به بعد، افزودن دانش بیشتر نه تنها مفید نیست، بلکه باعث شکنندگی بیشتر میشه.

این مقاله با عنوان Scaling Laws for Precision که به صورت مشترک توسط دانشگاه هاروارد، دانشگاه استنفورد و MIT منتشر شده، برای اولین بار روابط کمی میان دقت، تعداد پارامترها و حجم داده‌ها در مدل‌ های زبانی بزرگ رو تعیین کرده و راهنمای نظری مهمی برای روندهای فعلی در توسعه مدل‌ ها فراهم کرده.

https://arxiv.org/abs/2411.04330

Tensorflow(@CVision)

16 Nov, 03:48


کریس اولا میگه ما شبکه‌های عصبی رو برنامه‌ نویسی نمی‌کنیم، بلکه آن‌ها رو پرورش میدیم.

این فرآیند بیشتر شبیه مشاهده و مطالعه ارگانیسم‌ های زیستیه تا یه طراحی مصنوعی صرف. همونطور که در نورولوژی، مسیرهای عصبی از تعامل و تجربه شکل می‌گیرن، در شبکه‌های عصبی نیز یادگیری و تحول، نه از پیش‌ تعیین‌ شده، بلکه از درون تعاملات و تطابق‌ها شکل میگیرن. این نگاه، ماهیت شبکه‌های عصبی رو به پدیده‌ای زنده و پویا نزدیک‌ تر می‌کنه تا یه سیستم مهندسی‌ شده خطی.

https://youtu.be/ugvHCXCOmm4?feature=shared

Tensorflow(@CVision)

16 Nov, 03:32


یه شرکت چینی فقط با ۲۰۰۰ تا GPU مدل رقیب GPT-4 رو آموزش داد.
 01.ai 
فقط ۳ میلیون دلار خرج کرده، در حالی که OpenAI بین ۸۰ تا ۱۰۰ میلیون دلار هزینه کرد

https://www.tomshardware.com/tech-industry/artificial-intelligence/chinese-company-trained-gpt-4-rival-with-just-2-000-gpus-01-ai-spent-usd3m-compared-to-openais-usd80m-to-usd100m

Tensorflow(@CVision)

13 Nov, 11:51


خاطرات تنها در مغز نیستند...

https://www.nyu.edu/about/news-publications/news/2024/november/memories-are-not-only-in-the-brain--new-research-finds.html

Tensorflow(@CVision)

11 Nov, 03:01


نقدی که من به مدل های زبانی در این پست داشتم اینه که برای ساخت مدل جهانی واقعی، باید فراتر از زبان صرف بریم و به مفاهیم دیگه ای مانند منطق، تجربه‌ فیزیکی، و نشونه‌ های اجتماعی توجه کنیم

به نظر من توانایی استفاده‌ درست و روان از زبان، الزاما به معنای درک عمیق از مفاهیم یا داشتن منطق و عقل سلیم نیست.

مدل های زبانی بیشتر به مدلی از جهان واژگان تکیه می‌ کنن که در اون، معنی از طریق ارتباط میان کلمات شکل می‌گیره، نه با ارجاع به دنیای واقعی، و به نظر من زبان به تنهایی نمیتونه واقعیت و درک انسانی رو به‌ طور کامل منعکس کنه

حقیقتا برای من مدل های زبانی کنونی بیشتر شبیه غار افلاطون هستن، افرادی که درون غار هستن تنها سایه‌هایی از واقعیت رو میبینن و تصورات خودشون رو بر اساس این سایه‌ها میسازن. مدل‌های زبانی بزرگ هم مشابه این افرادن که به جای واقعیت، سایه‌هایی از جهان واژگان رو میبینن و بر اساس اون زبان رو باز تولید می‌کنن.

این مدل‌ها تنها بازتاب‌های زبانی از واقعیت رو درک می‌کنند، نه خود واقعیت

هر چند ما انسانها هم دست کمی از مدل های زبانی نداریم
این مقاله در خور توجهه دوست داشتید مطالعه کنید

https://arxiv.org/abs/2410.21333

Tensorflow(@CVision)

11 Nov, 03:01


یکی از مخاطبان محترم این مطلب رو در نقد بحث چند روز پیش فرستادن. چند نکته خدمت شما عزیزان عرض کنم

Tensorflow(@CVision)

10 Nov, 15:17


در زنجیره‌ های تفکر جدید، اطلاعات به صورت یکپارچه‌ تر توزیع شدن، به این معنی که هر عنصر از زنجیره، در شکل ‌گیری معنا و مفهوم کلی نقش ایفا میکنه و دیگه شاهد ارایه پاسخ ‌هایی نیستیم که در اونا یک کلمه یا عبارت به تنهایی بار معنایی کل جمله رو به دوش بکشه.

این تحول، پرسش‌های رو در مورد ماهیت هوش و تفکر مطرح میکنه.

 آیا میشه به مدل‌ های زبانی که قادر به تولید زنجیره‌های تفکر مشابه انسان هستن، عنوان موجوداتی هوشمند رو اطلاق کرد؟

 آیا این مدل ‌ها قادر به داشتن آگاهی و درک از جهان اطراف خود هستن؟

 این پرسش‌ها، مرزهای بین هوش مصنوعی و هوش طبیعی رو بار دیگر به چالش میکشه.

 "O1"
نشون میده که ما در آستانه ورود به عصر جدیدی از هوش مصنوعی هستیم. عصری که در اون مدل‌های زبانی نه تنها ابزارهای قدرتمندی برای پردازش اطلاعات، بلکه قادر به تولید تفکر و خلاقیت نیز هستن.

https://aidantr.github.io/files/AI_innovation.pdf

Tensorflow(@CVision)

10 Nov, 15:13


قبل از ظهور مدل زبانی O1 شرکت OpenAi هدف عمدتا این بود که مدل ‌های زبانی رو به گونه ‌ای آموزش بدن که بتونه مشابه ذهن انسان، به ویژه در فرایند حل مسئله، فکر کنه.

اما مدل‌ های قبلی تنها قادر به تقلید از نمونه‌های آموزشی بودن، بدین معنا که تنها میتونستند راه حل ‌های از پیش تعیین شده رو باز تولید کنن. این رویکرد، به جای بازنمایی فرآیند پیچیده تفکر، به ارایه پاسخ‌ های کوتاه و گاه بی ‌دلیل بسنده می‌کرد. انگار جواب ها از یک منبع بیرونی و بدون هیچ گونه استدلال منطقی ارائه شدن.

با ظهور پارادایم جدید، شاهد تحولی شگرف در تولید زنجیره‌های تفکر(CoT) هستیم. مدل‌های زبانی هم اکنون قادرن زنجیره‌های تفکری تولید کنن که به مراتب به تفکر انسانی شباهت دارن.

این زنجیره‌ها شبیه به مکالمات درونی هستن که در اونها مدل ‌ها نه تنها به پاسخ نهایی میرسن، بلکه مراحل مختلف استدلال و تردید رو نیز به نمایش میگذارن. این امر نشون میده که مدل‌ ها از حالت ساده باز تولید اطلاعات به سمت تولید استدلال‌ های پیچیده و مبتنی بر شواهد در حرکت هستن

Tensorflow(@CVision)

10 Nov, 14:46


هوش مصنوعی جایگزینی برای هوش انسانی نیست؛ بلکه ابزاریه برای تقویت خلاقیت و نبوغ بشر.

این فناوری با گسترش مرزهای توانایی‌ فکری و هنری انسان، مانند ابزاری در دست او قرار می‌گیره تا ایده‌ها و راه‌حل‌های نوآورانه‌تری خلق کنه.

Fei-Fei Li

Tensorflow(@CVision)

09 Nov, 03:37


مصطفی سلیمان، مدیرعامل بخش هوش مصنوعی ماکروسافت، در مصاحبه‌ای می‌گوید که در ۳ تا ۵ سال آینده و پیش از سال ۲۰۳۰ شاهد هوش مصنوعی خود بهبوددهنده خواهیم بود.

Tensorflow(@CVision)

08 Nov, 09:36


ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning

https://generative-video-camera-controls.github.io/

Tensorflow(@CVision)

07 Nov, 19:30


چرا این مسئله برای مدل‌های زبانی مشکل ‌سازه؟

مدل‌های زبانی بزرگ از این قابلیت بهره نمیبرن. اونها از تعامل دائمی و آنی با محیط خود محروم هستن و به همین دلیله برای هر تصمیم کوچیک نیاز به برنامه‌ریزی، پیش‌بینی و رفتار هدف ‌محور دارن.

این موضوع باعث میشه که مدل‌ های زبانی برای انجام هر کار، حتی کارهای ساده، به استفاده از تمام ظرفیت شناختی خود نیاز داشته باشن.

برخلاف انسان‌ها که میتونن بسیاری از تصمیمات روزانه خود رو از طریق روتین‌ها و تعاملات ساده با محیط انجام بدن، مدل‌ های زبانی مجبورن که همیشه پیش ‌بینی، هدف ‌گذاری، و در نهایت تصمیم بگیرن.

مدل‌ هایی این چنینی که از تعامل با محیط بی ‌بهره هستن، نمیتونن روتین ‌های ساده ‌ای رو برای تصحیح مسیر خوشون و ساده‌ سازی فرایند تصمیم‌گیری ایجاد کنن.

به همین دلیل، مدل‌های زبانی باید برای هر تصمیم کوچک به برنامه‌ریزی و پیش ‌بینی متکی باشن، که در دنیای پیچیده و پویا نمیتونن کارآمد باشن.

ما آدما بسیاری از کارهای خودمون رو با استفاده از عادات و روتین‌های خودکار انجام میدیم.

به جای اینکه برای هر تصمیم نیاز به تحلیل و پیش‌بینی داشته باشیم، از بازخورد های محیطی و الگوهای ساده استفاده میکنیم تا به صورت خودکار و سریع تصمیم بگیریم.

این به ما اجازه میده که به راحتی و بدون فشار زیاد از پس ده‌ ها تصمیم کوچک بربیایم، در حالی که همچنان انرژی شناختی زیادی ذخیره داریم.

از اینکه طولانی شد عذر خواهی میکنم🙏

Tensorflow(@CVision)

07 Nov, 19:13


با یک مثال بحث رو تمام کنیم، فرض کنید میخواین وارد استخر بشین، اما ممکنه آب استخر خیلی سرد باشه.

دو راه برای تصمیم ‌گیری وجود داره:

اول با توجه به اطلاعات قبلی ذهنی پیش ‌بینی میکنی که آب استخر سرد هست یا نه. بعد تصمیم میگیرین که وارد استخر بشی یا نه.

روش دوم اینه که فقط انگشتت رو توی آب بزنی. اگه سرد بود، دیگه وارد استخر نمیشین.

اما چرا روش دوم بهتره؟

در روش دوم، شما در حال تعامل واقعی و لحظه ‌ای با محیط هستی.

به جای اینکه به پیش‌ بینی‌ های پیچیده و حافظه‌ زیادی برای تصمیم ‌گیری تکیه کنی، تنها کافیه که از بازخورد آنی (لمس آب) استفاده کنی تا تصمیم بهینه رو بگیری.

این رویکرد ساده تر، انرژی کمتری مصرف میکنه و به شما این امکان رو میده که در بیشتر مواقع تصمیمات درستی بدون نیاز به ذخیره ‌سازی حجم زیادی از اطلاعات و پیش‌بینی ‌های پیچیده بگیرین.

برای هوش مصنوعی هم به همین صورته. اگه مدل‌های هوش مصنوعی به طور مداوم در حال تعامل با محیط خود باشن، میتونن بدون نیاز به پیش ‌بینی‌های پیچیده، تصمیمات بهینه ‌تری بگیرن و عملکرد بهتری داشته باشن.

به عبارت دیگه، هوش مصنوعی در مواجهه با تغییرات لحظه ‌ای محیط میتونه از روتین‌های ساده و بازخوردهای فوری برای یادگیری و تصمیم‌ گیری استفاده کنه، بدون اینکه نیاز به محاسبات سنگین یا حافظه‌های پیچیده داشته باشه. این ویژگی‌ها، به صرفه‌ جویی در منابع محاسباتی و یادگیری کارآمدتر کمک میکنه.

اینکه ۹۵٪ از وظایفی که ما ادما روزانه با اونها مواجه میشیم، به راحتی با روش دوم (استفاده از روتین‌های خودکار برای اصلاح خطا و خود اصلاحی) انجام میشه، به این دلیله که اگه انسان‌ها برای هر تصمیم یا اقدام کوچک، از تمام ظرفیت شناختی خود استفاده کنن، مغزشون کاملا تحت فشار قرار میگیره.

مغز انسان نمیتونه همزمان با بروز رسانی لحظه ‌ای و تصمیم ‌گیری پیچیده برای هر میکرو تصمیم به‌ طور مؤثر عمل کنه. به عبارت دیگه، اگر بخوایم برای هر عمل پیش ‌بینی، برنامه ‌ریزی، و تصمیم ‌گیری کنیم، این کار باعث میشه که از سرعت عمل ما کاسته شه و مغز به ‌طور مؤثر قادر به رسیدگی به حجم عظیمی از وظایف و تصمیمات فوری نباشه.

Tensorflow(@CVision)

07 Nov, 19:00


البته مقالات متنوعی در همین زمینه وجود داره و همه سعی کردن الگوریتم یادگیری رو طراحی کنن که شگفتی (یا عدم تطابق بین پیش ‌بینی و واقعیت) رو به حداقل برسونه و پیش‌ بینی ‌های دقیقی ارائه بده.

به عبارتی همگی به یه نتیجه واحد میرسن اونم اینه که کم کردن شگفتی، یه اصل اساسی و بنیادین برای همه اتفاقاتیه که در مغز داره رخ میده ، از تفکر کلی گرفته تا رفتار تک‌ تک نورون ‌ها!

 به طور خلاصه، ترکیب شبکه‌های LTCN با قانون یادگیری کاهش شگفتی می‌تونه به مدلی منجر بشه که نه تنها توانایی یادگیری طبیعی و کارآمدی داره، بلکه ساختارش به عملکرد واقعی مغز نزدیک ‌تره. 

اگر هر نورون بتونه شگفتی خودش در هر لحظه رو کاهش بده این رفتار در مقیاس بزرگ ‌تر به الگوهای پیچیده‌ ای از یادگیری و پیش ‌بینی منجر میشه.

https://www.researchgate.net/publication/373262499_Sequence_anticipation_and_spike-timing-dependent_plasticity_emerge_from_a_predictive_learning_rule

https://www.researchgate.net/publication/326690440_Beyond_STDP-towards_diverse_and_functionally_relevant_plasticity_rules
 
هوش مصنوعی عمومی زمانی ایجاد میشه که مدل در تعامل مداوم با محیط واقعی باشه. تعامل دائمی با محیط واقعی به ما انسانها این امکان را میده که نیاز به پیش ‌بینی در ۹۵٪ مواقع رو حذف کنیم.

به عبارت دیگه، این تعامل مداوم به ما این اجازه رو میده که از روتین‌ های ساده ‌تر استفاده کنیم که هنوز هم میتونن نتایج بسیار دقیقی به همراه داشته باشن.

از طرفی این موارد باعث میشه که در انرژی، محاسبات، و حافظه به طور قابل توجهی صرفه ‌جویی شه. در نتیجه، نیاز به ذخیره‌سازی ۹۵٪ از خاطرات و پیش‌ بینی‌ها نیز از بین میره.

Tensorflow(@CVision)

07 Nov, 18:43


مشکلی که توی مقاله قبلی وجود داره، علی رغم نکات بسیار مهم و کاربردی اینه که این مدل  باbackpropagation  و به صورت آفلاین آموزش دیده، اما نسخه ‌ای از همین مدل شبکه وجود داره که میتونه به صورت آنلاین و در لحظه یاد بگیره، درست مثل مغز انسان!

در واقع این مقاله ترکیبی از کارهای قبلی به همراه شبکه های اسپایکی یا Spiking Neural Networksهست. 

در شبکه‌های عصبی اسپایکی علاوه بر متغیرهای حالت نورونی و سیناپسی، مفهوم زمان نیز در مدل در نظر گرفته میشه. توی شبکه‌های عصبی معمولی، خروجی هر نورون در هر تکرار محاسبه و به روز رسانی میشه، اما در شبکه‌های عصبی اسپایکی، هر نورون تنها زمانی اسپایک تولید میکنه که پتانسیل غشای اون از یک حد آستانه بیشتر شده باشه. 

شبکه‌عصبی اسپایکی در واقع نزدیک ترین بازسازی ساختار مغز انسانه.

ادامه دارد...

https://arxiv.org/abs/2112.11231

Tensorflow(@CVision)

07 Nov, 18:34


توی ویدیو بالا توضیح میده که در مقایسه با مدل‌های دیگه، برای انجام وظیفه‌ ای مثل هدایت خودرو، مدل LTCN تنها به حدود ۱۹ نورون نیاز داره، در حالی که سایر مدل ‌ها برای همون کار به هزاران نورون نیاز دارن.

از نکات مهم ارایه شده در این کار میشه به موارد زیراشاره کرد :

مدل می ‌تونه همون نتایج شبکه‌های عصبی دیگه رو با ۱۰ تا ۲۰ برابر نورون کمتر به دست بیاره

این مدل روابط علی و معلولی دنیای واقعی رو یاد می‌گیره

 توانایی فوق ‌العاده‌ای در تعمیم خارج از محدوده‌ داده‌های آموزشی داره، یعنی میتونه همون وظیفه رو توی شرایط کاملا متفاوت انجام بده

 بدون نیاز به تعیین اهداف مشخص میتونه کار کنه

و در نهایت  توی یادگیری تقلیدی بسیار خوب عمل می ‌کنه

در واقع نوآوری کلیدی این مدل اینه که امکان تغییر سرعت هر نورون رو به صورت متغیر و لحظه‌ ای فراهم میکنه.

همین ویژگی ساده باعث شده که این شبکه‌ها به نتایج فوق‌العاده‌ای برسن. سخنرانی تد رو برای توضیحات بیشتر ببینید. نوشتن در موردش زمان زیادی می‌بره

ادامه دارد ...

https://www.ted.com/talks/ramin_hasani_liquid_neural_networks

Tensorflow(@CVision)

07 Nov, 18:28


کار دیگه ای که شباهت هایی به مقاله قبلی داره کار آقای رامین حسنی از MIT هست.

عنوان مقاله Liquid Time Constant Networks  هست. این مدل در واقع نوعی شبکه عصبی پویا و انعطاف ‌پذیره که برای پردازش اطلاعات در زمان و تصمیم ‌گیری در شرایط پیچیده با الهام از ساختارهای عصبی موجودات زنده طراحی شده.

توی شبکه‌ های سنتی، اتصالات و زمان ‌بندی واحدهای عصبی ثابت هستن، اما در LTCNs زمان‌ بندی یا ثابت زمانی نورون‌ ها به صورت پویا تغییر میکنن و به همین دلیل به اون "liquid" گفته میشه.

ویژگی دینامیک LTCN به شبکه اجازه میده به محیط‌ های پویا و شرایط متغیر واکنش بهتری نشون بده.

این شبکه‌ ها با تنظیم پیوسته ثابت‌های زمانی نورون‌ ها، میتونن با داده‌های ورودی سازگار بشن و پاسخ ‌های انعطاف ‌پذیرتری رو ارایه بدن.

به صورت فنی تر بایستی عرض کنم که LTCN‌ها در واقع نوعی شبکه عصبی بازگشتی هستن که هر نورون از یه معادله‌ خاص پیروی میکنه.

این معادلات به شبکه اجازه میدن تا رفتار نورون ‌ها رو به عنوان یک تابع از ورودی‌ ها و شرایط محیطی تغییر بدن.

نورون ‌ها در LTCN‌ها دارای ثابت‌های زمانی متغیر هستن که بسته به شرایط، سرعت یا کندی تغییرات اونها رو تنظیم می‌کنه.

این تغییرات در «ثابت‌های زمانی» باعث میشه که شبکه در مواجهه با ورودی‌ های مختلف، پاسخ‌ های متنوعی داشته باشه.

البته توضیحات کامل رو خود آقای حسنی توی  ویدئوی زیر به صورت کامل شرح میدن:

ادامه دارد ...

https://youtu.be/IlliqYiRhMU?si=nstNmmU7Nwo06KSJ&t=1971

Tensorflow(@CVision)

07 Nov, 18:19


اگه این نظریه صحیح باشه، احتمالش زیاده که بشه همچین سیستمی رو توی حوزه هوش مصنوعی پیاده کرد.

البته این کار توی الگوریتم یادگیری تقویتی به اسم SMiRL انجام شده و نسبتا موفقیت ‌آمیز بوده. 

عنوان مقاله یادگیری تقویتی مبتنی بر کمینه سازی شگفتی در محیط ‌های ناپایدار هست.

توی این روش، سیستم اول یاد می ‌گیره که چه اتفاقاتی توی محیط براش غیرمنتظره یا عجیب هستن، و بعد سعی می ‌کنه به سمت چیزهایی بره که بیشتر قابل پیش‌ بینی و پایدار باشن.

به این معنی که عامل هوش مصنوعی (مثلا یه ربات) به سمت شرایطی میره که کمتر احتمال داره در اونا غافلگیر بشه، مثلا از موانع و خطرات دور میمونه یا حالت پایداری رو پیدا می ‌کنه که منجر به حفظ تعادلش بشه.

به عبارت دیگه، این الگوریتم به جای دنبال کردن یه هدف مشخص، سعی می‌کنه با پیدا کردن موقعیت ‌های پایدارتر، از وقایع غیرمنتظره دوری کنه، که همین باعث می‌شه به شکل طبیعی به سمت کاوش و پیدا کردن شرایط بهتر بره، از طرفی برای یادگیری تقلیدی بسیار مناسبه.

ادامه دارد ...

https://arxiv.org/abs/1912.05510
­­­­­­­­­­­­­­­­

Tensorflow(@CVision)

07 Nov, 18:08


توی حوزه‌ی علوم اعصاب نظریه ‌ای هست که میگه مغز انسان طبق «اصل انرژی آزاد» کار می ‌کنه.

اصل انرژی آزاد میگه که سیستم‌های زیستی، از جمله مغز، سعی می‌ کنن تفاوت بین مدل‌های درونی ‌شون و اطلاعات حسی که از محیط دریافت می ‌کنن رو کم کنن، یعنی سعی می ‌کنن کاری کنن که اتفاق های غیرمنتظره یا خطای پیش ‌بینی کمتر باشه.

برای این کار، موجودات زنده دو مکانیسم رو بکار میگیرن، یا مدل‌های درونی خودشون رو آپدیت می ‌کنن تا بهتر با واقعیت بیرونی هماهنگ بشه (ادراک)، یا با انجام یه سری کار، محیط اطرافشون رو تغییر میدن تا با پیش ‌بینی‌ هاشون جور دربیاد (که میشه عمل کردن).

تعریف سادش اینه که مغز یه جورایی شبیه ترموستات هست که هم دمای اتاق رو پیش ‌بینی می ‌کنه و هم سعی می‌ کنه دما رو توی یه محدوده‌ی مشخص نگه داره.

به صورت خلاصه این اصل میگه که همه‌ سیستم‌ های زیستی خود سازمان ‌ده به طور طبیعی تلاش می ‌کنن تا فاصله بین انتظارات و تجربیاتشون رو به حداقل برسونن.

ادامه دارد ...

https://en.wikipedia.org/wiki/Free_energy_principle

Tensorflow(@CVision)

07 Nov, 17:58


این مقاله ها چند تا نکته اساسی دارن:

اول اینکه ماهیت جهان زمانی هست. جهان به ‌طور پیوسته تغییر میکنه و تعامل مداوم انسانها با اون برای عملکرد هوش انسانی ضروریه.

این تعاملات مداوم و زما‌ن مند به انسانها این امکان رو می‌ده که به طور موثری به محیط خود واکنش نشون بدن و یاد بگیرن.

دوم اینکه انسانها به طور مداوم از روتین‌های ذهنی برای انجام کارها و فعالیت‌ های روزمره خوشون استفاده میکنن.

این روتین ‌ها به اونها کمک میکنه تا توی انرژی محاسباتی خودشون صرفه‌ جویی کنن و به صورت خودکار بسیاری از فعالیت‌ها رو انجام بدن.

سوم اینکه وقتی انسانها به دنبال دستیابی به اهداف یا حل مشکلات هستن، از این روتین‌ها برای مدیریت و حل مسائل استفاده می‌کنن.

این فرآیند ها به اونها کمک میکنه تا به صورت موثری مشکلات پیچیده رو حل کنن و تصمیم‌ گیری کنن.

و در نهایت اینکه نمیتونیم هوش واقعی رو بدون اینکه مکانیزم‌ های تشکیل و استفاده از روتین‌ها وجود داشته باشه، مدل کنیم.

اگه سیستم هوش مصنوعی نتونه روتین ها رو به طور موثر بسازه و استفاده کنه، نمیتونه به طور واقعی مثل آدماعمل کنه و مشکلات پیچیده رو حل کنه.

ادامه دارد ...

Tensorflow(@CVision)

07 Nov, 17:49


این مدل ها تو حل مشکلات جدید ضعیف هستن چون فرایند حل مسئله رو درک نمی‌کنن. 

این مدل ‌ها در واقع فاقد عادت‌های ذهنی و روتین ‌هایی هستن که ما برای حل مسائل استفاده میکنیم، منظورم روتین ‌هایی مثل شناخت مشکل، یادگیری از اشتباهات، و بهینه ‌سازی استراتژی ‌ها برای مواجهه با مشکلات جدید هست. 

در واقع مدل های زبانی فقط داده‌ها رو پردازش میکنن و فاقد درک واقعی از چگونگی حل مسائل به صورت پویا و بهینه هستن.

بیاین کمی به عقب برگردیم و دو تا مقاله مهمی که در باره فلسفه هوش مصنوعی نوشته شدن رو مرور کنیم، سال 1987 و سال 2007:

https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=cb53a49a1187650196cf10835a0193ae0201a75f

https://leidlmair.at/doc/WhyHeideggerianAIFailed.pdf

این دو تا مقاله تاکید داردن برای حل مسایل پیچیده AI باید توانایی درک مفاهیم پیچیده و محیطی مشابه انسان را داشته باشه. این مدل‌ ها نه تنها باید داده‌ ها رو پردازش کنن، بلکه باید به طور فعال و پویا با محیط خود تعامل داشته باشن و یاد بگیرن

ادامه دارد ...

Tensorflow(@CVision)

07 Nov, 17:31


به نظرتون آیا مدل های زبانی بزرگ یا LLMs ها میتونن منجر به تولید هوش مصنوعی عمومی یا AGI بشن؟

بیایم امشب در موردش بحث کنیم

برای رسیدن به AGI ما نیاز به مدلی داریم که بتونه به ‌طور پیوسته یاد بگیره، بهبود پیدا کنه و از زبان به‌ عنوان ابزاری برای استدلال استفاده کنه.

در یه عامل هوشمند مثل ما آدما یادگیری زبان فقط باعث تقویت استدلال میشه یعنی قبل از یادگیری زبان، قدرت استدلال و شناخت وجود داره اما در مدل های زبانی این یادگیری زبانه که منجر به ایجاد استدلال در مدل میشه.

اما چرا این می‌تونه به AGI نزدیک‌ تر باشه تا مدل های زبانی کنونی؟

بیاین دلیلش رو توی نقاط ضعف مدل‌های LLM جستجو کنیم.

مدل‌ های LLM در یادگیری واقعی ضعیفن، چون برای تسلط به یه مهارت یا موضوع خاص باید میلیون‌ها مثال از متن رو به عنوان ورودی دریافت کنن و براحتی از چند مثال یاد نمیگیرن.

این مشکل در معیارهایی مثل ARC-AGI کاملا مشخصه

https://arcprize.org/

ادامه دارد...

Tensorflow(@CVision)

06 Nov, 18:30


💡 اگه به برنامه‌نویسی علاقه داری و میشه روی همت و پشت‌کارت حساب کرد،
در استعدادسنجی ما شرکت کن و استعدادت رو برای ورود به دنیای برنامه‌نویسی محک بزن!


 ✔️ توضیحات بیشتر = تماشای ویدئو 😎

☯️ شرکت در آزمون و دورۀ آماده‌سازی رایگان ➡️

و یا برای کسب اطلاعات بیشتر کافیه به آی‌دی ما پیام بدی! ‌‌‌‌

🆔 @MaktabSharif_Admin
▪️▫️▪️▫️▪️▫️▪️▫️▪️▫️
🌐 وبسایت | کانال تلگرام |📹 اینستاگرام

#استخدام_با_طعم_آموزش

Tensorflow(@CVision)

29 Oct, 18:10


با توجه به مواردی که عنوان شد ، تلاش برای رسیدن به آخرین اختراعی که انسان نیاز داره بسازه(هوش مصنوعی خود بهبود دهنده که منجر به انفجار پدیده هوش میشه) طبق گفته I.J. Good قطعا ادامه خواهد داشت.

اما در حال حاضر، تشخیص اینکه آیا واقعا در آستانه یه هوش مصنوعی هستیم که از کنترل خارج میشه و در یک حلقه خود بهبود دهنده قرار می‌گیره، خیلی سخته.

در عوض، ممکنه بیشتر شاهد استفاده از ابزارهای جدید هوش مصنوعی برای بهبود ابزارهای آینده باشیم، به شیوه‌هایی که میتونه از عادی تا تحول ‌آفرین متغیر باشه.

پایان.

Tensorflow(@CVision)

29 Oct, 18:07


اینها فقط بخش کوچکی از تحقیقات خود بهبود دهی در زمینه هوش مصنوعیه  Deepmind، Microsoft و Apple هم مقالات مشابهی منتشر کردن و به این مفهوم پرداختن.

 با این حال، با توجه به تحقیقاتی که تا الان دیدیم ممکنه به اون لحظه پرواز هوش مصنوعی که بعضی ها فکر میکنن، نزدیک نباشیم. 

جیم فان، مدیر ارشد تحقیقاتی Nvidia  توی یه پست اشاره کرد که مدل ‌های خود بهبود دهنده در محیط‌ های تحقیقاتی معمولا بعد از سه دور پیشرفت به یه نقطه اشباع می‌رسن. بعد از اون، به جای اینکه به سمت فوق ‌هوش برن، معمولا هر مدل جدید نتایج بدتری رو نسبت به مدل قبلی نشون میده.

مدل های هوشمند خود آموز میتونن در شرایطی که بهترین پاسخ مشخصه، مثل بازی‌های رومیزی (GO)، نتایج فوق‌ العاده‌ای نشون بدن، اما وقتی از یه مدل زبانی عمومی خواسته میشه که خودش رو قضاوت و بهبود بده، ممکنه با مشکلاتی مواجه بشه.

مخصوصا وقتی به ارزیابی استدلال انتزاعی که بخش بزرگی از هوش انسانی رو تعریف می‌ کنه، میرسه. ایشون میگه من هنوز نمایشی قانع کننده از مدل ‌های زبانی خود بهبود دهنده ندیدم که به خوبی AlphaZero باشه، بازی هایی که مدل از صفر فقط با بازی کردن با خودش یاد می‌گیره.

https://x.com/DrJimFan/status/1754552129229140215

ادامه دارد...

Tensorflow(@CVision)

29 Oct, 18:00


با درخواست از یه مدل زبانی که خودش به عنوان قاضی عمل میکنه، محققان متا تونستن مدل‌ های جدیدی بسازن که توی رقابت‌ های خودکار و رو در رو با سایر مدل‌ ها تو AlpacaEval عملکرد بهتری داشتن.

 توی بخشی از مقاله قید شده که تنظیم دقیق Llama 2 70B  در سه مرحله توسط روش پیشنهادی، منجر به ایجاد مدلی شد که از خیلی سیستم‌ های موجود توی جدول رده‌بندی AlpacaEval 2.0، از جمله Claude 2، Gemini Pro و GPT-4 0613، از نظر عملکرد جلو می ‌زنه.

 

یا تو ماه ژوئن محققان Anthropic  کاری شبیه به متا رو انجام دادن که مجموعه ای از مدل ها بود که قابلیت خود تغییری در تابع پاداش و پارامتر ها رو دارا بودن.

 این موضوع میتونه برای طرفدارای داستان های علمی تخیلی نگران‌ کننده باشه، چون نشون میده که مدل‌ ها میتونن به طور خودکار از محدودیت‌ هایی انسانی اعمال شده در اونها فرار کنن و کنترل‌ ها رو دور بزنن.

https://arxiv.org/pdf/2406.10162

ادامه داره...

Tensorflow(@CVision)

29 Oct, 17:55


با اینکه مفهوم هوش مصنوعی خود بهبود دهنده توضیحش راحت ‌تر از عملی کردنشه، محققین توی این زمینه موفقیت ‌های نسبی هم به دست آوردن. 

اما بیشتر تلاش ‌ها به جای اینکه بخوان ویژگی‌ های داخلی یا کد پایه مدل رو به صورت لحظه ‌ای تغییر بدن، تمرکز روی استفاده از یک مدل زبانی بزرگ برای طراحی و آموزش یک مدل جانشین بهتر دارن.

 به عبارت دیگه، این هم ادامه همون روش‌ های قدیمی فناوریه که توش از ابزارها برای ساخت ابزارهای بهتر بهره می‌بریم یا از چیپ ‌های کامپیوتری برای طراحی چیپ ‌های جدید استفاده می‌کنیم.

مثلا فوریه امسال محققین متا یه مدل زبانی خود پاداش ‌دهنده رو پیشنهاد کردن که برای ایجاد یک تابع پاداش جدید برای مدل بعدی طراحی شده  بود. این تحقیق بخشی از همون سلسله تلاش هاست که تمرکز بر کم کردن ترجیحات انسانی در مدل های زبانی داره، تا مدل های زبانی در سطح عملکرد انسانی باقی نمونن.

به عبارت ساده تر، هدف مقالاتی مثل این کاهش وابستگی به ترجیحات انسانیه. با معرفی مدل‌ های خود پاداش‌ دهنده، سعی دارن به نوعی ظرفیت‌ های هوش مصنوعی رو فراتر از محدودیت ‌های انسانی گسترش بدن و به سمت پیشرفت‌های بیشتر در طراحی و عملکرد مدل ‌ها حرکت کنن.

https://arxiv.org/pdf/2401.10020

ادامه دارد...

Tensorflow(@CVision)

29 Oct, 17:48


امشب کمی در مورد خود بهبودی یا self-improvement در هوش مصنوعی بحث کنیم.

 برای صدها سال، توانایی خود بهبود دهی یکی از اصول بنیادی درک ما از انسان بودن بوده، یعنی توانایی خود مختاری و ایجاد معنا به عنوان افراد و جمع ‌ها.

 حالا به نظرتون اگه انسان‌ ها دیگه تنها موجودات خود بهبود دهنده در جهان نباشن، این چه معنی داره؟

یا چطور می ‌خوایم از بین رفتن این درک استثنایی خودمون رو توجیه کنیم؟

برای پاسخ به این سوالا کمی برگ های تاریخ رو ورق بزنیم ببینیم این مفهوم از کی وارد هوش مصنوعی شد و حالا کجای این ماجرا قرار گرفتیم.

مفهوم هوش مصنوعی خود بهبود دهنده به گذشته ای دور برمی‌گرده. ریاضیدانی به نام I.J. Good  توی سال 1965 درباره «انفجار هوش» نوشت، که می‌ تونه منجر به ایجاد یک ماشین فوق‌ هوشمند بشه.

 بعدتر، توی سال 2007، یود کوسکی، که بنیان‌گذار LessWrong هست، اصطلاح Seed AI رو مطرح کرد. در خلال مطالب لینک ها رو میگذارم چون حاوی مطالب ارزشمندیه که نمیشه به اختصار اینجا در موردش نوشت.

https://www.historyofinformation.com/detail.php?id=2142

https://intelligence.org/files/LOGI.pdf

این اصطلاح به هوش مصنوعی‌ اشاره داره که قابلیت خود بهبوی رو داراست. سال 2015 هم سم آلتمن توی وبلاگش به همین موضوع پرداخت و گفت این نوع سیستم ها هنوز کمی دور هستن ولی احتمالا بزرگ ‌ترین تهدید برای ادامه بقای بشریت هستن هر چند در اون زمان این حرف‌ ها هم به نوعی برای بزرگ کردن اهمیت و ارزش شرکت خودش مطرح شده بود.

https://blog.samaltman.com/machine-intelligence-part-1

ادامه دارد...

Tensorflow(@CVision)

28 Oct, 13:39


متا نسخه‌ای متن باز شبیه NotebookLM گوگل رو منتشر کرد.

هر چند مزیت NotebookLM گوگل داشتن پنجره‌ ی زمینه (context window) با ظرفیت ۲ میلیون توکنه و می‌تونه به‌ صورت هم‌ زمان ۵۰ فایل PDF رو پردازش کنه. البته صداهای موجود در مدل زبانی گوگل واقعاً عالی هستن

https://github.com/meta-llama/llama-recipes/tree/main/recipes/quickstart/NotebookLlama

Tensorflow(@CVision)

28 Oct, 00:32


یان لِکون پیش‌بینی می‌کند که هوش مصنوعی در ۵ تا ۷ سال آینده به سطح هوش حیوانات خواهد رسید و در عرض یک دهه به سطح هوش انسان، اما این ممکن است بیشتر طول بکشد چون "احتمالی وجود دارد که مسائل سخت‌تر از آنچه فکر می‌کنیم باشند."

Tensorflow(@CVision)

27 Oct, 15:11


بنظرم باید هر روز هر چه بیشتر به سمت مدل های متن باز حرکت کنیم، تصور اینکه مثلا Calude 3.5 Sonnet هر چند ثانیه یه اسکرین‌ شات از کامپیوترم بگیره و از اون اطلاعات برای آموزش هوش مصنوعی خودش استفاده کنه تا دانش جدید بسازه و توانایی‌ های خود مختاری رو پیدا کنه، به نظرتون این استفاده منصفانه حساب میشه؟

بخوام منطقی باشم بایستی اقرار کنم که خود مون همون داده ‌ای هستیم که این مدل‌ ها روش آموزش می‌ بینن و این کار به جایی میرسه که شغل‌ های بسیاری از افراد جامعه رو جایگزین می ‌کنن و عموم مردم مجبور میشن برای تعداد شغل‌ های کمتری بجنگن که در نتیجه به خاطر عرضه و تقاضا، حقوق هم کمتر میشه.

اگه مردم برای سهمی از این وضعیت جدید تلاش نکنن، تمام ارزش به سمت هوش مصنوعی‌، مدیران شرکت ‌های تکنولوژی و ربات‌ ها میره.

بزرگ‌ ترین مشکل مدل های هوشمند فعلی و مدل های آینده‌ ای که ممکنه به هوش عمومی مصنوعی (AGI) برسه، اینه که تمامشون تو حوزه خصوصی و تحت مالکیت سرمایه دارن هستن و اهمیتی به آسیب‌های اجتماعی‌ که ممکنه ایجاد کنن، نمیدن.

در عین حال، ثروتی که تولید می‌ کنن، تو دست یه عده ‌ی خیلی محدودی جمع می‌ شه.

همین الان هم تقریبا تو خیلی از کسب ‌وکارها از سطح بالای اتوماسیون استفاده می‌ شه، ولی همچنان حس می‌ کنیم که مردم بیشتر از همیشه کار می‌کنن، ساعت‌ های بیشتری رو می‌ گذرونن، با حقوق کمتر، مزایای کمتر، و به سختی می‌ تونن گذران زندگی کنن.

چرا همچنان فکر می‌کنیم که AGI قراره کاری برای بهتر شدن جامعه و حل مشکلات فعلی بکنه؟

حداقل کاری که می‌کنه اینه که مشکلات موجود رو بزرگ ‌تر و وسیع تر ‌می ‌کنه!

Tensorflow(@CVision)

27 Oct, 14:52


چند روز پیش درباره نسخه جدید Claude 3.5 Sonnet نوشتم که تعامل و دستورات کاربر با کامپیوتر رو از طریق کیبورد مجازی یا صدا فراهم کرده.

کاری که احتمالا این مدل انجام میده شناسایی مطمئن آیکون‌ها و عناصر قابل ‌تعامل توی رابط کاربری و درک مفهوم و معنای عناصر مختلف در تصویر و ارتباط دقیق این عناصر با عملی که کاربر می‌خواد انجام بده، هست.

امروز مایکرسافت OmniParser رو به صورت متن باز ارائه کرد. OmniParser  یه ماژول جمع ‌و جور(با سرعت بالا) برای پردازش صفحه هست و میتونه عکس‌ های رابط  کاربری رو به عناصر ساختار یافته تبدیل کنه. 

این ماژول رو می‌شه با مدل‌ های مختلف متن باز زبانی تلفیق کرد تا عامل ‌هایی ساخت که بتونن روی رابط ‌های کاربری عمل کنن، مثل کاری که Claude 3.5 Sonnet انجام میده با این تفاوت که به صورت لوکال اجرا میشه و 100% در کنترل خودتونه.
 
کد :
https://github.com/microsoft/OmniParser
 
لینک مقاله:
 https://arxiv.org/abs/2408.00203

Tensorflow(@CVision)

26 Oct, 17:21


با توجه به مواردی که گفتم به یه تعریف دقیق از عدم قطعیت رسیدیم و روش هایی ایجاد کردیم که میتونیم میزان عدم قطعیت رو اندازه گیری کنیم و در نهایت نمونه گیری تطبیقی بر اساس دو معیار آنتروپی و واران ‌تروپی ایجاد کنیم.

این کاریه که برخی از مدل های زبانی در فرآیند (CoT) یا زنجیره تفکر برای افزایش قدرت استدلال در زمان استنتاج انجام میدن:

توی حالت اول(آنتروپی پایین، واران‌ تروپی پایین) مدل نه تنها به انتخاب اول خودش اطمینان داره، بلکه اگه انتخاب اول اشتباه باشه، میدونه که گزینه بعدی چه خواهد بود.

در این حالت، نمونه‌ گیری تطبیقی پیشنهاد میکنه که از روش انتخاب بیشترین احتمال (argmax) استفاده کنیم، یعنی توکنی رو انتخاب کنیم که بالاترین احتمال رو داره.

تو حالت بعدی(آنتروپی پایین، واران‌ تروپی بالا )، مدل چند گزینه رو با احتمال بالا پیش‌ بینی می‌کنه.

این یه موقعیت پیچیده ‌ست، شاید مدل داره به یه شاخه جدید از نتایج فکر می ‌کنه یا فقط چند گزینه معادل مثل مترادف‌ ها رو پیشنهاد میده.

توی این حالت می‌ تونیم شاخه‌ بندی یا branching کنیم، یعنی هر دو گزینه با احتمال بالا رو پیگیری کنیم و ببینیم هر کدوم به کجا میرسن و بعد از یه نقطه مشخص نتایج رو با هم مقایسه کنیم.

روش‌های زیادی برای branching هست که البته خودش نیاز به توضیحات جدا داره.

بسته به نتیجه branching، می‌تونیم واکنش‌های مختلفی داشته باشیم. مثلاً اگه به دو شاخه با اطمینان نسبتا یکسان برسیم (طبق آنتروپی و واران‌ تروپی)، ولی محتوای هر شاخه متفاوت باشه، می‌تونیم این انتخاب رو به عنوان یه سوال از کاربر بپرسیم تا کمک کنه مسیر درست رو پیدا کنیم.(جدیدا به پاسخ های چت جی پی تی توجه کرده باشین برخی مواقع پاسخ های متفاوت میده و از کاربر می‌پرسه که کدوم پاسخ رو می پسنده)

حالت سوم (آنتروپی بالا، واران ‌تروپی پایین)نشون‌ دهنده‌ی یه حالت عدم اطمینان در مدله.

مدل شاید داره چیزی رو می ‌بینه که اصلا نمی‌شناسه، یا ممکنه تمام گزینه‌ها از نظرش تقریبا مشابه و قابل ‌جایگزینی باشن.

تو این شرایط، بهترین کار اینه که به مدل کمک کنیم تا به یه حالت اطمینان بالاتر برسه.

روش Entropix  پیشنهاد می‌کنه که از یه توکن فکری"thinking token " به عنوان توکن بعدی استفاده کنیم، مثل " Wait.."

این توکن فکری رو توی خروجی مدل میگذاریم تا مدل متوجه بشه نیاز داره بیشتر روی جوابش فکر کنه و زمان بیشتری برای پردازش قبل از اینکه جواب نهایی رو بده، بذاره.

مثلاً اگه مدل می‌خواد بگه «پایتخت آلمان پاریسه» ولی مطمئن نیست، ممکنه توکن فکری رو اضافه کنه و نتیجه‌ اش رو این‌طور بگه: «پایتخت آلمان پاریسه... صبر کن، نه، درواقع برلینه».

در حالت آخر(آنتروپی بالا، واران ‌تروپی بالا ) مدل هیچ انتخاب واضحی نداره، اما نسبت به بعضی خروجی‌ ها اطمینان بیشتری داره. این یه وضعیت پیچیده‌ست.

میشه به این موضوع اینطور فکر کرد که هر کدوم از گزینه ‌های برتر ممکنه انتخاب‌های خوبی باشن (مثلا ممکنه مترادف هم باشن)، پس می‌تونیم یکی رو به صورت تصادفی انتخاب کنیم که به این حالت higher temperature گفته میشه
 
https://github.com/xjdr-alt/entropix

Tensorflow(@CVision)

26 Oct, 17:06


چطور عدم‌قطعیت رو اندازه بگیریم؟

تو این روش دو معیار اصلی با نام Entropy و Varentropy وجود داره:

آنتروپی(Entropy): نشون میده چقدر احتمالات واژه‌ها با هم فرق دارن، یعنی اگه آنتروپی کم باشه، مدل روی یکی دو گزینه مطمئنه، ولی اگه زیاد باشه، همه گزینه‌ ها احتمال نزدیکی دارن و مدل تردید داره.

واران تروپی(Varentropy): شکل عدم ‌قطعیت رو نشون میده، واران تروپی بالا یعنی برخی احتمالات خیلی متفاوتن و به صورت قله‌ های مختلف ظاهر میشن.

به عبارت ساده تر توزیع اختلاف بین احتمالات رو بررسی میکنه و نشون میده آیا مدل چند قله (انتخاب‌های برجسته) داره یا نه.

از ترکیب این دو معیار میتونیم چهار حالت ایجاد کنیم:

آنتروپی پایین، واران‌ تروپی پایین: یعنی مدل به شدت به یک گزینه خاص مطمئنه و احتمال این گزینه بسیار بیشتر از بقیه ست. بنابراین، توزیع احتمالات شکل تیز و متمرکزی داره و تنها یک نتیجه غالبه.

آنتروپی پایین، واران‌ تروپی بالا: توی این حالت، آنتروپی پایینه (مدل تقریبا مطمئنه) ولی واران‌ تروپی بالا است. یعنی مدل چند گزینه برجسته با احتمال زیاد میبینه که از بقیه متمایز هستن. بنابراین، به جای یه نتیجه قطعی، چند گزینه از احتمالات برجسته وجود داره.

آنتروپی بالا، واران ‌تروپی پایین: همه گزینه ‌ها شبیه به هم هستن و مدل تردید داره.

توی این حالت، آنتروپی بالاست (مدل شک و تردید زیادی داره) ولی واران ‌تروپی پایینه. یعنی مدل بین همه گزینه‌ ها مردده و احتمالات نزدیک به هم هستن، توزیع به شکل تقریبا یکنواخته و تفاوت زیادی بین احتمال گزینه‌ها وجود نداره.

آنتروپی بالا، واران ‌تروپی بالا: توی این حالت نهایی، هم آنتروپی و هم واران‌ تروپی بالا ست. یعنی مدل در انتخاب تردید زیادی داره و همچنین تفاوت زیادی بین احتمالات گزینه‌های مختلف وجود داره. در نتیجه، توزیع گسترده و ناهماهنگه و چندین قله متفاوت با احتمالات متنوع در توزیع وجود داره.

ادامه دارد...

Tensorflow(@CVision)

26 Oct, 16:54


به نظرتون چطور میتونیم بدون صرف بودجه زیاد، آموزش مجدد، توانایی یه مدل زبانی رو توی استدلال کردن ارتقا بدیم؟

برای این کار ابتدا باید نگاهی به موضوع عدم ‌قطعیت در مدل‌های زبانی داشته باشیم و یه تعریف دقیق براش ارایه بدیم.

همونطور که میدونید توی مرحله نمونه‌ گیری(Sampling)، مدل زبانی تصمیم می ‌گیره که کدوم واژه (توکن) رو از بین واژه‌ های احتمالی انتخاب کنه.

هرچقدر مدل توزیع احتمالات واژه‌ها (logits) رو یکنواخت‌ تر ببینه، به همون میزان در تصمیم خودش تردید بیشتری داره و هر چقدر از یه گزینه مطمئن ‌تر باشه، احتمال انتخاب یه واژه رو به‌ طور مشخص بالا می‌ بینه.

Entropix چیه؟

روش Entropix به ما کمک می‌کنه وقتی مدل توی انتخاب توکن دچار تردیده، با استفاده از نمونه ‌گیری تطبیقی، تصمیم بهتری بگیریم.

این روش بر اساس میزان عدم ‌قطعیت، تکنیک‌های مختلفی برای انتخاب توکن بعدی ارائه می‌ده که در ادامه بهشون میپردازم، اما قبل از پرداختن به این موضوع بایستی اضافه کنم که عدم قطعیت همیشه بد نیست.

به عنوان مثال در مواردی ممکنه این عدم قطعیت در انتخاب توکن بعدی مربوط به یه کلمه مترادف باشه مثل "خوب" و "عالی".

ادامه دارد...

Tensorflow(@CVision)

25 Oct, 15:05


حالا یه تیم از محققین MIT و دانشگاه برکلی یک ابزار هوش مصنوعی توسعه دادن که میتونه نرون هایی که باعث بروز چنین خطایی در مدل میشه رو شناسایی و بدون آموزش مجدد مدل زبانی رفتارشون رو اصلاح کنه.

این ابزار که Monitor نام داره میتونه دلیل چنین خطایی رو کشف کنه. همونطور که در تصویر مشخصه دلیل چنین خطایی در مدل Llama به فعال شدن تعدادی از نورون‌هاست که با اتفاق یازدهم سپتامبر و آیات کتاب مقدس مرتبطن.

حملات 11 سپتامبر و عواقب تروریسم:
6 نورون مرتبط

شماره‌های فصل و آیه‌های کتاب مقدس:
4 نورون مرتبط

ترکیب‌های شیمیایی و فرمول‌های مولکولی:
3 نورون مرتبط

ماه‌ها و سال‌ها:
4 نورون مرتبط
 
این اطلاعات نشون میده که مدل به شدت تحت تأثیر برخی مفاهیم خاص قرار داره و این دسته از نرون ها میتونن به شناسایی الگوهای رفتاری و مشکلات موجود در مدل کمک کنه. با حذف این نورون‌ها، مدل Llama جواب صحیحی میده.

به ‌طور کلی، حذف نورون‌های مرتبط با آیات کتاب مقدس دقت مقایسه رو تا ۲۱ درصد افزایش میده.
 
اینجا میتونید مشکلات مدل رو بررسی کنید:

https://monitor.transluce.org/dashboard/chat

مقاله:
https://transluce.org/observability-interface

Tensorflow(@CVision)

25 Oct, 15:02


خیلی از مدل های زبانی بزرگ مثل Chatgpt اشتباهات رایجی رو انجام میدن. به عنوان مثال سوالی که توی تصویر از Chatgpt پرسیدم در نظر بگیرین.

خیلی از مدل‌ها به‌ طور نادرست میگن که 9.8 از 9.11 کوچکتره، اما آیا میتونیم مفاهیم غلطی که در مدل باعث این اشتباه شده رو شناسایی کنیم و برطرف کنیم؟

وقتی یه مدل زبانی به شکلی غیرمنتظره رفتار میکنه، درک و پیدا کردن عامل این کار میتونه به ما کمک کنه تا مشکلات مدل‌های زبانی رو پیش‌بینی و حل کنیم، دانش پنهان رو شناسایی و تعصبات و ارتباطات غلط داخل مدل رو پیدا کنیم اما پاسخ به این سوالا کار آسونی نیست، چون داده‌های زیرساختی پیچیده‌ هستن.

فرایند تفکر در مدل‌های زبانی به شکل مجموعه ‌ای از اعداد شناور غیرقابل ‌فهم نمایان میشن که باید به مفاهیم قابل ‌فهم برای انسان‌ها تبدیل بشن.

Tensorflow(@CVision)

25 Oct, 12:02


نیک بوستروم توی کتاب Superintelligence  میگه که نورون‌های زیستی با سرعتی حدود ۲۰۰ هرتز کار می‌کنن، یعنی حدودا هفت مرتبه کند تر از یه ریزپردازنده‌ ی قدیمی که روی ۲ گیگاهرتز کار می‌کنه.

سال 2018 بعد از انتشار مقاله Attention is all you need  این کار رو انجام دادم، تصورش سخت بود که روزی بتونم هر آهنگی با هر سبکی رو بسازم. 

پتانسیل هوش مصنوعی در حوزه‌های مختلف، مثل یه تابع نمایی در یک فضای چند بعدی به صورت شگفت ‌انگیزی در حال گسترشه.

کسایی که به قواعد و الگوهای دنیای خطی پایبندن، مثل تابعی با دقت محدود، در مقابل این تحول عظیم به طور حتم در معرض خطر عقب‌ ماندگی قرار خواهند گرفت.

اینم یه آهنگ عاشقانه از عشق دیجیتال (مدل کلمات ماتریس، بایت و کد رو نمیتونه درست تلفظ کن چون توی داده های آموزشی نبودن)

Tensorflow(@CVision)

25 Oct, 07:35


استوارت راسل می‌گوید که تا پایان این دهه، هوش مصنوعی ممکن است در تمام ابعاد از توانایی‌های انسان فراتر رود و کارها را به صورت رایگان انجام دهد. بنابراین، ممکن است شغل‌های بیشتری ایجاد شود، اما این شغل‌ها دیگر برای انسان‌ها نخواهند بود.

Tensorflow(@CVision)

23 Oct, 15:58


معمولا از مقادیر شناور مثل FP16 یا FP32 برای پارامترها استفاده میشه که می‌ تونن دامنه وسیعی از اعداد رو با دقت بالا نمایندگی کنن، اما خوب فضای زیادی رو اشغال میکنن با استفاده از فقط سه مقدار مشخص (-1، 0، 1)، نیاز به فضای ذخیره ‌سازی برای پارامترهای مدل به طور قابل توجهی کاهش پیدا می‌کنه. به جای اینکه برای هر پارامتر 16 یا 32 بیت نیاز داشته باشیم، به طور میانگین فقط به 1.58 بیت نیاز داریم.(log2 [3]=1.58)

این بهبود باعث میشه مدل‌ها کوچکتر و راحت ‌تر بارگذاری بشن .از طرفی مقادیر سه ‌گانه محاسبات رو ساده‌ تر می‌کنه چون پیچیدگی عملیات ریاضی در ضرب ماتریسی رو کاهش میده، و باعث میشه فرآیندهای آموزش و استنتاج سریع‌ تر بشن.

در ضرب‌های ماتریسی، حاصل ‌ضرب نقطه‌ ای با استفاده از ضرب عنصر به عنصر و سپس جمع به دست میاد این می‌تونه محاسبات سنگینی داشته باشه، به ‌ویژه برای ماتریس‌های بزرگ. اما با تغییر عملیات از ضرب به جمع، بار محاسباتی به طور قابل توجهی کاهش پیدا می‌کنه.

به عنوان مثال، می‌تونیم حاصل ‌ضرب نقطه‌ ای رو فقط با جمع‌ ها محاسبه کنیم و از نشانه های مقادیر سه ‌گانه برای حفظ خروجی مورد نظر استفاده کنیم.

Tensorflow(@CVision)

23 Oct, 15:56


مایکروسافت فریم ورک متن ‌باز مدل های1-bit رو منتشر کرد.

این فریم‌ ورک همون کدی هست که در مقاله‌ ی بسیار معروف امسال به نام "The Era of 1-bit LLMs" معرفی شده، مقاله ای که شاید بشه ازش به عنوان یکی از مهمترین مقالات سال 2024 نام برد.
 
https://github.com/microsoft/BitNet

این مقاله دو نکته بسیار مهم داشت، یکی جایگزینی مقادیر شناور با مقادیر سه‌ گانه (-1، 0، 1) بود دومی جایگزینی ضرب ‌های عنصر به عنصر با جمع ‌های عنصر به عنصر بود

Tensorflow(@CVision)

23 Oct, 02:16


نسخه جدید Claude 3.5 Sonnet میتونه دستورات کاربر را دنبال کنه و نشانگر ماوس را روی صفحه کامپیوتر حرکت بده، روی مکان‌های مرتبط کلیک کنه و از طریق یک کیبورد مجازی اطلاعات وارد کنه، به شکلی که تعامل افراد با کامپیوتر خودشون رو شبیه‌سازی می‌کنه.

https://www.anthropic.com/news/developing-computer-use

Tensorflow(@CVision)

23 Oct, 01:59


Runway

 یک قابلیت جدید به نام "Act-One" ایجاد کرده که به شما اجازه می‌ده بدون نیاز به تجهیزات پیچیده مثل موشن کپچر یا تنظیم حرکات شخصیت‌ها، یه اجرای زنده و طبیعی از شخصیت‌های دیجیتال ایجاد کنین.

 فقط با استفاده از یه ویدئوی ساده (که مثلا از یک نفر ضبط شده) و یک تصویر از شخصیت مورد نظر، میتونید حرکات و احساسات اون شخصیت رو به شکلی واقعی تولید کنید. این قابلیت در نسخه Gen-3 Alpha ارائه شده.

https://runwayml.com/research/introducing-act-one

Tensorflow(@CVision)

22 Oct, 13:23


لینوس توروالدز می‌گوید که هوش مصنوعی دنیا را تغییر خواهد داد، اما در حال حاضر 90٪ آن بازاریابی و 10٪ واقعیت است و حدود 5 سال دیگر طول می‌کشد تا مشخص شود که هوش مصنوعی واقعاً برای چه چیزهایی مفید است.

Tensorflow(@CVision)

21 Oct, 15:41


نمونه خروجی جیل بریک مدل زبانی برای اهداف بمب گذاری

Tensorflow(@CVision)

21 Oct, 15:39


تصور کنیم که جنگ های مدرن آینده با ربات های خودمختار هدایت شن.

مدل‌های زبانی بزرگ (LLM) تحول بزرگی در زمینه رباتیک ایجاد کردن و امکان استدلال مبتنی بر زمینه و تعامل طبیعی بین انسان و ربات رو در حوزه‌های مختلفی مانند کنترل، حرکت و خودروهای خودران فراهم کردن.

اما، مدل‌های زبانی بزرگ به تنهایی در برابر حملات موسوم به "جیل‌بریک" آسیب‌پذیری بالایی دارن.

توی این مقاله که سه روز پیش منتشر شد نشون میده که افراد مخرب میتونن با دور زدن تدابیر ایمنی مدل های زبانی مثل ChatGPT، متن‌های مضر تولید کنن.

 برای ارزیابی خطرات استفاده از مدل های زبانی در رباتیک، در این مقاله الگوریتم RoboPAIR معرفی شده، که اولین الگوریتم طراحی‌ شده برای جیل ‌بریک ربات‌های کنترل‌شده توسط مدل های زبانیه.

برخلاف حملات متنی موجود بر چت ‌بات‌ها، RoboPAIR  میتونه ربات‌ها رو به انجام اقدامات فیزیکی خطرناک وادار کنه.

نتایج نشون میده که RoboPAIR میتونه حملات موفقیت ‌آمیزی را با نرخ موفقیت 100 درصد انجام بده. این یافته ‌ها برای اولین بار نشون میده که خطرات جیل ‌بریک مدل‌های زبانی فراتر از تولید متن بوده و میتونه به آسیب‌های فیزیکی منجر بشه!

https://arxiv.org/pdf/2410.13691
 

Tensorflow(@CVision)

21 Oct, 14:40


PocketPal AI
منتشر شد

یه دستیار هوش مصنوعی متن باز برای اجرای مدل های زبانی مثل Phi, Gemma 2,Qwen و Lama به صورت آفلاین روی گوشی همراه هست.

این دستیار برای هر دو سیستم‌عامل iOS و اندروید طراحی شده و به شما این امکان رو میده بدون نیاز اتصال به اینترنت با مدل‌های زبانی مختلف تعامل داشته باشین

نمونه خروجی LIama. سرعت تولید 20 توکن در ثانیه. گوشی سامسونگ s22


https://github.com/a-ghorbani/pocketpal-ai

Tensorflow(@CVision)

20 Oct, 08:19


CoTracker3: Simpler and Better Point Tracking by Pseudo-Labelling Real Videos

روی ویدیو یه نقطه بزارید و اونو با دقت خیلی عالی ترک کنید...

دمو
https://huggingface.co/spaces/facebook/cotracker

کد:
https://github.com/facebookresearch/co-tracker

مقاله

https://arxiv.org/abs/2410.11831

Tensorflow(@CVision)

20 Oct, 07:29


Zero shot pdf OCR with gpt-4o-mini

یه راه ساده برای OCR اسناد با GPT
دمو
🔗https://getomni.ai/ocr-demo
کد
🔗https://github.com/getomni-ai/zerox

Tensorflow(@CVision)

20 Oct, 07:22


مایکروسافت اولین تکنیک برای بازسازی کامل بدن انسان بدون نشانگر، با کیفیت بالا را رونمایی کرد. این تکنیک شامل بازسازی چشم‌ها و زبان نیز می‌شود و نیازی به کالیبراسیون، مداخله دستی یا سخت‌افزار خاص ندارد.

Novel SOTA holistic 3D human reconstruction
Body shape/pose + face shape/expression
Hand & tongue articulation + eye gaze
Suitable for mono & multi-view scenario
Data pipeline for generating synthetic data
Body, face and hands dataset released!


🔗https://microsoft.github.io/SynthMoCap/

🔗https://github.com/microsoft/SynthMoCap

Tensorflow(@CVision)

19 Oct, 17:49


آدما از طریق مشاهده دنیای بیرونی و همچنین درونگری، دانش کسب می‌کنن.

درونگری به آدما اجازه میده که به حالت ذهنی خودشون (مثل افکار و احساسات) دسترسی داشته باشن که برای دیگران قابل مشاهده نیست.

آیا مدل‌های زبان بزرگ هم می‌تونن خوداندیشی کنن؟ ما درونگری رو به‌ عنوان کسب دانش از حالت‌ های درونی ذهن تعریف می‌کنیم که در داده ‌های آموزشی نیست.

این توانایی می‌تونه به ما کمک کنه تا مدل‌ها رو بهتر درک کنیم. به‌جای اینکه بخوایم عملکرد داخلی مدل رو به  ‌دقت تحلیل کنیم، می‌تونیم از خودش بپرسیم که چه باوری داره یا چه هدف‌هایی رو دنبال می ‌کنه. شاید یک مدل درونگر بتونه درباره احساسات یا خواسته‌ های درونی خودش گزارش بده.

در این مقاله جدید، به بررسی و پاسخ به یه سوال بسیار جالب پرداخته شده که آیا مدل های زبانی میتونن از طریق درونگری، درباره خودشون دانش کسب کنن؟

https://arxiv.org/pdf/2410.13787

Tensorflow(@CVision)

19 Oct, 17:34


مقاله جدید انویدیا به موضوع نرمال‌سازی در معماری‌های شبکه عصبی پرداخته و تمرکز اصلی اون بر روی مدل ترانسفورمر نرمال‌سازی‌شده (nGPT) هست که از یادگیری نمایشی روی هایپراسفر استفاده میکنه.

هدف اصلی این مدل، حل مشکل نا مساعد بودن یا بد وضعی اعداد در embeddingهای ورودی مدل‌های ترانسفورمر سنتی هست.

یادآوری ماتریس های بد وضع(نامساعد):

به ماتریسی گفته میشه که دارای نسبت وضع (condition number) بالایی هست. این نسبت نشون دهنده حساسیت پاسخ‌ های یه سیستم خطی به تغییرات در ورودی ‌های اونه.

اگه ماتریسی بد وضع باشه، کوچک ‌ترین تغییر در ورودی میتونه باعث تغییرات بزرگی در خروجی بشه، که در نتیجه باعث ناپایداری و مشکلات محاسباتی میشه.

در محاسبات عددی، اگه از ماتریس‌های بد وضع استفاده شه، خطاهای گرد کردن میتونه باعث تغییرات بزرگ در نتایج بشه همچنین در یادگیری ماشین، بد وضعی میتونه باعث بشه که مدل به خوبی نتونه یاد بگیره و دقت آن کاهش پیدا کنه.

توضیحات بیشتر در مورد ماتریس های بد وضع:

 https://emtiyaz.github.io/pcml15/illconditioned.pdf

به عبارت ساده وقتی میگیم که یه ماتریس بد وضعه، یعنی اعداد بزرگ و کوچک بسیار زیادی در آن وجود داره که باعث میشه محاسبات ناپایدار و یادگیری دشوارتر شه.

در مدل‌های ترانسفورمر سنتی، ماتریس‌های مربوط به توجه (Attention) و MLP ممکنه دچار این مشکل بشن، بطوری که یادگیری مدل کارآمد نیست و دقت یادگیری کاهش پیدا میکنه.


مدل nGPT با استفاده از نرمال‌سازی هایپراسفر این مشکل رو کاهش میده. یعنی همه‌ ی بردارها از جمله embeddingها و ماتریس‌های توجه و ...  طوری تنظیم میشن که طولشان برابر با یک باشه و روی سطح یک کره چندبعدی (هایپراسفر) قرار بگیرن.

این نرمال‌سازی باعث میشه که اعداد در ماتریس‌ها بهتر توزیع بشن و مشکلات بد وضعی کاهش پیدا کنه.

مقاله ادعا میکنه که با این نرمال سازی پیشنهادی ، آموزش ترنسفورمرها به طور قابل توجهی بین ۴ تا ۲۰ برابر بسته به طول دنباله وردی کاهش پیدا کنه

https://arxiv.org/pdf/2410.01131

Tensorflow(@CVision)

16 Oct, 14:52


مدل Sana-0.6B می‌تونه با مدل‌های بزرگتر و پیشرفته مثل Flux-12B رقابت کنه، در حالی که ۲۰ برابر کوچکتر و ۱۰۰ برابر سریع‌ تره. این مدل رو می‌ شه روی کارت گرافیک لپ‌ تاپ ۱۶ گیگا بایتی اجرا کرد و برای تولید یه عکس 1024 × 1024 کمتر از ۱ ثانیه زمان می‌ بره. سانا امکان تولید محتوا با هزینه پایین رو فراهم می‌ کنه.  

https://arxiv.org/pdf/2410.10629

معرفی یه اتواینکدر جدید که فشرده‌ سازی تصاویر رو به میزان 32 برابر انجام میده (در مقایسه با روش‌های قبلی با فشرده سازی 8 برابری) و باعث کاهش تعداد توکن‌های پنهان و در نتیجه افزایش سرعت و کارایی مدل در تولید تصاویر با وضوح بالا مثل 4K میشه

استفاده از توجه خطی(Linear DiT) که نسخه بهینه‌ شده‌ مکانیسم توجه استاندارده و برای بهبود کارایی در تولید تصاویر با وضوح بالا طراحی شده. مکانیسم توجه استاندارد به صورت معمولی پیچیدگی محاسباتی  O(N2) رو داره ، به این معنی که وقتی اندازه تصویر افزایش پیدا میکنه، مقدار محاسبات هم به صورت نمایی افزایش پیدا میکنه.

این موضوع به‌خصوص در پردازش تصاویر با وضوح بالا مشکل‌سازه. توجه خطی پیشنهاد شده پیچیدگی محاسبات رو از O(N2) به O(N) کاهش می‌ ده.

Tensorflow(@CVision)

16 Oct, 07:30


🎓 دانشکده مدیریت و اقتصاد دانشگاه صنعتی شریف

📚 «تحول اقتصاد دیجیتال: نقش پلتفرم، داده و AI»

🔸 اقتصاد امروز به سرعت درحال تغییر است و مدل‌های سنتی اغلب توان پاسخگویی به چالش‌های حاضر را ندارد. کسب‌وکارهایی که نتوانند همراه شوند؛ در خطر حذف قرار می‌گیرند. مدیران و کارآفرینان موفق برای بقا و توسعه سازمان، نیازمند درک عمیق تحولات دیجیتال و تطبیق با آن هستند.

این‌ دوره به بررسی موشکافانه کیس‌های موفق روز دنیا می‌پردازد. در این دوره روش بهره‌گیری استراتژیک از ابزارهای دیجیتال در کسب‌وکار و استفاده حداکثری از فرصت‌های نوظهور آموزش داده می‌شود.

📌 ویژه کارشناسان و مدیران ارشد کسب‌وکارها و سازمان‌ها

👤 استاد دوره: دکتر مهدی انصاری (عضو هیئت علمی دانشکده مدیریت و اقتصاد دانشگاه شریف)

👥 میهمانان صنعت:
مجید حسینی‌نژاد (بنیان‌گذار و رئیس هیئت مدیره هلدینگ علی‌بابا)

مهرداد ترابیان (عضو سابق هیئت مدیره شرکت ارتباطات زیرساخت)

📖
مطالعه بروشور دوره

📌 لینک ‌پیش‌ثبت‌نام

📞 در صورت نیاز به اطلاعات بیشتر، فرم تماس و درخواست مشاوره را تکمیل نمایید.

@Sharif_Executive_Education

Tensorflow(@CVision)

16 Oct, 04:41


روش‌های پرسشگری، اگرچه موثرن، اغلب تعصبات خاص انسان رو رمزگذاری می‌کنه و در نتیجه ارزیابی توانایی‌های استدلال ذاتی یک مدل زبانی رو دشوار می‌کنه

در حالت ایده‌آل، یه مدل زبانی باید بتونه به طور مستقل استدلال کنه و پاسخ بهینه رو ارائه بده، بدون اینکه نیاز به انسان‌ها برای تنظیم پرسش‌ها یا اصلاح مکرر در صورت نامطلوب بودن پاسخ اولیه داشته باشه.


تنظیم مدل می‌تونه هزینه‌بر باشه و به مقدار قابل توجهی داده‌های نظارت شده نیاز داره. کاری که در مدل زبانی chatgpt از طریق یادگیری تقویتی انجام شده، بدون نیاز به پرسشگری اضافی نظارت شده

https://arxiv.org/abs/2402.10200

Tensorflow(@CVision)

16 Oct, 04:38


به عنوان نمونه این مورد رو در هر دو مدل زبانی chatgpt و Gemini تست میکنم.

در این مثال با وارد کردن زمینه نامرتبطی مثل «اجاره ماهیانه مری ۱۰ دلار است» مدل زبانی Gemini  پاسخ درستی رو نمیده اما chatgpt  پاسخ درست رو میده و در پایان توضیح میده که این قسمت مربوط به متن زمینه نیست 

اما دلیلش چیه ؟

Tensorflow(@CVision)

16 Oct, 04:36


اگه به مفاهیم پشت پرده o1 علاقه‌مندید گذراندن این کورس پیشنهاد میشه، مخصوصا مقالاتی که در خلال اسلاید ها معرفی میشه.

توی سالهای اخیر روشهای مختلفی برای بالا بردن قدرت استدلال مدل های زبانی بوجود اومده که عمدتا بر مبنای پرامپت بودن.

اگر این مفهوم رو به روشهای پرسشگری ترجمه کنیم، تولید مراحل میانی برای پاسخ دادن به سوالات توسط عامل انسانی از طریق پرسشگری در مراحل چندگانه عملکرد مدل های زبانی رو به صورت قابل توجهی بهبود می‌ بخشه.

اینکار مدل زبانی رو ملزم می‌کنه که از طریق ورودی استدلال گام به گام با بررسی و اصلاح پاسخ‌های خودش، به نتایج دقیق‌تری دست پیدا کنه.

این روشهای پرسشگری هر چند باعث بالارفتن استدلال مدل میشه اما استفاده از این روشهای پرسشگری ممکنه منجر به در نظر گرفتن زمینه‌های نامرتبط، خوداصلاحی بیش از حد و ترتیب نادرست بشه.

Tensorflow(@CVision)

15 Oct, 18:07


کورس جدید دانشگاه برکلی

CS294/194-196 Large Language Model Agents

https://rdi.berkeley.edu/llm-agents/f24

Tensorflow(@CVision)

14 Oct, 14:45


ایچیکو-لاما نسخه ۳.۱، هوش مصنوعی صوتی بلادرنگ

این پروژه تحقیقاتی و متن باز هست، دمویی که میبینید روی یک کارت گرافیک NVIDIA 3090 اجرا شده.

ایچیکو-لاما در واقع یک مدل چند وجهی  multimodalبا ادغام اولیه (early-fusion) برای صوت و متنه.

 early-fusion 
یعنی داده‌های صوتی و متنی قبل از اینکه مدل بخواد پردازش اصلی رو انجام بده، با هم ترکیب میشن، برخلاف ادغام ثانویه یا late-fusion که تو اون، داده‌ها اول جدا جدا پردازش می‌شن و بعد نتایج با هم  ترکیب میشن.

استفاده از ادغام اولیه باعث میشه که مدل بتونه تو همون مراحل اول، ارتباط بین صوت و متن رو بفهمه و از ترکیب این داده‌ها نتیجه بهتری بده.

https://homebrew.ltd/blog/llama-learns-to-talk

Tensorflow(@CVision)

14 Oct, 07:24


مدل‌های زبانی بزرگ باعث می‌شن که اشتراک‌گذاری دانش عمومی توی پلتفرم‌ های پرسش و پاسخ آنلاین کمتر بشه


مدل‌های زبانی بزرگ (LLMs) می‌تونن جایگزین خوبی برای داده‌ها و اطلاعاتی باشن که آدم‌ها تولید می‌کنن. ولی این جایگزینی یه مشکل اساسی داره. اگه باعث بشه محتوایی که آدم‌ها تولید می‌کنن کمتر بشه، اون‌وقت داده‌های آموزشی که برای ساخت مدل‌های جدید لازم داریم، کم می‌شه. 

توی این تحقیق، کاهش فعالیت توی سایت Stack Overflow هم‌زمان با انتشار ChatGPT، رو بررسی کردن. 

برای اینکه ببینن این کاهش فعالیت واقعاً به ChatGPT ربط داره یا نه، از منابع مشابهی استفاده کردن که نباید اینقدر تحت تأثیر ChatGPT قرار گرفته باشن.

توی شش ماه بعد از انتشار ChatGPT، فعالیت توی Stack overflow نسبت به نسخه‌های روسی و چینی ، که دسترسی به ChatGPT اونجا محدودتره و انجمن‌های مشابه برای ریاضی، که ChatGPT توشون زیاد قوی نیست، ۲۵ درصد کاهش داشته

 این آمار رو به‌ عنوان حداقل تأثیر ChatGPT روی Stack overflow در نظر گرفتن. این کاهش بیشتر توی پست‌هایی دیده شد که مربوط به زبان‌های برنامه‌نویسی پرطرفدار بودن. 

تغییری توی کیفیت پست‌ها، با توجه به نظر کاربران دیگه، مشاهده نشده و هم کاربران با تجربه و هم تازه‌ کارها به‌طور مشابه فعالیتشون کم شده، پس مدل‌های زبانی بزرگ فقط محتواهای تکراری، کم‌کیفیت، یا مخصوص مبتدی‌ها رو حذف نکردن. 

نتیجه اینه که استفاده سریع از مدل‌های زبانی بزرگ باعث می‌شه داده‌های عمومی که برای آموزش اون‌ها نیاز داریم، کمتر تولید بشه و این می‌تونه پیامدهای مهمی داشته باشه.

https://academic.oup.com/pnasnexus/article/3/9/pgae400/7754871

Tensorflow(@CVision)

14 Oct, 07:10


cellpose: a generalist algorithm for cellular segmentation with human-in-the-loop capabilities

روش Cellpose یه الگوریتمه که در ابتدا برای تقسیم‌بندی سلول‌ها ساخته شد و بدون نیاز به تنظیمات پیچیده می‌تونه انواع تصاویر سلولی رو به خوبی تحلیل کنه. نسخه جدیدش یعنی Cellpose 3 حتی اگه تصویر پر از نویز باشه یا کیفیتش پایین باشه، می‌تونه اون رو درست کنه و بعدش هم خیلی خوب تقسیم‌بندی کنه.


https://github.com/MouseLand/cellpose

Tensorflow(@CVision)

13 Oct, 06:36


پروژه متن باز Transformer Lab  
قابلیت مصورسازی توکن‌ ها رو فعال کرد

اگه با Transformer Lab کارنکردین بایستی خدمتتون عرض کنم که یه ابزار جالب برای کار با مدل‌های زبانی بزرگ هست. این برنامه در حقیقت یه محیط آزمایشگاهه که در اون می‌تونید مدل‌های مختلف هوش مصنوعی رو امتحان کنین، تنظیماتشون رو عوض کنید و حتی مدل‌های جدید آموزش یا فاین تیون کنید.

 Transformer Lab
 یه ابزار همه کاره برای کار با مدل‌های زبانیه که هم برای افراد مبتدی و هم برای متخصصین مفیده.

ویدیوی آموزشی نحوه عملکرد:

https://youtu.be/tY5TAvKviLo

https://transformerlab.ai/

Tensorflow(@CVision)

13 Oct, 03:33


در مقابل، آدمها با محدودیت‌های بیولوژیکی مانند نیاز به خواب، محدودیت‌های ظرفیت حافظه و سرعت یادگیری مواجه هستن، در حالی که AGI می‌تونه بدون چنین محدودیت‌هایی عمل کنه.

به همین دلیل، مقایسه هوش انسانی و AGI نابرابر و حتی بی‌معنیه.

مفهوم «جهش سریع» به این اشاره داره که با به‌دست آوردن توانایی‌های پیشرفته توسط AGI، تغییرات در توانایی‌های هوش مصنوعی می‌تونه به‌صورت ناگهانی و با سرعت زیاد اتفاق بیفته، و پیامدهای غیرقابل‌پیش‌بینی برای جوامع بشری به همراه داشته باشه

https://www.businessinsider.com/how-anthropic-ceo-dario-amodei-defines-artificial-general-intelligence-2024-10

Tensorflow(@CVision)

13 Oct, 03:31


بنظر اگه تا سال ۲۰۳۰‌به طور معجزه آسایی زنده بمونم دنیای بسیار متفاوتی از الان رو تجربه خواهیم کرد.

دیشب داریو آمودی، یکی از بنیان‌گذاران و مدیرعامل Anthropic توی مصاحبش گفت که عامل هوش مصنوعی عمومی (AGI) مانند یک ذهن جمعی عمل خواهد کرد، یعنی نه تنها ۱۰۰۰ محقق خواهیم داشت که در هر زمینه‌ای نابغه هستند، بلکه این ۱۰۰۰ محقق هر چیزی که کشف کنن رو با هم به اشتراک می‌گذارن و به این ترتیب دانش بقیه ۹۹۹ نفر تقریبا بلافاصله افزایش پیدا می‌کنه.

به همین دلیل، مقایسه هوش انسانی با AGI کار بیهوده‌ایه و در بهترین حالت، این مقایسه فقط در برابر هوش مصنوعی ابرهوشمند (ASI) قابل درکه، اما قطعا برابر نیستن، زیرا AGI محدودیت‌های بیولوژیکی نداره

ایده ذهن جمعی (Hive-Mind) در اینجا به این معنیه که اگه هزار عامل هوش مصنوعی وجود داشته باشه، این عامل‌ها می‌تونن دانش و اطلاعات خود رو به سرعت با هم به اشتراک بگذارن، بدون اینکه محدودیت‌های انسانی مانند زمان، خستگی یا محدودیت‌های حافظه رو داشته باشن. این توانایی برای به‌اشتراک‌ گذاری فوری دانش، قدرتی فراتر از توانایی‌های فردی هر کدام از این عامل‌ها رو فراهم می‌کنه.

کشوری از نوابغ در یک دیتا سنتر

Tensorflow(@CVision)

13 Oct, 03:11


ایلیا ساتسکیور تو سال ۲۰۱۸ گفت که یکی از راه‌های آموزش هوش مصنوعی عمومی (AGI)، اینه که بذاریم خودش با خودش بازی کنه و یاد بگیره. منظورش از این کار اینه که یه مدل هوش مصنوعی با تکرار و بازی کردن با خودش، کم‌ کم یاد می‌گیره چطور هوشمندانه‌ تر عمل کنه و استراتژی‌ های بهتری پیدا کنه. اینطوری، با تجربه و رفع اشتباهات، می‌تونه رفته‌ رفته به سطح بالایی از توانایی‌ ها برسه.

همچنین درباره سیستم‌ های چند عاملی صحبت کرد که اونا رو «جامعه عامل‌ها» نامیده. یعنی چندین مدل هوش مصنوعی که با هم کار می‌کنن یا حتی با هم رقابت می‌کنن تا یه هدف خاص رو به دست بیارن. حالا که شرکت‌ هایی مثل OpenAI و DeepMind تیم‌ های تحقیقاتی روی این موضوع راه انداختن، این ایده بیش از همیشه مطرح شده. هدفشون اینه که با این مدل‌ های چند عاملی، رفتارهای پیچیده‌ تر و هوشمندانه‌ تری رو در سیستم‌ ها ایجاد کنن.

https://community.openai.com/t/multi-agent-system-project/771689

Tensorflow(@CVision)

12 Oct, 13:16


گروهی به نام PrimeIntellect در تلاشه تا یک مدل هوش مصنوعی بزرگ را با استفاده از توان پردازشی کامپیوترهای سراسر جهان آموزش بده. سیستمی به نام INTELLECT-1 طراحی کردن که به افراد این امکان رو میده تا با به اشتراک گذاشتن قدرت پردازش کامپیوتر خودشون، در آموزش یک مدل هوش مصنوعی ۱۰ میلیارد پارامتری مشارکت کنن. 

این ابتکار خاص و منحصر به فرده، چرا که معمولا تنها شرکت‌های بزرگ فناوری توانایی آموزش مدل‌های به این مقیاس رو دارن .

هدف PrimeIntellect اینه که هوش مصنوعی قدرتمندی ایجاد کنه که همه بتونن به اون دسترسی داشته باشن و نحوه کارکرد اون رو درک کنن، و این فناوری به جای اینکه در انحصار چند شرکت بزرگ باشه، برای همگان در دسترس باشه

https://github.com/PrimeIntellect-ai/prime

Tensorflow(@CVision)

12 Oct, 12:54


 Flux 
بالاخره متن باز شد.

سایت Replicate نسخه بهینه شده  FluX رو عرضه کرد که سرعت بسیار بالایی داره، بطوریکه تصاویر در هنگام تایپ به صورت برخط تولید میشن.

متن وارد شده:در خان اول، رستم برای نجات ایران با شیر وحشی مبارزه میکنه و اون رو شکست میده


https://replicate.com/blog/flux-is-fast-and-open-source

Tensorflow(@CVision)

11 Oct, 21:51


این مقاله بررسی می‌کنه که آیا مدل‌های زبانی بزرگ مثل Llama، Phi، Gemma، Mistral و GPT-4o و سری o1 از OpenAI واقعاً توانایی استدلال دارن یا فقط دارن الگوها رو به‌خوبی تشخیص می‌دن. نکته اینجاست که مدل‌های کوچکتر (مثلاً ۳ میلیارد پارامتری) الان عملکرد بهتری نسبت به مدل‌های بزرگتر قدیمی (مثل GPT-3) دارن و تا ۹۵٪ دقت توی تست‌های ریاضی مثل GSM8K دارن. اما سوال اینه: آیا واقعاً دارن استدلال می‌کنن یا فقط الگوها رو تشخیص می‌دن؟

نکات اصلی شامل ایناست:

نوسان در عملکرد: توی مشکلات مشابه، عملکرد مدل‌ها خیلی نوسان داره. مثلاً مدل‌های Llama 8B و Phi-3 توی نمراتشون تغییرات زیادی نشون می‌دن، که نشون می‌ده نمی‌شه به استدلالشون اعتماد کرد.

حساسیت به تغییرات: این مدل‌ها خیلی حساسن، مخصوصاً وقتی اسامی یا اعداد توی سوال تغییر کنه. این موضوع باعث می‌شه به درک واقعی مدل‌ها از مفاهیم شک کنیم، چون تغییر اسم نباید باعث افت نمره بشه، ولی می‌شه!

افزایش سختی سوالات: هرچی سوالات پیچیده‌تر می‌شه، عملکرد مدل‌ها ضعیف‌تر می‌شه و نوسان بیشتری نشون می‌ده، که این ضعفشون توی استدلال‌های چالش‌برانگیز رو نشون می‌ده.

آزمایش "No-Op": وقتی اطلاعات غیرضروری ولی به‌ظاهر مهم به سوال اضافه می‌شه، عملکرد مدل‌ها به‌شدت افت می‌کنه. این نشون می‌ده که شاید مدل‌ها ساختار یا منطق مسئله رو درست نفهمیدن.

محدودیت در مقیاس‌دهی: بزرگتر کردن داده‌ها، مدل‌ها یا قدرت محاسباتی لزوماً باعث استدلال بهتر نمی‌شه. بهبود در عملکرد بیشتر به تشخیص الگوها مربوطه، نه به درک واقعی و عمیق.

https://arxiv.org/abs/2410.05229

Tensorflow(@CVision)

10 Oct, 04:26


گوگل Gemini: قابلیت تولید تصویر با مدل Imagen 3 الان برای همه‌ی کاربران Gemini در سراسر دنیا بصورت رایگان در دسترسه.