Tensorflow(@CVision) @cvision Channel on Telegram

Tensorflow(@CVision)

@cvision


اخبار حوزه یادگیری عمیق و هوش مصنوعی
مقالات و یافته های جدید یادگیری عمیق
بینایی ماشین و پردازش تصویر

TensorFlow, Keras, Deep Learning, Computer Vision

سایت دوره
http://class.vision

👨‍💻👩‍💻پشتیبان دوره ها:
@classvision_support

Tensorflow(@CVision) (Persian)

آیا به دنبال اخبار و مقالات جدید در حوزه یادگیری عمیق و هوش مصنوعی هستید؟ اگر پاسخ شما بله است، کانال تلگرام Tensorflow(@CVision) مناسب‌ترین انتخاب برای شماست. در این کانال، شما می‌توانید مقالات و یافته‌های جدید در زمینه یادگیری عمیق، بینایی ماشین و پردازش تصویر را بیابید. از TensorFlow و Keras گرفته تا Deep Learning و Computer Vision، تمامی اطلاعات مربوط به این حوزه‌ها در این کانال در دسترس شماست. برای دسترسی به دوره‌های آموزشی بیشتر، می‌توانید به سایت http://class.vision مراجعه کنید. همچنین، در صورت داشتن هرگونه سوال یا مشکل در تحصیلات خود، با پشتیبان دوره‌ها به آدرس @classvision_support در ارتباط باشید. همراه با کانال Tensorflow(@CVision)، به دنیای جدیدی از دانش و فناوری وارد شوید.

Tensorflow(@CVision)

05 Jan, 04:57


ویدویها _کدها + اسلاید این وبینار روی سایت قرار گرفت

https://class.vision/product/explainable-ai-graph-neural-networks/

Tensorflow(@CVision)

04 Jan, 12:29


💡 پذیرفتن اینکه داده‌ها امروز به یه سرمایه‌ی بی‌قیمت تبدیل شدن،

✔️ کافیه تا متوجه بشیم شرکت در بوت‌کمپ آموزشی استخدامی تحلیل داده مکتب شریف، یه فرصت استثائی برای اون‌هاییه که میخوان به کمک داده‌ها هم یه بازار کار عالی رو تجربه کنن و هم خیلی زود از رقباشون پیشی بگیرن.🥇

📌 مشاوره و ثبت‌نام ➡️

برای کسب اطلاعات بیشتر کافیه به آی‌دی ما پیام بدی!

🆔 @MaktabSharif_Admin

▪️▫️▪️▫️▪️▫️▪️▫️▪️▫️
🌐 وبسایت | کانال تلگرام | 🌐 اینستاگرام

💻 #استخدام_با_طعم_آموزش

Tensorflow(@CVision)

04 Jan, 07:56


ابزار markitdown؛ همه چیز را به فرمت markdown تبدیل کن!

مایکروسافت یک کتابخونه به نام MarkItDown را به صورت متن‌باز بیرون داده که باهاش می‌تونید فایل‌هایی با فرمت‌های زیر را به فرمت markdown (مثل فایل‌های readme گیت) تبدیل کنید.
فایل ورد فارسی رو هم خوب پشتیبانی می‌کنه

• PDF
• PowerPoint
• Word
• Excel
• Images (EXIF metadata and OCR)
• Audio (EXIF metadata and speech transcription)
• HTML
• Text-based formats (CSV, JSON, XML)
• ZIP files (iterates over contents)


https://github.com/microsoft/markitdown/tree/main


🙏Thanks to: @nlp_stuff

Tensorflow(@CVision)

01 Jan, 07:48


وبینار رایگان: تفسیرپذیری شبکه‌های عصبی گرافی

این وبینار به‌صورت آنلاین برگزار می‌شود.

🗓 زمان: پنج شنبه، ۱۳ دی ۱۴۰۳
ساعت: 10 الی 12 صبح


https://class.vision/product/explainable-ai-graph-neural-networks/

Tensorflow(@CVision)

30 Dec, 10:30


کاربری به اسم frosty این سوالات رو تو Stack Overflow پرسیده و FBI هم از طریق این اسمش و کدهایی که تو سایتش استفاده کرده تونسته ردشو بزنه.

فریمورکی که هم که استفاده کرده CodeIgniter پی‌اچ‌پی بوده. یه نفر بهش میگه که چتاشون لو رفته و باید سریع پاکش کنه که اومده سرچ کرده چطوری session رو تو CodeIgniter پاکش کنه.

پ.ن: این کاربر راس ویلیام اولبریکت، بنیان‌گذار سایت خرید و فروش مواد مخ.در در دارک وب به نام Silk Road بود که در اکتبر ۲۰۱۳ تحت عملیاتی مشترک از سوی اف‌بی‌آی، اداره مبارزه با مواد مخدر، وزارت دادگستری و آژانس امنیت ملی دستگیر و به حبس ابد محکوم شد.

پ.ن۲: اگه خواستین جرمی مرتکب بشین، جوابای Stack Overflow رو مستقیم کپی نکنید، خودتون بنویسید

پادکست جذاب Silk Road از چنل‌بی رو حتما گوش کنید فوق‌العاده هس.

منبع:

@DevTwitter | <Reza Asgharzadeh />

Tensorflow(@CVision)

30 Dec, 08:23


رقیب چینی ChatGPT

https://chat.deepseek.com/

از زبان فارسی به خوبی پشتیبانی میکنه و تحریم شکن نمیخواد...

Tensorflow(@CVision)

25 Dec, 14:45


بوت‌کمپ هوش مصنوعی در سلامت (دوره مقدماتی)
هوشیار و مرکز نوآوری علم داده و هوش مصنوعی ICDS برگزار می‌کنند!

🔹سرفصل‌ها: 
۱. پایتون برای تحلیل داده های حوزه سلامت
۲. جمع آوری داده‌های حوزه سلامت
۳. پیش پردازش داده‌های پزشکی
۴. تحلیل اکتشافی و مصور سازی داده‌های سلامت
۵. پایگاه‌های داده در حوزه پزشکی
۶.آمار و تحلیل داده های درمانی
۷. یادگیری ماشین در حوزه پزشکی
۸. مهارت‌های نرم برای متخصصان داده در حوزه سلامت
۹. اصول و چابکی در کار تیمی
۱۰. پردازش زبان طبیعی (NLP) در داده‌های پزشکی
۱۱. اجرای یک پروژه عملی در حوزه سلامت

🔹اساتید دوره : 
دکتر مسعود مظلوم، مهندس سروش ریاضی، مهندس دانیال ظهوریان، دکتر مسعود کاویانی، دکتر هادی ویسی، دکتر سهیل تهرانی پور، دکتر رحمانی

🔹 پس از اتمام دوره، امکان کار و همکاری با دانش پژوهان برتر نیز وجود دارد.

📅 زمان برگزاری:  به مدت ۸ روز از  ۴ ام بهمن ماه، پنجشنبه ها و جمعه ها از ساعت ۸ الی ۲۰

📌 مهلت ثبت‌نام:  تا ۲۰ دی ماه

📍محل برگزاری: پژوهشکده مطالعات و تحقیقات پیشرفته دانشگاه تهران

📎 لینک ثبت‌نام:  لینک

🔹هزینه ثبت نام : ۶ میلیون تومان (آزاد) ۳ میلیون تومان (دانشجویی)

Tensorflow(@CVision)

21 Dec, 15:08


وبینار رایگان: تفسیرپذیری شبکه‌های عصبی گرافی

این وبینار به‌صورت آنلاین برگزار می‌شود.

🗓 زمان: پنج شنبه، ۱۳ دی ۱۴۰۳
ساعت: 10 الی 12 صبح


https://class.vision/product/explainable-ai-graph-neural-networks/

Tensorflow(@CVision)

21 Dec, 08:39


به دلیل مشکلاتی که دیشب برای پنل پیامکی سایت ایجاد شده بود و یکسری از کاربران گرامی نتوانستند خرید خود را کامل کنند، اعتبار کد تخفیف دو روز تمدید شد

کد تخفیف: offya

https://class.vision

Tensorflow(@CVision)

20 Dec, 07:02


کد تخفیف یلدا فقط روی دوره‌های سایت کلاس ویژن تا ۲۴ امشب فعال است
برای تهیه دوره اپن سی وی از مکتب خونه کد زیر هنوز فعال است
https://t.me/class_vision/697

Tensorflow(@CVision)

20 Dec, 06:59


ابزار Copilot، دستیار برنامه‌نویسی مبتنی بر هوش مصنوعی، اکنون به‌صورت رایگان برای همه در Visual Studio Code در دسترس است.

با ورود به حساب کاربری GitHub خود، کاربران می‌توانند ماهانه تا ۲۰۰۰ تکمیل کد و ۵۰ پیام چت دریافت کنند.

این اقدام با هدف دسترسی بیشتر توسعه‌دهندگان به ابزارهای هوش مصنوعی و بهبود بهره‌وری در فرآیند کدنویسی انجام شده است.

https://github.blog/news-insights/product-news/github-copilot-in-vscode-free/


لازم به ذکره این ابزار خیلی با پرسیدن یه تیکه کد تو چت بات فرق داره، کل پروژه را میخونه و پبشنهادهای خیلی باحال رو پروژه میده، من قبل این ماهانه
حدودا ۲ میلیون در میومد...

اگر کار نکردید، حتما فیلمهاشو تو لینک بالا ببینید

Tensorflow(@CVision)

19 Dec, 12:02


آیا می‌توان مهارت‌ها را مستقیماً به مغز انتقال داد؟ واقعیت علمی پشت رؤیای فیلم ماتریکس (🧠to🧠)!!


آیا واقعا میشه اطلاعات مغز یه آدم حرفه ای تو یه کاریو روی مغز یه آدم مبتدی آپلود کرد و اونم بی زحمت حرفه ای شه؟
این ادعاییه که یه تیم تحقیقاتی مطرح کردند...

در سال ۲۰۱۶، آزمایشگاه‌های HRL در کالیفرنیا ادعا کردند که با استفاده از تحریک الکتریکی مغز (tDCS)، می‌توان مهارت‌های پیچیده‌ای مانند خلبانی را به افراد مبتدی منتقل کرد.

https://www.sciencealert.com/sorry-guys-scientists-haven-t-invented-a-matrix-style-device-that-instantly-uploads-data-to-your-brain

با این حال، این مطالعه با انتقاداتی مواجه شد. برخی محققان به نمونه کوچک شرکت‌کنندگان و تضاد منافع احتمالی اشاره کرده‌اند که می‌تواند به اعتبار نتایج آسیب برساند.

علاوه بر این، نتایج مشابه در مطالعات دیگر تکرار نشده است. به عنوان مثال، مطالعه‌ای در سال ۲۰۲۳ نشان داد که تحریک الکتریکی مغز تأثیر قابل‌توجهی بر بهبود مهارت‌های حرکتی ندارد، شاید اثر پلاسیبو* بوده که افراد کمی بهتر عمل میکردند.
https://pmc.ncbi.nlm.nih.gov/articles/PMC11101143/
در نتیجه، به دلیل این چالش‌ها و عدم تکرار نتایج، این فناوری در سال‌های بعد توسعه نیافته و عملیاتی نشده است.

*پلاسیبو (Placebo) به ماده‌ای یا درمانی گفته می‌شود که هیچ اثر واقعی درمانی ندارد اما به واسطه تلقین کردن و به دلیل باور فرد به اثربخشی آن، ممکن است باعث بهبود یا تغییراتی در وضعیت او شود. مثلا ممکنه چون گفتند اطلاعات مغز یه فرد خبره را بهت انتقال میدیم طرف تلقین کرده و یه کم بهتر تو تست های بعدی ظاهر شده...

Tensorflow(@CVision)

19 Dec, 08:27


وبینار رایگان: تفسیرپذیری شبکه‌های عصبی گرافی

این وبینار به‌صورت آنلاین برگزار می‌شود.

🗓 زمان: پنج شنبه، ۱۳ دی ۱۴۰۳
ساعت: 10 الی 12 صبح


https://class.vision/product/explainable-ai-graph-neural-networks/

Tensorflow(@CVision)

17 Dec, 13:17


شب یلدایی با تخفیف ویژه! 🎁
به مناسبت بلندترین شب سال، 30% تخفیف برای تمامی دوره‌ها و محتواهای آموزشی سایت class.vision در نظر گرفته‌ایم. 🌟

📌 کد تخفیف: offya
📅 مهلت استفاده: فقط تا پایان شب یلدا

فرصت رو از دست ندید و همین حالا از این تخفیف استفاده کنید! 🚀

[لینک دوره‌ها]

Tensorflow(@CVision)

10 Dec, 15:01


مراسم دریافت جایزه نوبل توسط برندگان این جایزه از جمله دکتر جفری هینتون به صورت زنده


https://www.youtube.com/live/6-A4dUowT4Q?si=j4yZx2rXU2av9aI0

Tensorflow(@CVision)

08 Dec, 13:42


جلسه دهم مباحث ویژه ۳ دانشگاه شهید رجایی، با موضوع simclr و clip

https://www.aparat.com/v/yukavm9

Tensorflow(@CVision)

04 Dec, 20:08


Genie 2: A large-scale foundation world model

Introducing Genie 2: our AI model that can create an endless variety of playable 3D worlds - all from a single image. 🖼

These types of large-scale foundation world models could enable future agents to be trained and evaluated in an endless number of virtual environments. →

https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

این یه مدل جهان‌سازی پیشرفته‌ست که می‌تونه بی‌نهایت محیط سه‌بعدی قابل بازی و تعاملی بسازه. یعنی شما (یا یه عامل هوش مصنوعی) می‌تونید فقط با دادن یه تصویر ساده، وارد یه دنیای شگفت‌انگیز بشید و با کیبورد و موس توش بازی کنید یا ازش برای آموزش هوش مصنوعی استفاده کنید!

Tensorflow(@CVision)

04 Dec, 18:48


#تخفیف #opencv
📢 0️⃣5️⃣ درصد تخفیف دوره opencv برای 100 نفر اول:

گام نخست: ورود با لینک خرید با تخفیف
وارد کردن کد تخفیف 50 درصدی: COUPON-9f654

Tensorflow(@CVision)

28 Nov, 11:17


🎉 بلک فرایدی، فرصت طلایی برای یادگیری عمیق! 🎉

به مناسبت بلک فرایدی، بهترین فرصت را برای ارتقای مهارت‌های خود از دست ندهید! 💡
30٪ تخفیف ویژه برای تمام دوره‌های حرفه‌ای یادگیری عمیق:

دوره جامع یادگیری عمیق: تسلط بر هوش مصنوعی با 40 ساعت آموزش (Tensorflow/Keras)
دوره ویدیویی Graph Neural Network
دوره شبکه‌های بازگشتی عمیق و سری‌های زمانی با تنسرفلو 2
و...

فقط کافی است هنگام خرید از کد تخفیف زیر استفاده کنید:
black_friday


عجله کنید! این تخفیف فقط تا پایان بلک فرایدی (شنبه) فعال است.
🛒 آماده‌اید؟ همین حالا شروع کنید و هوش مصنوعی را به سطح جدیدی ببرید!

ثبت‌نام و استفاده از تخفیف

#تخفیف #یادگیری_عمیق

Tensorflow(@CVision)

24 Nov, 02:26


محققین یه رابط مغزی زنده ایجاد کردن که شامل نورون‌ های کنترل‌ شونده با نور هست. این نورون‌ ها با موفقیت در مغز یک موش ادغام شدن و مدارهای عصبی جدیدی رو شکل دادن و با استفاده از نور کنترل میشن. این دستاورد ممکنه روزی امکان ایجاد تجربیات حسی مصنوعی دقیق رو فراهم کنه.

این روش با رابط‌ های سنتی مغز و کامپیوتر تفاوت داره و به جای استفاده از الکترودها یا موادی که مغز اونها رو پس می‌زنه، نورون‌ های زنده جدیدی به مغز اضافه میکنه که بخشی از خود مغز میشن.

https://science.xyz/news/biohybrid-neural-interfaces/

Tensorflow(@CVision)

23 Nov, 15:01


Automated-AI-Web-Researcher

 یه ابزار زبانی متن بازه که برای اجرای پژوهش‌ های آنلاین طراحی شده. این برنامه با استفاده از مدل‌ های زبانی لوکال مثل  Ollama، به شما این امکان رو میده تنها با وارد کردن یک سوال یا موضوع، یک فایل متنی پر از محتوای پژوهشی همراه با لینک منابع و خلاصه‌ای از یافته‌ها دریافت کنین.

در واقع برنامه به طور خودکار در اینترنت جستجو میکنه، محتوا جمع‌ آوری کرده و یک فایل متنی شامل اطلاعات و لینک منابع به همراه خلاصه ‌ای از یافته‌ ها تولید میکنه. علاوه بر این، امکان پرسیدن سؤالات بیشتر از یافته‌های پژوهش نیز وجود داره.

روند کار به این صورت هست که ابتدا پرسش شما رو به چند حوزه پژوهشی تقسیم میکنه (تا ۵ محور اصلی)، بعد اونها رو بر اساس میزان ارتباط اولویت ‌بندی کرده و از مرتبط ‌ترین بخش شروع به جستجو میکنه. 

پس از تکمیل جستجو، محتوای یافته ‌ها رو بررسی کرده و حوزه‌های جدیدی برای تحقیق شناسایی میکنه.

 این قابلیت گاهی محورهای جدید و نوآورانه ‌ای ایجاد میکنه که ممکنه به ذهن شما نرسه. در پایان هم برنامه تمامی اطلاعات جمع‌آوری ‌شده رو خلاصه کرده و پاسخی جامع به سوال اصلی شما ارایه میکنه. حتی میتونید از یافته ‌ها سوالات بیشتری بپرسین.

به عبارتی ویژگی‌های کلیدی به شرح زیر هست:

تولید محورهای پژوهشی جدید بر اساس یافته‌ها.
ذخیره تمامی محتوای یافته‌شده به همراه لینک منابع.
تولید خلاصه‌ای جامع از پژوهش و پاسخ به سؤال اولیه.

امکان مکالمه با مدل زبانی برای بررسی جزئیات بیشتر از یافته‌ها.

قابلیت متوقف کردن یا ادامه دادن پژوهش در هر زمان.
کاملا لوکال و روی سیستم شما اجرا میشه، بدون نیاز به ارسال داده‌ها به سرور خارجی.

https://github.com/TheBlewish/Automated-AI-Web-Researcher-Ollama
 

Tensorflow(@CVision)

23 Nov, 14:37


قبلا در مورد دعوای آمریکا و چین بر سر تایوان به صورت مختصر مطالبی در این پست نوشتم.

از آنجایی که مطالب این کانال الزاما به هوش مصنوعی اختصاص داره، وارد موضوعات کلان سیاسی این جریان نمیشم اما از بعد فناوری، فشار آمریکا برای محفوظ نگه داشتن سهم خوش از شرکت TSMC در راستای کاهش سرعت چین در دستیابی به سخت افزار های قدرتمند جهت توسعه فناوری هوش مصنوعی این کشور هست.

حالا گزارش سال ۲۰۲۴ کمیسیون بررسی اقتصادی و امنیتی آمریکا، که چند روز پیش منتشر شد به تحلیل گسترده ‌ای از روابط پیچیده اقتصادی، امنیتی و فناوری میان ایالات متحده و چین می‌پردازه. موضوعات بسیار متنوعی بحث میشه اما مواردی که مربوط به هوش مصنوعی هست به شرح زیرهستن:

در این گزارش توصیه کرده که کنگره، طرحی در مقیاس پروژه‌ی منهتن رو بنیانگذاری و تأمین مالی کنه که به طور اختصاصی برای دستیابی به توانمندی در زمینه‌ی هوش عمومی مصنوعی (AGI) به رقابت بپردازه.

هوش عمومی مصنوعی به ‌طور کلی به سامانه ‌هایی گفته میشه که در تمامی حوزه‌های شناختی، برابر یا فراتر از قابلیت‌ های انسانی عمل کنه. از جمله اقدامات مشخصی که کمیسیون برای کنگره پیشنهاد میکنه عبارتند از:

اعطای اختیار انعقاد قراردادهای بلندمدت به شاخه‌ی اجرایی دولت و تخصیص منابع مالی مرتبط به شرکت‌های پیشرو در زمینه هوش مصنوعی، خدمات ابری، مراکز داده و سایر بخش‌ها، به‌ منظور پیشبرد سیاست مذکور با سرعت و مقیاسی متناسب با هدف برتری ایالات متحده در زمینه AGI

هدایت وزیر دفاع ایالات متحده برای تخصیص رتبه‌ بندی "DX" در نظام اولویت‌ ها و تخصیص‌ های دفاعی به موارد مرتبط با اکوسیستم هوش مصنوعی، تا اطمینان حاصل شه که این پروژه در اولویت ملی قرار داره.
 
در واقع این توصیه ها گواهی بر تلاشی بنیادین برای تصاحب آینده، جایی که مرز میان انسان و ماشین در سایه قدرت شناختی و توانمندی‌های بی‌پایان به پرسش گرفته میشه.

تقریبا تمام کشورهای توسعه‌ یافته بر توسعه هوش عمومی مصنوعی (AGI) تمرکز خواهند کرد و اگر به درستی مدیریت نشه، ممکنه وارد عصر جدیدی از جنگ بشیم. به نظر میرسه که آمریکا قصد داره قدرتمندترین هوش مصنوعی رو برای مهار رقبا هرچه سریع ‌تر توسعه بده.
 
https://www.uscc.gov/sites/default/files/2024-11/2024_Executive_Summary.pdf

Tensorflow(@CVision)

17 Nov, 05:29


می‌ شه گفت بیشتر پیشرفت‌ های هوش مصنوعی نتیجه بهبود توان محاسباتی بوده، که بیشترش هم از کاهش دقت عددی برای سرعت بخشیدن به کارها (مثل رفتن از 32 بیت به 16 بیت و بعد 8 بیت) به دست اومده. 

اما حالا به نظر می‌ رسه که روند کوانتیزاسیون داره به انتهای خط میرسه، از طرفی وقتی این موضوع رو با محدودیت‌ های فیزیکی (مثل مصرف انرژی) ترکیب کنیم، شرایطی به وجود میاد که انگار دیگه دوران بزرگ‌ تر کردن مدل‌ ها با افزایش قدرت محاسباتی داره به پایان میرسه.

به عبارتی بازدهی رو نمیشه دور زد. اگه کوانتیزاسیون دیگه جواب نده ، پس روش‌هایی مثل sparsification و سایر مکانیزم‌های بهینه‌سازی هم جواب نخواهد داد و نیاز به یک تغییر پارادایم در این زمینه هستیم. 

دیگه نمیشه تنها با افزایش قدرت و داده، کیفیت مدل‌ ها رو بالا ببریم، بلکه باید هوشمندانه‌ تر به موضوع نگاه کنیم و راه‌هایی برای سازگاری با این محدودیت‌ها پیدا کنیم.

برداشت من اینه که هرچه دانش بیشتری در وزن‌ های مدل فشرده شه و این وزن‌ ها بیانگر اطلاعات بیشتری از داده‌ها باشه، کوچک‌ ترین تغییر یا آشفتگی در اونها میتونه اثرات ویران‌ گر بیشتری داشته باشه. انگار هر چه یه ظرف رو پرتر کنیم، ثبات اون در برابر لرزش‌ ها کمتر می‌شه، در نتیجه، مرزی وجود دارده که از اون به بعد، افزودن دانش بیشتر نه تنها مفید نیست، بلکه باعث شکنندگی بیشتر میشه.

این مقاله با عنوان Scaling Laws for Precision که به صورت مشترک توسط دانشگاه هاروارد، دانشگاه استنفورد و MIT منتشر شده، برای اولین بار روابط کمی میان دقت، تعداد پارامترها و حجم داده‌ها در مدل‌ های زبانی بزرگ رو تعیین کرده و راهنمای نظری مهمی برای روندهای فعلی در توسعه مدل‌ ها فراهم کرده.

https://arxiv.org/abs/2411.04330

Tensorflow(@CVision)

16 Nov, 03:48


کریس اولا میگه ما شبکه‌های عصبی رو برنامه‌ نویسی نمی‌کنیم، بلکه آن‌ها رو پرورش میدیم.

این فرآیند بیشتر شبیه مشاهده و مطالعه ارگانیسم‌ های زیستیه تا یه طراحی مصنوعی صرف. همونطور که در نورولوژی، مسیرهای عصبی از تعامل و تجربه شکل می‌گیرن، در شبکه‌های عصبی نیز یادگیری و تحول، نه از پیش‌ تعیین‌ شده، بلکه از درون تعاملات و تطابق‌ها شکل میگیرن. این نگاه، ماهیت شبکه‌های عصبی رو به پدیده‌ای زنده و پویا نزدیک‌ تر می‌کنه تا یه سیستم مهندسی‌ شده خطی.

https://youtu.be/ugvHCXCOmm4?feature=shared

Tensorflow(@CVision)

16 Nov, 03:32


یه شرکت چینی فقط با ۲۰۰۰ تا GPU مدل رقیب GPT-4 رو آموزش داد.
 01.ai 
فقط ۳ میلیون دلار خرج کرده، در حالی که OpenAI بین ۸۰ تا ۱۰۰ میلیون دلار هزینه کرد

https://www.tomshardware.com/tech-industry/artificial-intelligence/chinese-company-trained-gpt-4-rival-with-just-2-000-gpus-01-ai-spent-usd3m-compared-to-openais-usd80m-to-usd100m

Tensorflow(@CVision)

13 Nov, 11:51


خاطرات تنها در مغز نیستند...

https://www.nyu.edu/about/news-publications/news/2024/november/memories-are-not-only-in-the-brain--new-research-finds.html

Tensorflow(@CVision)

11 Nov, 03:01


نقدی که من به مدل های زبانی در این پست داشتم اینه که برای ساخت مدل جهانی واقعی، باید فراتر از زبان صرف بریم و به مفاهیم دیگه ای مانند منطق، تجربه‌ فیزیکی، و نشونه‌ های اجتماعی توجه کنیم

به نظر من توانایی استفاده‌ درست و روان از زبان، الزاما به معنای درک عمیق از مفاهیم یا داشتن منطق و عقل سلیم نیست.

مدل های زبانی بیشتر به مدلی از جهان واژگان تکیه می‌ کنن که در اون، معنی از طریق ارتباط میان کلمات شکل می‌گیره، نه با ارجاع به دنیای واقعی، و به نظر من زبان به تنهایی نمیتونه واقعیت و درک انسانی رو به‌ طور کامل منعکس کنه

حقیقتا برای من مدل های زبانی کنونی بیشتر شبیه غار افلاطون هستن، افرادی که درون غار هستن تنها سایه‌هایی از واقعیت رو میبینن و تصورات خودشون رو بر اساس این سایه‌ها میسازن. مدل‌های زبانی بزرگ هم مشابه این افرادن که به جای واقعیت، سایه‌هایی از جهان واژگان رو میبینن و بر اساس اون زبان رو باز تولید می‌کنن.

این مدل‌ها تنها بازتاب‌های زبانی از واقعیت رو درک می‌کنند، نه خود واقعیت

هر چند ما انسانها هم دست کمی از مدل های زبانی نداریم
این مقاله در خور توجهه دوست داشتید مطالعه کنید

https://arxiv.org/abs/2410.21333

Tensorflow(@CVision)

11 Nov, 03:01


یکی از مخاطبان محترم این مطلب رو در نقد بحث چند روز پیش فرستادن. چند نکته خدمت شما عزیزان عرض کنم

Tensorflow(@CVision)

10 Nov, 15:17


در زنجیره‌ های تفکر جدید، اطلاعات به صورت یکپارچه‌ تر توزیع شدن، به این معنی که هر عنصر از زنجیره، در شکل ‌گیری معنا و مفهوم کلی نقش ایفا میکنه و دیگه شاهد ارایه پاسخ ‌هایی نیستیم که در اونا یک کلمه یا عبارت به تنهایی بار معنایی کل جمله رو به دوش بکشه.

این تحول، پرسش‌های رو در مورد ماهیت هوش و تفکر مطرح میکنه.

 آیا میشه به مدل‌ های زبانی که قادر به تولید زنجیره‌های تفکر مشابه انسان هستن، عنوان موجوداتی هوشمند رو اطلاق کرد؟

 آیا این مدل ‌ها قادر به داشتن آگاهی و درک از جهان اطراف خود هستن؟

 این پرسش‌ها، مرزهای بین هوش مصنوعی و هوش طبیعی رو بار دیگر به چالش میکشه.

 "O1"
نشون میده که ما در آستانه ورود به عصر جدیدی از هوش مصنوعی هستیم. عصری که در اون مدل‌های زبانی نه تنها ابزارهای قدرتمندی برای پردازش اطلاعات، بلکه قادر به تولید تفکر و خلاقیت نیز هستن.

https://aidantr.github.io/files/AI_innovation.pdf

Tensorflow(@CVision)

10 Nov, 15:13


قبل از ظهور مدل زبانی O1 شرکت OpenAi هدف عمدتا این بود که مدل ‌های زبانی رو به گونه ‌ای آموزش بدن که بتونه مشابه ذهن انسان، به ویژه در فرایند حل مسئله، فکر کنه.

اما مدل‌ های قبلی تنها قادر به تقلید از نمونه‌های آموزشی بودن، بدین معنا که تنها میتونستند راه حل ‌های از پیش تعیین شده رو باز تولید کنن. این رویکرد، به جای بازنمایی فرآیند پیچیده تفکر، به ارایه پاسخ‌ های کوتاه و گاه بی ‌دلیل بسنده می‌کرد. انگار جواب ها از یک منبع بیرونی و بدون هیچ گونه استدلال منطقی ارائه شدن.

با ظهور پارادایم جدید، شاهد تحولی شگرف در تولید زنجیره‌های تفکر(CoT) هستیم. مدل‌های زبانی هم اکنون قادرن زنجیره‌های تفکری تولید کنن که به مراتب به تفکر انسانی شباهت دارن.

این زنجیره‌ها شبیه به مکالمات درونی هستن که در اونها مدل ‌ها نه تنها به پاسخ نهایی میرسن، بلکه مراحل مختلف استدلال و تردید رو نیز به نمایش میگذارن. این امر نشون میده که مدل‌ ها از حالت ساده باز تولید اطلاعات به سمت تولید استدلال‌ های پیچیده و مبتنی بر شواهد در حرکت هستن

Tensorflow(@CVision)

10 Nov, 14:46


هوش مصنوعی جایگزینی برای هوش انسانی نیست؛ بلکه ابزاریه برای تقویت خلاقیت و نبوغ بشر.

این فناوری با گسترش مرزهای توانایی‌ فکری و هنری انسان، مانند ابزاری در دست او قرار می‌گیره تا ایده‌ها و راه‌حل‌های نوآورانه‌تری خلق کنه.

Fei-Fei Li

Tensorflow(@CVision)

09 Nov, 03:37


مصطفی سلیمان، مدیرعامل بخش هوش مصنوعی ماکروسافت، در مصاحبه‌ای می‌گوید که در ۳ تا ۵ سال آینده و پیش از سال ۲۰۳۰ شاهد هوش مصنوعی خود بهبوددهنده خواهیم بود.

Tensorflow(@CVision)

08 Nov, 09:36


ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning

https://generative-video-camera-controls.github.io/

Tensorflow(@CVision)

07 Nov, 19:30


چرا این مسئله برای مدل‌های زبانی مشکل ‌سازه؟

مدل‌های زبانی بزرگ از این قابلیت بهره نمیبرن. اونها از تعامل دائمی و آنی با محیط خود محروم هستن و به همین دلیله برای هر تصمیم کوچیک نیاز به برنامه‌ریزی، پیش‌بینی و رفتار هدف ‌محور دارن.

این موضوع باعث میشه که مدل‌ های زبانی برای انجام هر کار، حتی کارهای ساده، به استفاده از تمام ظرفیت شناختی خود نیاز داشته باشن.

برخلاف انسان‌ها که میتونن بسیاری از تصمیمات روزانه خود رو از طریق روتین‌ها و تعاملات ساده با محیط انجام بدن، مدل‌ های زبانی مجبورن که همیشه پیش ‌بینی، هدف ‌گذاری، و در نهایت تصمیم بگیرن.

مدل‌ هایی این چنینی که از تعامل با محیط بی ‌بهره هستن، نمیتونن روتین ‌های ساده ‌ای رو برای تصحیح مسیر خوشون و ساده‌ سازی فرایند تصمیم‌گیری ایجاد کنن.

به همین دلیل، مدل‌های زبانی باید برای هر تصمیم کوچک به برنامه‌ریزی و پیش ‌بینی متکی باشن، که در دنیای پیچیده و پویا نمیتونن کارآمد باشن.

ما آدما بسیاری از کارهای خودمون رو با استفاده از عادات و روتین‌های خودکار انجام میدیم.

به جای اینکه برای هر تصمیم نیاز به تحلیل و پیش‌بینی داشته باشیم، از بازخورد های محیطی و الگوهای ساده استفاده میکنیم تا به صورت خودکار و سریع تصمیم بگیریم.

این به ما اجازه میده که به راحتی و بدون فشار زیاد از پس ده‌ ها تصمیم کوچک بربیایم، در حالی که همچنان انرژی شناختی زیادی ذخیره داریم.

از اینکه طولانی شد عذر خواهی میکنم🙏

Tensorflow(@CVision)

07 Nov, 19:13


با یک مثال بحث رو تمام کنیم، فرض کنید میخواین وارد استخر بشین، اما ممکنه آب استخر خیلی سرد باشه.

دو راه برای تصمیم ‌گیری وجود داره:

اول با توجه به اطلاعات قبلی ذهنی پیش ‌بینی میکنی که آب استخر سرد هست یا نه. بعد تصمیم میگیرین که وارد استخر بشی یا نه.

روش دوم اینه که فقط انگشتت رو توی آب بزنی. اگه سرد بود، دیگه وارد استخر نمیشین.

اما چرا روش دوم بهتره؟

در روش دوم، شما در حال تعامل واقعی و لحظه ‌ای با محیط هستی.

به جای اینکه به پیش‌ بینی‌ های پیچیده و حافظه‌ زیادی برای تصمیم ‌گیری تکیه کنی، تنها کافیه که از بازخورد آنی (لمس آب) استفاده کنی تا تصمیم بهینه رو بگیری.

این رویکرد ساده تر، انرژی کمتری مصرف میکنه و به شما این امکان رو میده که در بیشتر مواقع تصمیمات درستی بدون نیاز به ذخیره ‌سازی حجم زیادی از اطلاعات و پیش‌بینی ‌های پیچیده بگیرین.

برای هوش مصنوعی هم به همین صورته. اگه مدل‌های هوش مصنوعی به طور مداوم در حال تعامل با محیط خود باشن، میتونن بدون نیاز به پیش ‌بینی‌های پیچیده، تصمیمات بهینه ‌تری بگیرن و عملکرد بهتری داشته باشن.

به عبارت دیگه، هوش مصنوعی در مواجهه با تغییرات لحظه ‌ای محیط میتونه از روتین‌های ساده و بازخوردهای فوری برای یادگیری و تصمیم‌ گیری استفاده کنه، بدون اینکه نیاز به محاسبات سنگین یا حافظه‌های پیچیده داشته باشه. این ویژگی‌ها، به صرفه‌ جویی در منابع محاسباتی و یادگیری کارآمدتر کمک میکنه.

اینکه ۹۵٪ از وظایفی که ما ادما روزانه با اونها مواجه میشیم، به راحتی با روش دوم (استفاده از روتین‌های خودکار برای اصلاح خطا و خود اصلاحی) انجام میشه، به این دلیله که اگه انسان‌ها برای هر تصمیم یا اقدام کوچک، از تمام ظرفیت شناختی خود استفاده کنن، مغزشون کاملا تحت فشار قرار میگیره.

مغز انسان نمیتونه همزمان با بروز رسانی لحظه ‌ای و تصمیم ‌گیری پیچیده برای هر میکرو تصمیم به‌ طور مؤثر عمل کنه. به عبارت دیگه، اگر بخوایم برای هر عمل پیش ‌بینی، برنامه ‌ریزی، و تصمیم ‌گیری کنیم، این کار باعث میشه که از سرعت عمل ما کاسته شه و مغز به ‌طور مؤثر قادر به رسیدگی به حجم عظیمی از وظایف و تصمیمات فوری نباشه.

Tensorflow(@CVision)

07 Nov, 19:00


البته مقالات متنوعی در همین زمینه وجود داره و همه سعی کردن الگوریتم یادگیری رو طراحی کنن که شگفتی (یا عدم تطابق بین پیش ‌بینی و واقعیت) رو به حداقل برسونه و پیش‌ بینی ‌های دقیقی ارائه بده.

به عبارتی همگی به یه نتیجه واحد میرسن اونم اینه که کم کردن شگفتی، یه اصل اساسی و بنیادین برای همه اتفاقاتیه که در مغز داره رخ میده ، از تفکر کلی گرفته تا رفتار تک‌ تک نورون ‌ها!

 به طور خلاصه، ترکیب شبکه‌های LTCN با قانون یادگیری کاهش شگفتی می‌تونه به مدلی منجر بشه که نه تنها توانایی یادگیری طبیعی و کارآمدی داره، بلکه ساختارش به عملکرد واقعی مغز نزدیک ‌تره. 

اگر هر نورون بتونه شگفتی خودش در هر لحظه رو کاهش بده این رفتار در مقیاس بزرگ ‌تر به الگوهای پیچیده‌ ای از یادگیری و پیش ‌بینی منجر میشه.

https://www.researchgate.net/publication/373262499_Sequence_anticipation_and_spike-timing-dependent_plasticity_emerge_from_a_predictive_learning_rule

https://www.researchgate.net/publication/326690440_Beyond_STDP-towards_diverse_and_functionally_relevant_plasticity_rules
 
هوش مصنوعی عمومی زمانی ایجاد میشه که مدل در تعامل مداوم با محیط واقعی باشه. تعامل دائمی با محیط واقعی به ما انسانها این امکان را میده که نیاز به پیش ‌بینی در ۹۵٪ مواقع رو حذف کنیم.

به عبارت دیگه، این تعامل مداوم به ما این اجازه رو میده که از روتین‌ های ساده ‌تر استفاده کنیم که هنوز هم میتونن نتایج بسیار دقیقی به همراه داشته باشن.

از طرفی این موارد باعث میشه که در انرژی، محاسبات، و حافظه به طور قابل توجهی صرفه ‌جویی شه. در نتیجه، نیاز به ذخیره‌سازی ۹۵٪ از خاطرات و پیش‌ بینی‌ها نیز از بین میره.

Tensorflow(@CVision)

07 Nov, 18:43


مشکلی که توی مقاله قبلی وجود داره، علی رغم نکات بسیار مهم و کاربردی اینه که این مدل  باbackpropagation  و به صورت آفلاین آموزش دیده، اما نسخه ‌ای از همین مدل شبکه وجود داره که میتونه به صورت آنلاین و در لحظه یاد بگیره، درست مثل مغز انسان!

در واقع این مقاله ترکیبی از کارهای قبلی به همراه شبکه های اسپایکی یا Spiking Neural Networksهست. 

در شبکه‌های عصبی اسپایکی علاوه بر متغیرهای حالت نورونی و سیناپسی، مفهوم زمان نیز در مدل در نظر گرفته میشه. توی شبکه‌های عصبی معمولی، خروجی هر نورون در هر تکرار محاسبه و به روز رسانی میشه، اما در شبکه‌های عصبی اسپایکی، هر نورون تنها زمانی اسپایک تولید میکنه که پتانسیل غشای اون از یک حد آستانه بیشتر شده باشه. 

شبکه‌عصبی اسپایکی در واقع نزدیک ترین بازسازی ساختار مغز انسانه.

ادامه دارد...

https://arxiv.org/abs/2112.11231

Tensorflow(@CVision)

07 Nov, 18:34


توی ویدیو بالا توضیح میده که در مقایسه با مدل‌های دیگه، برای انجام وظیفه‌ ای مثل هدایت خودرو، مدل LTCN تنها به حدود ۱۹ نورون نیاز داره، در حالی که سایر مدل ‌ها برای همون کار به هزاران نورون نیاز دارن.

از نکات مهم ارایه شده در این کار میشه به موارد زیراشاره کرد :

مدل می ‌تونه همون نتایج شبکه‌های عصبی دیگه رو با ۱۰ تا ۲۰ برابر نورون کمتر به دست بیاره

این مدل روابط علی و معلولی دنیای واقعی رو یاد می‌گیره

 توانایی فوق ‌العاده‌ای در تعمیم خارج از محدوده‌ داده‌های آموزشی داره، یعنی میتونه همون وظیفه رو توی شرایط کاملا متفاوت انجام بده

 بدون نیاز به تعیین اهداف مشخص میتونه کار کنه

و در نهایت  توی یادگیری تقلیدی بسیار خوب عمل می ‌کنه

در واقع نوآوری کلیدی این مدل اینه که امکان تغییر سرعت هر نورون رو به صورت متغیر و لحظه‌ ای فراهم میکنه.

همین ویژگی ساده باعث شده که این شبکه‌ها به نتایج فوق‌العاده‌ای برسن. سخنرانی تد رو برای توضیحات بیشتر ببینید. نوشتن در موردش زمان زیادی می‌بره

ادامه دارد ...

https://www.ted.com/talks/ramin_hasani_liquid_neural_networks

Tensorflow(@CVision)

07 Nov, 18:28


کار دیگه ای که شباهت هایی به مقاله قبلی داره کار آقای رامین حسنی از MIT هست.

عنوان مقاله Liquid Time Constant Networks  هست. این مدل در واقع نوعی شبکه عصبی پویا و انعطاف ‌پذیره که برای پردازش اطلاعات در زمان و تصمیم ‌گیری در شرایط پیچیده با الهام از ساختارهای عصبی موجودات زنده طراحی شده.

توی شبکه‌ های سنتی، اتصالات و زمان ‌بندی واحدهای عصبی ثابت هستن، اما در LTCNs زمان‌ بندی یا ثابت زمانی نورون‌ ها به صورت پویا تغییر میکنن و به همین دلیل به اون "liquid" گفته میشه.

ویژگی دینامیک LTCN به شبکه اجازه میده به محیط‌ های پویا و شرایط متغیر واکنش بهتری نشون بده.

این شبکه‌ ها با تنظیم پیوسته ثابت‌های زمانی نورون‌ ها، میتونن با داده‌های ورودی سازگار بشن و پاسخ ‌های انعطاف ‌پذیرتری رو ارایه بدن.

به صورت فنی تر بایستی عرض کنم که LTCN‌ها در واقع نوعی شبکه عصبی بازگشتی هستن که هر نورون از یه معادله‌ خاص پیروی میکنه.

این معادلات به شبکه اجازه میدن تا رفتار نورون ‌ها رو به عنوان یک تابع از ورودی‌ ها و شرایط محیطی تغییر بدن.

نورون ‌ها در LTCN‌ها دارای ثابت‌های زمانی متغیر هستن که بسته به شرایط، سرعت یا کندی تغییرات اونها رو تنظیم می‌کنه.

این تغییرات در «ثابت‌های زمانی» باعث میشه که شبکه در مواجهه با ورودی‌ های مختلف، پاسخ‌ های متنوعی داشته باشه.

البته توضیحات کامل رو خود آقای حسنی توی  ویدئوی زیر به صورت کامل شرح میدن:

ادامه دارد ...

https://youtu.be/IlliqYiRhMU?si=nstNmmU7Nwo06KSJ&t=1971

Tensorflow(@CVision)

07 Nov, 18:19


اگه این نظریه صحیح باشه، احتمالش زیاده که بشه همچین سیستمی رو توی حوزه هوش مصنوعی پیاده کرد.

البته این کار توی الگوریتم یادگیری تقویتی به اسم SMiRL انجام شده و نسبتا موفقیت ‌آمیز بوده. 

عنوان مقاله یادگیری تقویتی مبتنی بر کمینه سازی شگفتی در محیط ‌های ناپایدار هست.

توی این روش، سیستم اول یاد می ‌گیره که چه اتفاقاتی توی محیط براش غیرمنتظره یا عجیب هستن، و بعد سعی می ‌کنه به سمت چیزهایی بره که بیشتر قابل پیش‌ بینی و پایدار باشن.

به این معنی که عامل هوش مصنوعی (مثلا یه ربات) به سمت شرایطی میره که کمتر احتمال داره در اونا غافلگیر بشه، مثلا از موانع و خطرات دور میمونه یا حالت پایداری رو پیدا می ‌کنه که منجر به حفظ تعادلش بشه.

به عبارت دیگه، این الگوریتم به جای دنبال کردن یه هدف مشخص، سعی می‌کنه با پیدا کردن موقعیت ‌های پایدارتر، از وقایع غیرمنتظره دوری کنه، که همین باعث می‌شه به شکل طبیعی به سمت کاوش و پیدا کردن شرایط بهتر بره، از طرفی برای یادگیری تقلیدی بسیار مناسبه.

ادامه دارد ...

https://arxiv.org/abs/1912.05510
­­­­­­­­­­­­­­­­

Tensorflow(@CVision)

07 Nov, 18:08


توی حوزه‌ی علوم اعصاب نظریه ‌ای هست که میگه مغز انسان طبق «اصل انرژی آزاد» کار می ‌کنه.

اصل انرژی آزاد میگه که سیستم‌های زیستی، از جمله مغز، سعی می‌ کنن تفاوت بین مدل‌های درونی ‌شون و اطلاعات حسی که از محیط دریافت می ‌کنن رو کم کنن، یعنی سعی می ‌کنن کاری کنن که اتفاق های غیرمنتظره یا خطای پیش ‌بینی کمتر باشه.

برای این کار، موجودات زنده دو مکانیسم رو بکار میگیرن، یا مدل‌های درونی خودشون رو آپدیت می ‌کنن تا بهتر با واقعیت بیرونی هماهنگ بشه (ادراک)، یا با انجام یه سری کار، محیط اطرافشون رو تغییر میدن تا با پیش ‌بینی‌ هاشون جور دربیاد (که میشه عمل کردن).

تعریف سادش اینه که مغز یه جورایی شبیه ترموستات هست که هم دمای اتاق رو پیش ‌بینی می ‌کنه و هم سعی می‌ کنه دما رو توی یه محدوده‌ی مشخص نگه داره.

به صورت خلاصه این اصل میگه که همه‌ سیستم‌ های زیستی خود سازمان ‌ده به طور طبیعی تلاش می ‌کنن تا فاصله بین انتظارات و تجربیاتشون رو به حداقل برسونن.

ادامه دارد ...

https://en.wikipedia.org/wiki/Free_energy_principle

Tensorflow(@CVision)

07 Nov, 17:58


این مقاله ها چند تا نکته اساسی دارن:

اول اینکه ماهیت جهان زمانی هست. جهان به ‌طور پیوسته تغییر میکنه و تعامل مداوم انسانها با اون برای عملکرد هوش انسانی ضروریه.

این تعاملات مداوم و زما‌ن مند به انسانها این امکان رو می‌ده که به طور موثری به محیط خود واکنش نشون بدن و یاد بگیرن.

دوم اینکه انسانها به طور مداوم از روتین‌های ذهنی برای انجام کارها و فعالیت‌ های روزمره خوشون استفاده میکنن.

این روتین ‌ها به اونها کمک میکنه تا توی انرژی محاسباتی خودشون صرفه‌ جویی کنن و به صورت خودکار بسیاری از فعالیت‌ها رو انجام بدن.

سوم اینکه وقتی انسانها به دنبال دستیابی به اهداف یا حل مشکلات هستن، از این روتین‌ها برای مدیریت و حل مسائل استفاده می‌کنن.

این فرآیند ها به اونها کمک میکنه تا به صورت موثری مشکلات پیچیده رو حل کنن و تصمیم‌ گیری کنن.

و در نهایت اینکه نمیتونیم هوش واقعی رو بدون اینکه مکانیزم‌ های تشکیل و استفاده از روتین‌ها وجود داشته باشه، مدل کنیم.

اگه سیستم هوش مصنوعی نتونه روتین ها رو به طور موثر بسازه و استفاده کنه، نمیتونه به طور واقعی مثل آدماعمل کنه و مشکلات پیچیده رو حل کنه.

ادامه دارد ...

Tensorflow(@CVision)

07 Nov, 17:49


این مدل ها تو حل مشکلات جدید ضعیف هستن چون فرایند حل مسئله رو درک نمی‌کنن. 

این مدل ‌ها در واقع فاقد عادت‌های ذهنی و روتین ‌هایی هستن که ما برای حل مسائل استفاده میکنیم، منظورم روتین ‌هایی مثل شناخت مشکل، یادگیری از اشتباهات، و بهینه ‌سازی استراتژی ‌ها برای مواجهه با مشکلات جدید هست. 

در واقع مدل های زبانی فقط داده‌ها رو پردازش میکنن و فاقد درک واقعی از چگونگی حل مسائل به صورت پویا و بهینه هستن.

بیاین کمی به عقب برگردیم و دو تا مقاله مهمی که در باره فلسفه هوش مصنوعی نوشته شدن رو مرور کنیم، سال 1987 و سال 2007:

https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=cb53a49a1187650196cf10835a0193ae0201a75f

https://leidlmair.at/doc/WhyHeideggerianAIFailed.pdf

این دو تا مقاله تاکید داردن برای حل مسایل پیچیده AI باید توانایی درک مفاهیم پیچیده و محیطی مشابه انسان را داشته باشه. این مدل‌ ها نه تنها باید داده‌ ها رو پردازش کنن، بلکه باید به طور فعال و پویا با محیط خود تعامل داشته باشن و یاد بگیرن

ادامه دارد ...

Tensorflow(@CVision)

07 Nov, 17:31


به نظرتون آیا مدل های زبانی بزرگ یا LLMs ها میتونن منجر به تولید هوش مصنوعی عمومی یا AGI بشن؟

بیایم امشب در موردش بحث کنیم

برای رسیدن به AGI ما نیاز به مدلی داریم که بتونه به ‌طور پیوسته یاد بگیره، بهبود پیدا کنه و از زبان به‌ عنوان ابزاری برای استدلال استفاده کنه.

در یه عامل هوشمند مثل ما آدما یادگیری زبان فقط باعث تقویت استدلال میشه یعنی قبل از یادگیری زبان، قدرت استدلال و شناخت وجود داره اما در مدل های زبانی این یادگیری زبانه که منجر به ایجاد استدلال در مدل میشه.

اما چرا این می‌تونه به AGI نزدیک‌ تر باشه تا مدل های زبانی کنونی؟

بیاین دلیلش رو توی نقاط ضعف مدل‌های LLM جستجو کنیم.

مدل‌ های LLM در یادگیری واقعی ضعیفن، چون برای تسلط به یه مهارت یا موضوع خاص باید میلیون‌ها مثال از متن رو به عنوان ورودی دریافت کنن و براحتی از چند مثال یاد نمیگیرن.

این مشکل در معیارهایی مثل ARC-AGI کاملا مشخصه

https://arcprize.org/

ادامه دارد...

Tensorflow(@CVision)

06 Nov, 18:30


💡 اگه به برنامه‌نویسی علاقه داری و میشه روی همت و پشت‌کارت حساب کرد،
در استعدادسنجی ما شرکت کن و استعدادت رو برای ورود به دنیای برنامه‌نویسی محک بزن!


 ✔️ توضیحات بیشتر = تماشای ویدئو 😎

☯️ شرکت در آزمون و دورۀ آماده‌سازی رایگان ➡️

و یا برای کسب اطلاعات بیشتر کافیه به آی‌دی ما پیام بدی! ‌‌‌‌

🆔 @MaktabSharif_Admin
▪️▫️▪️▫️▪️▫️▪️▫️▪️▫️
🌐 وبسایت | کانال تلگرام |📹 اینستاگرام

#استخدام_با_طعم_آموزش

Tensorflow(@CVision)

29 Oct, 18:10


با توجه به مواردی که عنوان شد ، تلاش برای رسیدن به آخرین اختراعی که انسان نیاز داره بسازه(هوش مصنوعی خود بهبود دهنده که منجر به انفجار پدیده هوش میشه) طبق گفته I.J. Good قطعا ادامه خواهد داشت.

اما در حال حاضر، تشخیص اینکه آیا واقعا در آستانه یه هوش مصنوعی هستیم که از کنترل خارج میشه و در یک حلقه خود بهبود دهنده قرار می‌گیره، خیلی سخته.

در عوض، ممکنه بیشتر شاهد استفاده از ابزارهای جدید هوش مصنوعی برای بهبود ابزارهای آینده باشیم، به شیوه‌هایی که میتونه از عادی تا تحول ‌آفرین متغیر باشه.

پایان.

Tensorflow(@CVision)

29 Oct, 18:07


اینها فقط بخش کوچکی از تحقیقات خود بهبود دهی در زمینه هوش مصنوعیه  Deepmind، Microsoft و Apple هم مقالات مشابهی منتشر کردن و به این مفهوم پرداختن.

 با این حال، با توجه به تحقیقاتی که تا الان دیدیم ممکنه به اون لحظه پرواز هوش مصنوعی که بعضی ها فکر میکنن، نزدیک نباشیم. 

جیم فان، مدیر ارشد تحقیقاتی Nvidia  توی یه پست اشاره کرد که مدل ‌های خود بهبود دهنده در محیط‌ های تحقیقاتی معمولا بعد از سه دور پیشرفت به یه نقطه اشباع می‌رسن. بعد از اون، به جای اینکه به سمت فوق ‌هوش برن، معمولا هر مدل جدید نتایج بدتری رو نسبت به مدل قبلی نشون میده.

مدل های هوشمند خود آموز میتونن در شرایطی که بهترین پاسخ مشخصه، مثل بازی‌های رومیزی (GO)، نتایج فوق‌ العاده‌ای نشون بدن، اما وقتی از یه مدل زبانی عمومی خواسته میشه که خودش رو قضاوت و بهبود بده، ممکنه با مشکلاتی مواجه بشه.

مخصوصا وقتی به ارزیابی استدلال انتزاعی که بخش بزرگی از هوش انسانی رو تعریف می‌ کنه، میرسه. ایشون میگه من هنوز نمایشی قانع کننده از مدل ‌های زبانی خود بهبود دهنده ندیدم که به خوبی AlphaZero باشه، بازی هایی که مدل از صفر فقط با بازی کردن با خودش یاد می‌گیره.

https://x.com/DrJimFan/status/1754552129229140215

ادامه دارد...

Tensorflow(@CVision)

29 Oct, 18:00


با درخواست از یه مدل زبانی که خودش به عنوان قاضی عمل میکنه، محققان متا تونستن مدل‌ های جدیدی بسازن که توی رقابت‌ های خودکار و رو در رو با سایر مدل‌ ها تو AlpacaEval عملکرد بهتری داشتن.

 توی بخشی از مقاله قید شده که تنظیم دقیق Llama 2 70B  در سه مرحله توسط روش پیشنهادی، منجر به ایجاد مدلی شد که از خیلی سیستم‌ های موجود توی جدول رده‌بندی AlpacaEval 2.0، از جمله Claude 2، Gemini Pro و GPT-4 0613، از نظر عملکرد جلو می ‌زنه.

 

یا تو ماه ژوئن محققان Anthropic  کاری شبیه به متا رو انجام دادن که مجموعه ای از مدل ها بود که قابلیت خود تغییری در تابع پاداش و پارامتر ها رو دارا بودن.

 این موضوع میتونه برای طرفدارای داستان های علمی تخیلی نگران‌ کننده باشه، چون نشون میده که مدل‌ ها میتونن به طور خودکار از محدودیت‌ هایی انسانی اعمال شده در اونها فرار کنن و کنترل‌ ها رو دور بزنن.

https://arxiv.org/pdf/2406.10162

ادامه داره...

Tensorflow(@CVision)

29 Oct, 17:55


با اینکه مفهوم هوش مصنوعی خود بهبود دهنده توضیحش راحت ‌تر از عملی کردنشه، محققین توی این زمینه موفقیت ‌های نسبی هم به دست آوردن. 

اما بیشتر تلاش ‌ها به جای اینکه بخوان ویژگی‌ های داخلی یا کد پایه مدل رو به صورت لحظه ‌ای تغییر بدن، تمرکز روی استفاده از یک مدل زبانی بزرگ برای طراحی و آموزش یک مدل جانشین بهتر دارن.

 به عبارت دیگه، این هم ادامه همون روش‌ های قدیمی فناوریه که توش از ابزارها برای ساخت ابزارهای بهتر بهره می‌بریم یا از چیپ ‌های کامپیوتری برای طراحی چیپ ‌های جدید استفاده می‌کنیم.

مثلا فوریه امسال محققین متا یه مدل زبانی خود پاداش ‌دهنده رو پیشنهاد کردن که برای ایجاد یک تابع پاداش جدید برای مدل بعدی طراحی شده  بود. این تحقیق بخشی از همون سلسله تلاش هاست که تمرکز بر کم کردن ترجیحات انسانی در مدل های زبانی داره، تا مدل های زبانی در سطح عملکرد انسانی باقی نمونن.

به عبارت ساده تر، هدف مقالاتی مثل این کاهش وابستگی به ترجیحات انسانیه. با معرفی مدل‌ های خود پاداش‌ دهنده، سعی دارن به نوعی ظرفیت‌ های هوش مصنوعی رو فراتر از محدودیت ‌های انسانی گسترش بدن و به سمت پیشرفت‌های بیشتر در طراحی و عملکرد مدل ‌ها حرکت کنن.

https://arxiv.org/pdf/2401.10020

ادامه دارد...

Tensorflow(@CVision)

29 Oct, 17:48


امشب کمی در مورد خود بهبودی یا self-improvement در هوش مصنوعی بحث کنیم.

 برای صدها سال، توانایی خود بهبود دهی یکی از اصول بنیادی درک ما از انسان بودن بوده، یعنی توانایی خود مختاری و ایجاد معنا به عنوان افراد و جمع ‌ها.

 حالا به نظرتون اگه انسان‌ ها دیگه تنها موجودات خود بهبود دهنده در جهان نباشن، این چه معنی داره؟

یا چطور می ‌خوایم از بین رفتن این درک استثنایی خودمون رو توجیه کنیم؟

برای پاسخ به این سوالا کمی برگ های تاریخ رو ورق بزنیم ببینیم این مفهوم از کی وارد هوش مصنوعی شد و حالا کجای این ماجرا قرار گرفتیم.

مفهوم هوش مصنوعی خود بهبود دهنده به گذشته ای دور برمی‌گرده. ریاضیدانی به نام I.J. Good  توی سال 1965 درباره «انفجار هوش» نوشت، که می‌ تونه منجر به ایجاد یک ماشین فوق‌ هوشمند بشه.

 بعدتر، توی سال 2007، یود کوسکی، که بنیان‌گذار LessWrong هست، اصطلاح Seed AI رو مطرح کرد. در خلال مطالب لینک ها رو میگذارم چون حاوی مطالب ارزشمندیه که نمیشه به اختصار اینجا در موردش نوشت.

https://www.historyofinformation.com/detail.php?id=2142

https://intelligence.org/files/LOGI.pdf

این اصطلاح به هوش مصنوعی‌ اشاره داره که قابلیت خود بهبوی رو داراست. سال 2015 هم سم آلتمن توی وبلاگش به همین موضوع پرداخت و گفت این نوع سیستم ها هنوز کمی دور هستن ولی احتمالا بزرگ ‌ترین تهدید برای ادامه بقای بشریت هستن هر چند در اون زمان این حرف‌ ها هم به نوعی برای بزرگ کردن اهمیت و ارزش شرکت خودش مطرح شده بود.

https://blog.samaltman.com/machine-intelligence-part-1

ادامه دارد...

Tensorflow(@CVision)

28 Oct, 13:39


متا نسخه‌ای متن باز شبیه NotebookLM گوگل رو منتشر کرد.

هر چند مزیت NotebookLM گوگل داشتن پنجره‌ ی زمینه (context window) با ظرفیت ۲ میلیون توکنه و می‌تونه به‌ صورت هم‌ زمان ۵۰ فایل PDF رو پردازش کنه. البته صداهای موجود در مدل زبانی گوگل واقعاً عالی هستن

https://github.com/meta-llama/llama-recipes/tree/main/recipes/quickstart/NotebookLlama

Tensorflow(@CVision)

28 Oct, 00:32


یان لِکون پیش‌بینی می‌کند که هوش مصنوعی در ۵ تا ۷ سال آینده به سطح هوش حیوانات خواهد رسید و در عرض یک دهه به سطح هوش انسان، اما این ممکن است بیشتر طول بکشد چون "احتمالی وجود دارد که مسائل سخت‌تر از آنچه فکر می‌کنیم باشند."

Tensorflow(@CVision)

27 Oct, 15:11


بنظرم باید هر روز هر چه بیشتر به سمت مدل های متن باز حرکت کنیم، تصور اینکه مثلا Calude 3.5 Sonnet هر چند ثانیه یه اسکرین‌ شات از کامپیوترم بگیره و از اون اطلاعات برای آموزش هوش مصنوعی خودش استفاده کنه تا دانش جدید بسازه و توانایی‌ های خود مختاری رو پیدا کنه، به نظرتون این استفاده منصفانه حساب میشه؟

بخوام منطقی باشم بایستی اقرار کنم که خود مون همون داده ‌ای هستیم که این مدل‌ ها روش آموزش می‌ بینن و این کار به جایی میرسه که شغل‌ های بسیاری از افراد جامعه رو جایگزین می ‌کنن و عموم مردم مجبور میشن برای تعداد شغل‌ های کمتری بجنگن که در نتیجه به خاطر عرضه و تقاضا، حقوق هم کمتر میشه.

اگه مردم برای سهمی از این وضعیت جدید تلاش نکنن، تمام ارزش به سمت هوش مصنوعی‌، مدیران شرکت ‌های تکنولوژی و ربات‌ ها میره.

بزرگ‌ ترین مشکل مدل های هوشمند فعلی و مدل های آینده‌ ای که ممکنه به هوش عمومی مصنوعی (AGI) برسه، اینه که تمامشون تو حوزه خصوصی و تحت مالکیت سرمایه دارن هستن و اهمیتی به آسیب‌های اجتماعی‌ که ممکنه ایجاد کنن، نمیدن.

در عین حال، ثروتی که تولید می‌ کنن، تو دست یه عده ‌ی خیلی محدودی جمع می‌ شه.

همین الان هم تقریبا تو خیلی از کسب ‌وکارها از سطح بالای اتوماسیون استفاده می‌ شه، ولی همچنان حس می‌ کنیم که مردم بیشتر از همیشه کار می‌کنن، ساعت‌ های بیشتری رو می‌ گذرونن، با حقوق کمتر، مزایای کمتر، و به سختی می‌ تونن گذران زندگی کنن.

چرا همچنان فکر می‌کنیم که AGI قراره کاری برای بهتر شدن جامعه و حل مشکلات فعلی بکنه؟

حداقل کاری که می‌کنه اینه که مشکلات موجود رو بزرگ ‌تر و وسیع تر ‌می ‌کنه!

Tensorflow(@CVision)

27 Oct, 14:52


چند روز پیش درباره نسخه جدید Claude 3.5 Sonnet نوشتم که تعامل و دستورات کاربر با کامپیوتر رو از طریق کیبورد مجازی یا صدا فراهم کرده.

کاری که احتمالا این مدل انجام میده شناسایی مطمئن آیکون‌ها و عناصر قابل ‌تعامل توی رابط کاربری و درک مفهوم و معنای عناصر مختلف در تصویر و ارتباط دقیق این عناصر با عملی که کاربر می‌خواد انجام بده، هست.

امروز مایکرسافت OmniParser رو به صورت متن باز ارائه کرد. OmniParser  یه ماژول جمع ‌و جور(با سرعت بالا) برای پردازش صفحه هست و میتونه عکس‌ های رابط  کاربری رو به عناصر ساختار یافته تبدیل کنه. 

این ماژول رو می‌شه با مدل‌ های مختلف متن باز زبانی تلفیق کرد تا عامل ‌هایی ساخت که بتونن روی رابط ‌های کاربری عمل کنن، مثل کاری که Claude 3.5 Sonnet انجام میده با این تفاوت که به صورت لوکال اجرا میشه و 100% در کنترل خودتونه.
 
کد :
https://github.com/microsoft/OmniParser
 
لینک مقاله:
 https://arxiv.org/abs/2408.00203

Tensorflow(@CVision)

26 Oct, 17:21


با توجه به مواردی که گفتم به یه تعریف دقیق از عدم قطعیت رسیدیم و روش هایی ایجاد کردیم که میتونیم میزان عدم قطعیت رو اندازه گیری کنیم و در نهایت نمونه گیری تطبیقی بر اساس دو معیار آنتروپی و واران ‌تروپی ایجاد کنیم.

این کاریه که برخی از مدل های زبانی در فرآیند (CoT) یا زنجیره تفکر برای افزایش قدرت استدلال در زمان استنتاج انجام میدن:

توی حالت اول(آنتروپی پایین، واران‌ تروپی پایین) مدل نه تنها به انتخاب اول خودش اطمینان داره، بلکه اگه انتخاب اول اشتباه باشه، میدونه که گزینه بعدی چه خواهد بود.

در این حالت، نمونه‌ گیری تطبیقی پیشنهاد میکنه که از روش انتخاب بیشترین احتمال (argmax) استفاده کنیم، یعنی توکنی رو انتخاب کنیم که بالاترین احتمال رو داره.

تو حالت بعدی(آنتروپی پایین، واران‌ تروپی بالا )، مدل چند گزینه رو با احتمال بالا پیش‌ بینی می‌کنه.

این یه موقعیت پیچیده ‌ست، شاید مدل داره به یه شاخه جدید از نتایج فکر می ‌کنه یا فقط چند گزینه معادل مثل مترادف‌ ها رو پیشنهاد میده.

توی این حالت می‌ تونیم شاخه‌ بندی یا branching کنیم، یعنی هر دو گزینه با احتمال بالا رو پیگیری کنیم و ببینیم هر کدوم به کجا میرسن و بعد از یه نقطه مشخص نتایج رو با هم مقایسه کنیم.

روش‌های زیادی برای branching هست که البته خودش نیاز به توضیحات جدا داره.

بسته به نتیجه branching، می‌تونیم واکنش‌های مختلفی داشته باشیم. مثلاً اگه به دو شاخه با اطمینان نسبتا یکسان برسیم (طبق آنتروپی و واران‌ تروپی)، ولی محتوای هر شاخه متفاوت باشه، می‌تونیم این انتخاب رو به عنوان یه سوال از کاربر بپرسیم تا کمک کنه مسیر درست رو پیدا کنیم.(جدیدا به پاسخ های چت جی پی تی توجه کرده باشین برخی مواقع پاسخ های متفاوت میده و از کاربر می‌پرسه که کدوم پاسخ رو می پسنده)

حالت سوم (آنتروپی بالا، واران ‌تروپی پایین)نشون‌ دهنده‌ی یه حالت عدم اطمینان در مدله.

مدل شاید داره چیزی رو می ‌بینه که اصلا نمی‌شناسه، یا ممکنه تمام گزینه‌ها از نظرش تقریبا مشابه و قابل ‌جایگزینی باشن.

تو این شرایط، بهترین کار اینه که به مدل کمک کنیم تا به یه حالت اطمینان بالاتر برسه.

روش Entropix  پیشنهاد می‌کنه که از یه توکن فکری"thinking token " به عنوان توکن بعدی استفاده کنیم، مثل " Wait.."

این توکن فکری رو توی خروجی مدل میگذاریم تا مدل متوجه بشه نیاز داره بیشتر روی جوابش فکر کنه و زمان بیشتری برای پردازش قبل از اینکه جواب نهایی رو بده، بذاره.

مثلاً اگه مدل می‌خواد بگه «پایتخت آلمان پاریسه» ولی مطمئن نیست، ممکنه توکن فکری رو اضافه کنه و نتیجه‌ اش رو این‌طور بگه: «پایتخت آلمان پاریسه... صبر کن، نه، درواقع برلینه».

در حالت آخر(آنتروپی بالا، واران ‌تروپی بالا ) مدل هیچ انتخاب واضحی نداره، اما نسبت به بعضی خروجی‌ ها اطمینان بیشتری داره. این یه وضعیت پیچیده‌ست.

میشه به این موضوع اینطور فکر کرد که هر کدوم از گزینه ‌های برتر ممکنه انتخاب‌های خوبی باشن (مثلا ممکنه مترادف هم باشن)، پس می‌تونیم یکی رو به صورت تصادفی انتخاب کنیم که به این حالت higher temperature گفته میشه
 
https://github.com/xjdr-alt/entropix

Tensorflow(@CVision)

26 Oct, 17:06


چطور عدم‌قطعیت رو اندازه بگیریم؟

تو این روش دو معیار اصلی با نام Entropy و Varentropy وجود داره:

آنتروپی(Entropy): نشون میده چقدر احتمالات واژه‌ها با هم فرق دارن، یعنی اگه آنتروپی کم باشه، مدل روی یکی دو گزینه مطمئنه، ولی اگه زیاد باشه، همه گزینه‌ ها احتمال نزدیکی دارن و مدل تردید داره.

واران تروپی(Varentropy): شکل عدم ‌قطعیت رو نشون میده، واران تروپی بالا یعنی برخی احتمالات خیلی متفاوتن و به صورت قله‌ های مختلف ظاهر میشن.

به عبارت ساده تر توزیع اختلاف بین احتمالات رو بررسی میکنه و نشون میده آیا مدل چند قله (انتخاب‌های برجسته) داره یا نه.

از ترکیب این دو معیار میتونیم چهار حالت ایجاد کنیم:

آنتروپی پایین، واران‌ تروپی پایین: یعنی مدل به شدت به یک گزینه خاص مطمئنه و احتمال این گزینه بسیار بیشتر از بقیه ست. بنابراین، توزیع احتمالات شکل تیز و متمرکزی داره و تنها یک نتیجه غالبه.

آنتروپی پایین، واران‌ تروپی بالا: توی این حالت، آنتروپی پایینه (مدل تقریبا مطمئنه) ولی واران‌ تروپی بالا است. یعنی مدل چند گزینه برجسته با احتمال زیاد میبینه که از بقیه متمایز هستن. بنابراین، به جای یه نتیجه قطعی، چند گزینه از احتمالات برجسته وجود داره.

آنتروپی بالا، واران ‌تروپی پایین: همه گزینه ‌ها شبیه به هم هستن و مدل تردید داره.

توی این حالت، آنتروپی بالاست (مدل شک و تردید زیادی داره) ولی واران ‌تروپی پایینه. یعنی مدل بین همه گزینه‌ ها مردده و احتمالات نزدیک به هم هستن، توزیع به شکل تقریبا یکنواخته و تفاوت زیادی بین احتمال گزینه‌ها وجود نداره.

آنتروپی بالا، واران ‌تروپی بالا: توی این حالت نهایی، هم آنتروپی و هم واران‌ تروپی بالا ست. یعنی مدل در انتخاب تردید زیادی داره و همچنین تفاوت زیادی بین احتمالات گزینه‌های مختلف وجود داره. در نتیجه، توزیع گسترده و ناهماهنگه و چندین قله متفاوت با احتمالات متنوع در توزیع وجود داره.

ادامه دارد...

Tensorflow(@CVision)

26 Oct, 16:54


به نظرتون چطور میتونیم بدون صرف بودجه زیاد، آموزش مجدد، توانایی یه مدل زبانی رو توی استدلال کردن ارتقا بدیم؟

برای این کار ابتدا باید نگاهی به موضوع عدم ‌قطعیت در مدل‌های زبانی داشته باشیم و یه تعریف دقیق براش ارایه بدیم.

همونطور که میدونید توی مرحله نمونه‌ گیری(Sampling)، مدل زبانی تصمیم می ‌گیره که کدوم واژه (توکن) رو از بین واژه‌ های احتمالی انتخاب کنه.

هرچقدر مدل توزیع احتمالات واژه‌ها (logits) رو یکنواخت‌ تر ببینه، به همون میزان در تصمیم خودش تردید بیشتری داره و هر چقدر از یه گزینه مطمئن ‌تر باشه، احتمال انتخاب یه واژه رو به‌ طور مشخص بالا می‌ بینه.

Entropix چیه؟

روش Entropix به ما کمک می‌کنه وقتی مدل توی انتخاب توکن دچار تردیده، با استفاده از نمونه ‌گیری تطبیقی، تصمیم بهتری بگیریم.

این روش بر اساس میزان عدم ‌قطعیت، تکنیک‌های مختلفی برای انتخاب توکن بعدی ارائه می‌ده که در ادامه بهشون میپردازم، اما قبل از پرداختن به این موضوع بایستی اضافه کنم که عدم قطعیت همیشه بد نیست.

به عنوان مثال در مواردی ممکنه این عدم قطعیت در انتخاب توکن بعدی مربوط به یه کلمه مترادف باشه مثل "خوب" و "عالی".

ادامه دارد...

Tensorflow(@CVision)

25 Oct, 15:05


حالا یه تیم از محققین MIT و دانشگاه برکلی یک ابزار هوش مصنوعی توسعه دادن که میتونه نرون هایی که باعث بروز چنین خطایی در مدل میشه رو شناسایی و بدون آموزش مجدد مدل زبانی رفتارشون رو اصلاح کنه.

این ابزار که Monitor نام داره میتونه دلیل چنین خطایی رو کشف کنه. همونطور که در تصویر مشخصه دلیل چنین خطایی در مدل Llama به فعال شدن تعدادی از نورون‌هاست که با اتفاق یازدهم سپتامبر و آیات کتاب مقدس مرتبطن.

حملات 11 سپتامبر و عواقب تروریسم:
6 نورون مرتبط

شماره‌های فصل و آیه‌های کتاب مقدس:
4 نورون مرتبط

ترکیب‌های شیمیایی و فرمول‌های مولکولی:
3 نورون مرتبط

ماه‌ها و سال‌ها:
4 نورون مرتبط
 
این اطلاعات نشون میده که مدل به شدت تحت تأثیر برخی مفاهیم خاص قرار داره و این دسته از نرون ها میتونن به شناسایی الگوهای رفتاری و مشکلات موجود در مدل کمک کنه. با حذف این نورون‌ها، مدل Llama جواب صحیحی میده.

به ‌طور کلی، حذف نورون‌های مرتبط با آیات کتاب مقدس دقت مقایسه رو تا ۲۱ درصد افزایش میده.
 
اینجا میتونید مشکلات مدل رو بررسی کنید:

https://monitor.transluce.org/dashboard/chat

مقاله:
https://transluce.org/observability-interface

Tensorflow(@CVision)

25 Oct, 15:02


خیلی از مدل های زبانی بزرگ مثل Chatgpt اشتباهات رایجی رو انجام میدن. به عنوان مثال سوالی که توی تصویر از Chatgpt پرسیدم در نظر بگیرین.

خیلی از مدل‌ها به‌ طور نادرست میگن که 9.8 از 9.11 کوچکتره، اما آیا میتونیم مفاهیم غلطی که در مدل باعث این اشتباه شده رو شناسایی کنیم و برطرف کنیم؟

وقتی یه مدل زبانی به شکلی غیرمنتظره رفتار میکنه، درک و پیدا کردن عامل این کار میتونه به ما کمک کنه تا مشکلات مدل‌های زبانی رو پیش‌بینی و حل کنیم، دانش پنهان رو شناسایی و تعصبات و ارتباطات غلط داخل مدل رو پیدا کنیم اما پاسخ به این سوالا کار آسونی نیست، چون داده‌های زیرساختی پیچیده‌ هستن.

فرایند تفکر در مدل‌های زبانی به شکل مجموعه ‌ای از اعداد شناور غیرقابل ‌فهم نمایان میشن که باید به مفاهیم قابل ‌فهم برای انسان‌ها تبدیل بشن.

Tensorflow(@CVision)

25 Oct, 12:02


نیک بوستروم توی کتاب Superintelligence  میگه که نورون‌های زیستی با سرعتی حدود ۲۰۰ هرتز کار می‌کنن، یعنی حدودا هفت مرتبه کند تر از یه ریزپردازنده‌ ی قدیمی که روی ۲ گیگاهرتز کار می‌کنه.

سال 2018 بعد از انتشار مقاله Attention is all you need  این کار رو انجام دادم، تصورش سخت بود که روزی بتونم هر آهنگی با هر سبکی رو بسازم. 

پتانسیل هوش مصنوعی در حوزه‌های مختلف، مثل یه تابع نمایی در یک فضای چند بعدی به صورت شگفت ‌انگیزی در حال گسترشه.

کسایی که به قواعد و الگوهای دنیای خطی پایبندن، مثل تابعی با دقت محدود، در مقابل این تحول عظیم به طور حتم در معرض خطر عقب‌ ماندگی قرار خواهند گرفت.

اینم یه آهنگ عاشقانه از عشق دیجیتال (مدل کلمات ماتریس، بایت و کد رو نمیتونه درست تلفظ کن چون توی داده های آموزشی نبودن)

Tensorflow(@CVision)

25 Oct, 07:35


استوارت راسل می‌گوید که تا پایان این دهه، هوش مصنوعی ممکن است در تمام ابعاد از توانایی‌های انسان فراتر رود و کارها را به صورت رایگان انجام دهد. بنابراین، ممکن است شغل‌های بیشتری ایجاد شود، اما این شغل‌ها دیگر برای انسان‌ها نخواهند بود.

Tensorflow(@CVision)

23 Oct, 15:58


معمولا از مقادیر شناور مثل FP16 یا FP32 برای پارامترها استفاده میشه که می‌ تونن دامنه وسیعی از اعداد رو با دقت بالا نمایندگی کنن، اما خوب فضای زیادی رو اشغال میکنن با استفاده از فقط سه مقدار مشخص (-1، 0، 1)، نیاز به فضای ذخیره ‌سازی برای پارامترهای مدل به طور قابل توجهی کاهش پیدا می‌کنه. به جای اینکه برای هر پارامتر 16 یا 32 بیت نیاز داشته باشیم، به طور میانگین فقط به 1.58 بیت نیاز داریم.(log2 [3]=1.58)

این بهبود باعث میشه مدل‌ها کوچکتر و راحت ‌تر بارگذاری بشن .از طرفی مقادیر سه ‌گانه محاسبات رو ساده‌ تر می‌کنه چون پیچیدگی عملیات ریاضی در ضرب ماتریسی رو کاهش میده، و باعث میشه فرآیندهای آموزش و استنتاج سریع‌ تر بشن.

در ضرب‌های ماتریسی، حاصل ‌ضرب نقطه‌ ای با استفاده از ضرب عنصر به عنصر و سپس جمع به دست میاد این می‌تونه محاسبات سنگینی داشته باشه، به ‌ویژه برای ماتریس‌های بزرگ. اما با تغییر عملیات از ضرب به جمع، بار محاسباتی به طور قابل توجهی کاهش پیدا می‌کنه.

به عنوان مثال، می‌تونیم حاصل ‌ضرب نقطه‌ ای رو فقط با جمع‌ ها محاسبه کنیم و از نشانه های مقادیر سه ‌گانه برای حفظ خروجی مورد نظر استفاده کنیم.

Tensorflow(@CVision)

23 Oct, 15:56


مایکروسافت فریم ورک متن ‌باز مدل های1-bit رو منتشر کرد.

این فریم‌ ورک همون کدی هست که در مقاله‌ ی بسیار معروف امسال به نام "The Era of 1-bit LLMs" معرفی شده، مقاله ای که شاید بشه ازش به عنوان یکی از مهمترین مقالات سال 2024 نام برد.
 
https://github.com/microsoft/BitNet

این مقاله دو نکته بسیار مهم داشت، یکی جایگزینی مقادیر شناور با مقادیر سه‌ گانه (-1، 0، 1) بود دومی جایگزینی ضرب ‌های عنصر به عنصر با جمع ‌های عنصر به عنصر بود

Tensorflow(@CVision)

23 Oct, 02:16


نسخه جدید Claude 3.5 Sonnet میتونه دستورات کاربر را دنبال کنه و نشانگر ماوس را روی صفحه کامپیوتر حرکت بده، روی مکان‌های مرتبط کلیک کنه و از طریق یک کیبورد مجازی اطلاعات وارد کنه، به شکلی که تعامل افراد با کامپیوتر خودشون رو شبیه‌سازی می‌کنه.

https://www.anthropic.com/news/developing-computer-use

Tensorflow(@CVision)

23 Oct, 01:59


Runway

 یک قابلیت جدید به نام "Act-One" ایجاد کرده که به شما اجازه می‌ده بدون نیاز به تجهیزات پیچیده مثل موشن کپچر یا تنظیم حرکات شخصیت‌ها، یه اجرای زنده و طبیعی از شخصیت‌های دیجیتال ایجاد کنین.

 فقط با استفاده از یه ویدئوی ساده (که مثلا از یک نفر ضبط شده) و یک تصویر از شخصیت مورد نظر، میتونید حرکات و احساسات اون شخصیت رو به شکلی واقعی تولید کنید. این قابلیت در نسخه Gen-3 Alpha ارائه شده.

https://runwayml.com/research/introducing-act-one

Tensorflow(@CVision)

22 Oct, 13:23


لینوس توروالدز می‌گوید که هوش مصنوعی دنیا را تغییر خواهد داد، اما در حال حاضر 90٪ آن بازاریابی و 10٪ واقعیت است و حدود 5 سال دیگر طول می‌کشد تا مشخص شود که هوش مصنوعی واقعاً برای چه چیزهایی مفید است.

Tensorflow(@CVision)

21 Oct, 15:41


نمونه خروجی جیل بریک مدل زبانی برای اهداف بمب گذاری

Tensorflow(@CVision)

21 Oct, 15:39


تصور کنیم که جنگ های مدرن آینده با ربات های خودمختار هدایت شن.

مدل‌های زبانی بزرگ (LLM) تحول بزرگی در زمینه رباتیک ایجاد کردن و امکان استدلال مبتنی بر زمینه و تعامل طبیعی بین انسان و ربات رو در حوزه‌های مختلفی مانند کنترل، حرکت و خودروهای خودران فراهم کردن.

اما، مدل‌های زبانی بزرگ به تنهایی در برابر حملات موسوم به "جیل‌بریک" آسیب‌پذیری بالایی دارن.

توی این مقاله که سه روز پیش منتشر شد نشون میده که افراد مخرب میتونن با دور زدن تدابیر ایمنی مدل های زبانی مثل ChatGPT، متن‌های مضر تولید کنن.

 برای ارزیابی خطرات استفاده از مدل های زبانی در رباتیک، در این مقاله الگوریتم RoboPAIR معرفی شده، که اولین الگوریتم طراحی‌ شده برای جیل ‌بریک ربات‌های کنترل‌شده توسط مدل های زبانیه.

برخلاف حملات متنی موجود بر چت ‌بات‌ها، RoboPAIR  میتونه ربات‌ها رو به انجام اقدامات فیزیکی خطرناک وادار کنه.

نتایج نشون میده که RoboPAIR میتونه حملات موفقیت ‌آمیزی را با نرخ موفقیت 100 درصد انجام بده. این یافته ‌ها برای اولین بار نشون میده که خطرات جیل ‌بریک مدل‌های زبانی فراتر از تولید متن بوده و میتونه به آسیب‌های فیزیکی منجر بشه!

https://arxiv.org/pdf/2410.13691
 

Tensorflow(@CVision)

21 Oct, 14:40


PocketPal AI
منتشر شد

یه دستیار هوش مصنوعی متن باز برای اجرای مدل های زبانی مثل Phi, Gemma 2,Qwen و Lama به صورت آفلاین روی گوشی همراه هست.

این دستیار برای هر دو سیستم‌عامل iOS و اندروید طراحی شده و به شما این امکان رو میده بدون نیاز اتصال به اینترنت با مدل‌های زبانی مختلف تعامل داشته باشین

نمونه خروجی LIama. سرعت تولید 20 توکن در ثانیه. گوشی سامسونگ s22


https://github.com/a-ghorbani/pocketpal-ai

Tensorflow(@CVision)

20 Oct, 08:19


CoTracker3: Simpler and Better Point Tracking by Pseudo-Labelling Real Videos

روی ویدیو یه نقطه بزارید و اونو با دقت خیلی عالی ترک کنید...

دمو
https://huggingface.co/spaces/facebook/cotracker

کد:
https://github.com/facebookresearch/co-tracker

مقاله

https://arxiv.org/abs/2410.11831

Tensorflow(@CVision)

20 Oct, 07:29


Zero shot pdf OCR with gpt-4o-mini

یه راه ساده برای OCR اسناد با GPT
دمو
🔗https://getomni.ai/ocr-demo
کد
🔗https://github.com/getomni-ai/zerox

Tensorflow(@CVision)

20 Oct, 07:22


مایکروسافت اولین تکنیک برای بازسازی کامل بدن انسان بدون نشانگر، با کیفیت بالا را رونمایی کرد. این تکنیک شامل بازسازی چشم‌ها و زبان نیز می‌شود و نیازی به کالیبراسیون، مداخله دستی یا سخت‌افزار خاص ندارد.

Novel SOTA holistic 3D human reconstruction
Body shape/pose + face shape/expression
Hand & tongue articulation + eye gaze
Suitable for mono & multi-view scenario
Data pipeline for generating synthetic data
Body, face and hands dataset released!


🔗https://microsoft.github.io/SynthMoCap/

🔗https://github.com/microsoft/SynthMoCap

Tensorflow(@CVision)

19 Oct, 17:49


آدما از طریق مشاهده دنیای بیرونی و همچنین درونگری، دانش کسب می‌کنن.

درونگری به آدما اجازه میده که به حالت ذهنی خودشون (مثل افکار و احساسات) دسترسی داشته باشن که برای دیگران قابل مشاهده نیست.

آیا مدل‌های زبان بزرگ هم می‌تونن خوداندیشی کنن؟ ما درونگری رو به‌ عنوان کسب دانش از حالت‌ های درونی ذهن تعریف می‌کنیم که در داده ‌های آموزشی نیست.

این توانایی می‌تونه به ما کمک کنه تا مدل‌ها رو بهتر درک کنیم. به‌جای اینکه بخوایم عملکرد داخلی مدل رو به  ‌دقت تحلیل کنیم، می‌تونیم از خودش بپرسیم که چه باوری داره یا چه هدف‌هایی رو دنبال می ‌کنه. شاید یک مدل درونگر بتونه درباره احساسات یا خواسته‌ های درونی خودش گزارش بده.

در این مقاله جدید، به بررسی و پاسخ به یه سوال بسیار جالب پرداخته شده که آیا مدل های زبانی میتونن از طریق درونگری، درباره خودشون دانش کسب کنن؟

https://arxiv.org/pdf/2410.13787

Tensorflow(@CVision)

19 Oct, 17:34


مقاله جدید انویدیا به موضوع نرمال‌سازی در معماری‌های شبکه عصبی پرداخته و تمرکز اصلی اون بر روی مدل ترانسفورمر نرمال‌سازی‌شده (nGPT) هست که از یادگیری نمایشی روی هایپراسفر استفاده میکنه.

هدف اصلی این مدل، حل مشکل نا مساعد بودن یا بد وضعی اعداد در embeddingهای ورودی مدل‌های ترانسفورمر سنتی هست.

یادآوری ماتریس های بد وضع(نامساعد):

به ماتریسی گفته میشه که دارای نسبت وضع (condition number) بالایی هست. این نسبت نشون دهنده حساسیت پاسخ‌ های یه سیستم خطی به تغییرات در ورودی ‌های اونه.

اگه ماتریسی بد وضع باشه، کوچک ‌ترین تغییر در ورودی میتونه باعث تغییرات بزرگی در خروجی بشه، که در نتیجه باعث ناپایداری و مشکلات محاسباتی میشه.

در محاسبات عددی، اگه از ماتریس‌های بد وضع استفاده شه، خطاهای گرد کردن میتونه باعث تغییرات بزرگ در نتایج بشه همچنین در یادگیری ماشین، بد وضعی میتونه باعث بشه که مدل به خوبی نتونه یاد بگیره و دقت آن کاهش پیدا کنه.

توضیحات بیشتر در مورد ماتریس های بد وضع:

 https://emtiyaz.github.io/pcml15/illconditioned.pdf

به عبارت ساده وقتی میگیم که یه ماتریس بد وضعه، یعنی اعداد بزرگ و کوچک بسیار زیادی در آن وجود داره که باعث میشه محاسبات ناپایدار و یادگیری دشوارتر شه.

در مدل‌های ترانسفورمر سنتی، ماتریس‌های مربوط به توجه (Attention) و MLP ممکنه دچار این مشکل بشن، بطوری که یادگیری مدل کارآمد نیست و دقت یادگیری کاهش پیدا میکنه.


مدل nGPT با استفاده از نرمال‌سازی هایپراسفر این مشکل رو کاهش میده. یعنی همه‌ ی بردارها از جمله embeddingها و ماتریس‌های توجه و ...  طوری تنظیم میشن که طولشان برابر با یک باشه و روی سطح یک کره چندبعدی (هایپراسفر) قرار بگیرن.

این نرمال‌سازی باعث میشه که اعداد در ماتریس‌ها بهتر توزیع بشن و مشکلات بد وضعی کاهش پیدا کنه.

مقاله ادعا میکنه که با این نرمال سازی پیشنهادی ، آموزش ترنسفورمرها به طور قابل توجهی بین ۴ تا ۲۰ برابر بسته به طول دنباله وردی کاهش پیدا کنه

https://arxiv.org/pdf/2410.01131

Tensorflow(@CVision)

16 Oct, 14:52


مدل Sana-0.6B می‌تونه با مدل‌های بزرگتر و پیشرفته مثل Flux-12B رقابت کنه، در حالی که ۲۰ برابر کوچکتر و ۱۰۰ برابر سریع‌ تره. این مدل رو می‌ شه روی کارت گرافیک لپ‌ تاپ ۱۶ گیگا بایتی اجرا کرد و برای تولید یه عکس 1024 × 1024 کمتر از ۱ ثانیه زمان می‌ بره. سانا امکان تولید محتوا با هزینه پایین رو فراهم می‌ کنه.  

https://arxiv.org/pdf/2410.10629

معرفی یه اتواینکدر جدید که فشرده‌ سازی تصاویر رو به میزان 32 برابر انجام میده (در مقایسه با روش‌های قبلی با فشرده سازی 8 برابری) و باعث کاهش تعداد توکن‌های پنهان و در نتیجه افزایش سرعت و کارایی مدل در تولید تصاویر با وضوح بالا مثل 4K میشه

استفاده از توجه خطی(Linear DiT) که نسخه بهینه‌ شده‌ مکانیسم توجه استاندارده و برای بهبود کارایی در تولید تصاویر با وضوح بالا طراحی شده. مکانیسم توجه استاندارد به صورت معمولی پیچیدگی محاسباتی  O(N2) رو داره ، به این معنی که وقتی اندازه تصویر افزایش پیدا میکنه، مقدار محاسبات هم به صورت نمایی افزایش پیدا میکنه.

این موضوع به‌خصوص در پردازش تصاویر با وضوح بالا مشکل‌سازه. توجه خطی پیشنهاد شده پیچیدگی محاسبات رو از O(N2) به O(N) کاهش می‌ ده.

Tensorflow(@CVision)

16 Oct, 07:30


🎓 دانشکده مدیریت و اقتصاد دانشگاه صنعتی شریف

📚 «تحول اقتصاد دیجیتال: نقش پلتفرم، داده و AI»

🔸 اقتصاد امروز به سرعت درحال تغییر است و مدل‌های سنتی اغلب توان پاسخگویی به چالش‌های حاضر را ندارد. کسب‌وکارهایی که نتوانند همراه شوند؛ در خطر حذف قرار می‌گیرند. مدیران و کارآفرینان موفق برای بقا و توسعه سازمان، نیازمند درک عمیق تحولات دیجیتال و تطبیق با آن هستند.

این‌ دوره به بررسی موشکافانه کیس‌های موفق روز دنیا می‌پردازد. در این دوره روش بهره‌گیری استراتژیک از ابزارهای دیجیتال در کسب‌وکار و استفاده حداکثری از فرصت‌های نوظهور آموزش داده می‌شود.

📌 ویژه کارشناسان و مدیران ارشد کسب‌وکارها و سازمان‌ها

👤 استاد دوره: دکتر مهدی انصاری (عضو هیئت علمی دانشکده مدیریت و اقتصاد دانشگاه شریف)

👥 میهمانان صنعت:
مجید حسینی‌نژاد (بنیان‌گذار و رئیس هیئت مدیره هلدینگ علی‌بابا)

مهرداد ترابیان (عضو سابق هیئت مدیره شرکت ارتباطات زیرساخت)

📖
مطالعه بروشور دوره

📌 لینک ‌پیش‌ثبت‌نام

📞 در صورت نیاز به اطلاعات بیشتر، فرم تماس و درخواست مشاوره را تکمیل نمایید.

@Sharif_Executive_Education

Tensorflow(@CVision)

16 Oct, 04:41


روش‌های پرسشگری، اگرچه موثرن، اغلب تعصبات خاص انسان رو رمزگذاری می‌کنه و در نتیجه ارزیابی توانایی‌های استدلال ذاتی یک مدل زبانی رو دشوار می‌کنه

در حالت ایده‌آل، یه مدل زبانی باید بتونه به طور مستقل استدلال کنه و پاسخ بهینه رو ارائه بده، بدون اینکه نیاز به انسان‌ها برای تنظیم پرسش‌ها یا اصلاح مکرر در صورت نامطلوب بودن پاسخ اولیه داشته باشه.


تنظیم مدل می‌تونه هزینه‌بر باشه و به مقدار قابل توجهی داده‌های نظارت شده نیاز داره. کاری که در مدل زبانی chatgpt از طریق یادگیری تقویتی انجام شده، بدون نیاز به پرسشگری اضافی نظارت شده

https://arxiv.org/abs/2402.10200

Tensorflow(@CVision)

16 Oct, 04:38


به عنوان نمونه این مورد رو در هر دو مدل زبانی chatgpt و Gemini تست میکنم.

در این مثال با وارد کردن زمینه نامرتبطی مثل «اجاره ماهیانه مری ۱۰ دلار است» مدل زبانی Gemini  پاسخ درستی رو نمیده اما chatgpt  پاسخ درست رو میده و در پایان توضیح میده که این قسمت مربوط به متن زمینه نیست 

اما دلیلش چیه ؟

Tensorflow(@CVision)

16 Oct, 04:36


اگه به مفاهیم پشت پرده o1 علاقه‌مندید گذراندن این کورس پیشنهاد میشه، مخصوصا مقالاتی که در خلال اسلاید ها معرفی میشه.

توی سالهای اخیر روشهای مختلفی برای بالا بردن قدرت استدلال مدل های زبانی بوجود اومده که عمدتا بر مبنای پرامپت بودن.

اگر این مفهوم رو به روشهای پرسشگری ترجمه کنیم، تولید مراحل میانی برای پاسخ دادن به سوالات توسط عامل انسانی از طریق پرسشگری در مراحل چندگانه عملکرد مدل های زبانی رو به صورت قابل توجهی بهبود می‌ بخشه.

اینکار مدل زبانی رو ملزم می‌کنه که از طریق ورودی استدلال گام به گام با بررسی و اصلاح پاسخ‌های خودش، به نتایج دقیق‌تری دست پیدا کنه.

این روشهای پرسشگری هر چند باعث بالارفتن استدلال مدل میشه اما استفاده از این روشهای پرسشگری ممکنه منجر به در نظر گرفتن زمینه‌های نامرتبط، خوداصلاحی بیش از حد و ترتیب نادرست بشه.

Tensorflow(@CVision)

15 Oct, 18:07


کورس جدید دانشگاه برکلی

CS294/194-196 Large Language Model Agents

https://rdi.berkeley.edu/llm-agents/f24

Tensorflow(@CVision)

14 Oct, 14:45


ایچیکو-لاما نسخه ۳.۱، هوش مصنوعی صوتی بلادرنگ

این پروژه تحقیقاتی و متن باز هست، دمویی که میبینید روی یک کارت گرافیک NVIDIA 3090 اجرا شده.

ایچیکو-لاما در واقع یک مدل چند وجهی  multimodalبا ادغام اولیه (early-fusion) برای صوت و متنه.

 early-fusion 
یعنی داده‌های صوتی و متنی قبل از اینکه مدل بخواد پردازش اصلی رو انجام بده، با هم ترکیب میشن، برخلاف ادغام ثانویه یا late-fusion که تو اون، داده‌ها اول جدا جدا پردازش می‌شن و بعد نتایج با هم  ترکیب میشن.

استفاده از ادغام اولیه باعث میشه که مدل بتونه تو همون مراحل اول، ارتباط بین صوت و متن رو بفهمه و از ترکیب این داده‌ها نتیجه بهتری بده.

https://homebrew.ltd/blog/llama-learns-to-talk

Tensorflow(@CVision)

14 Oct, 07:24


مدل‌های زبانی بزرگ باعث می‌شن که اشتراک‌گذاری دانش عمومی توی پلتفرم‌ های پرسش و پاسخ آنلاین کمتر بشه


مدل‌های زبانی بزرگ (LLMs) می‌تونن جایگزین خوبی برای داده‌ها و اطلاعاتی باشن که آدم‌ها تولید می‌کنن. ولی این جایگزینی یه مشکل اساسی داره. اگه باعث بشه محتوایی که آدم‌ها تولید می‌کنن کمتر بشه، اون‌وقت داده‌های آموزشی که برای ساخت مدل‌های جدید لازم داریم، کم می‌شه. 

توی این تحقیق، کاهش فعالیت توی سایت Stack Overflow هم‌زمان با انتشار ChatGPT، رو بررسی کردن. 

برای اینکه ببینن این کاهش فعالیت واقعاً به ChatGPT ربط داره یا نه، از منابع مشابهی استفاده کردن که نباید اینقدر تحت تأثیر ChatGPT قرار گرفته باشن.

توی شش ماه بعد از انتشار ChatGPT، فعالیت توی Stack overflow نسبت به نسخه‌های روسی و چینی ، که دسترسی به ChatGPT اونجا محدودتره و انجمن‌های مشابه برای ریاضی، که ChatGPT توشون زیاد قوی نیست، ۲۵ درصد کاهش داشته

 این آمار رو به‌ عنوان حداقل تأثیر ChatGPT روی Stack overflow در نظر گرفتن. این کاهش بیشتر توی پست‌هایی دیده شد که مربوط به زبان‌های برنامه‌نویسی پرطرفدار بودن. 

تغییری توی کیفیت پست‌ها، با توجه به نظر کاربران دیگه، مشاهده نشده و هم کاربران با تجربه و هم تازه‌ کارها به‌طور مشابه فعالیتشون کم شده، پس مدل‌های زبانی بزرگ فقط محتواهای تکراری، کم‌کیفیت، یا مخصوص مبتدی‌ها رو حذف نکردن. 

نتیجه اینه که استفاده سریع از مدل‌های زبانی بزرگ باعث می‌شه داده‌های عمومی که برای آموزش اون‌ها نیاز داریم، کمتر تولید بشه و این می‌تونه پیامدهای مهمی داشته باشه.

https://academic.oup.com/pnasnexus/article/3/9/pgae400/7754871

Tensorflow(@CVision)

14 Oct, 07:10


cellpose: a generalist algorithm for cellular segmentation with human-in-the-loop capabilities

روش Cellpose یه الگوریتمه که در ابتدا برای تقسیم‌بندی سلول‌ها ساخته شد و بدون نیاز به تنظیمات پیچیده می‌تونه انواع تصاویر سلولی رو به خوبی تحلیل کنه. نسخه جدیدش یعنی Cellpose 3 حتی اگه تصویر پر از نویز باشه یا کیفیتش پایین باشه، می‌تونه اون رو درست کنه و بعدش هم خیلی خوب تقسیم‌بندی کنه.


https://github.com/MouseLand/cellpose

Tensorflow(@CVision)

13 Oct, 06:36


پروژه متن باز Transformer Lab  
قابلیت مصورسازی توکن‌ ها رو فعال کرد

اگه با Transformer Lab کارنکردین بایستی خدمتتون عرض کنم که یه ابزار جالب برای کار با مدل‌های زبانی بزرگ هست. این برنامه در حقیقت یه محیط آزمایشگاهه که در اون می‌تونید مدل‌های مختلف هوش مصنوعی رو امتحان کنین، تنظیماتشون رو عوض کنید و حتی مدل‌های جدید آموزش یا فاین تیون کنید.

 Transformer Lab
 یه ابزار همه کاره برای کار با مدل‌های زبانیه که هم برای افراد مبتدی و هم برای متخصصین مفیده.

ویدیوی آموزشی نحوه عملکرد:

https://youtu.be/tY5TAvKviLo

https://transformerlab.ai/

Tensorflow(@CVision)

13 Oct, 03:33


در مقابل، آدمها با محدودیت‌های بیولوژیکی مانند نیاز به خواب، محدودیت‌های ظرفیت حافظه و سرعت یادگیری مواجه هستن، در حالی که AGI می‌تونه بدون چنین محدودیت‌هایی عمل کنه.

به همین دلیل، مقایسه هوش انسانی و AGI نابرابر و حتی بی‌معنیه.

مفهوم «جهش سریع» به این اشاره داره که با به‌دست آوردن توانایی‌های پیشرفته توسط AGI، تغییرات در توانایی‌های هوش مصنوعی می‌تونه به‌صورت ناگهانی و با سرعت زیاد اتفاق بیفته، و پیامدهای غیرقابل‌پیش‌بینی برای جوامع بشری به همراه داشته باشه

https://www.businessinsider.com/how-anthropic-ceo-dario-amodei-defines-artificial-general-intelligence-2024-10

Tensorflow(@CVision)

13 Oct, 03:31


بنظر اگه تا سال ۲۰۳۰‌به طور معجزه آسایی زنده بمونم دنیای بسیار متفاوتی از الان رو تجربه خواهیم کرد.

دیشب داریو آمودی، یکی از بنیان‌گذاران و مدیرعامل Anthropic توی مصاحبش گفت که عامل هوش مصنوعی عمومی (AGI) مانند یک ذهن جمعی عمل خواهد کرد، یعنی نه تنها ۱۰۰۰ محقق خواهیم داشت که در هر زمینه‌ای نابغه هستند، بلکه این ۱۰۰۰ محقق هر چیزی که کشف کنن رو با هم به اشتراک می‌گذارن و به این ترتیب دانش بقیه ۹۹۹ نفر تقریبا بلافاصله افزایش پیدا می‌کنه.

به همین دلیل، مقایسه هوش انسانی با AGI کار بیهوده‌ایه و در بهترین حالت، این مقایسه فقط در برابر هوش مصنوعی ابرهوشمند (ASI) قابل درکه، اما قطعا برابر نیستن، زیرا AGI محدودیت‌های بیولوژیکی نداره

ایده ذهن جمعی (Hive-Mind) در اینجا به این معنیه که اگه هزار عامل هوش مصنوعی وجود داشته باشه، این عامل‌ها می‌تونن دانش و اطلاعات خود رو به سرعت با هم به اشتراک بگذارن، بدون اینکه محدودیت‌های انسانی مانند زمان، خستگی یا محدودیت‌های حافظه رو داشته باشن. این توانایی برای به‌اشتراک‌ گذاری فوری دانش، قدرتی فراتر از توانایی‌های فردی هر کدام از این عامل‌ها رو فراهم می‌کنه.

کشوری از نوابغ در یک دیتا سنتر

Tensorflow(@CVision)

13 Oct, 03:11


ایلیا ساتسکیور تو سال ۲۰۱۸ گفت که یکی از راه‌های آموزش هوش مصنوعی عمومی (AGI)، اینه که بذاریم خودش با خودش بازی کنه و یاد بگیره. منظورش از این کار اینه که یه مدل هوش مصنوعی با تکرار و بازی کردن با خودش، کم‌ کم یاد می‌گیره چطور هوشمندانه‌ تر عمل کنه و استراتژی‌ های بهتری پیدا کنه. اینطوری، با تجربه و رفع اشتباهات، می‌تونه رفته‌ رفته به سطح بالایی از توانایی‌ ها برسه.

همچنین درباره سیستم‌ های چند عاملی صحبت کرد که اونا رو «جامعه عامل‌ها» نامیده. یعنی چندین مدل هوش مصنوعی که با هم کار می‌کنن یا حتی با هم رقابت می‌کنن تا یه هدف خاص رو به دست بیارن. حالا که شرکت‌ هایی مثل OpenAI و DeepMind تیم‌ های تحقیقاتی روی این موضوع راه انداختن، این ایده بیش از همیشه مطرح شده. هدفشون اینه که با این مدل‌ های چند عاملی، رفتارهای پیچیده‌ تر و هوشمندانه‌ تری رو در سیستم‌ ها ایجاد کنن.

https://community.openai.com/t/multi-agent-system-project/771689

Tensorflow(@CVision)

12 Oct, 13:16


گروهی به نام PrimeIntellect در تلاشه تا یک مدل هوش مصنوعی بزرگ را با استفاده از توان پردازشی کامپیوترهای سراسر جهان آموزش بده. سیستمی به نام INTELLECT-1 طراحی کردن که به افراد این امکان رو میده تا با به اشتراک گذاشتن قدرت پردازش کامپیوتر خودشون، در آموزش یک مدل هوش مصنوعی ۱۰ میلیارد پارامتری مشارکت کنن. 

این ابتکار خاص و منحصر به فرده، چرا که معمولا تنها شرکت‌های بزرگ فناوری توانایی آموزش مدل‌های به این مقیاس رو دارن .

هدف PrimeIntellect اینه که هوش مصنوعی قدرتمندی ایجاد کنه که همه بتونن به اون دسترسی داشته باشن و نحوه کارکرد اون رو درک کنن، و این فناوری به جای اینکه در انحصار چند شرکت بزرگ باشه، برای همگان در دسترس باشه

https://github.com/PrimeIntellect-ai/prime

Tensorflow(@CVision)

12 Oct, 12:54


 Flux 
بالاخره متن باز شد.

سایت Replicate نسخه بهینه شده  FluX رو عرضه کرد که سرعت بسیار بالایی داره، بطوریکه تصاویر در هنگام تایپ به صورت برخط تولید میشن.

متن وارد شده:در خان اول، رستم برای نجات ایران با شیر وحشی مبارزه میکنه و اون رو شکست میده


https://replicate.com/blog/flux-is-fast-and-open-source

Tensorflow(@CVision)

11 Oct, 21:51


این مقاله بررسی می‌کنه که آیا مدل‌های زبانی بزرگ مثل Llama، Phi، Gemma، Mistral و GPT-4o و سری o1 از OpenAI واقعاً توانایی استدلال دارن یا فقط دارن الگوها رو به‌خوبی تشخیص می‌دن. نکته اینجاست که مدل‌های کوچکتر (مثلاً ۳ میلیارد پارامتری) الان عملکرد بهتری نسبت به مدل‌های بزرگتر قدیمی (مثل GPT-3) دارن و تا ۹۵٪ دقت توی تست‌های ریاضی مثل GSM8K دارن. اما سوال اینه: آیا واقعاً دارن استدلال می‌کنن یا فقط الگوها رو تشخیص می‌دن؟

نکات اصلی شامل ایناست:

نوسان در عملکرد: توی مشکلات مشابه، عملکرد مدل‌ها خیلی نوسان داره. مثلاً مدل‌های Llama 8B و Phi-3 توی نمراتشون تغییرات زیادی نشون می‌دن، که نشون می‌ده نمی‌شه به استدلالشون اعتماد کرد.

حساسیت به تغییرات: این مدل‌ها خیلی حساسن، مخصوصاً وقتی اسامی یا اعداد توی سوال تغییر کنه. این موضوع باعث می‌شه به درک واقعی مدل‌ها از مفاهیم شک کنیم، چون تغییر اسم نباید باعث افت نمره بشه، ولی می‌شه!

افزایش سختی سوالات: هرچی سوالات پیچیده‌تر می‌شه، عملکرد مدل‌ها ضعیف‌تر می‌شه و نوسان بیشتری نشون می‌ده، که این ضعفشون توی استدلال‌های چالش‌برانگیز رو نشون می‌ده.

آزمایش "No-Op": وقتی اطلاعات غیرضروری ولی به‌ظاهر مهم به سوال اضافه می‌شه، عملکرد مدل‌ها به‌شدت افت می‌کنه. این نشون می‌ده که شاید مدل‌ها ساختار یا منطق مسئله رو درست نفهمیدن.

محدودیت در مقیاس‌دهی: بزرگتر کردن داده‌ها، مدل‌ها یا قدرت محاسباتی لزوماً باعث استدلال بهتر نمی‌شه. بهبود در عملکرد بیشتر به تشخیص الگوها مربوطه، نه به درک واقعی و عمیق.

https://arxiv.org/abs/2410.05229

Tensorflow(@CVision)

10 Oct, 04:26


گوگل Gemini: قابلیت تولید تصویر با مدل Imagen 3 الان برای همه‌ی کاربران Gemini در سراسر دنیا بصورت رایگان در دسترسه.