مرجع دیتاست فارسی @persian_data Channel on Telegram

مرجع دیتاست فارسی

@persian_data


لطفا برای معرفی و درج دیتاست خود داخل کانال به @data_hub پیام دهید.

مرجع دیتاست فارسی (Persian)

آیا به دنبال یک منبع جامع برای دیتاست‌های فارسی هستید؟ اگر پاسخ شما بله است، کانال تلگرام 'مرجع دیتاست فارسی' مناسب شماست. این کانال تحت نام کاربری @persian_data در تلگرام فعالیت می‌کند و به معرفی و اشتراک گذاری دیتاست‌های فارسی می‌پردازد. در این کانال، شما می‌توانید دیتاست‌های متنوع در زمینه‌های مختلف از جمله علوم داده، هوش مصنوعی، تحلیل داده، و غیره را پیدا کنید. nnاگر شما هم دیتاست‌های خود را می‌خواهید به اشتراک بگذارید، کافیست پیام خود را به کاربر @data_hub ارسال کنید تا در کانال به اشتراک گذاشته شود. 'مرجع دیتاست فارسی' منبعی ارزشمند برای افرادی است که به دنبال دیتاست‌های فارسی با کیفیت و معتبر هستند. پس عضو شوید و از این منبع با ارزش بهره‌مند شوید.

مرجع دیتاست فارسی

23 Nov, 05:27


یه دیتاست فوق‌العاده برای علاقه‌مندان به پردازش زبان طبیعی و تشخیص نیت! دیتاست Persian ATIS شامل مکالمات و سوالات متنی به زبان فارسی و مرتبط با آژانس هواپیمایی است که به نیت‌ها و اسلات‌های مختلف برچسب‌گذاری شده‌اند. این مجموعه داده می‌تونه به شما کمک کنه تا مدل‌های یادگیری ماشین و تحلیل زبان طبیعی بهتری برای زبان فارسی بسازید.

📱 GitHub Repo

مرجع دیتاست فارسی

21 Nov, 12:58


سلام
معرفی دیتاست

تمام ویکیپدیا فارسی با ساختار و استفاده راحت
https://huggingface.co/datasets/codersan/Persian-Wikipedia-Corpus

مرجع دیتاست فارسی

19 Nov, 05:18


یک ابزار خوب برای استخراج کلمات کلیدی فارسی! این مجموعه کد برای شناسایی و استخراج کلمات کلیدی از متون فارسی طراحی شده است. این پروژه می‌تواند در زمینه‌های سئو، تولید محتوا، تحلیل متون و دیگر کاربردهای مرتبط با پردازش زبان فارسی بسیار مفید باشد.


📱 GitHub Repo

مرجع دیتاست فارسی

16 Nov, 12:24


تو این سایت می‌تونید مقالاتِ پولیِ مدیوم رو رایگان باز کنید. در واقع خودش اشتراکِ مدیوم خریده و از طریقِ این سایت در دسترسِ عموم قرار داده. مدیوم نقطه‌ضعف‌هاش رو حل کرده. تمامِ روش‌هایِ قدیمیِ دورزدن paywall از کار افتاده. فقط همین روش جواب می‌ده.

_Ayub Kokabi_

مرجع دیتاست فارسی

16 Nov, 12:23


Introduction to Bioimage Analysis

یک آموزش مثال محور با کلی شکل و تصویر و نمودار با کد
کسایی که به حوزه پردازش تصویر و تصاویر پزشکی علاقه مند هستند، این گنج از دست ندن

https://bioimagebook.github.io/index.html

مرجع دیتاست فارسی

09 Nov, 12:01


تو هر تخصصی که هستید می‌تونید با گذروندن این دوره کوتاه هم کلی چیز جدید یاد بگیرید هم یه مدرک بین‌المللی تو یه موضوع جذاب که تو هر رشته‌ای بکار میاد به رزومه تون اضافه کنید:

‏گوگل یه دوره آنلاین ۵ روزه از ۱۱ تا ۱۵ نوامبر داره که میتونه کمکتون کنه تا تکنولوژی‌ها و روش‌های پایه Gen AI رو خوب یاد بگیرید. این دوره رو تیم تحقیق و مهندسی ML گوگل طراحی کرده. هم مباحث نظری داره و هم تمرین‌های عملی کدنویسی، تا بتونید پروژه‌های جدید Gen AI رو شروع کنید.

مباحث این ۵ روز:
Day 1: Foundational Models & Prompt Engineering
Day 2: Embeddings and Vector Stores/Databases
Day 3: Generative AI Agents
Day 4: Domain-Specific LLMs
Day 5: MLOps for Generative AI

https://rsvp.withgoogle.com/events/google-generative-ai-intensive

منبع: توییتر اقای الله یاری

مرجع دیتاست فارسی

30 Oct, 05:41


مجموعه داده PersianSpeech شامل صدها ساعت داده گفتاری فارسی است که توسط گویندگان متنوع در شرایط مختلف ضبط شده‌است. این دیتاست با هدف کمک به توسعه سیستم‌های تشخیص گفتار فارسی و برنامه‌های پردازش زبان طبیعی تهیه شده است. شامل انواع مختلف جمله‌ها، کلمات و عبارت‌های گفتاری است که به تحقیقات و پروژه‌های مبتنی بر یادگیری ماشین و شبکه‌های عصبی در حوزه صوت کمک می‌کند. از این مجموعه داده می‌توان در پروژه‌های تشخیص گفتار، ترجمه ماشینی، و تجزیه و تحلیل صوت استفاده کرد.

📱 GitHub Repo

مرجع دیتاست فارسی

28 Oct, 05:40


کد مربوط به تاپیک مدلینگ برای متون کوتاه مثل توییت
همینطور ک می دونین کار روی short text اونم فارسی خیلی چالش داره...


📱 GitHub Repo

مرجع دیتاست فارسی

27 Oct, 06:33


دیتاست دیوان بزرگترین دیتاست متن باز شامل شبکه‌های اجتماعی

▪️دیتاست‌هایی که در پردازش زبان طبیعی (NLP) یا پردازش متن استفاده می‌شوند، شامل مجموعه‌ای از متون هستند که برای آموزش و ارزیابی مدل‌های یادگیری ماشین به کار می‌روند.

▪️مهم‌ترین ویژگی دیوان به عنوان گامی نو در پردازش زبان طبیعی فارسی، وجود حجم انبوهی از داده‌های شبکه‌های اجتماعی است که شامل متن‌های تکراری نیست. از نظر اندازه، ۱۰۰ میلیون رکورد داده از بسترهای مختلف جمع‌آوری شده است که در مجموع شامل بیش از ۸ میلیارد توکن است.

▫️در حال حاضر بسترهایی که در این دیتاست پوشش داده می‌شوند به شرح زیر هستند:
اخبار خبرگزاری‌ها
انواع بلاگ‌ها
توییر
اینستاگرام ( پست و کامنت)
تلگرام ( کانال و گروه)
دیجی کالا ( کامنت)
ایتا ( پست )
دیوار

https://huggingface.co/datasets/lifeweb-ai/Divan

مرجع دیتاست فارسی

26 Oct, 05:40


مجموعه داده جدید برای تشخیص کنایه در زبان فارسی!
این دیتاست منحصر به فرد شامل جملات فارسی است که به همراه برچسب‌های کنایه‌دار و غیرکنایه‌دار ارائه شده است. هدف این مجموعه داده، تسهیل فرایند تشخیص کنایه در متن‌های فارسی و بهبود مدل‌های پردازش زبان طبیعی (NLP) در این زمینه است. این دیتاست می‌تواند به پژوهشگران و علاقه‌مندان در حوزه هوش مصنوعی و تحلیل متن در توسعه الگوریتم‌ها و مدل‌های تشخیص کنایه کمک کند.

📱 GitHub Repo

مرجع دیتاست فارسی

23 Oct, 05:39


دوره آموزشی کامل و رایگان NLP و فوق خفن پر از شکل و مثال

این دوره به صورت جامع و رایگان شما را با مبانی و مفاهیم پیشرفته پردازش زبان طبیعی (NLP) آشنا می‌کنه. منابع و محتوای آموزشی به صورت تصویری و متنی ارائه شدن و از مقدماتی تا پیشرفته رو پوشش می‌دهد. این دوره برای دانشجویان، محققان و توسعه‌دهندگان علاقه‌مند به شناخت و بهبود تکنیک‌های NLP مفید و کاربردی هست. همین حالا شروع به یادگیری کن!

📱 GitHub Repo

مرجع دیتاست فارسی

21 Oct, 05:39


ابزار شناسایی واژگان غیرقانونی

این پروژه از تکنیک‌های پردازش زبان طبیعی (NLP) برای شناسایی و تشخیص واژگان غیرقانونی در متن استفاده می‌کند. هدف از این ابزار، کمک به توسعه‌دهندگان، مدیران محتوا و محققان در شناسایی سریع و کارآمد محتوای غیرقانونی یا نامناسب است.
از این ابزار می‌توان در پروژه‌های مرتبط با نظارت بر محتوا، فیلترینگ خودکار و تحلیل داده‌ها استفاده کرد.
برای کسب اطلاعات بیشتر و دسترسی به کد منبع این ابزار به لینک زیر مراجعه کنید:

📱 GitHub Repo

مرجع دیتاست فارسی

19 Oct, 13:28


🍻 دومین دورهمی هوش مصنوعی دیتاهاب (اصفهان)

📗موضوع: درآمد دلاری از طریق هوش مصنوعی (صفر تا صد Remote jobs)

قراره بهتون توی این جلسه یاد داده بشه چطور از کنج اتاقتون، با هر شرکتی توی هر کشوری کار کنید و دلاری دستمزد بگیرین.

لینک ثبت نام
کد تخفیف 80 درصدی: datahub

🗓 چهار شنبه، 2 آبان، ساعت 15 تا 17
🏦 اصفهان - دروازه شیراز - دانشگاه اصفهان - جنب رستوران یاس 1 - ساختمان مرکز رشد علوم انسانی

📛 توجه: برای شرکت در رویداد، ثبت نام ضروری هست.

❇️@data_hub_ir
❇️data-hub.ir
❇️Linkedin
❇️09938013176

مرجع دیتاست فارسی

19 Oct, 05:39


راه اندازی ربات پاسخ گو به سوالات حقوقی فارسی

این ربات به کاربران امکان می‌دهد که سوالات حقوقی خود را به صورت مستقیم از طریق چت مطرح کنند و پاسخ‌های دقیق و متناسب با قوانین موجود دریافت کنند. این ابزار می‌تواند در وب‌سایت‌ها و اپلیکیشن‌های مشاوره حقوقی مورد استفاده قرار بگیرد تا تجربه‌ی کاربران بهبود یافته و به سوالات آنان به سرعت پاسخ داده شود.
از این ربات می‌توان در پروژه‌های مختلفی نظیر پلتفرم‌های مشاوره حقوقی آنلاین، اپلیکیشن‌های موبایل، و حتی سیستم‌های داخلی شرکت‌ها و سازمان‌ها بهره برد.

📱 GitHub Repo

مرجع دیتاست فارسی

16 Oct, 05:39


ابزار خفن وب‌اسکرپینگ برای جمع‌آوری داده‌های سایت جاباما! این ابزار به شما کمک می‌کند تا به صورت خودکار اطلاعات مربوط به اقامتگاه‌ها، قیمت‌ها، موقعیت‌ها و نظرات کاربران را از سایت جاباما استخراج کنید. این پروژه به‌ویژه برای توسعه‌دهندگان، محققان حوزه داده‌کاوی و تحلیل‌گران بازار مکانیابی مناسب است. از این ابزار می‌توانید در پروژه‌های تحلیل داده، مقایسه قیمت و حتی پیشنهادهای سفر استفاده کنید.

📱 GitHub Repo

مرجع دیتاست فارسی

14 Oct, 05:38


پکیج کاربردی PersianUtils، مجموعه‌ای از ابزارها و کتابخانه‌های متنوع برای کار با متون و داده‌های فارسی (آچار فرانسه ای هست واسه خودش)

📱 GitHub Repo

مرجع دیتاست فارسی

12 Oct, 05:47


بختت ایرانی...ک مجبوری با چنین ابزارهایی آشنا بشی

یک ابزار کارآمد برای بررسی فیلترینگ اینترنت! 🎯 این مخزن شامل اسکریپت‌هایی است که به شما کمک می‌کنند تا فیلترینگ و مسدود شدن وب‌سایت‌ها را از طریق سرورهای مختلف بررسی کنید. 🤖 ابزار CheckFiltering می‌تواند به محققان، توسعه‌دهندگان وب و فعالان حوزه اینترنت یاری کند تا وضعیت دسترسی به وب‌سایت‌ها را در مناطق مختلف جهان بسنجند. 🌍📊

از این ابزار می‌توان در پروژه‌های مانیتورینگ اینترنت، تحلیل ترافیک و ارزیابی تاثیر فیلترینگ استفاده کرد. 🚀

📱 GitHub Repo

مرجع دیتاست فارسی

09 Oct, 05:37


اگر به استخراج عبارات کلیدی از متون علاقه‌مند هستید، این پروژه برای شماست!
پروژه KeyPhrase_Extraction شامل الگوریتم‌های مختلف برای شناسایی و استخراج عبارات کلیدی از متون فارسی می‌باشد. این می‌تواند برای پژوهشگران و توسعه‌دهندگان که در حوزه پردازش زبان طبیعی (NLP) کار می‌کنند، بسیار مفید باشد.
از این پروژه می‌توانید در تحلیل متون، خلاصه‌سازی خودکار و بهبود موتورهای جستجو بهره ببرید.

📱 GitHub Repo

مرجع دیتاست فارسی

07 Oct, 05:37


مقاله AACL چاپ شده و نیاز به تعریف نداره و کدش هم موجوده، دید خوبی میده ک چ سطح کاری باید انجام داده بشه تا توی چنین جاهایی چاپ بشه.

📱 GitHub Repo

مرجع دیتاست فارسی

05 Oct, 05:36


تازگی این مدل بحث ها مد شده و راحت میشه مقاله داد، خیلی مورد پسند دوستان چپ و دموکرات هستش...

این مخزن گیت‌هاب حاوی مجموعه‌ای از ابزارها و منابع برای مطالعه و شناسایی سوگیری‌ها در پردازش زبان طبیعی (NLP) است. این ابزارها به شما کمک می‌کنند تا مدل‌های یادگیری ماشین خود را از لحاظ وجود سوگیری‌های مختلف بررسی کرده و آن‌ها را بهبود بخشید. از این منابع می‌توانید در پروژه‌های تحقیقاتی، توسعه مدل‌های NLP و همچنین در جلوگیری از تبعیض و بی‌عدالتی در کاربردهای مختلف زبان‌شناسی رایانشی بهره ببرید. برای اطلاعات بیشتر و دسترسی به کدها، به لینک زیر مراجعه کنید:

📱 GitHub Repo