مهندسی و علم داده @bimining Channel on Telegram

مهندسی و علم داده

@bimining


در مورد ادمین کانال :
- محمد عالیشاهی
- دکترای هوش مصنوعی دانشگاه تهران
- مدیر ارشد پروژه های هوش مصنوعی و علم داده
@MAALISHI


آدرس سايت:
http://BIMining.ir

مهندسی و علم داده (Persian)

با خوشامدگویی به همگان، معرفی کانال 'مهندسی و علم داده' را آغاز می‌کنیم. این کانال تلگرامی به رهبری کارشناسان برجسته‌ی علوم داده و مهندسی اطلاعات می‌باشد. اگر به دنبال اخبار، مقالات، آموزش‌ها و جدیدترین تکنولوژی‌های این حوزه هستید، بهتر است این کانال را به لیست دنبال‌های خود اضافه کنید. nnامروزه کاربردهای مهندسی و علم داده در حوزه‌های مختلفی از جمله تجارت، پزشکی، مهندسی، حقوق و ... بسیار گسترده شده است. این کانال با هدف به اشتراک گذاری دانش و تجربیات ارزنده در این زمینه تاسیس شده است. nnادمین کانال 'مهندسی و علم داده'، محمد عالیشاهی است. او دارای دکترای هوش مصنوعی از دانشگاه تهران بوده و به عنوان مدیر ارشد پروژه‌های هوش مصنوعی و علم داده فعالیت می‌کند. مشتاقانه منتظر به اشتراک گذاری دانش و تجربیات خود در این حوزه هستیم. nnبرای کسب اطلاعات بیشتر و دسترسی به منابع آموزشی مفید، می‌توانید وب‌سایت کانال را به آدرس http://BIMining.ir مراجعه کنید. nnما در 'مهندسی و علم داده' منتظر حضور فعال و موثر شما هستیم. با ما همراه باشید و از آخرین اخبار و تحولات در دنیای مهندسی و علم داده باخبر شوید.

مهندسی و علم داده

21 Nov, 07:25


مقایسه روش‌های HTTP GET و POST در ۱۰ ثانیه:

فراخوانیGET و POST از روش‌های پرکاربرد پروتکل HTTP هستند که هر یک اهداف خاصی دارند.GET عمدتاً برای دریافت داده‌ها از سرور استفاده می‌شود. در این روش، پارامترها به صورت رشته‌های کوئری در URL گنجانده می‌شوند، که برای بازیابی داده بدون تأثیر بر وضعیت سرور مناسب است.

ویژگی‌هایGET
۱. داده‌های قابل مشاهده: پارامترها در URL قابل مشاهده‌اند و برای اطلاعات حساس مناسب نیستند.
۲. ایدمپوتنت: تکرار درخواست GET وضعیت سرور را تغییر نمی‌دهد.
۳. قابلیت کش: مرورگرها می‌توانند درخواست‌های GET را کش کنند.
۴. محدودیت طول: URLها محدودیت اندازه دارند.POST برای ارسال داده به سرور طراحی شده و داده‌ها در بدنه درخواست قرار دارند.

ویژگی‌های POST
۱. داده‌های پنهان: پارامترها در بدنه درخواست قرار دارند و امنیت بیشتری فراهم می‌کنند.
۲. غیر ایدمپوتنت: هر درخواست POST ممکن است منابع را ایجاد یا تغییر دهد.
۳. غیر قابل کش به طور پیش‌فرض: پاسخ‌های POST نیاز به پیکربندی صریح دارند.
۴. بارهای انعطاف‌پذیر: POST از بارهای بزرگ‌تر و انواع محتوای مختلف مانند JSON و XML پشتیبانی می‌کند.
@BIMining

مهندسی و علم داده

19 Nov, 06:07


ما دراینجا به بررسی عمیق نحوه مدیریت میلیون‌ها پیام در ثانیه توسط Kafka می پردازیم. این معماری شامل اجزای اصلی ذیل است:
1. لایه شبکه
پذیرنده Threade: مدیریت اتصالات ورودی
پردازشگر Threade: مدیریت درخواست‌های مشتری به‌طور مؤثر
کانال درخواست: مسیر ارتباطی مرکزی

2. لایه API
بخش Threade API : پردازش عملیات مشتری
درخواست Purgatory: مدیریت درخواست‌های معلق
اطلاعات رپلیکیشن: پیگیری سازگاری داده‌ها

3.زیرسیستم لاگ
لاگ‌های پارتیشن: محل واقعی داده‌ها
مدیر لاگ: هماهنگی عملیات لاگ
ادغام سیستم فایل: تضمین دوام

4. زیرسیستم رپلیکیشن:
مدیر رپلیکا: هماهنگی کپی‌های داده
رپلیکیشن Threade: مدیریت همگام‌سازی داده
کنترل‌کننده رپلیکیشن: حفظ سازگاری

@BIMining

مهندسی و علم داده

10 Nov, 06:01


حضور دکتر عالیشاهی در برنامه پرسشگر شبکه آموزش .
شروع برنامه ساعت ۱۰ شب پخش زنده

لینک برنامه ضبط شده:
https://telewebion.com/episode/0xff9b5bc

مهندسی و علم داده

06 Nov, 11:05


درک ساده‌ی ETL، ELT و EtLT
فرایندهای ETL، ELT و EtLT برای جمع‌آوری، پردازش و ذخیره‌سازی داده‌ها هستند. این روش‌ها برای آماده‌سازی داده‌ها برای تحلیل و تصمیم‌گیری استفاده می‌شوند.

روش ETL (Extract, Transform, Load) در این روش، ابتدا داده‌ها از منابع مختلف استخراج می‌شوند، سپس تبدیل شده و در نهایت به یک انبار داده بارگذاری می‌شوند. به عبارت ساده، داده‌ها قبل از ذخیره‌سازی پردازش کامل می‌شوند.
روش ELT (Extract, Load, Transform) برعکس ETL، در این روش داده‌ها ابتدا به صورت خام به انبار داده منتقل شده و سپس در آنجا پردازش می‌شوند. این روش انعطاف‌پذیری بیشتری برای تغییرات آینده دارد.
روشEtLT (Extract, (small transform), Load, Transform) این روش ترکیبی از ETL و ELT است. بخشی از پردازش داده‌ها قبل از بارگذاری و بخشی دیگر بعد از آن انجام می‌شود.

@BIMining

مهندسی و علم داده

05 Nov, 08:34


شش سبک معماری API و زمان استفاده از هر کدام:
1.SOAP مناسب برای برنامه‌های سازمانی که به پروتکل استاندارد و امن نیاز دارند. ویژگی‌های قوی امنیتی و نوع‌دهی آن را برای محیط‌های پیچیده و تنظیم‌شده ایده‌آل می‌کند.
2.RESTful بر سادگی و مقیاس‌پذیری تمرکز دارد و برای خدمات وب، به ویژه برنامه‌های عمومی، مناسب است. طراحی بدون حالت و مبتنی بر منبع آن، ارتباط مؤثری بین مشتری و سرور امکان‌پذیر می‌سازد.
3.GraphQLبهترین گزینه برای سناریوهایی که نیاز به بازیابی داده‌های انعطاف‌پذیر دارند. مشتریان می‌توانند داده‌های دقیق مورد نیاز خود را مشخص کنند و از بارگیری بیش از حد یا کم‌تر از حد جلوگیری کنند.
4.gRPCبرای ارتباط با عملکرد بالا و تأخیر کم طراحی شده است و معمولاً در معماری‌های میکروسرویس‌ها استفاده می‌شود. این پروتکل از سریال‌سازی مؤثر و استریم دوطرفه پشتیبانی می‌کند.
5.WebSockets برای ارتباطات بلادرنگ و دوطرفه در برنامه‌هایی مانند چت و بازی‌های آنلاین عالی است. اتصالات پایدار به‌روزرسانی‌های فوری داده‌ها را ممکن می‌سازد.
6.Webhooks در سیستم‌های مبتنی بر رویداد که برای اعلان‌ها و اقدامات خودکار ایده‌آل است.


@BIMining

مهندسی و علم داده

09 Oct, 06:01


لینک سخنرانی با موضوع "کاربرد هوش مصنوعی در صنعت بانکی ایران" در دانشگاه تربیت مدرس.
بهمراه فایل ارائه.
امیدوارم مفید باشه.

https://vclass4.modares.ac.ir/playback/presentation/2.3/4ce64d2c1848a76c81bdad8e54c630dda276cf6f-1728380537414




@BIMining

مهندسی و علم داده

05 Oct, 16:41


سخنرانی اینجانب در دانشگاه تربیت مدرس با موضوع کاربرد هوش مصنوعی در صنعت بانکی ایران
زمان: سه شنبه مورخ 1403/07/17
ساعت ۱۳-۱۵
لینک مجازی :https://vclass4.modares.ac.ir/rooms/xor-jsf-qhf-gh0/join
@BIMining

مهندسی و علم داده

22 Sep, 13:40


بهترین ابزارهای Data Science بدون کدنویسی:
✍️ابزار Gigasheet:
- ابزاری بدون کد مبتنی بر مرورگر برای تجزیه و تحلیل داده‌ها در مقیاس بزرگ.
- از هوش مصنوعی برای انجام تجزیه و تحلیل داده‌ها استفاده می‌کند.
- شبیه ترکیبی از Excel و Pandas بدون محدودیت‌های مقیاس.
- تجزیه و تحلیل تا ۱ میلیارد رکورد
✍️ابزار Mito:
- ایجاد یک رابط صفحه‌گسترده در Jupyter Notebook.
- از هوش مصنوعی Mito برای انجام تجزیه و تحلیل داده‌ها استفاده می‌کند.
- به‌طور خودکار کد پایتون برای هر تجزیه و تحلیل تولید می‌کند.
✍️ابزار PivotTableJS
- ایجاد جداول محوری، تجمیع‌ها و نمودارها
✍️ ابزار Drawdata
- ایجاد هر مجموعه داده پراکنده ۲ بعدی با کشیدن ماوس.
✍️ابزار PyGWalker
- تجزیه و تحلیل یک DataFrame همانند Tableau.
✍️ابزار Visual Python
- تولیدکننده کد پایتون مبتنی بر GUI.
✍️ ابزار Tensorflow Playgroun
- تغییر داده‌ها، معماری مدل، هایپرپارامترها و غیره با کلیک بر روی دکمه‌ها.
✍️ابزار ydata-profilingا
- اطلاعاتی درباره مقادیر گمشده، آمار داده‌ها، همبستگی، تعاملات داده را پوشش می‌دهد.
@BIMining

مهندسی و علم داده

16 Sep, 05:46


مقایسه دو روش پردازش داده، یعنی "پردازش دسته‌ای" (Batch Processing) و "پردازش جریانی" (Stream Processing) :

1. جمع‌آوری داده‌ها:
• پردازش دسته‌ای: داده‌ها را در طول زمان جمع‌آوری می‌کند.
• پردازش جریانی: داده‌ها را به محض ورود پردازش می‌کند.
2. مدیریت داده‌ها:
• پردازش دسته‌ای: به پردازش دسته‌های بزرگ داده می‌پردازد.
• پردازش جریانی: رکوردهای فردی یا میکرو دسته‌ها را مدیریت می‌کند.
3. پردازش داده:
• پردازش دسته‌ای: بر روی تمامی یا اکثر داده‌ها پردازش انجام می‌دهد.
• پردازش جریانی: بر روی داده‌ها در یک پنجره متحرک یا داده‌های اخیر پردازش می‌کند.
4. عملکرد:
• پردازش دسته‌ای: تأخیر بین دقیقه تا ساعت دارد.
• پردازش جریانی: تأخیر بین ثانیه تا میلی‌ثانیه دارد.
5. هدف:
• پردازش دسته‌ای: برای حجم‌های بزرگ داده که زمان حساس نیستند، طراحی شده است.
• پردازش جریانی: برای داده‌های حساس به زمان که نیاز به نتایج فوری دارند، استفاده می‌شود.


@BIMining

مهندسی و علم داده

03 Sep, 03:51


کاربرد کتابخانه های پایتون


@BIMining

مهندسی و علم داده

21 Aug, 05:44


روند توسعه و تکامل اکوسیستم های کلان داده از 20 سال پیش تاکنون در یک نگاه

@BIMining

مهندسی و علم داده

10 Jul, 07:00


استخدام مهندس داده با شرایط ذیل در یک شرکت معتبر بانکی با شرایط پرداخت حقوق و مزایای مناسب و عالی :

@BIMining

1- مسلط به ابزار دیتابیس Click House
2-آشنایی با ابزار Apache Redis
3-آشنا با اکوسیستم های بیگ دیتا و NO SQL مانند Hadoop و Hive و SPARK SQL

✍️حداقل داشتن مدرک کارشناسی در رشته مهندسی کامپیوتر،علوم کامپیوتر یا مهندسی صنایع و رشته های مرتبط
✍️درصورت تمایل به همکاری رزومه خود را به ایمیل ذیل ارسال نمائید:
[email protected]

مهندسی و علم داده

04 Jun, 19:21


مقایسه Data Warehouse و Data Lake و Date lakehouse بصورت شماتیک

@BIMining

مهندسی و علم داده

08 May, 12:09


رونمایی از پایگاه داده Oracle 23 AI :
✍️یکی از مهمترین ویژگی که آقای لری الیسون مدیرعامل کمپانی اوراکل در مورد این پایگاه داده جدید به آن اشاره کرد جستجوی برداری هوش مصنوعی (AI Vector Search) است که در این پایگاه داده رونمایی شده است این قابلیت به شما امکان می‌دهد تا با استفاده از الگوهای مشابه بجای کلیدواژه‌های دقیق، به داده‌ها دسترسی پیدا کنید. این امر می‌تواند برای یافتن روابط پنهان در داده‌ها و تجزیه و تحلیل‌های پیچیده‌تر مفید باشد.
در این روش، به جای اینکه به دنبال تطابق کلمات کلیدی باشید، می‌توانید به دنبال الگوهای مشابه در بردارها باشید. این امر می‌تواند برای یافتن نتایج مرتبط‌تر، به خصوص زمانی که به دنبال مفاهیم پیچیده یا ظریف هستید، مفید باشد.
کاربردها :
✍️جستجوی معنایی: یافتن اسناد یا وب‌سایت‌هایی که با یک موضوع یا ایده خاص مرتبط هستند، حتی اگر کلمات کلیدی دقیقی را در عنوان یا محتوای خود نداشته باشند.
✍️توصیه محتوا: پیشنهاد فیلم‌ها، موسیقی، کتاب‌ها یا محصولات دیگر بر اساس علایق کاربر.
✍️تجزیه و تحلیل احساسات: تعیین اینکه یک متن یا سخنرانی چه احساسی را (مثبت، منفی، خنثی) منتقل می‌کند.
@BIMining

مهندسی و علم داده

21 Apr, 10:51


معرفی چند #افزونه #هوش_مصنوعی در گوگل کروم

1. Gemini for Google
🔗 لینک : https://lnkd.in/dvjvzJkm
معرفی افزونه Gemini for Google:
این افزونه‌ی باحال، پاسخ‌های Gemini (هوش مصنوعی خفن گوگل) رو در کنار نتایج موتورهای جستجو مثل گوگل نمایش میده.

2. Sidebar AI(Google Gemini/Copilot/ChatGPT)
🔗 لینک : https://lnkd.in/dUbtP_NA
معرفی افزونه Sidebar AI:
گشت و گذار توی اینترنت با هوش مصنوعی جذاب‌تر کن! با یه کلیک به هوش مصنوعی جمینای، چت‌ جی پی تی و بقیه‌ی هوش مصنوعی های باحال‌‌ تو نوار کناری کروم دسترسی داشته باش و خیلی راحت تو همون صفحه ازشون کمک بگیر!

3. ChatGPT Sidebar & GPT-4 Vision Gemini
🔗 لینک : https://lnkd.in/dTcUkD4v
با کمک این افزونه در هر جای وب، پرواز کنید! ✈️
معرفی افزونه ChatGPT Sidebar:
فرض کن در حال خواندن یک مقاله هستی و ناگهان سوالی به ذهنتون خطور می‌کند؛ یا در حال نوشتن یک ایمیل مهم هستید و به دنبال کلمات مناسب می‌گردید.
ChatGPT Sidebar اینجاست تا به شما کمک کنه!


@BIMining

مهندسی و علم داده

14 Apr, 13:06


5 کاربرد خیلی مهم Apache Kafka :
آپاچی کافکا یک پلت فرم استریم توزیع شده منبع باز است که توان عملیاتی بالا، مقیاس پذیری، تحمل خطا و دوام آن را برای برنامه های داده بلادرنگ ایده آل می کند.
𝗗𝗮𝘁𝗮 𝘀𝘁𝗿𝗲𝗮𝗺𝗶𝗻𝗴
پردازش و تجزیه و تحلیل سریع داده ها را در حین تولید امکان پذیر می کند.

𝗠𝗲𝘀𝘀𝗮𝗴𝗲 𝗾𝘂𝗲𝘂𝗶𝗻𝗴
کافکا توزیع پیام کارآمد را بدون گلوگاه تسهیل می کند. این امر کافکا را برای معماری‌های میکروسرویس‌های پیچیده ایده‌آل می‌کند، که از پردازش داده‌های با توان بالا و تحمل خطا پشتیبانی می‌کند.
𝗟𝗼𝗴 𝗮𝗻𝗮𝗹𝘆𝘀𝗶𝘀
پردازش متمرکز گزارش‌ها از چندین منبع با استفاده از کافکا برای تجمیع گزارش‌ها و تجزیه و تحلیل بلادرنگ امکان‌پذیر است.

𝗖𝗵𝗮𝗻𝗴𝗲 𝗱𝗮𝘁𝗮 𝗰𝗮𝗽𝘁𝘂𝗿
معماری‌های داده‌های مدرن اغلب به CDC از طریق ابزاری مانند کافکا نیاز دارند، زیرا سیستم را همگام نگه می‌دارد و عملکرد منبع را حفظ می‌کند.
سازگاری را تضمین می کند و برنامه های کاربردی رویداد محور را با داده های فعلی تسهیل می کند.
𝗘𝘃𝗲𝗻𝘁 𝘀𝗼𝘂𝗿𝗰𝗶𝗻𝗴
کافکا قابلیت حسابرسی، پخش مجدد رویدادها و سادگی ساخت سیستم پیچیده را دارد.
@BIMining

مهندسی و علم داده

25 Mar, 09:41


بهترین ابزارهای هوش مصنوعی 2024

@BIMining

مهندسی و علم داده

09 Mar, 13:44


مراحل برای Fine-tune کردن یک مدل زبانی بزرگ مانند Gemma، GPT-3 یا LaMDA :

✍️مرحله 1: انتخاب مدل زبانی مناسب:
-نیازهای خود را مشخص کنید: وظیفه ای که می خواهید مدل انجام دهد را مشخص کنید.
-مدل های مختلف را بررسی کنید: مدل های مختلفی مانند Gemma، GPT-3 و LaMDA وجود دارند که هر کدام مزایا و معایب خود را دارند.
-منابع خود را در نظر بگیرید: مدل های بزرگ زبانی به منابع محاسباتی زیادی نیاز دارند.

✍️مرحله 2: آماده سازی داده:
-جمع آوری داده: داده های مرتبط با وظیفه مورد نظر خود را جمع آوری کنید.
-پاکسازی داده: داده ها را از نظر نویز و خطاها پاکسازی کنید.
-برچسب گذاری داده: داده ها را بر اساس وظیفه مورد نظر خود برچسب گذاری کنید.

✍️مرحله 3: تنظیم مدل:
-انتخاب پارامترهای تنظیم: پارامترهایی مانند نرخ یادگیری، تعداد epoch ها و اندازه دسته را انتخاب کنید.
-انتخاب تابع از دست دادن: تابعی را برای ارزیابی عملکرد مدل انتخاب کنید.
-انتخاب الگوریتم بهینه سازی: الگوریتمی را برای بهینه سازی پارامترهای مدل انتخاب کنید.

✍️مرحله 4: آموزش مدل:
-مدل را آموزش دهید: مدل را با استفاده از داده های آماده شده آموزش دهید.
-پیشرفت مدل را رصد کنید: پیشرفت مدل را در طول آموزش رصد کنید.
-در صورت نیاز تنظیمات را تغییر دهید: در صورت نیاز پارامترها و تنظیمات را تغییر دهید.

✍️مرحله 5: ارزیابی مدل:
-مدل را ارزیابی کنید: عملکرد مدل را بر روی داده های تست ارزیابی کنید.
-مدل را با مدل های دیگر مقایسه کنید: عملکرد مدل را با مدل های دیگر مقایسه کنید.
-در صورت نیاز مدل را دوباره آموزش دهید: در صورت نیاز مدل را با داده های بیشتر یا تنظیمات متفاوت دوباره آموزش دهید.

@BIMining

مهندسی و علم داده

07 Jan, 12:25


✍️ترجمه کتاب ظهور لیک هاوس داده

✍️این کتاب به جزئیات پیاده‌سازی پلتفرم لیک‌هاوس Databricks و بارکدهای مختلف آن، شامل مهندسی داده، انبار داده، جریان داده، علم داده و یادگیری ماشین، می‌پردازد.
اگر شما تازه وارد دنیای لیک‌هاوس شده باشید یا از قابلیت‌های آن آشنایی داشته باشید، این کتاب برای هر کسی که می‌خواهد حداکثر استفاده را از استراتژی مدیریت داده خود ببرد، باید مطالعه شود.

✍️در ضمن چاپ این کتاب با همکاری یکی از بانکهای بزرگ کشور بهمراه یک موسسه انتشاراتی چاپ کتاب انجام خواهد شد.
امیدوارم مفید باشد.
محمد عالیشاهی
مدیر پروژه های هوش مصنوعی و پردازش زبان طبیعی
@BIMining

BIMining.ir

4,048

subscribers

357

photos

172

videos