صحي من النوم على موقع شركته واقع وفريق الشركة بيجري ورا بعضه مش فاهم ايه اللي بيحصل..
بس اكتشفوا.. ان ChatGPT بيحاول يبلع كل بايت داتا من موقعهم!!!! 👀
بعد ما فاق من الصدمة
بدأ فريق الشركة Triplegangers
يكتشف حاجات مرعبة:
1. السبب ورا المشكلة
ان العناكب الرقمية بتاعت OpenAI
اللي بتتمشى في الانترنت وبتجنع الداتا من المواقع عشان الشركة تستخدمها ف تدريب نماذج الذكاء الاصطناعي بتاعتها، بتحاول تعمل داونلود لنوقع الشركة بالكامل
2. ده معناه ان العناكب Crawlers دي
بتحاول تعمل داونلود لأكتر من 65 ألف صورة
بدقة عالية جدا، وكل الوصف النصي بتاع كل واحدة منهم
3. دي كارثة ف حد ذاتها لان الصور دي بتاعت
أجسام بشر حقيقيين معمولها Scan بكل تفاصيلها وأجواءها من ايدين ورجلين ووجوه وشعر وجلد وحتى الندبات الجروح التجاعيد الوحمات وكل مللي متر من أجسامهم حرفيا
(الموقع ده متخصص في بيع مجسمات رقمية لكل أشكال البشر بتنوعاتها للمصممين وبتوع الجيمز والسينما والجرافيكس اللي بيحتاجوا مودلز رقمية ف شغلهم )
فطبعا تحميل الداتا دي اختراق مرعب لخصوصية ناس حقيقيين 🥶
4. فريق الشركة اكتشف ان OpenAI
استخدمت حوالي 600 رقم تعريفي IP Address
عشان تعمل تحميل للداتا دي كلها في نفس الوقت
5. الشركة اتصدمت بعد بتاع 5 أيام من التحميل المستمر للداتا دي كلها ان فاتورة استخدامها لسيرفرات أمازون AWS ضربت في 10 بسبب كم التحميلات المهول اللي بيحصل، واللي معدي بكتييير معدل الاستهلاك اللي الموقع متعود عليه من سنين!!
صاحب الشركة معرفش حتى يكلم OpenAI
عسان يفرملوا عناكبهم ولكنه لجأ للطريقة
اللي وقفت العناكب نفسها مباشرة..
وهي ملف ال robot.txt🤖
وده ملف مفروض بترميه مواقع الويب في قلب الكود بتاعها عشان تكلم العناكب اللي جاية من شركات كتيرة عشان تسحب داتا من المواقع دي وتقولها ايه الداتا المسموح انها تاخدها وايه لأ..
وبالمناسبة،
الشركات اللي بتبعت عناكبها دي
مش ملزمة قانونا انها تحترم حتى تعليمات الrobot.txt دي.. بس من حسن حظ الشركة ان عناكب OpenAI فهمت.. وبطلت اللي بتعمله.. ع الاقل لحد دلوقتي!