يقول CloudFlare إن الحيرة تستخدم روبوتات خلسة وكسر توجيهات موقع الويب لجلب البيانات.

يقال إن الحيرة هي الوصول إلى المحتوى بشكل غير شرعي من مواقع الويب على الرغم من حظرها من القيام بذلك. أجرت CloudFlare ، وهي شركة عالمية لخدمات أمان الويب ، اختبارًا لتأكيد السلوك الشبح لشركة محرك الإجابة. أبرز الباحثون أنه لم يكن فقط روبوتات الزاحف من الحيرة التي تتجاهل التوجيهات من مواقع الويب ، ولكنهم كانوا أيضًا يختبئون بنشاط هويتهم عبر وسائل متعددة لضمان عدم تمكن أصحاب المواقع من تتبع النشاط. تمكنت CloudFlare أيضًا من إيجاد طريقة لإغلاق جهود شركة الذكاء الاصطناعي (AI) بنجاح.
Cloudflare يمسك بالتكتيكات الخلسة في الحيرة في العمل
في منشور المدونة، ادعى منصة أمان الويب أن الحيرة كانت متورطة في أنشطة “زحف الشبح”. وأضاف المنشور: “نرى أدلة مستمرة على أن الحيرة تعمل مرارًا وتكرارًا على تعديل وكيل المستخدم وتغيير مصدرها ASNs لإخفاء نشاطهم الزاحف ، وكذلك تجاهل – أو في بعض الأحيان حتى في جلب ملفات Robots.txt”.
قبل الخوض في سلوك الحيرة ، من المهم أن نفهم كيفية عمل النظام بأكمله. يضيف أصحاب مواقع الويب المحتوى معلومات ، وخدمات الطرف الثالث مثل محركات البحث التي تجلب هذه البيانات لفهرسة هذه المواقع وجعلها تظهر عند كتابة استعلام ذي صلة. بعض التطبيقات والمواقع الإلكترونية تتخلص من مواقع الويب إما لتسطحها داخل الواجهة أو جمع البيانات بإذن.
ومع ذلك ، بالنسبة لهذه العلاقة بين مواقع الويب والزحف إلى العمل ، يجب أن تكون هناك ثقة. تم تأسيسها من قبل هذه الروبوتات بعد مجموعة من القواعد عند تزحف أي موقع ويب. تملي هذه القواعد أن نشاط الروبوتات يجب أن يكون شفافًا ، ويجب أن تخدم غرضًا واضحًا وأن يؤدي نشاطًا محددًا فقط ، ويجب أن يتبعوا توجيهات وتفضيلات الموقع. لذلك ، إذا قام موقع الويب بحظر الروبوت ، فلا ينبغي أن يزحف موقعه على الويب.
وفقًا للباحثين في CloudFlare ، تحطم Perplexity هذا النموذج الثقة باستخدام تكتيكات الشبح لتكشفي بيانات موقع الويب حتى من تلك المواقع التي تمنع بشكل صريح روبوتاتها المعلنة-PerplexityBot ومستخدمها في الحيرة. تمكن الباحثون من تأكيد هذا النشاط من خلال إنشاء نطاقات اختبار جديدة.
لم يتم فهرسة هذه المجالات بواسطة أي محرك بحث أو يمكن الوصول إليه أو يمكن اكتشافه للجمهور. بالإضافة إلى ذلك ، قام الباحثون بتطبيق ملف robots.txt (ملف نصي تستخدمه مواقع الويب لإعطاء إرشادات لزحفات الويب) لمنع جميع الروبوتات من الوصول إلى أي جزء من الموقع.
بعد ذلك ، ذهب باحثو CloudFlare إلى الحيرة وسألوه أسئلة محددة حول هذه المجالات التي تم إنشاؤها حديثًا. ووجدوا أنه على الرغم من اتباع بروتوكولات الإنترنت لمنع نشاط الزحف ، فإن الحيرة كانت لا تزال قادرة على تسهيل معلومات مفصلة حول هذه المواقع.
تدعي CloudFlare أن وكلاء المستخدمين في الحيرة أو زحف الويب يتخذون عدة خطوات لتجاوز توجيهات المواقع الإلكترونية والوصول إلى البيانات. إذا تم رفض وصول وكيل المستخدم المعلن عن الوصول عبر robots.txt ، فإنه يتجاهله ويستمر في كشط البيانات. إذا قام موقع الويب بتطبيق جدار حماية تطبيق الويب (WAF) لحظر الروبوت ، فإن الشركة تستخدم وكيل متصفح عام يهدف إلى انتحال شخصية Google Chrome أو MacOS.
يقال إن هذا الروبوت غير المعلن يستخدم أيضًا IPs المتعددة غير المدرجة في نطاق IP الرسمي في Perplexity لخداع موقع الويب. لإخفاء مساراتها ، قيل إن هذه الزحف تستخدم أرقام النظام التلقائي المختلفة. والجدير بالذكر أن Cloudflare ذكرت أنه عندما تم إيقاف هذه الروبوتات غير المعلنة بنجاح ، انخفضت جودة استجابات الحيرة ، حيث بدأت تعتمد على مصادر بيانات أخرى للرد على الاستعلام.
وقالت CloudFlare إن نظام إدارة BOT الخاص به كان قادرًا على تسجيل جميع نشاط الزحف غير المعلن من وكلاء المستخدمين المخفيين في Perplexity وهو الآن يحمي جميع عملاء إدارة BOT تلقائيًا. بالإضافة إلى ذلك ، أضافت الشركة مباريات توقيع للزاحف إلى القاعدة المدارة ، والتي تمنع نشاط الزحف من الذكاء الاصطناعي. هذا متاح لجميع مستخدمي CloudFlare ، بما في ذلك تلك الموجودة على الطبقة المجانية.