บล็อก Spider ที่มีประสิทธิภาพสำหรับ WordPress

หากไม่ใช่สไปเดอร์เราจะไม่สามารถค้นหา Google เพื่อค้นหาเนื้อหาเว็บ สไปเดอร์เป็นหุ่นยนต์ที่กัดเซาะเว็บและทำดัชนีทุกอย่างที่พวกเขาพบดังนั้นเมื่อคุณต้องการค้นหาบทความบน WordPress มันรู้ว่าบทความเหล่านั้นอยู่ที่ไหนและสามารถนำคุณไปยังพวกเขาได้ อย่างไรก็ตามคุณไม่จำเป็นต้องปล่อยให้ดัชนีแมงมุมแมงมุมและมีวิธีที่ง่ายในการสร้างบล็อกแมงมุมที่มีประสิทธิภาพสำหรับ WordPress ที่บล็อกแมงมุมจาก บริษัท ที่มีชื่อเสียง บล็อกสไปเดอร์ที่มีประสิทธิภาพยิ่งขึ้นนั้นรวมถึงการตั้งค่าบางอย่างและกระบวนการในการระบุและบล็อกสไปเดอร์ที่ไม่ดีซึ่งไม่สนใจคำแนะนำของคุณและจัดทำดัชนีเนื้อหาเว็บที่คุณกำหนดไว้

robots.txt

เมื่อสไปเดอร์เข้าชมไซต์ WordPress ของคุณสิ่งแรกที่ควรทำคืออ่านไฟล์ "robots.txt" ไฟล์นี้มีกฎที่ระบุไฟล์และไดเรกทอรีที่สามารถหรือไม่สามารถจัดทำดัชนีโดยสไปเดอร์ทั้งหมดหรือแมงมุมที่มีชื่อแยกกัน สไปเดอร์ค้นหารหัส "user-agent" ที่ไม่ซ้ำกันในไฟล์หรือไวด์การ์ดที่ระบุว่า "สไปเดอร์ทั้งหมด" จากนั้นอ่านรายการไฟล์และไดเรกทอรีที่อนุญาตหรือไม่ได้รับอนุญาต ถัดไปจะเริ่มสร้างดัชนีเฉพาะบางส่วนของไซต์ที่ได้รับอนุญาตให้จัดทำดัชนี

การปิดกั้นแมงมุม

คุณสามารถสร้างเดอร์บล็อกที่มีประสิทธิภาพสำหรับ WordPress ได้โดยสร้างไฟล์ "robots.txt" ในไดเรกทอรีราก WordPress ของคุณและระบุกฎที่ไม่สามารถสร้างดัชนีของไดเรกทอรีรากของเว็บไซต์ สิ่งนี้จะปิดการทำดัชนีโดยอัตโนมัติของไดเรกทอรีย่อยใด ๆ ของราก ในไฟล์คุณควรระบุว่ากฎนี้ใช้กับรหัสตัวแทนผู้ใช้แมงมุมทั้งหมด สไปเดอร์ทุกคนที่เข้าชมเว็บไซต์ของคุณควรอ่านไฟล์และออกโดยไม่สร้างดัชนีส่วนใด ๆ ของเว็บไซต์ ตัวอย่างเช่นไฟล์ "robots.txt" ควรมีลักษณะดังนี้:

ตัวแทนผู้ใช้: * ไม่อนุญาต: /

แมงมุมดีและร้าย

มีแมงมุมที่ดีและมีแมงมุมที่ไม่ดี แมงมุมที่ดีมาจาก บริษัท ที่มีชื่อเสียงเช่น Google, Yahoo หรือ Microsoft และปฏิบัติตามกฎในไฟล์ "robots.txt" ของคุณ สไปเดอร์ที่ไม่ดีนั้นมาจากบุคคลหรือ บริษัท ที่ไม่สนใจไฟล์ "robots.txt" และอาจจัดทำดัชนีเนื้อหาทั้งหมดของเว็บไซต์ของคุณโดยไม่คำนึงถึงสิ่งที่คุณอนุญาตหรือไม่อนุญาต โรบ็อตเหล่านี้บางครั้งค้นหาข้อมูลเฉพาะเช่นที่อยู่อีเมลเพื่อขายให้กับผู้ส่งอีเมลขยะหรือข้อมูลส่วนบุคคลเกี่ยวกับผู้ใช้เพื่อขายให้กับ บริษัท อื่น ๆ สไปเดอร์กัดเซาะทั้งไซต์ของคุณค้นหาข้อมูลหรือเนื้อหาที่คุณไม่ได้ซ่อนหรือป้องกันอย่างเหมาะสม ผู้ดูแลเว็บที่แตกต่างกันมีวิธีจัดการกับแมงมุมหลอกลวงต่างกัน บางคนพยายามระบุว่าพวกเขาเป็นใครและบล็อกพวกเขาจากการจัดทำดัชนีเนื้อหาในเว็บไซต์ คนอื่นพยายามที่จะสร้างความเสียหายโดยการวางยาพิษในฐานข้อมูลของแมงมุมด้วยข้อมูลปลอมหรือโดยการหลอกให้แมงมุมเข้าสู่วงวนไม่รู้จบที่ทำให้มันเลิกหรือยกเลิก

honeypot

honeypot หรือ tarpit เป็นเทคนิคที่ผู้ดูแลเว็บบางคนใช้เพื่อระบุสไปเดอร์อันธพาลเพื่อให้สามารถบล็อกได้ คุณสามารถสร้าง honeypot ได้โดยเพิ่มไดเรกทอรีที่มีเนื้อหาปลอมเช่นที่อยู่อีเมลและไม่อนุญาตเฉพาะไดเรกทอรีนั้นในไฟล์ "robots.txt" บันทึกของเซิร์ฟเวอร์จะบอกคุณว่าสไปเดอร์คนใดเข้าถึงไดเรกทอรีและคุณสามารถบันทึกสตริงตัวแทนผู้ใช้และที่อยู่ IP ได้ ด้วยข้อมูลดังกล่าวคุณสามารถสร้างกฎในไฟล์ "htaccess" ของ WordPress ที่ปฏิเสธการเข้าถึงสไปเดอร์โกงเหล่านี้ honeypot จะต้องมีการตรวจสอบเป็นประจำอย่างต่อเนื่องเพื่อจับหุ่นยนต์ตัวโกงใหม่จากการเข้าถึงเว็บไซต์ของคุณ

โพสต์ยอดนิยม