ตามแนวคิดของการทำดัชนีนำโดย Google,ความถูกต้องสมบูรณ์ของข้อมูลและการติดต่อกับแบบสอบถามการค้นหาเมื่อมีการให้ผลลัพธ์จะถูกนำมาพิจารณา หากเว็บไซต์ที่มีเนื้อหาผิดกฎหมายเข้าไปในดัชนีหรือทรัพยากรนี้มีไว้สำหรับสแปมหน้าเว็บดังกล่าวจะไม่ถูกทำเครื่องหมายในฐานข้อมูลทั่วไปของเครื่องมือค้นหา เป็นสิ่งสำคัญสำหรับเราในการเรียนรู้วิธีการลบไซต์จากเซิร์ฟเวอร์โดยผลการค้นหา
ตัวเลือกการจัดทำดัชนี Zero สำหรับ Google
เมื่อโปรแกรมรวบรวมข้อมูลเป็นโปรแกรมรวบรวมข้อมูลข้อมูลเกี่ยวกับแหล่งข้อมูลใหม่ ๆ จะสแกนไซต์แบบทีละหน้าจากนั้นหากเป็นไปตามข้อกำหนดของนโยบายของ Google เกี่ยวกับการแยกวิเคราะห์ข้อมูลจะมีการจัดทำดัชนี แต่เราจะอธิบายถึงวิธีการลบไซต์หรือแต่ละส่วนของเครื่องมือค้นหาโดยใช้ robots.txt - ตัวชี้และในขณะเดียวกันเทอร์มินอลการค้นหา
หากต้องการแยกทรัพยากรทั้งหมดออกจากการออกโฟลเดอร์รากของเซิร์ฟเวอร์ที่ไซต์ตั้งอยู่สร้างเขตข้อความเฉพาะ - robots.txt ที่กล่าวมา โซนนี้ประมวลผลโดยเครื่องมือค้นหาและดำเนินการตามคำแนะนำที่อ่านแล้ว
โปรดจำไว้ว่าเครื่องมือค้นหาของ Googleจัดทำดัชนีหน้าเว็บแม้ว่าผู้ใช้จะไม่ได้รับอนุญาตให้ดูก็ตาม เมื่อเบราว์เซอร์ตอบสนอง 401 หรือ 403 "การเข้าถึงไม่ถูกต้อง" ข้อกำหนดนี้ใช้กับผู้เข้าชมเท่านั้นไม่ใช่โปรแกรมรวบรวมข้อมูลสำหรับเซิร์ฟเวอร์การค้นหานี้
หากต้องการทำความเข้าใจเกี่ยวกับการลบไซต์จากการจัดทำดัชนีการค้นหาคุณควรป้อนบรรทัดต่อไปนี้ลงในตัวชี้ข้อความ:
User-agent: Googlebot
Disallow: /
ซึ่งจะบ่งบอกถึงหุ่นยนต์การค้นหาว่าห้ามทำดัชนีเนื้อหาทั้งหมดของไซต์ ต่อไปนี้เป็นวิธีลบไซต์ Google เพื่อให้ไซต์ไม่แคชทรัพยากรในรายการไซต์ที่ตรวจพบ
ตัวเลือกการสแกนสำหรับโปรโตคอลที่แตกต่างกัน
หากคุณต้องการระบุรายชื่อมาตรฐานลิงก์ที่คุณต้องการใช้กฎเฉพาะสำหรับการจัดทำดัชนีของ Google เช่นแยกต่างหากสำหรับโปรโตคอลข้อความไฮเปอร์ http // https ควรทำเช่นนี้ใน robots.txt ด้วยวิธีต่อไปนี้ (ตัวอย่าง)
(http://yourserver.com/robots.txt) - ชื่อโดเมนของไซต์ของคุณ (ใด ๆ )
User-agent: * - สำหรับเครื่องมือค้นหาใด ๆ
อนุญาต: / - อนุญาตการจัดทำดัชนีแบบเต็ม
วิธีลบไซต์ออกจาก SERP โดยสมบูรณ์สำหรับโปรโตคอล https
(https://yourserver.com/robots.txt):
ตัวแทนผู้ใช้: *
Disallow: / แบนการจัดทำดัชนีโดยสมบูรณ์
การนำ URL ทรัพยากรออกอย่างเร่งด่วนจากผลการค้นหาของ Google
หากคุณไม่ต้องการรอการจัดทำดัชนีใหม่และไซต์จะต้องถูกซ่อนโดยเร็วที่สุดฉันขอแนะนำให้ใช้บริการ http://services.google.com/urlconsole/controller ต้องวางพรี robots.txt ไว้ในไดเรกทอรีรากของเซิร์ฟเวอร์ไซต์แล้ว ควรมีคำแนะนำที่เหมาะสม
หากตัวชี้ไม่พร้อมใช้งานด้วยเหตุผลบางประการสำหรับการแก้ไขในไดเร็กทอรีรากก็เพียงพอที่จะสร้างในโฟลเดอร์ที่มีวัตถุที่คุณต้องการซ่อนจากเครื่องมือค้นหา ทันทีที่คุณดำเนินการนี้และติดต่อบริการเพื่อลบที่อยู่ไฮเปอร์เท็กซ์โดยอัตโนมัติ Google จะไม่รวบรวมข้อมูลโฟลเดอร์ที่ระบุให้ลบใน robots.txt
ระยะเวลาของการล่องหนดังกล่าวกำหนดไว้ที่ 3 เดือน หลังจากช่วงเวลานี้แคตตาล็อกที่ถูกลบออกจากผลการค้นหาจะได้รับการประมวลผลโดยเซิร์ฟเวอร์ของ Google อีกครั้ง
Kวิธีลบไซต์เพื่อรวบรวมข้อมูลบางส่วน
เมื่อบอทค้นหาอ่านเนื้อหาของโรบ็อตtxt จากนั้นการตัดสินใจบางอย่างจะขึ้นอยู่กับเนื้อหา สมมติว่าคุณต้องการแยกทั้งไดเร็กทอรีชื่อ anatom ออกจากจอแสดงผล ในการทำเช่นนี้ก็เพียงพอที่จะกำหนดคำแนะนำต่อไปนี้:
User-agent: Googlebot
Disallow: / anatom
หรือตัวอย่างเช่นคุณไม่ต้องการจัดทำดัชนีรูปภาพทั้งหมดของประเภท. gif ในการดำเนินการนี้ให้เพิ่มรายการต่อไปนี้:
User-agent: Googlebot
Disallow: /*.gif$
นี่เป็นอีกตัวอย่างหนึ่ง แม้ว่าคุณจะต้องการลบข้อมูลเกี่ยวกับเพจที่สร้างแบบไดนามิกออกจากการแยกวิเคราะห์จากนั้นให้เพิ่มรายการประเภทลงในตัวชี้:
User-agent: Googlebot
Disallow: / *?
นี่เป็นวิธีการโดยคร่าวๆสำหรับเครื่องมือค้นหา. อีกประการหนึ่งคือการใช้ META tag สำหรับทั้งหมดนี้สะดวกกว่ามาก และผู้ดูแลเว็บมักใช้มาตรฐานดังกล่าวที่ควบคุมการทำงานของเครื่องมือค้นหา แต่เราจะพูดถึงเรื่องนี้ในบทความต่อไปนี้