על פי תפיסת האינדקס שאימצה גוגל,היא לוקחת בחשבון את השלמות, האובייקטיביות של המידע ואת עמידתו בשאילתת החיפוש בעת הנפקת התוצאות. אם אתר עם תוכן לא חוקי נכנס לאינדקס, או שהמשאב מיועד לדואר זבל, הדפים של אתר כזה לא יסומנו במסד הנתונים הכללי של מנוע החיפוש. חשוב לנו ללמוד כיצד להסיר את האתר מתוצאות תוצאות החיפוש מהשרת.
אפשרויות לאינדקס של Google Zero
ברגע רובוט החיפוש - אוסף התוכניתמידע על משאבים חדשים - סורק את דף האתר לפי דף, ולאחר מכן, אם הוא עונה על הדרישות של מדיניות הניתוח של Google, הוא יתווסף לאינדקס. אבל אנחנו גם אגיד לך איך למחוק את האתר שלך או קטעים בודדים עבור מנועי החיפוש באמצעות robots.txt - מצביע באותו זמן מגביל החיפוש.
כדי לבצע אי הכללה מהבעיה של המשאב כולו,תיקיית הבסיס של השרת שבו ממוקם האתר יוצרת אזור טקסט ספציפי - robots.txt המוזכר. אזור זה מעובד על ידי מנועי החיפוש ולפעול על פי ההוראות שנקראו.
זכור כי מנוע החיפוש של Googleתוסיף לאינדקס את הדף, גם אם המשתמש ימנע גישה לתצוגה המפורטת. כאשר הדפדפן מגיב עם 401 או 403 "גישה אינה חוקית", אז זה חל רק על המבקרים, לא על תוכניות איסוף עבור מנוע החיפוש הזה.
כדי להבין כיצד להסיר אתר מאינדקס החיפוש, יש להזין את השורות הבאות באינדקס הטקסט:
סוכן משתמש: Googlebot
Disallow: /
זה אומר מנוע החיפוש לאסור על יצירת אינדקס של התוכן כולו של האתר. כך תוכל להסיר את אתר Google, כך שהאחרון לא יעביר את המטמון למשאב.
אפשרויות סריקה לפרוטוקולים שונים
אם אתה צריך לרשום סטנדרטים בודדיםקישורים שעבורם תרצה להחיל כללים מיוחדים בנוגע לאינדקס של גוגל, למשל בנפרד עבור פרוטוקולי http / https היפר-טקסט, זה צריך להיות כתוב גם ב- robots.txt בדרך הבאה (דוגמה).
(http://yourserver.com/robots.txt) - שם התחום של האתר שלך (כל שהוא)
User-agent: * - לכל מנוע חיפוש
אפשר: / - אפשר אינדקס מלא
כיצד להסיר אתר מה- SERP לחלוטין עבור פרוטוקול https
(https://yourserver.com/robots.txt):
סוכן משתמש: *
אסור: / איסור מוחלט על אינדקס
הסרה דחופה של כתובת האתר של המשאב מתוצאות החיפוש של גוגל
אם אתה לא רוצה לחכות לאינדקס מחדש, והאתר צריך להיות מוסתר בהקדם האפשרי, אני ממליץ להשתמש בשירות http://services.google.com/urlconsole/controller. יש כבר למקם את robots.txt לפני הספרייה הבסיסית של שרת האתר. עליו להכיל את ההוראות המתאימות.
אם המצביע אינו זמין משום מהכדי לערוך בספריית הבסיס, זה מספיק כדי ליצור אותו בתיקיה עם אובייקטים שעבורם ברצונך להסתיר ממנועי החיפוש. ברגע שתעשה זאת ותפנה לשירות להסרה אוטומטית של כתובות היפר טקסט, גוגל לא תסרוק תיקיות שצוינו להסיר ב- robots.txt.
תקופת חוסר הנראות כאמור נקבעת על שלושה חודשים. לאחר תקופה זו, הקטלוג שהוסר מתוצאות החיפוש יעובד שוב על ידי שרת Google.
כדיכיצד להסיר אתר לסריקה חלקית
כאשר בוט חיפוש קורא את התוכן של הרובוטים.txt, ואז מתקבלות החלטות מסוימות על סמך תוכנו. נניח שאתה רוצה לא לכלול את כל הספריה בשם אנטום מהתצוגה. לשם כך, מספיק לקבוע את ההוראות הבאות:
סוכן משתמש: Googlebot
אסור: / אנטום
או, למשל, אתה רוצה לא להוסיף את כל התמונות מסוג .gif לאינדקס. לשם כך הוסף את הרשימה הבאה:
סוכן משתמש: Googlebot
אסור: /*.gif$
הנה דוגמה נוספת. גם אם אתה צריך להסיר מידע על עמודים שנוצרו באופן דינמי מניתוח, הוסף ערך מהסוג למצביע:
סוכן משתמש: Googlebot
אסור: / *?
זה בערך איך הכללים עבורמנועי חיפוש. דבר נוסף הוא שהרבה יותר נוח להשתמש בתג META לכל זה. ומנהלי אתרים משתמשים לרוב בדיוק בתקן כזה המסדיר את פעולתם של מנועי החיפוש. אך נדבר על כך במאמרים הבאים.