Conform conceptului de indexare adoptat de Google,aceasta ține cont de caracterul complet, obiectivitatea informațiilor și conformitatea cu interogarea de căutare atunci când emit rezultate. Dacă un site cu conținut ilegal intră în indexare sau resursele sunt destinate spamului, atunci paginile unui astfel de site nu vor fi etichetate în baza de date generală a motorului de căutare. Este important pentru noi să învățăm cum să eliminăm un site din rezultatele rezultatelor căutării de pe server.
Opțiuni Google de indexare zero
Odată ce un crawler este un program de colectareinformații despre resurse noi - accesează cu crawlere site-ul pagină cu pagină, apoi, dacă îndeplinește cerințele politicii de analiză Google, va fi indexată. Dar vă vom spune și cum să eliminați site-ul dvs. sau fragmente individuale pentru motoarele de căutare utilizând robots.txt - un index și un limitator de căutare în același timp.
Pentru a exclude întreaga resursă din emisiune, înÎn folderul rădăcină al serverului pe care se află site-ul, este creată o anumită zonă de text - menționat robots.txt. Această zonă este procesată de motoarele de căutare și acționează conform instrucțiunilor citite.
Rețineți că motorul de căutare Googleva indexa pagina chiar dacă accesul la vizualizare este refuzat pentru utilizator. Când browserul răspunde cu un răspuns 401 sau 403 „Acces nevalid”, acest lucru este doar pentru vizitatori, nu pentru colectorii pentru acel motor de căutare.
Pentru a înțelege cum să eliminați un site din indexarea căutării, în indexul text trebuie introduse următoarele linii:
Utilizator-agent: Googlebot
Nu permiteți: /
Acest lucru indică crawlerului motorului de căutare să nu indexeze întregul conținut al site-ului. Iată cum să ștergeți un site Google, astfel încât să nu cache resursa din lista descoperită.
Opțiuni de scanare pentru diferite protocoale
Dacă trebuie să enumerați standardele individualelinkuri pentru care ați dori să aplicați reguli speciale în ceea ce privește indexarea Google, de exemplu, separat pentru protocoalele de hipertext http / https, acesta trebuie, de asemenea, înregistrat în robots.txt în modul următor (exemplu).
(http://yourserver.com/robots.txt) - numele domeniului site-ului dvs. (oricare)
User-agent: * - pentru orice motor de căutare
Permite: / - permite indexarea completă
Cum să eliminați complet un site din SERP pentru protocolul https
(https://yourserver.com/robots.txt):
Agent utilizator: *
Nu permiteți: / interzicerea completă a indexării
Eliminarea urgentă a adresei URL a resurselor din rezultatele căutării Google
Dacă nu doriți să așteptați reindexarea șisite-ul trebuie ascuns cât mai curând posibil, vă recomand să utilizați serviciul http://services.google.com/urlconsole/controller. Pre-robots.txt trebuie deja plasat în directorul rădăcină al serverului site-ului. Instrucțiunile corespunzătoare ar trebui să fie detaliate în acesta.
Dacă indicatorul nu este disponibil din anumite motivepentru a edita în directorul rădăcină, este suficient să-l creați în folderul cu obiecte pentru care doriți să vă ascundeți de motoarele de căutare. De îndată ce faceți acest lucru și contactați serviciul pentru eliminarea automată a adreselor hipertext, Google nu va accesa cu crawlere folderele specificate pentru a fi eliminate în robots.txt.
Perioada unei astfel de invizibilități este stabilită la 3 luni. După această perioadă, catalogul eliminat din rezultatele căutării va fi procesat din nou de serverul Google.
KCum să eliminați un site pentru a fi accesat cu crawlere parțial
Când un robot de căutare citește conținutul roboților.txt, atunci anumite decizii sunt luate pe baza conținutului acestuia. Să presupunem că doriți să excludeți întregul director numit anatom de pe afișaj. Pentru a face acest lucru, este suficient să prescrieți următoarele instrucțiuni:
Utilizator-agent: Googlebot
Nu permiteți: / anatom
Sau, de exemplu, doriți să nu indexați toate imaginile de tipul .gif. Pentru aceasta, adăugați următoarea listă:
Utilizator-agent: Googlebot
Nu permiteți: /*.gif$
Iată un alt exemplu. Chiar dacă trebuie să eliminați informații despre paginile generate dinamic de la analiză, atunci adăugați o intrare de tip la pointer:
Utilizator-agent: Googlebot
Nu permiteți: / *?
Cam așa sunt regulilemotoare de căutare. Un alt lucru este că este mult mai convenabil să utilizați eticheta META pentru toate acestea. Și webmasterii folosesc adesea doar un astfel de standard care reglementează funcționarea motoarelor de căutare. Dar despre asta vom vorbi în articolele următoare.