Fapte cognitive despre tot / Internetul / Cum să ștergeți un site sau părțile sale din indexul Google

Cum să ștergeți un site sau fragmentele acestuia din indexul Google

Conform conceptului de indexare adoptat de Google,aceasta ține cont de caracterul complet, obiectivitatea informațiilor și conformitatea cu interogarea de căutare atunci când emit rezultate. Dacă un site cu conținut ilegal intră în indexare sau resursele sunt destinate spamului, atunci paginile unui astfel de site nu vor fi etichetate în baza de date generală a motorului de căutare. Este important pentru noi să învățăm cum să eliminăm un site din rezultatele rezultatelor căutării de pe server.

Opțiuni Google de indexare zero

Odată ce un crawler este un program de colectareinformații despre resurse noi - accesează cu crawlere site-ul pagină cu pagină, apoi, dacă îndeplinește cerințele politicii de analiză Google, va fi indexată. Dar vă vom spune și cum să eliminați site-ul dvs. sau fragmente individuale pentru motoarele de căutare utilizând robots.txt - un index și un limitator de căutare în același timp.

Pentru a exclude întreaga resursă din emisiune, înÎn folderul rădăcină al serverului pe care se află site-ul, este creată o anumită zonă de text - menționat robots.txt. Această zonă este procesată de motoarele de căutare și acționează conform instrucțiunilor citite.

Rețineți că motorul de căutare Googleva indexa pagina chiar dacă accesul la vizualizare este refuzat pentru utilizator. Când browserul răspunde cu un răspuns 401 sau 403 „Acces nevalid”, acest lucru este doar pentru vizitatori, nu pentru colectorii pentru acel motor de căutare.

Pentru a înțelege cum să eliminați un site din indexarea căutării, în indexul text trebuie introduse următoarele linii:

Utilizator-agent: Googlebot

Nu permiteți: /

Acest lucru indică crawlerului motorului de căutare să nu indexeze întregul conținut al site-ului. Iată cum să ștergeți un site Google, astfel încât să nu cache resursa din lista descoperită.

Opțiuni de scanare pentru diferite protocoale

Dacă trebuie să enumerați standardele individualelinkuri pentru care ați dori să aplicați reguli speciale în ceea ce privește indexarea Google, de exemplu, separat pentru protocoalele de hipertext http / https, acesta trebuie, de asemenea, înregistrat în robots.txt în modul următor (exemplu).

(http://yourserver.com/robots.txt) - numele domeniului site-ului dvs. (oricare)

User-agent: * - pentru orice motor de căutare

Permite: / - permite indexarea completă

Cum să eliminați complet un site din SERP pentru protocolul https

(https://yourserver.com/robots.txt):

Agent utilizator: *

Nu permiteți: / interzicerea completă a indexării

Eliminarea urgentă a adresei URL a resurselor din rezultatele căutării Google

Dacă nu doriți să așteptați reindexarea șisite-ul trebuie ascuns cât mai curând posibil, vă recomand să utilizați serviciul http://services.google.com/urlconsole/controller. Pre-robots.txt trebuie deja plasat în directorul rădăcină al serverului site-ului. Instrucțiunile corespunzătoare ar trebui să fie detaliate în acesta.

Dacă indicatorul nu este disponibil din anumite motivepentru a edita în directorul rădăcină, este suficient să-l creați în folderul cu obiecte pentru care doriți să vă ascundeți de motoarele de căutare. De îndată ce faceți acest lucru și contactați serviciul pentru eliminarea automată a adreselor hipertext, Google nu va accesa cu crawlere folderele specificate pentru a fi eliminate în robots.txt.

Perioada unei astfel de invizibilități este stabilită la 3 luni. După această perioadă, catalogul eliminat din rezultatele căutării va fi procesat din nou de serverul Google.

KCum să eliminați un site pentru a fi accesat cu crawlere parțial

Când un robot de căutare citește conținutul roboților.txt, atunci anumite decizii sunt luate pe baza conținutului acestuia. Să presupunem că doriți să excludeți întregul director numit anatom de pe afișaj. Pentru a face acest lucru, este suficient să prescrieți următoarele instrucțiuni:

Utilizator-agent: Googlebot

Nu permiteți: / anatom

Sau, de exemplu, doriți să nu indexați toate imaginile de tipul .gif. Pentru aceasta, adăugați următoarea listă:

Utilizator-agent: Googlebot

Nu permiteți: /*.gif$

Iată un alt exemplu. Chiar dacă trebuie să eliminați informații despre paginile generate dinamic de la analiză, atunci adăugați o intrare de tip la pointer:

Utilizator-agent: Googlebot

Nu permiteți: / *?

Cam așa sunt regulilemotoare de căutare. Un alt lucru este că este mult mai convenabil să utilizați eticheta META pentru toate acestea. Și webmasterii folosesc adesea doar un astfel de standard care reglementează funcționarea motoarelor de căutare. Dar despre asta vom vorbi în articolele următoare.