Kognitivní fakta o všem / Internet / Jak smazat web nebo její fragmenty z indexu Google

Jak smazat web nebo její fragmenty z indexu Google

Podle konceptu indexování, přijatého společností Google,Zohledňuje se úplnost, objektivita informací a jejich korespondence s vyhledávacím dotazem při zadávání výsledků. Pokud do vyhledávacího rejstříku vstoupí web s nelegálním obsahem nebo zdroj je určen pro spam, pak stránky takového webu nebudou označeny v obecné databázi vyhledávače. Důležité je, abychom se naučili smazat stránky ze serveru podle výsledků vyhledávání.

Možnosti indexování nula pro Google

Jakmile je prolézací modul kolektivníinformace o nových zdrojích - vyhledá stránky na základě jednotlivých stránek a pokud splňuje požadavky Google ohledně parsování, bude indexován. Budeme také popisovat, jak smazat vaše stránky nebo jednotlivé fragmenty pro vyhledávače pomocí robots.txt - ukazatele a současně vyhledávacího terminátoru.

Chcete-li vyloučit celý zdroj z vydání,kořenová složka serveru, na kterém se nachází, vytvoří určitou zónu textu - výše uvedený soubor robots.txt. Tato zóna je zpracovávána vyhledávači a pracuje podle přečtených instrukcí.

Mějte na paměti, že vyhledávač Googleindexovat stránku, a to iv případě, že uživatel není oprávněn prohlížet. Když prohlížeč odpoví 401 nebo 403, "Přístup není platný", platí to pouze pro návštěvníky, ne pro sběrné programy pro tento vyhledávací server.

Chcete-li pochopit, jak odstranit web z indexování vyhledávání, měli byste do textového ukazatele zadat následující řádky:

Uživatelský agent: Googlebot

Zakázat: /

To označuje vyhledávacím robotem, že je zakázáno indexovat celý obsah webu. Zde je postup, jak odstranit web Google tak, aby web nevykazoval mezipaměti zdroje v seznamu zjištěných webů.

Možnosti skenování pro různé protokoly

Pokud potřebujete uvést jednotlivé normyOdkazy, u kterých byste chtěli použít specifická pravidla pro indexování Google, například samostatně pro hypertextové protokoly http / https, by také měly být zapsány v souboru robots.txt následujícím způsobem (příklad).

(http://yourserver.com/robots.txt) - název domény vašeho webu (libovolný)

Uživatelský agent: * - pro jakýkoli vyhledávač

Povolit: / - povolit úplné indexování

Jak odstranit stránku z vydání úplně pro protokol https

(https: //urserver.com/robot.txt):

Uživatelský agent: *

Zakázat: / úplný zákaz indexování

Naléhavé odstranění adresy URL zdroje z vyhledávání Google na Googlu

Pokud nechcete čekat na opětovné indexování amísto, které chcete co nejdříve schovat, doporučuji použít servisní http://services.google.com/urlconsole/controller. Pre robots.txt musí být umístěn v kořenovém adresáři serveru. Pokyny by měly být napsány v něm.

Není-li ukazatel z nějakého důvodu k dispozicipro úpravu v kořenovém adresáři stačí vytvořit soubor ve složce s objekty, které chcete skrýt z vyhledávačů. Jakmile to uděláte a obraťte se na službu automatického odstraňování hypertextových adres, Google nebude naskenovat složky, které jsou popsány v souboru robots.txt.

Doba takové neviditelnosti je stanovena na 3 měsíce. Po uplynutí této doby bude adresář odstraněný z vydání znovu zpracován serverem Google.

Chcete-lijak odstranit místo pro skenování v části

Když vyhledávací bot čte obsah robotů.txt, pak na základě jeho obsahu jsou učiněna určitá rozhodnutí. Například musíte z displeje vyloučit celý adresář s názvem anatom. Za tímto účelem stačí napsat takové pokyny:

Uživatelský agent: Googlebot

Zakázat: / anatom

Nebo například nechcete indexovat všechny obrázky, jako je .gif. Chcete-li to provést, přidejte následující seznam:

Uživatelský agent: Googlebot

Zakázat: /*.gif$

Zde je další příklad. Vymažeme informace o dynamicky generovaných stránkách z parsování a přidejte do kurzoru následující položku:

Uživatelský agent: Googlebot

Zakázat: / *?

Zde je přibližně, a pravidla provyhledávače. Další věc je, že je mnohem výhodnější, aby to všechno používal značku META. A webmasteři často používají jen takový standard, který reguluje provoz vyhledávačů. Ale o tom budeme hovořit v dalších článcích.