Podle konceptu indexování, přijatého společností Google,Zohledňuje se úplnost, objektivita informací a jejich korespondence s vyhledávacím dotazem při zadávání výsledků. Pokud do vyhledávacího rejstříku vstoupí web s nelegálním obsahem nebo zdroj je určen pro spam, pak stránky takového webu nebudou označeny v obecné databázi vyhledávače. Důležité je, abychom se naučili smazat stránky ze serveru podle výsledků vyhledávání.
Možnosti indexování nula pro Google
Jakmile je prolézací modul kolektivníinformace o nových zdrojích - vyhledá stránky na základě jednotlivých stránek a pokud splňuje požadavky Google ohledně parsování, bude indexován. Budeme také popisovat, jak smazat vaše stránky nebo jednotlivé fragmenty pro vyhledávače pomocí robots.txt - ukazatele a současně vyhledávacího terminátoru.
Chcete-li vyloučit celý zdroj z vydání,kořenová složka serveru, na kterém se nachází, vytvoří určitou zónu textu - výše uvedený soubor robots.txt. Tato zóna je zpracovávána vyhledávači a pracuje podle přečtených instrukcí.
Mějte na paměti, že vyhledávač Googleindexovat stránku, a to iv případě, že uživatel není oprávněn prohlížet. Když prohlížeč odpoví 401 nebo 403, "Přístup není platný", platí to pouze pro návštěvníky, ne pro sběrné programy pro tento vyhledávací server.
Chcete-li pochopit, jak odstranit web z indexování vyhledávání, měli byste do textového ukazatele zadat následující řádky:
Uživatelský agent: Googlebot
Zakázat: /
To označuje vyhledávacím robotem, že je zakázáno indexovat celý obsah webu. Zde je postup, jak odstranit web Google tak, aby web nevykazoval mezipaměti zdroje v seznamu zjištěných webů.
Možnosti skenování pro různé protokoly
Pokud potřebujete uvést jednotlivé normyOdkazy, u kterých byste chtěli použít specifická pravidla pro indexování Google, například samostatně pro hypertextové protokoly http / https, by také měly být zapsány v souboru robots.txt následujícím způsobem (příklad).
(http://yourserver.com/robots.txt) - název domény vašeho webu (libovolný)
Uživatelský agent: * - pro jakýkoli vyhledávač
Povolit: / - povolit úplné indexování
Jak odstranit stránku z vydání úplně pro protokol https
(https: //urserver.com/robot.txt):
Uživatelský agent: *
Zakázat: / úplný zákaz indexování
Naléhavé odstranění adresy URL zdroje z vyhledávání Google na Googlu
Pokud nechcete čekat na opětovné indexování amísto, které chcete co nejdříve schovat, doporučuji použít servisní http://services.google.com/urlconsole/controller. Pre robots.txt musí být umístěn v kořenovém adresáři serveru. Pokyny by měly být napsány v něm.
Není-li ukazatel z nějakého důvodu k dispozicipro úpravu v kořenovém adresáři stačí vytvořit soubor ve složce s objekty, které chcete skrýt z vyhledávačů. Jakmile to uděláte a obraťte se na službu automatického odstraňování hypertextových adres, Google nebude naskenovat složky, které jsou popsány v souboru robots.txt.
Doba takové neviditelnosti je stanovena na 3 měsíce. Po uplynutí této doby bude adresář odstraněný z vydání znovu zpracován serverem Google.
Chcete-lijak odstranit místo pro skenování v části
Když vyhledávací bot čte obsah robotů.txt, pak na základě jeho obsahu jsou učiněna určitá rozhodnutí. Například musíte z displeje vyloučit celý adresář s názvem anatom. Za tímto účelem stačí napsat takové pokyny:
Uživatelský agent: Googlebot
Zakázat: / anatom
Nebo například nechcete indexovat všechny obrázky, jako je .gif. Chcete-li to provést, přidejte následující seznam:
Uživatelský agent: Googlebot
Zakázat: /*.gif$
Zde je další příklad. Vymažeme informace o dynamicky generovaných stránkách z parsování a přidejte do kurzoru následující položku:
Uživatelský agent: Googlebot
Zakázat: / *?
Zde je přibližně, a pravidla provyhledávače. Další věc je, že je mnohem výhodnější, aby to všechno používal značku META. A webmasteři často používají jen takový standard, který reguluje provoz vyhledávačů. Ale o tom budeme hovořit v dalších článcích.