Згідно концепції індексації, прийнятої Гугл, враховується повнота, об’єктивність інфи і відповідність її запитом в пошуковій при видачі результатів. Якщо в індексації потрапляє веб-сайт з протизаконним контентом, або ресурс призначений для сміття, то сторіночки такого веб-сайту не будуть побачені в загальній базі пошукової машини. Нам же принципово з’ясувати, як видалити веб-сайт із видачі сервера з пошуковими результатами.

Варіанти нульовою індексації Гугл

Як пошуковий бот — програмка збору інфи про нові ресурсах — просканує веб-сайт посторінково, то при узгодженні вимогам політики Гугл щодо парсинга, він буде проіндексовані. Але ми також повідаємо, як видалити власний веб-сайт або окремі шматки для пошукових машин за допомогою robots.txt — покажчика і відразу обмежувача пошуку.

Щоб виключити з видачі ресурс повністю, в папці сервера, на якому розміщений веб-сайт, створюється певна текстова зона — згаданий robots.txt. Цю зону обробляють пошукові системи і діють згідно прочитаним інструкціям.

Майте на увазі, що пошукова машина Гугл проіндексує сторіночку, навіть якщо для юзера доступ до заборонений. Коли браузер видає відповідь Чотириста один або Чотириста три «Доступ недійсний», то це стосується тільки гостей, а не програм-збирачів для цього пошуковика.

Щоб усвідомити, як видалити веб-сайт з пошукової індексації, в текстовий покажчик слід вписати такі рядки:

User-agent: Googlebot

Disallow: /

Це показує пошуковому боту на заборону для індексування всього вмісту веб-сайту. Ах так видалити веб-сайт Гугл, щоб останній не кешувати ресурс в перелік знайдених.

Варіанти сканування для різних протоколів

Якщо вам необхідно перерахувати окремі еталони зв’язку, для яких ви бажали б застосувати особливі правила індексації Гугл, наприклад, окремо для гіпертекстових протоколів http / https, це також необхідно прописати в robots.txt наступним методом (приклад).

(

Http :/ / yourserver.com / robots.txt) — доменне ім’я вашого веб-сайту (хоч яке)

User-agent: * — для хоч якоїсь пошукової машини

Allow: / — дозволити повну індексацію

Як видалити веб-сайт із видачі цілком для протоколу https

(

Https :/ / yourserver.com / robots.txt):

User-agent:

Disallow: / повна заборона на індексування

Термінове видалення URL-адреси ресурсу з пошукової видачі Гугл

Якщо ви не бажаєте чекати повторної індексації, і веб-сайт необхідно приховати якнайшвидше, рекомендую користуватися обслуговуванням http://services.гугл.com/urlconsole/controller. За раніше robots.txt вже повинен бути розташований в кореневому каталозі сервера веб-сайту. У ньому мають бути прописані належні анотації.

Якщо покажчик з якихось причин не доступний для редагування в кореневому каталозі, досить зробити його в тій папці з об’єктами, які вимагають приховування від пошукових машин. Як ви зробіть це і зверніться на сервіс автоматичного видалення гіпертекстових адрес, Гугл не буде досліджувати папки, які прописані опустити в robots.txt.

Період такої невидимості встановлюється на Три місяці. Після закінчення цього терміну каталог, віддалений з видачі, знову буде оброблений сервером Гугл.

Доак видалити веб-сайт для сканування частково

Коли пошуковий бот читає вміст robots.txt, то на підставі його змісту приймаються певні рішення. Припустимо, вам необхідно виключити з показу весь каталог з заголовком anatom. Для цього досить прописати такі анотації:

User-agent: Googlebot

Disallow: / anatom

Або, наприклад, ви бажаєте, щоб не індексувалися всі малюнки типу. Gif. Для цього додайте наступний перелік:

User-agent: Googlebot

Disallow: / *. Gif $

Ось черговий приклад. Нехай необхідно видалити парсинга інформацію про оживлення генеруються сторінках, тоді додаємо в покажчик запис типу:

User-agent: Googlebot

Disallow: / *?

Ось так, приблизно, і прописуються правила для пошукових машин. Інша справа, що ще зручніше для всього цього використовувати тег META. І вебмастера частіше вживають саме такий еталон, що регулює дію пошукових машин. Але про це ми поговоримо в наступних статтях.