Как да затворите сайта от индексиране в роботите.txt: инструкции и съвети

Работата на SEO оптимизатора е обширна. На начинаещите специалисти се препоръчва да напишат алгоритъма за оптимизация, за да не пропуснат някои стъпки. В противен случай промоцията ще бъде трудно да се нарече успешна, тъй като сайтът ще бъде постоянно неуспешен и грешен, което ще отнеме много време за отстраняване.

Един от етапите на оптимизацията е работата с файла robots.txt. Всеки ресурс трябва да разполага с този документ, защото без него ще е по-трудно да се справи с оптимизацията. Той изпълнява много функции, които трябва да бъдат разбрани.

Асистент на роботи

Файлови роботи.txt е обикновен текстов документ и може да се разглежда в стандартния Notepad. Когато го създавате, трябва да зададете кодиране UTF-8, за да се чете правилно. Работи с протоколи http, https и FTP.

Този документ е помощно средство за търсачките. Ако не знаете, всяка система използва "паяци", които бързо сканират World Wide Web, за да създадат подходящи сайтове за заявките на потребителите. Тези роботи трябва да имат достъп до данните на ресурса, за това роботите.txt.

Трябва да изпратите документ с роботи, за да могат "паяците" да намерят пътя.txt файл в главната директория. За да проверите дали сайтът разполага с този файл, въведете "https://site" в адресната лента на браузъра си.com.ua/robots.txt". Вместо "сайт.com.ua" трябва да въведете необходимия ви ресурс.

Работа с robots.txt

Функции на документите

Файлови роботи.txt предоставя на търсачките няколко вида информация. Той може да даде частичен достъп на паяк за сканиране на определени елементи на ресурса. Пълният достъп ви позволява да проверявате всички налични страници. Пълната забрана не позволява на роботите дори да започнат сканирането и те напускат сайта.

След като посетят ресурса, паяците получават подходящ отговор. Възможно е да има повече от един, в зависимост от информацията в роботите.txt. Например, ако сканирането е успешно, ще се получи код 2xx.

Възможно е да е зададен пренасочвател, който да пренасочва от една страница към друга в уебсайта. В този случай роботът получава код 3xx. Ако този код се появи многократно, паякът ще го следва, докато получи различен отговор. Въпреки че обикновено се използват само 5 опита. В противен случай се появява популярната грешка 404.

Ако отговорът е 4xx, това означава, че е разрешено да се сканира целият уебсайт. Но в случай на код 5xx проверката може да спре напълно, тъй като той често показва временни грешки на сървъра.

Търсачки

За какво служат роботите?.txt?

Както се досещате, файлът представлява ръководство за роботите до корена на сайта. Сега това се използва за частично ограничаване на достъпа до неподходящо съдържание:

  • страници с лична информация на потребителите;
  • огледални сайтове;
  • резултати от търсачката;
  • формуляри за подаване на данни и др.

Ако в корена на сайта няма файл с роботи.txt, роботът ще сканира абсолютно цялото съдържание. Съответно в резултатите може да се появят нежелани данни и по този начин вие и сайтът да пострадате. Ако документът за роботи съдържа.txt има специални инструкции, така че паякът ще ги следва и ще предостави информацията, желана от собственика на ресурса.

Обработка на файлове

Използване на роботи.txt, за да затворите сайта от индексиране, трябва да разберете как да създадете този файл. За целта следвайте инструкциите:

  1. Създаване на документ в Notepad или Notepad++.
  2. Задайте разширение на файла ".txt".
  3. Въведете необходимите данни и команди.
  4. Запазете документа и го качете в корена на сайта.

Както виждате, на един етап трябва да зададете команди за роботите. Те биват два вида: разрешават (Allow) и забраняват (Disallow). Също така някои оптимизатори могат да определят скоростта на заобикаляне, хост и връзка към картата на страницата с ресурси.

Как да изключите сайта от индексиране

За да започнете работа с роботи.txt и напълно да изключите сайта от индексиране, е необходимо също така да разберете символите, използвани. Например, можете да използвате "/" в документа, което показва, че сайтът е избран изцяло. Ако се използва "*", се изисква поредица от символи. Това ще ви позволи да посочите конкретна папка, която може да бъде сканирана или не.

Функция на ботовете

"Паяците имат търсачки различни, така че ако работите за няколко търсачки едновременно, ще трябва да вземете това предвид. Имената им са различни, което означава, че ако искате да се обърнете към конкретен робот, трябва да посочите името му: "User Agent: Yandex" (без кавичките).

Ако искате да зададете директиви за всички търсачки, трябва да използвате командата: "Потребителски агент: *" (без кавичките). Да се справим с роботите.за да затворите уебсайт от индексиране, трябва да знаете спецификата на популярните търсачки.

Факт е, че най-популярните търсачки Yandex и Google имат няколко бота. Всеки от тях има свои задачи. Например, Yandex Bot и Googlebot са основните "паяци", които обхождат сайта ви. Познавайки всички ботове, ще е по-лесно да настроите работата по индексирането на ресурса си.

Как работи файлът robots.txt?

Примери

И така, с роботи.txt, за да затворите сайт от индексиране, е възможно чрез прости команди, най-важното е да разберете, какво е необходимо по-специално. Например, ако искате да попречите на роботите на Google да се доближат до ресурса ви, трябва да им дадете съответната команда. Тя ще изглежда така: "User-agent: Googlebot Disallow: /" (без кавички).

Сега трябва да разберем какво се съдържа в тази команда и как работи тя. И така, "User-agent" се използва за директно обръщение към някой от ботовете. След това посочваме коя е тя, в този случай това е Google. Командата "Disallow" трябва да започва на нов ред и да забранява на роботите достъп до сайта. В този случай наклонената черта показва, че всички страници на ресурса са избрани за изпълнение.

Какво представлява robots.txt

При роботите.txt, забраняваща индексирането за всички търсачки, може да бъде направена с една проста команда: "User-agent: * Disallow: /" (без кавички). Звездичката в този случай означава всички обхождащи машини за търсене. Тази команда обикновено се използва за спиране на индексирането на даден уебсайт и започване на радикална работа по него, която в противен случай може да повлияе на оптимизацията.

Ако ресурсът е голям и има много страници, често има информация за собственост, която не е желателно да се разкрива или може да повлияе неблагоприятно на популяризирането. В този случай трябва да разберем, как да затворите страницата да не бъде индексирана от роботите.txt.

Можете да скриете или папка, или файл. В първия случай трябва да започнете отново, като се обърнете към конкретен бот или към всички ботове, така че използвайте командата "User-agent", а под нея посочете командата "Disallow" за конкретна папка. Това ще изглежда по следния начин: "Disallow: /folder/" (без кавичките). Това ще скрие цялата папка. Ако има важен файл, който искате да покажете, трябва да напишете командата по-долу: "Разрешаване: /папка/файл.php" (без кавичките).

Проверка на файла

Ако използвате роботи.txt файл сте успели да затворите сайта от индексиране, но не знаете дали всички ваши директиви са работили правилно, можете да проверите.

Първото нещо, което трябва да направите, е да проверите отново местоположението на документа. Не забравяйте, че тя трябва да е само в основната папка. Ако е в подпапка, няма да работи. След това отворете браузъра си и въведете следния адрес: "http://вашсайт. com/robots.txt" (без кавичките). Ако в браузъра ви се появи грешка, това означава, че файлът е на грешното място.

Как да затворите папка от индексиране

Можете да проверите директивите в специални инструменти, които почти всички уебмастъри използват. Говорим за продукти на Google и Yandex. Например в Google Search Console има лента с инструменти, в която отваряте "Сканиране" и след това стартирате инструмента "Проверка на файловете с роботи".txt". В прозореца трябва да копирате всички данни от документа и да стартирате сканирането. Същата проверка може да се направи и в Yandex.Уебмастър".

Статии по темата