Файл robots.txt и мета-тег robots

Файл robots.txt и мета-тег robots

Если вы решили сами заняться продвижением вашего веб-сайта, то следует обратить внимание не только на создании шикарного контента, но и уделить внимание такому показателю, как индексирование ресурсов поисковика, так как именно от этого и будет зависеть ваше процветание.
Мы имеем с вами 2 вида инструментов (tools) благодаря которым можно владеть эти процессом, так сказать с 2-ух сторон. Есть немаловажный инструмент, как карта веб-сайта (Site map xml). Она объясняет всем поисковикам, какие из страниц веб-сайта подлежат индексации и, когда было последнее обновление.
И сегодня мы поговорим именно об этом.

Индексирование веб-сайта

Названные выше инструменты сильно существенны для удачного процветания вашего проекта.
Держите в голове, что при употреблении ЦМС не все содержимое на веб-сайте обязано быть доступно роботам поисковиков.
Тут появляется вопрос, почему?

Когда он затратит время на индексацию файлов веб-сайта, robot поисковиков и вовсе может не добраться до главного контента, только спустя достаточное количество времени. Все-таки тут имеются лимиты на число страниц, и когда лимит будет исчерпан, он просто покинет вас, уйдя на иные ресурсы.
Так же, кто хочет посмотреть, как выглядит данный файл у других проектов, то требуется приписать к URL основной страницы концовку в виде/robots.txt.

Наименования роботов поисковиков

У всех ботов-поисковиков есть свои имена. Ниже представлен список популярных:

У масштабных поисковиков, таких как Google, есть еще экземпляры, чтобы индексировать новости и др.

Что же делать в такой ситуации?

Если требуется составить правила на запрет индексации, то лучше употребите название Google bot и оставшиеся тоже прислушаются.
Примеры применения директив Disallow и Allow в robots.txt
Покажу пару легких примеров применения директива с пояснением.

  • Код, который находится ниже, позволяет практически всем ботам провести индексацию всего содержания. С помощью пустой директивы Disallow.
  • Далее следует код, который же наоборот, дает запрет любому поисковику добавить в индекс всех страниц данного ресурса.
  • В данном варианте будут ограничения для всех ботов в просмотре каталогов /image.
  • В примере, который приведен чуть ниже, будут запрещены директивы "image":
  • Благодаря директиве Allow мы делаем доступ разрешенным. Он неплохо дополняет директиву Disallow.
  • Когда будете описывать пути для директивы Allow и директивы Disallow, можно применить символы доллара и звездочки ("*","$").
    Наша звездочка "*" обозначает любую очередность символов. Последующий пример не дает возможность всем поисковикам индексирования файлов, у которых расширение .php:

Для чего же нужен знак "$"? Просто по логике составленного файла роботс.тхт, в конце все директив как бы по умолчанию дописывается "*"(если ее нет, она как бы присутствует). К примеру, мы строчим:

Получается, что оно схоже с:

Директива Host показывает основное зеркало веб-сайта для Yandex

При использовании незащищенного протокола указывать требуется не весь URL, а имя домена, к примеру, без http:\\, т.е. google.com, а не https://google.com). Вдруг вы пользуетесь протоколом https, тогда уже требуется указывать полное URL (пример https://google.com).
При стандартном написании robots.txt за любой директивой user-agent обязана сразу же последовать минимум одна директива Disallo (даже если она в себе ничего не несет). Еще возможно будет иметь смысл прописывать host для конкретного блога "user-agent: yandex", а не "user-agent: *" для того, чтобы не пытаться сбить с пути поисковых роботов, к данную директиву не могут поддерживать:

либо

либо

либо

Указание или скрытие путь до карты веб-сайта sitemap.хмл в файле роботс


Директива Sitemap показывает нам местоположение файла map веб-сайта. В качестве параметра обычно мы должны указать его расположение, как до него добраться, не забывая его URL. С помощью этого робот поисковика сможет без труда отыскать его. К примеру:

Сейчас большое количество скрывают этот файл веб-сайта внутри остальных директорий, чтобы вредителям контента не давалась возможность применить комфортный инструмент. А путь, который лежит до карты веб-сайта, не советуем в robots.txt показывать. Потому, что это вполне можно сотворить через панели поисковиков, тем самым "не выдавая" его местонахождение.

Как создать безошибочный robots.txt?

Насколько нам известно, у проектов, которые были сотворены на движках типа (WP,Joomla и т.д.), есть много вспомогательных объектов, которые не несут никаких сведений.
Так же нужно стремиться, чтобы контент был уникален и не нужно допускать его дублирования (содержимого).
Yandex и Google после индексации легко отыщут дубликаты, и скорее всего не будут оставаться без действий. Существует мета-тег Canonical.

Комфортный инструмент для того, чтобы предотвращать дубликаты контента — поисковые системы всячески не будут индексировать страницы вообще при условии, если в Canonical будет написан другой URK.
Разберем примеры роботса, которые созданы для различных движков — WP, Jooomla. У этим двух вариантов есть один общий параметр, и этот параметр связан с поисковиком Yandex.

Robots для вордпрес

Следует помогать поисковикам в отборе.

Первое: чтобы проиндексировать мусор, будет потеряно затратное количество времени у ботов Yandex и Google.

Второе: боты, лазящие по файлам движка, которые считаются мусором, они лишь будут делать лишние действия, тем самым и нагрузку на сервер, что может плохо сказаться.

И вообще, отличного файла для WP не существует. Конечно же можно сделать предпосылки, но никто не говорил, что и они будут отличными.
Вариации идеальнейших роботс.тхт в Интернете хватает.
Приведем два типа:

  • Тут можно отыскать очень полезную информацию с очень подробными объяснениями:
  • Пример минимализма:

Правда состоит где-то на нейтральной зоне. Пишите мета-тэг Роботс для страниц, которые являются ненужными.

Robots для Joomla

В целом, тут все работает неплохо. Но здесь лучше использовать user agent:
Яндекс, чтобы вставить директиву хост.
В результате Роботс для Joomla обязан выглядеть именно так:

Также вам стоит сосредоточиться на том, что во втором варианте существуют директивы Allow, позволяющие индексацию скриптов и изображений.
Из этого следует то, что раньше это дело разрешалось индексировать с поддержкой Allow.

Если же у Вас есть сомнения правильно ли заполнен файл robots.txt – закажите SEO аудит и мы проверим или создадим этот файл.

Похожие статьи