Содержание
1. ИНДЕКСИРОВАНИЕ ВЕБ-САЙТА
2. НАИМЕНОВАНИЯ РОБОТОВ ПОИСКОВИКОВ
3. ДИРЕКТИВА HOST ПОКАЗЫВАЕТ ОСНОВНОЕ ЗЕРКАЛО ВЕБ-САЙТА ДЛЯ YANDEX
4. УКАЗАНИЕ ИЛИ СКРЫТИЕ ПУТЬ ДО КАРТЫ ВЕБ-САЙТА SITEMAP.ХМЛ В ФАЙЛЕ РОБОТС
5. КАК СОЗДАТЬ БЕЗОШИБОЧНЫЙ ROBOTS.TXT?
6. ROBOTS ДЛЯ ВОРДПРЕС
7. ROBOTS ДЛЯ JOOMLA
Если вы решили сами заняться продвижением вашего веб-сайта, то следует обратить внимание не только на создании шикарного контента, но и уделить внимание такому показателю, как индексирование ресурсов поисковика, так как именно от этого и будет зависеть ваше процветание.
Мы имеем с вами 2 вида инструментов (tools) благодаря которым можно владеть эти процессом, так сказать с 2-ух сторон. Есть немаловажный инструмент, как карта веб-сайта (Site map xml). Она объясняет всем поисковикам, какие из страниц веб-сайта подлежат индексации и, когда было последнее обновление.
И сегодня мы поговорим именно об этом.
Индексирование веб-сайта
Названные выше инструменты сильно существенны для удачного процветания вашего проекта.
Держите в голове, что при употреблении ЦМС не все содержимое на веб-сайте обязано быть доступно роботам поисковиков.
Тут появляется вопрос, почему?
Когда он затратит время на индексацию файлов веб-сайта, robot поисковиков и вовсе может не добраться до главного контента, только спустя достаточное количество времени. Все-таки тут имеются лимиты на число страниц, и когда лимит будет исчерпан, он просто покинет вас, уйдя на иные ресурсы.
Так же, кто хочет посмотреть, как выглядит данный файл у других проектов, то требуется приписать к URL основной страницы концовку в виде/robots.txt.
Наименования роботов поисковиков
У всех ботов-поисковиков есть свои имена. Ниже представлен список популярных:
У масштабных поисковиков, таких как Google, есть еще экземпляры, чтобы индексировать новости и др.
Что же делать в такой ситуации?
Если требуется составить правила на запрет индексации, то лучше употребите название Google bot и оставшиеся тоже прислушаются.
Примеры применения директив Disallow и Allow в robots.txt
Покажу пару легких примеров применения директива с пояснением.
- Код, который находится ниже, позволяет практически всем ботам провести индексацию всего содержания. С помощью пустой директивы Disallow.
- Далее следует код, который же наоборот, дает запрет любому поисковику добавить в индекс всех страниц данного ресурса.
- В данном варианте будут ограничения для всех ботов в просмотре каталогов /image.
- В примере, который приведен чуть ниже, будут запрещены директивы "image":
- Благодаря директиве Allow мы делаем доступ разрешенным. Он неплохо дополняет директиву Disallow.
- Когда будете описывать пути для директивы Allow и директивы Disallow, можно применить символы доллара и звездочки ("*","$").
Наша звездочка "*" обозначает любую очередность символов. Последующий пример не дает возможность всем поисковикам индексирования файлов, у которых расширение .php:
Для чего же нужен знак "$"? Просто по логике составленного файла роботс.тхт, в конце все директив как бы по умолчанию дописывается "*"(если ее нет, она как бы присутствует). К примеру, мы строчим:
Директива Host показывает основное зеркало веб-сайта для Yandex
При использовании незащищенного протокола указывать требуется не весь URL, а имя домена, к примеру, без http:\\, т.е. google.com, а не https://google.com). Вдруг вы пользуетесь протоколом https, тогда уже требуется указывать полное URL (пример https://google.com).
При стандартном написании robots.txt за любой директивой user-agent обязана сразу же последовать минимум одна директива Disallo (даже если она в себе ничего не несет). Еще возможно будет иметь смысл прописывать host для конкретного блога "user-agent: yandex", а не "user-agent: *" для того, чтобы не пытаться сбить с пути поисковых роботов, к данную директиву не могут поддерживать:
либо
либо
либо
Указание или скрытие путь до карты веб-сайта sitemap.хмл в файле роботс
Директива Sitemap показывает нам местоположение файла map веб-сайта. В качестве параметра обычно мы должны указать его расположение, как до него добраться, не забывая его URL. С помощью этого робот поисковика сможет без труда отыскать его. К примеру:
Сейчас большое количество скрывают этот файл веб-сайта внутри остальных директорий, чтобы вредителям контента не давалась возможность применить комфортный инструмент. А путь, который лежит до карты веб-сайта, не советуем в robots.txt показывать. Потому, что это вполне можно сотворить через панели поисковиков, тем самым "не выдавая" его местонахождение.
Как создать безошибочный robots.txt?
Насколько нам известно, у проектов, которые были сотворены на движках типа (WP,Joomla и т.д.), есть много вспомогательных объектов, которые не несут никаких сведений.
Так же нужно стремиться, чтобы контент был уникален и не нужно допускать его дублирования (содержимого).
Yandex и Google после индексации легко отыщут дубликаты, и скорее всего не будут оставаться без действий. Существует мета-тег Canonical.
Комфортный инструмент для того, чтобы предотвращать дубликаты контента — поисковые системы всячески не будут индексировать страницы вообще при условии, если в Canonical будет написан другой URK.
Разберем примеры роботса, которые созданы для различных движков — WP, Jooomla. У этим двух вариантов есть один общий параметр, и этот параметр связан с поисковиком Yandex.
Robots для вордпрес
Следует помогать поисковикам в отборе.
Первое: чтобы проиндексировать мусор, будет потеряно затратное количество времени у ботов Yandex и Google.
Второе: боты, лазящие по файлам движка, которые считаются мусором, они лишь будут делать лишние действия, тем самым и нагрузку на сервер, что может плохо сказаться.
И вообще, отличного файла для WP не существует. Конечно же можно сделать предпосылки, но никто не говорил, что и они будут отличными.
Вариации идеальнейших роботс.тхт в Интернете хватает.
Приведем два типа:
- Тут можно отыскать очень полезную информацию с очень подробными объяснениями:
- Пример минимализма:
Правда состоит где-то на нейтральной зоне. Пишите мета-тэг Роботс для страниц, которые являются ненужными.
Robots для Joomla
В целом, тут все работает неплохо. Но здесь лучше использовать user agent:
Яндекс, чтобы вставить директиву хост.
В результате Роботс для Joomla обязан выглядеть именно так:
Также вам стоит сосредоточиться на том, что во втором варианте существуют директивы Allow, позволяющие индексацию скриптов и изображений.
Из этого следует то, что раньше это дело разрешалось индексировать с поддержкой Allow.
Если же у Вас есть сомнения правильно ли заполнен файл robots.txt – закажите SEO аудит и мы проверим или создадим этот файл.