Правильно составленный файл robots.txt, является залог успешной индексации вашего проекта.Этот файл содержит очень простой синтаксис. О котором подробно Вы можете почитать например, в яндексе.
Правильный файл robots.txt обязательно должен включать после каждой записи «User-agent» хотя бы одну директиву «Disallow». Пустой файл robots.txt предусматривает что можно индексировать весь сайт.
При помощи директивы
«User-agent» в файле robots.txt можно настроить индексацию сайта для каждого конкретного поискового робота. Эта директива должна содержать название поискового робота. Директива «User-agent», адресованная всем поисковым
роботам, зашедшим на ваш ресурс, выглядит так:
User-agent: *
Если вы хотите только для какого то одного поискового робота,
задать определенные условия индексации вашего сайта. Вам нужно в директиве «User-agent», написать так:
User-agent: Yandex
Это для поискового робота Яндекс.
Вот список популярных, и часто используемых поисковиков.
Google — Googlebot http://www.google.com
Yahoo — Slurp (или Yahoo! Slurp) http://www.yahoo.com
Alexa — ia_archiver http://www.alexa.com
Рамблер — StackRambler http://www.rambler.ru
Мэйл.ру — Mail.Ru
http://mail.ru
Вебальта — WebAlta (WebAlta Crawler/2.0) http://www.webalta.ru
Aport — Aport http://www.aport.ru
AOL — Slurp http://www.aol.com
MSN — MSNBot http://www.msn.com
Ask — Teoma http://www.ask.com
AltaVista — Scooter http://www.altavista.com
Lycos — Lycos http://www.lycos.com
1. Вот такой код для файла robots.txt.
User-agent: *
Disallow:
разрешает всем поисковым роботам без каких-либо исключений проводить индексацию всего сайта.
2. Вот такой
код для файла robots.txt.
User-agent: *
Disallow: /
полностью запрещает всем поисковикам проводить индексацию сайта. Производит это директива Disallow с «/» в поле значение.
3. Вот такой код для файла robots.txt.
User-agent: *
Disallow: /image/
будет всем поисковым системам запрещать
проводить индексацию содержимого каталога /image/ (http://mysite.ru/image/ — путь к этому каталогу)
4. Вот такой код для файла robots.txt.
User-agent: *
Disallow: /image
будут запрещены все файлы и директории, начинающиеся с символами «image», а так же директории и файлы: «images.htm»,
«image.htm», и директории: «image», «images1», «image 2» и так далее.
5. Можно использовать символы ‘*’ и ‘$’ при описании путей для директив Allow-Disallow, таким образом, задавая, определенные логические выражения. Символ ‘*’ означает любую последовательность символов (в том числе и пустую).
6. Вот такой код для файла robots.txt.
User-agent: *
Disallow: *.aspx
Будет запрещать всем поисковикам индексацию файлов на сайте с расширение «.aspx»:
‘Sitemap’ — это директива которая указывает поисковым системам на место расположения файла карты сайта.
Также важно в файле robots.txt в директиве ‘Host’ указать главное зеркало вашего блога или сайта. Укажите в этой директиве просто доменное имя без http://, если у вас нет зеркал.
В принципе файл robots.txt, является служебным файлом, и его работа подсказывать поисковым роботам, какие разделы сайта индексировать, а какие нет, это своего рода запрет доступа к содержимому вашего ресурса.
Файл robots.txt делается очень просто. На рабочем столе создайте текстовый файл robots.txt. Далее скопируйте следующее содержание, и вставьте в текстовый файл:
Приведенный ниже файл robots.txt для блога на WordPress.
User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments
User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments
Host: istokblag.ru
Sitemap: http:// istokblag.ru/sitemap.xml
Sitemap: http:// istokblag.ru/sitemap.xml.gz
Это правильный файл robots.txt, только не забудьте указать адрес своего блога вместо istokblag.ru. Все файл готов.
После того как файл robots.txt создан, Вам нужно установить этот файл к себе на сайт в корень вашего блога (папка public_html или httpdocs).
Хочу добавить два важных понятия при использовании robots.txt:
- роботы могут игнорировать robots.txt. Особенно вредоносных роботов, которые сканируют Интернет — уязвимости в системе безопасности. А так же электронная почта, поток адресов, используемые спамерами, роботы на это не обращают внимания.
- файл robots.txt является общедоступным файлом. Любой человек может увидеть, какие разделы вашего сервера вы хотите, закрыть от индексации роботами.
Так что не пытайтесь использовать robots.txt, чтобы скрыть информацию.
Ну, вот, пожалуй, и все что относиться к вопросу, как сделать правильный файл robots.txt
Столько вариантов его, что пойди пойми какой правильный.
а скажите как составить робот правильно без «WordPress».
Создать robots.txt можно просто в блокноте. Для этого открываем блокнот, он имеется в Windows и прописать в блокноте нужные директивы. Сохраняем созданный файл с расширением «txt», и названием «robots», после чего закачиваем в корневую директорию сайта.
Формат robots.txt подразумевает написание инструкций для всех поисковых систем. Т.е. не надо делать такой файл под каждую ПС.
В файле robots.txt обязательно всегда должны быть как минимум две директивы:
User-agent: — задает для какой поисковой системы, и для какого бота будут следующие инструкции.
Disallow: — указывает какую (конкретную страницу) директорию сайта не нужно индексировать.
Если Вы поставите «звездочку» * возле User-agent, Вы зададите одинаковые директивы для всех поисковых систем.
User-agent: *
В принципе синтаксис файла robots.txt выглядит так:
User-agent: *
Disallow: /file.html
Disallow: /papka/
Где звездочка, * — указывает, что инструкции для всех поисковых систем
Disallow: /file.html – означает запрет индексации файла file.html
Disallow: /papka/ — запрещает индексацию всех файлов папки «papka»
Если вы не хотите ни какие страницы сайта, запрещать к индексации, то ваш правильный robots.txt будет выглядеть так:
User-agent: *
Disallow: и так далее.
спасибо!
голова кругом идет! столько полезного!
ДА! голова то кругом, но не знаешь чего начать и как правильно все делать, чтобы посетители приходили на сайт?
Здравствуйте Марина!Начните сначала с правильного подбора ключевых запросов, а затем постарайтесь писать по ним интересные и хорошие тексты. Удачи.