Сами ще се очудите, как един обикновен TXT файл, генериран с Notepad може да бъде толкова важен за вашия уебсайт.
Представете си, че имате папка в сайта си, където се съдържат файлове с ваша лична информация, имейл адреси на вашите приятели и партньори, които не бихте желали да стават публично достояние чрез търсачките. Можем да избегнето това с помощта на няолко прости команди, изписани в robots.txt файл.
И все пак, какво е robots.txt? Търсещите ботове или така наречените „паяци“ обхождат всички URL адреси на които попадат в мрежата. Първото нещо, за което те сканират е именно наличието на robots.txt файл. Това е така, понеже те се съобразяват с него и спазват указанията изписани в съдържанието му. Този файл им действа като протокол, като им подсказва, кои области на вашия сайт са разрешени да посещават и индексират в базата си данни. Единственото нещо, което трябва да направим, за да наложим това ограничение е да генерираме robots.txt и да го качим в коренната директория на сайта си.
Пример:
Правилно: https://test.galinov.com/robots.txt
Грешно: https://test.galinov.com/images/robots.txt
Всички по-авторитетни търсачки се съобразяват с този файл, но за съжаление повечето спам ботове (имейл колектори) не. В случай, че имате съдържание, което искате да скриете, то трябва да поставите файловете в отделна защитена директория. Така че от тази гледната точка не можете да имате пълно доверие на robots.txt
Как да създадем файла?
Всичко, което трябва да направите е да създадете текстов файл с обикновен Notepad и да го преименувате. Внимавайте, името задължително трябва да е “robots.txt”! То трябва да е само с малки букви, т.е. “Robots.txt“, “robots.TXT” се възприемат за грешни и не биха ви свършили никаква работа. Разбира се, има и по-лесни онлайн решения, с които ще можете автоматично да генерирате съдръжанието за текстовия robots файл. За целта ви препоръчвам: http://www.mcanerin.com/EN/search-engine/robots-txt.asp
През него ще можете да посочите, кои папки да не биват извеждани в търсачките. Не пропускайте да сложите ограничение и към папките съдържащи конфигурационни файлове и админ панел (ако разполагате с такъв)
За да разберете повече за фунциите и съдържанието на robots.txt ви препоръчвам да посетите http://www.robotstxt.org/robotstxt.html