1、robots.txt是什么?
首先我们引来一个概念,robots.txt是一个最简单的.txt文件,它是用以告诉搜索引擎,本站中哪些网页可以收录,哪些不允许收录。
2、如何正确地放置robots.txt文件呢?
首先,robots.txt文件必须放置在网站的根目录;有域名指向到次目录,在次目录放置的robots.txt文件只对此域名有效。
其次,文件名必须小写,即robots.txt。如Robots.txt、roBots.txt、robots.TXT等都是错误的。
最重要的一个,是robots.txt文件该如何正确去写?
文件应该同时包含2个域,即“User-agent:”和“Disallow:”,每条指令独立一行。
(1)User-agent: 指定允许哪些蜘蛛抓取,如果给出参数,则只有指定的蜘蛛能够抓取;如值为通配符“*”号,代表允许所有蜘蛛抓取。如:
User-agent: Googlebot 是指只允许Google的蜘蛛抓取;
User-agent: * 指允许所有蜘蛛抓取。
注意:User-agent必须出现在第一行(有意义的行,注释除外),首先声明用户代理。
(2)Disallow: 指定禁止蜘蛛抓取的目录或文件,如:
Disallow: /help.php 指禁止抓取根目录下help.php文件;
Disallow: /admin/ 指禁止抓取根目录下的admin子目录中任何内容;
Disallow: 值为空时,表示不限制,蜘蛛可以抓取站内任何内容。如果需要指定多个目录或文件,可以用多个“Disallow: 文件或目录名”来指定,但必须每一项单独一行。
3、将你的XML格式的Sitemap地址放到robots.txt文件中
加入Sitemap地址的作用是,如果搜索引擎蜘蛛能够识别此行,就能快速获知网站的XML地图文件地址,并将地图文件作为一个URL参考进行高效索引(具体哪些搜索引擎蜘蛛能够识别目前我还不清楚)。
如疯狂王子的robots.txt的第六行:Sitemap: http://www.crazyprince.com/sitemap.xml 。注意:将Sitemap放在第一行的说法错误!
4、robots.txt的注意事项
1、必须命名为:robots.txt,都是小写,robot后面一定要加”s”。
2、如果你的站点对所有的搜索引擎都公开的话,就不用做这个文件或者把robots.txt为空就行。
3、一般情况下,robots.txt里只写着两个函数:User-agent和 Disallow。
4、robots.txt必须放置在一个站点的根目录下。如:通过http://www.crazyprince.com/robots.txt 可以成功访问到,则说明本站的放置正确。
5、观察这个页面并修改为自己的:http://www.crazyprince.com/robots.txt
6、至少要有一个Disallow函数,如果都允许收录,则写: Disallow: ,如果都不允许收录,则写:Disallow: / (注:只是差一个斜杆)。
7、有几个禁止,就得有几个Disallow函数,并分行描述。
最后,在这里给大家一个建议,不要太刻意地在robots.txt中设置过多Disallow禁止文件或目录,只设置确实不希望被搜索引擎索引的文件和目录就可以了。特别是在不清楚文件或目录的作用时,不要轻易禁止抓取。
目前网上关于robots.txt的文章已经很多了,发现都不尽全面,所以整理了一下仅供参考。