英文外贸网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。当蜘蛛访问一个网站时,首先会检查该网站中是否存在robots.txt这个文件,如果蜘蛛找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。
Robots.txt使用:
txt 文本:写好代码,上传至网站的根目录下
案例:
1. User-agent: *
Disallow: /
表示针对所有的搜索引擎都不允许抓取。
注:a. 如果不写“/”代表allow。
b.在使用adwords 测试关键词时可以用这个robots.txt。
2. User-agent:Google.bot-Image
Disallow:/photo/
检查网站是否允许搜索引擎抓取:
您可以查看您的网站的robots文件,在域名后面加上“/robots.txt”例如www.xxx.com/robots.txt 即可访问。以下是某英文外贸网站的robots文件,已经允许搜索引擎抓取相关页面。