183-6757-8791

QQ

手机

页面图标

网站robots.txt文件制作小方法

创建时间:2019-08-31 13:48:35 浏览量:158 来源:上虞网络公司 您的当前位置:首页>>关于我们>>Seo知识>>Seo教程

robots文件是搜索引擎蜘蛛拜访网站时要查看的第一个文件,并且会依据robots.txt文件的内容来抓取网站。在某种意义上说,它的一个使命就是辅导蜘蛛抓取,削减搜索引擎蜘蛛的工作量。


Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫扫除规范”(Robots Exclusion Protocol),网站经过Robots协议通知搜索引擎哪些页面能够抓取,哪些页面不能抓取。


当搜索引擎蜘蛛拜访网站时,它会首要查看该站点根目录下是否存在robots文件,假如该文件存在,搜索引擎蜘蛛就会依照该文件中的内容来断定抓取的规划;假如该文件不存在,则一切的搜索引擎蜘蛛将能够拜访网站上一切没有被口令维护的页面。


一般搜索引擎对网站派出的蜘蛛是有配额的,多大规划的网站放出多少蜘蛛。假如咱们不装备robots文件,那么蜘蛛来到网站以后会无目的的抓取,形成的一个成果就是,需求它抓取的目录,没有抓取到,不需求抓取的,也就是咱们不想被录入的内容却被抓取并放出快照。所以robots文件关于咱们做网站优化来说具有很重要的影响。


网站没有Robots.txt文件的坏处

假如网站中没有robots.txt文件,则网站中的程序脚本、样式表等一些和网站内容无关的文件或目录即便被搜索引擎蜘蛛抓取,也不会添加网站的录入率和权重,只会糟蹋服务器资源;搜索引擎派出的蜘蛛资源也是有限的,咱们要做的应该是尽量让蜘蛛抓取网站要点文件、目录,最大极限的节省蜘蛛资源。Robots.txt文件的寄存方位网站根目录下,经过“www.seo.fit/robots.txt”能正常拜访即可,如http://www.seo.fit/robots.txt


Robots.文件的写法

User-agent: * *代表一切搜索引擎,也可指定搜索引擎,如指定百度,User-agent: BaiduspiderDisallow: /a/ 这儿界说是制止抓取a目录下面的一切内容Disallow: /cgi-bin/*.htm 制止拜访/cgi-bin/目录下的一切以”.htm”为后缀的URL(包括子目录)Disallow: /*?* 制止拜访网站中一切包括问号 (?) 的网址Disallow: /.jpg$ 制止抓取网页一切的.jpg格局的图片Disallow:/ab/adc.html 制止爬取ab文件夹下面的adc.html文件。Allow: /cgi-bin/a/ 这儿界说是答应爬寻cgi-bin目录下面的a目录Allow: /tmp 这儿界说是答应爬寻tmp的整个目录Allow: .htm$ 答应拜访以”.htm”为后缀的URL。Allow: .gif$ 答应抓取网页和gif格局图片Sitemap: 网站地图,通知爬虫这个页面是网站地图


User-agent: * 

Disallow: /i*/ 

Disallow: /a*d/ 

Disallow: /*.php 

Disallow: /*/*.php 

Disallow: /*/list*.html 

Allow: /img/ 

Sitemap: http://www.seo.fit/sitemap.xml


User-agent: * 

(注释:这儿的*代表一切的搜索引擎品种,*是一个通配符;当然你也能够针对某个搜索引擎,如User-agent: Baiduspider、User-Agent: 360Spider、User-Agent: Sogouspider。)


Disallow: /i*/ 

(注释:Disallow为制止抓取,假如需求制止蜘蛛抓取images目录,能够写为Disallow: /images/ ;引荐本站选用的写法,Disallow: /i*/,能够在必定程度上进步网站的安全性,假如写成Disallow: /images/可能会露出网站后台文件途径,特别是办理途径。选用通配符的写法需求留意一点,i*代表一切以w最初的目录。)


Disallow: /a*d/ 

(注释:制止抓取一切以字母a开端、以字母d完毕的目录,如/abd/、/acd/、/abcd/,这种写法也是出于安全考虑。)


Disallow: /*.php 

(注释:制止抓取根目录下的一切以.php结束的文件,实际情况能够依据你所运用的网站程序来决议。)


Disallow: /*/*.php 

(注释:制止抓取一切目录下的一切以.php结束的文件。)


Disallow: /*/list*.html 

(注释:网站栏目文章多的时分会有分页,如第1页、第2页……,假如需求制止抓取分页,假定分页URL为www.xxx.com/news/list_1_32.html,咱们能够采纳Disallow: /*/list*.html这种写法来制止抓取一切目录下的一切分页。)


Allow: /img/ 

(注释:Allow代表答应抓取。Disallow: /i*/为制止抓取一切以i最初的目录,可是咱们需求让蜘蛛抓取img这个目录,能够选用Allow: /img/这种写法。)


或许还有很多网站,都是不自带生成robots,下面上虞网络公司小编就推荐大家可以去站长工具里面,站长工具里面有自带生成robots文件。站长生成链接:http://tool.chinaz.com/robots/