一、網(wǎng)站內(nèi)部?jī)?yōu)化
Robot.txt使用方法詳細(xì)說(shuō)明及robot.txt問(wèn)題匯總
(1)為什么設(shè)置Robots.txt?
在做好seo使用的過(guò)程中,我們應(yīng)該告知百度搜索引擎什么網(wǎng)頁(yè)頁(yè)面關(guān)鍵什么網(wǎng)頁(yè)頁(yè)面不重要,關(guān)鍵的網(wǎng)頁(yè)頁(yè)面讓蜘蛛開(kāi)展抓取,不重要的網(wǎng)頁(yè)開(kāi)展屏蔽掉能夠降低網(wǎng)絡(luò)服務(wù)器的壓力。
(2)一些普遍的難題和知識(shí)要點(diǎn)
蜘蛛在發(fā)覺(jué)一個(gè)網(wǎng)站的情況下,是抓取網(wǎng)址的Robots.txt文件(自然官方網(wǎng)上是這樣講的,有時(shí)還會(huì)發(fā)生不遵守的狀況);
提議每一個(gè)網(wǎng)址都需要設(shè)定Robots.txt文件,假如你覺(jué)得網(wǎng)站上全部?jī)?nèi)容全是關(guān)鍵的,你能創(chuàng)建一個(gè)空的robots.txt文件;
(3)在robots.txt文件中設(shè)定sitmap
你能在robots.txt中加上網(wǎng)址的地形圖,告知蜘蛛sitmap所屬的詳細(xì)地址。
(4)Robots.txt的次序
在蜘蛛?yún)f(xié)議書(shū)中,Disallow與Allow是有次序的,這是一個(gè)非常重要的難題,假如設(shè)定不正確可能會(huì)致使抓取不正確。
模塊蜘蛛程序流程會(huì)依據(jù)個(gè)配對(duì)完成的Allow或Disallow行明確是不是瀏覽某一URL,一個(gè)事例能讓你更清晰搞清楚:
User-agent:*2.Allow:/seojc/bbs3.Disallow:/seojc/這個(gè)情況下,蜘蛛/seojc/bbs目錄能夠正常的抓取,但/seojc/目錄的文件沒(méi)法抓取。根據(jù)這類(lèi)方法能夠容許蜘蛛瀏覽特殊目錄里的一部分url。
大家互換下部位觀察一下。
User-agent:*2.Disallow:/根目錄下的文件夾/3.Allow:/seojc/bbs/seojc/目錄發(fā)生內(nèi)行,嚴(yán)禁抓取目錄下的全部文件,那樣第二行的Allow就失效,由于行中早已嚴(yán)禁抓取seojc目錄下的全部文件,而bbs目錄恰好坐落于seowhy目錄下。因而配對(duì)失敗。
(5)Robots.txt路徑問(wèn)題
在蜘蛛?yún)f(xié)議書(shū)中,Allow和Disallow后邊可以跟二種途徑方式,即連接、相對(duì)性連接。連接便是詳細(xì)的URL方式,而相對(duì)性連接只對(duì)于根目錄。這也是記牢。
(6)斜線難題
Disallow:/seojc表示嚴(yán)禁抓取seoic這一目錄下的全部文件,如:seojc.1.html、seojc/rmjc.php都不允許抓取;
Disallow:/seojc/表明嚴(yán)禁抓取seojc這一目錄下的文件,即容許抓取seojc.1.html,可是不允許抓取seojc/rmjc.php。