提到百度收錄的網(wǎng)站的要求,最開始我不得不說的就是搜索引擎爬蟲的抓取。如果搜索引擎爬蟲不能抓取你的網(wǎng)站,或者爬蟲無法識別網(wǎng)頁內(nèi)容的話,那百度幾乎不會收錄你的網(wǎng)站了。
爬蟲抓取的可識別性
在爬蟲抓取網(wǎng)頁時,如果根本不知道你的網(wǎng)頁內(nèi)容是什么,那基本上是不會被百度收錄的。所以讓爬蟲識別到我們網(wǎng)頁的內(nèi)容也是較為關(guān)鍵的一個問題。
1、robots協(xié)議的封禁
robots是一個txt文件,放置于網(wǎng)站的根目錄下。可以通過www.xxx.com/robots.txt進行訪問打開。如果你的robots文件封禁了百度爬蟲,那么收錄簡直是不可能的。
因為robots協(xié)議文件是搜索引擎與網(wǎng)站之間的協(xié)議文件。是網(wǎng)站告知搜索引擎爬蟲,哪些內(nèi)容你可以抓取,哪些內(nèi)容你是不可以抓取。所以你都告訴爬蟲不讓它抓取了,他還怎么會抓取呢?
2、影響網(wǎng)站收錄的ajax技術(shù)
js的ajax技術(shù),其實很多做seo的都知道不能使用js,但這并不完全是。因為爬蟲抓取的是網(wǎng)頁源代碼,只要你源代碼中有這些內(nèi)容就是可以的。但通過js實現(xiàn)異步加載的內(nèi)容就不行了。
這里解釋一下什么是異步加載,就是當(dāng)前網(wǎng)頁源代碼沒有的內(nèi)容。通過觸發(fā)網(wǎng)頁某個事件,js通過ajax技術(shù)動態(tài)加載出來的內(nèi)容。例如典型的瀑布流網(wǎng)頁,當(dāng)你鼠標(biāo)滾動到最底部,然后地步就會出現(xiàn)更多新的內(nèi)容。多數(shù)是采用這個ajax技術(shù)。
那被異步加載出來的內(nèi)容爬蟲是看不到的。
3、圖片、導(dǎo)航、ALT
圖片類型的導(dǎo)航,現(xiàn)在基本很少見了。但這里還是要說一下,如果你的導(dǎo)航(主導(dǎo)航)使用圖片,在這個寸土寸金的位置上,搜索引擎根本不知道你說了什么,所以這時候需要我們使用alt標(biāo)簽進行設(shè)置。
alt嚴(yán)格來說是img標(biāo)簽的一個屬性值,是在當(dāng)圖片加載失敗時的提示文字。
4、網(wǎng)站訪問速度慢
如果你的網(wǎng)站打開速度很慢的話,也會很大程度上的影響收錄。我們舉個例子,爬蟲每天抓取你網(wǎng)站就給10分鐘時間,你的網(wǎng)站訪問一次需要1秒鐘,和需要100毫秒。這完全是兩個層次上的結(jié)果。
內(nèi)容質(zhì)量對收錄的影響
單純解決了爬蟲的抓取問題之后,還要更多的關(guān)注到內(nèi)容質(zhì)量本身,我們下面從3個點說明一下。
1、內(nèi)容的原創(chuàng)性
你的內(nèi)容本身是不是原創(chuàng)的,原創(chuàng)內(nèi)容更有機會被收錄這個是眾所周知的。本文不討論怎么寫原創(chuàng)文章,所以原創(chuàng)怎么搞,在這里只能說自己弄明白了,然后用自己的語言組織一下寫出來。
2、內(nèi)容的可讀性
你的網(wǎng)頁是不是會對用戶造成一定的體驗影響,例如廣告遮擋主體內(nèi)容。主要的內(nèi)容沒有在電腦首評出現(xiàn)。字體大小、字體顏色與背景色過于接近等。
3、內(nèi)容的需求滿足度
標(biāo)題和內(nèi)容是不是提問相符的。且真正解決了用戶的需求。并不是掛羊頭賣狗肉,或者語句不通順等行為。
如上內(nèi)容解決了,基本上就符合了百度收錄網(wǎng)站的標(biāo)準(zhǔn)了。