作為一名合格的seoER,我們接觸的是網(wǎng)站,接觸的是搜索引擎,既然如此,那么我們就必須對搜索引擎有一定的了解,只有這樣才能做出效果。嚴(yán)格來說搜索引擎是通過一種“爬蟲(蜘蛛)”這樣的計算機程序來抓取我們網(wǎng)頁上面的信息的,總體來講,搜索引擎爬蟲的工作原理一共分為抓取、過濾、收錄索引、排序四大環(huán)節(jié),下面我們一起來看一下。
1、種子URL
所謂種子URL所指的就是最開始選定的URL地址,大多數(shù)情況下,網(wǎng)站的首頁、頻道頁等豐富性內(nèi)容更多的頁面會被作為種子URL;
然后將這些種子URL放入到待抓取的URL列表中;
2、待抓取URL列表
爬蟲從待抓取的URL列表中逐個進行讀取,讀取URL的過程中,會將URL通過DNS解析,把這個URL地址轉(zhuǎn)換成網(wǎng)站服務(wù)器的IP地址+相對路徑的方式;
3、網(wǎng)頁下載器
接下來把這個地址交給網(wǎng)頁下載器(所謂網(wǎng)頁下載器,顧名思義就是負責(zé)下載網(wǎng)頁內(nèi)容的一個模塊;
4、源代碼
對于下載到本地的網(wǎng)頁,也就是我們網(wǎng)頁的源代碼,一方面要將這個網(wǎng)頁存儲到網(wǎng)頁庫中,另一方面會從下載網(wǎng)頁中再次提取URL地址。
5、抽取URL
新提取出來的URL地址會先在已抓取的URL列表中進行比對,檢查一下這個網(wǎng)頁是不是被抓取了。
對于真正的爬蟲來說,先抓哪些頁面、后抓哪些頁面,以及不抓哪些頁面等等都是有一定的策略的,這里講述的是一個比較通過、普遍的爬蟲抓取流程,身為SEO的我們,知道這些足以。