一、TF-IDF算法是什么意思
搜索引擎對于頁面權(quán)重的計算有很多的算法,其中就有一項十分著名的算法,英文簡稱是TF-IDF。TF-IDF是一種統(tǒng)計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。含義如下:
TF:詞頻
IDF:逆文本頻率指數(shù)
TF-IDF=TF*IDF
可能大家對這個名詞比較陌生,但是,了解seo的朋友應(yīng)該聽說過關(guān)鍵詞密度吧,TF詞頻的就是大家所熟知的關(guān)鍵詞密度。TF用來判斷一個頁面的相關(guān)度。頁面的相關(guān)性對于網(wǎng)站的排名影響很大,同一個關(guān)鍵詞下,相關(guān)性越高的網(wǎng)頁,百度會覺得它越重要,從而給與這個網(wǎng)頁更好的排名。但是,千萬不要為了提高關(guān)鍵詞密度而在網(wǎng)頁中疊加關(guān)鍵詞哦,如果一旦被百度識別,就會受到懲罰。
二、TF-IDF算法如何實現(xiàn)的
TF為詞頻的意思,是指一個詞出現(xiàn)在頁面中的次數(shù),如果一篇文章的總詞語數(shù)是200,而“網(wǎng)站優(yōu)化”這個詞出現(xiàn)了4次,那么“網(wǎng)站優(yōu)化”這個詞頻TF=4/200,也就是0.02。一般來說,這個詞頻(關(guān)鍵詞密度)越高,代表頁面越相關(guān)。
而IDF為逆文本頻率指數(shù),聽起來有點晦澀難懂,不要緊,我舉例說明下。假設(shè)“網(wǎng)站優(yōu)化”在N(2000)個頁面出現(xiàn),總文件數(shù)為M(1億),那么文件頻率IDF=lg(M/N)=lg(100000000/2000)=4.69897。通俗的來說,就是包含“網(wǎng)站優(yōu)化”這個詞的網(wǎng)頁總數(shù)越多,這個詞就變得越不重要。
一個網(wǎng)頁是很多的關(guān)鍵詞的集合,搜索引擎并不會給所有的詞加分,我們需要一個識別度高的詞來為頁面加分。例如:搜索引擎收錄一萬億個頁面,應(yīng)該說每個頁面都會有“的、是、中、地、得”等等詞,這些高頻詞也叫噪音詞或停止詞,搜索引擎會去除這些詞,所以這些詞的加分權(quán)重其實應(yīng)該是0。然后再分別計算其中包含的關(guān)鍵詞權(quán)重。
三、TF-IDF算法的具體應(yīng)用
其實在搜索引擎檢索中,計算權(quán)重的時候,會根據(jù)每個詞分詞來計算,例如:“SEO網(wǎng)站優(yōu)化的網(wǎng)站建設(shè)公司”這個詞。
假設(shè):“SEO”頁面檢索數(shù)位2000萬,“網(wǎng)站優(yōu)化”的檢索數(shù)為1000萬,“技巧”的檢索數(shù)為50000萬
搜索引擎索引總數(shù)假設(shè)為100億。
某個網(wǎng)頁去除“的、是、中、地、得”停止詞后,總共被百度切分為400個詞。”seo”出現(xiàn)8次,”網(wǎng)站優(yōu)化”出現(xiàn)10次,”網(wǎng)站建設(shè)公司”出現(xiàn)16次。
那么它們各自的詞頻:
TF(SEO)=8/400=0.02,
TF(網(wǎng)站優(yōu)化)=10/400=0.025
TF(網(wǎng)站建設(shè)公司)=20/400=0.04
那么搜索“SEO網(wǎng)站優(yōu)化的網(wǎng)站建設(shè)公司”這個頁面的相關(guān)度為:
TF(總)=0.02+0.025+0.05=0.095。
而IDF(SEO)=LOG(10000000000/20000000)=2.69897
IDF(網(wǎng)站優(yōu)化)= LOG(10000000000/10000000)=3
IDF(網(wǎng)站建設(shè)公司)=log(10000000000/100000000)=1.69897
這么算下來之后,每個詞為搜索“SEO網(wǎng)站優(yōu)化的網(wǎng)站建設(shè)公司”為頁面的權(quán)重和相關(guān)度貢獻的值分別為:
Tf-idf(seo)=0.02*2.69897=0.0539794
Tf-dif(網(wǎng)站優(yōu)化)=0.025*3=0.075
Tf-idf(網(wǎng)站建設(shè)公司)=0.04*1.69897=0.0679588
由此可以看出,雖然技巧出現(xiàn)的頻率更高,但識別度沒有SEO和網(wǎng)站優(yōu)化高,所以為頁面的權(quán)重貢獻度并不是太大。一個詞的預(yù)測能力也就是識別度越高,那么這個詞的權(quán)重越大,反之則越小,看到“網(wǎng)站優(yōu)化“可能你就已經(jīng)基本了解這個頁面要講什么,但是看到網(wǎng)站建設(shè)公司,你可能還不是太明白頁面的主題。 當然TF-IDF算法只是搜索引擎的算法的一個點,另外比如頁面標簽的使用例如H標簽,搜索引擎糾錯算法,外鏈內(nèi)鏈接的投票,頁面相似度,url路徑層次等等也是很重要的點,以后相繼會提到。