av狼友永久免费网址观看,亚洲另类激情综合偷自拍图,亚洲中文字幕无码永久在线不卡,潮喷中文字幕在线精品无码

堅持為客戶提供有價值的服務(wù)和內(nèi)容

公司網(wǎng)絡(luò)推廣:商企云介紹搜索引擎優(yōu)化SEO算法之TF-IDF算法

商企云 | 2021-06-09 | 分享至:

  一、TF-IDF算法是什么意思

  搜索引擎對于頁面權(quán)重的計算有很多的算法,其中就有一項十分著名的算法,英文簡稱是TF-IDF。TF-IDF是一種統(tǒng)計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。含義如下:

  TF:詞頻

  IDF:逆文本頻率指數(shù)

  TF-IDF=TF*IDF

  可能大家對這個名詞比較陌生,但是,了解seo的朋友應(yīng)該聽說過關(guān)鍵詞密度吧,TF詞頻的就是大家所熟知的關(guān)鍵詞密度。TF用來判斷一個頁面的相關(guān)度。頁面的相關(guān)性對于網(wǎng)站的排名影響很大,同一個關(guān)鍵詞下,相關(guān)性越高的網(wǎng)頁,百度會覺得它越重要,從而給與這個網(wǎng)頁更好的排名。但是,千萬不要為了提高關(guān)鍵詞密度而在網(wǎng)頁中疊加關(guān)鍵詞哦,如果一旦被百度識別,就會受到懲罰。

  二、TF-IDF算法如何實現(xiàn)的

  TF為詞頻的意思,是指一個詞出現(xiàn)在頁面中的次數(shù),如果一篇文章的總詞語數(shù)是200,而“網(wǎng)站優(yōu)化”這個詞出現(xiàn)了4次,那么“網(wǎng)站優(yōu)化”這個詞頻TF=4/200,也就是0.02。一般來說,這個詞頻(關(guān)鍵詞密度)越高,代表頁面越相關(guān)。

  而IDF為逆文本頻率指數(shù),聽起來有點晦澀難懂,不要緊,我舉例說明下。假設(shè)“網(wǎng)站優(yōu)化”在N(2000)個頁面出現(xiàn),總文件數(shù)為M(1億),那么文件頻率IDF=lg(M/N)=lg(100000000/2000)=4.69897。通俗的來說,就是包含“網(wǎng)站優(yōu)化”這個詞的網(wǎng)頁總數(shù)越多,這個詞就變得越不重要。

  一個網(wǎng)頁是很多的關(guān)鍵詞的集合,搜索引擎并不會給所有的詞加分,我們需要一個識別度高的詞來為頁面加分。例如:搜索引擎收錄一萬億個頁面,應(yīng)該說每個頁面都會有“的、是、中、地、得”等等詞,這些高頻詞也叫噪音詞或停止詞,搜索引擎會去除這些詞,所以這些詞的加分權(quán)重其實應(yīng)該是0。然后再分別計算其中包含的關(guān)鍵詞權(quán)重。

  三、TF-IDF算法的具體應(yīng)用

  其實在搜索引擎檢索中,計算權(quán)重的時候,會根據(jù)每個詞分詞來計算,例如:“SEO網(wǎng)站優(yōu)化的網(wǎng)站建設(shè)公司”這個詞。

  假設(shè):“SEO”頁面檢索數(shù)位2000萬,“網(wǎng)站優(yōu)化”的檢索數(shù)為1000萬,“技巧”的檢索數(shù)為50000萬

  搜索引擎索引總數(shù)假設(shè)為100億。

  某個網(wǎng)頁去除“的、是、中、地、得”停止詞后,總共被百度切分為400個詞。”seo”出現(xiàn)8次,”網(wǎng)站優(yōu)化”出現(xiàn)10次,”網(wǎng)站建設(shè)公司”出現(xiàn)16次。

  那么它們各自的詞頻:

  TF(SEO)=8/400=0.02,

  TF(網(wǎng)站優(yōu)化)=10/400=0.025

  TF(網(wǎng)站建設(shè)公司)=20/400=0.04

  那么搜索“SEO網(wǎng)站優(yōu)化的網(wǎng)站建設(shè)公司”這個頁面的相關(guān)度為:

  TF(總)=0.02+0.025+0.05=0.095。

  而IDF(SEO)=LOG(10000000000/20000000)=2.69897

  IDF(網(wǎng)站優(yōu)化)= LOG(10000000000/10000000)=3

  IDF(網(wǎng)站建設(shè)公司)=log(10000000000/100000000)=1.69897

  這么算下來之后,每個詞為搜索“SEO網(wǎng)站優(yōu)化的網(wǎng)站建設(shè)公司”為頁面的權(quán)重和相關(guān)度貢獻的值分別為:

  Tf-idf(seo)=0.02*2.69897=0.0539794

  Tf-dif(網(wǎng)站優(yōu)化)=0.025*3=0.075

  Tf-idf(網(wǎng)站建設(shè)公司)=0.04*1.69897=0.0679588

  由此可以看出,雖然技巧出現(xiàn)的頻率更高,但識別度沒有SEO和網(wǎng)站優(yōu)化高,所以為頁面的權(quán)重貢獻度并不是太大。一個詞的預(yù)測能力也就是識別度越高,那么這個詞的權(quán)重越大,反之則越小,看到“網(wǎng)站優(yōu)化“可能你就已經(jīng)基本了解這個頁面要講什么,但是看到網(wǎng)站建設(shè)公司,你可能還不是太明白頁面的主題。 當然TF-IDF算法只是搜索引擎的算法的一個點,另外比如頁面標簽的使用例如H標簽,搜索引擎糾錯算法,外鏈內(nèi)鏈接的投票,頁面相似度,url路徑層次等等也是很重要的點,以后相繼會提到。

掃二維碼與項目經(jīng)理溝通

7*24小時為您服務(wù)

解答:網(wǎng)站優(yōu)化,網(wǎng)站建設(shè),APP開發(fā),小程序開發(fā),H5開發(fā),品牌推廣,新聞推廣,輿情監(jiān)測等

  非常感謝您有耐心的讀完這篇文章:"公司網(wǎng)絡(luò)推廣:商企云介紹搜索引擎優(yōu)化SEO算法之TF-IDF算法",更多內(nèi)容請繼續(xù)瀏覽,我們將為您提供更多參考使用或?qū)W習(xí)交流的信息。我們還可為您提供:網(wǎng)站建設(shè)與開發(fā)、網(wǎng)站優(yōu)化品牌推廣、APP開發(fā)、小程序開發(fā)、新聞推廣等服務(wù),我們以“降低營銷成本,提高營銷效果”的服務(wù)理念,自創(chuàng)立至今,已成功服務(wù)過不同行業(yè)的1000多家企業(yè),獲得國家高新技術(shù)企業(yè)認證,且擁有14項國家軟件著作權(quán),將力爭成為國內(nèi)企業(yè)心目中值得信賴的互聯(lián)網(wǎng)產(chǎn)品及服務(wù)提供商。如您需要合作,請掃碼咨詢,我們將誠摯為您服務(wù)。
我要咨詢
姓名 :
電話 :
文章分類
<蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <文本链> <文本链> <文本链> <文本链> <文本链> <文本链>