在自動(dòng)描述抽取過程中,文本中的一些內(nèi)容和對(duì)象非常重要,這將直接影響摘要的質(zhì)量。如關(guān)鍵詞、詞頻、詞位、句長(zhǎng)、句子結(jié)構(gòu)、排版特點(diǎn)等。在自動(dòng)生成描述的過程中,它們?cè)诔橄缶涞倪x擇和抽象句的組織上起著重要的作用。我們必須深刻理解和分析它們。
詞頻是指詞在文本中出現(xiàn)的頻率。具有標(biāo)引價(jià)值的詞多為中頻詞,一般為反映句子語法結(jié)構(gòu)的虛詞,低頻詞不宜標(biāo)引。同樣,在摘要中起重要作用的詞也是高頻關(guān)鍵詞(重要詞),在整篇文章中屬于中頻詞。根據(jù)中頻詞的個(gè)數(shù),計(jì)算句子的權(quán)重,確定候選句子。
文本信息的標(biāo)題是文本內(nèi)容的重要體現(xiàn)。各級(jí)文本的標(biāo)題在不同程度上反映了文本的主要內(nèi)容。因此,標(biāo)題中的詞匯是摘要的重要素材,其中的關(guān)鍵詞和原文的內(nèi)容往往與討論的話題密切相關(guān)。除題名中的虛詞外,其余關(guān)鍵字可作為抽象句中的“重要詞”。
有許多短語(詞)用來擴(kuò)展概括句,反映課文的內(nèi)容。這些短語或單詞被稱為指示語。這種指示語有以下幾種形式:“本文討論”、“本文目的”、“總結(jié)”等。這些指示語后的句子往往高度概括了文學(xué)的主題。因此,這些句子很有可能被選為摘要的候選句子。
網(wǎng)站seo中的網(wǎng)頁描述與內(nèi)容優(yōu)化要點(diǎn)
不同位置的句子對(duì)文章和段落主題的貢獻(xiàn)是不同的。商企云對(duì)此做了一些研究。我們認(rèn)為,該段首句成為該段主題句的概率為85%,該段結(jié)尾句的概率為7%。因此,這些句子很有可能成為總結(jié)句。在自動(dòng)摘要過程中,需要提高這些特殊位置的句子權(quán)重。
文章中有多種句式,如陳述句、疑問句、感嘆句等。然而,陳述句是真正反映文章主題的主要陳述句,這也說明文章的摘要大多由陳述句構(gòu)成。因此,在選擇總結(jié)句時(shí),應(yīng)盡量提取陳述句,避免疑問句、感嘆句等形式的句子進(jìn)入總結(jié)句。
摘要短小精悍,即用簡(jiǎn)短的文字概括文章的主要內(nèi)容。因此,在選擇抽象句時(shí),要選擇更簡(jiǎn)潔、更短小的句子,而過長(zhǎng)的句子通常不適合抽象。
隨著網(wǎng)頁設(shè)計(jì)軟件的發(fā)展,對(duì)機(jī)讀文獻(xiàn)的排版格式也提出了更高的要求。編輯經(jīng)常通過特殊的格式突出文學(xué)的主題內(nèi)容,如增加字體大小、改變粗體或特殊字體、下劃線、中間文字、標(biāo)記、增加縮進(jìn)、陰影、邊框、超鏈接等。應(yīng)考慮這些特殊的格式特征,適當(dāng)增加權(quán)重。
站點(diǎn)優(yōu)化對(duì)于整個(gè)SEO項(xiàng)目來說,占據(jù)了非常大的比重。外部鏈接只能在內(nèi)部?jī)?yōu)化的基礎(chǔ)上起到錦上添花的作用。商企云的觀點(diǎn)是:SEO的重點(diǎn)是考慮如何在網(wǎng)站上做好工作,迎合搜索引擎的規(guī)則,避免違反搜索算法。