基于新聞報道的中文關(guān)鍵詞抽取算法研究
本文關(guān)鍵詞:基于新聞報道的中文關(guān)鍵詞抽取算法研究
更多相關(guān)文章: 關(guān)鍵詞抽取 間距 統(tǒng)計(jì)特征 聚類 互信息 新聞報道
【摘要】:關(guān)鍵詞可以幫助用戶迅速掌握文章的主要內(nèi)容和思想,節(jié)省瀏覽時間,為用戶是否進(jìn)一步閱讀新聞內(nèi)容提供決策;ヂ(lián)網(wǎng)作為新聞傳播的重要渠道,多數(shù)新聞網(wǎng)頁沒有關(guān)鍵詞,并且網(wǎng)絡(luò)新聞已經(jīng)脫離了報紙、雜志等傳統(tǒng)新聞的寫作結(jié)構(gòu)和方式,逐漸形成了自己獨(dú)有的寫作特點(diǎn),現(xiàn)有的關(guān)鍵詞抽取方法對其并不完全適用,所以選擇適合新聞報道的關(guān)鍵詞抽取方法,可以提高查詢速度與用戶滿意度;谝陨峡紤],本文在分析國內(nèi)外研究現(xiàn)狀并比較多種關(guān)鍵詞抽取方法的基礎(chǔ)上,針對新聞報道的寫作特點(diǎn),對現(xiàn)有方法進(jìn)行改進(jìn),提出適合新聞報道寫作內(nèi)容和結(jié)構(gòu)的關(guān)鍵詞抽取方法。一方面在以新聞報道寫作結(jié)構(gòu)研究的基礎(chǔ)上,對基于特征統(tǒng)計(jì)的關(guān)鍵詞抽取方法進(jìn)行改進(jìn)。一般的特征統(tǒng)計(jì)方法,主要基于位置、詞性、詞頻等方面考慮。其中的位置特征,將文章分為標(biāo)題、摘要、首尾段、正文等多個部分,并根據(jù)關(guān)鍵詞在文中的出現(xiàn)位置,為它們分配不同的參數(shù)值作為關(guān)鍵詞識別的一個特征項(xiàng)。但是對于新聞報道或網(wǎng)頁文本,很多都沒有摘要或標(biāo)題,有時也只用一個段落進(jìn)行敘述,此時這樣的位置分析并不合適。所以本文深入分析關(guān)鍵詞在文中的位置分布情況,提出了更適用其寫作特點(diǎn)的間距特征。另一方面在以新聞報道寫作內(nèi)容研究的基礎(chǔ)上,對基于聚類的關(guān)鍵詞抽取方法進(jìn)行改進(jìn)。由于新聞內(nèi)容總是報道最新、最近的事實(shí),其中自然也會囊括最新的詞匯和網(wǎng)絡(luò)用語,而這些詞語都不會被及時地收錄到知識庫中,導(dǎo)致在計(jì)算詞語相似度時無法被識別。所以文中提出在一般聚類方法中,加入互信息的計(jì)算與篩選,同時從語義和詞語關(guān)聯(lián)度兩方面考慮,提高關(guān)鍵詞抽取的準(zhǔn)確率。最后的實(shí)驗(yàn)對比結(jié)果中,論文中所提出的方法在準(zhǔn)確率、召回率等方面性能都有所提高,表明本文針對新聞報道內(nèi)容和結(jié)構(gòu)特點(diǎn)提出的改進(jìn)算法是有效的。
【關(guān)鍵詞】:關(guān)鍵詞抽取 間距 統(tǒng)計(jì)特征 聚類 互信息 新聞報道
【學(xué)位授予單位】:太原理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1
【目錄】:
- 摘要3-5
- ABSTRACT5-9
- 第一章 緒論9-15
- 1.1 研究背景及意義9-10
- 1.2 國內(nèi)外研究現(xiàn)狀10-12
- 1.3 主要研究內(nèi)容12-13
- 1.4 論文組織結(jié)構(gòu)13-15
- 第二章 中文關(guān)鍵詞抽取相關(guān)技術(shù)15-25
- 2.1 關(guān)鍵詞相關(guān)概念15
- 2.2 新聞報道文本特點(diǎn)15-16
- 2.3 關(guān)鍵詞方法分類16-19
- 2.3.1 基于統(tǒng)計(jì)的方法16-17
- 2.3.2 基于語義的方法17-18
- 2.3.3 基于機(jī)器學(xué)習(xí)的方法18-19
- 2.4 分詞與詞性標(biāo)注19-23
- 2.4.1 自動分詞方法19-21
- 2.4.2 詞性標(biāo)注方法21-23
- 2.5 評測標(biāo)準(zhǔn)23-24
- 2.6 本章小結(jié)24-25
- 第三章 基于特征統(tǒng)計(jì)的新聞報道關(guān)鍵詞抽取方法25-33
- 3.1 文本預(yù)處理25-26
- 3.1.1 分詞與詞性標(biāo)注25
- 3.1.2 停用詞過慮25-26
- 3.2 特征提取26-29
- 3.2.1 間距特征26-28
- 3.2.2 詞頻特征28
- 3.2.3 詞性特征28
- 3.2.4 重要度特征28-29
- 3.3 關(guān)鍵詞權(quán)重計(jì)算29
- 3.4 實(shí)驗(yàn)設(shè)置與結(jié)果29-32
- 3.4.1 實(shí)驗(yàn)平臺29
- 3.4.2 實(shí)驗(yàn)數(shù)據(jù)29-30
- 3.4.3 實(shí)驗(yàn)結(jié)果與分析30-32
- 3.5 本章小結(jié)32-33
- 第四章 基于聚類和互信息的新聞報道關(guān)鍵詞抽取方法33-51
- 4.1 聚類分析33-42
- 4.1.1 聚類分析相關(guān)知識33-34
- 4.1.2 聚類距離34-37
- 4.1.3 聚類分析方法37-42
- 4.2 詞語相似度計(jì)算42-45
- 4.3 互信息45-46
- 4.4 聚類與互信息結(jié)合的關(guān)鍵詞提取方法46-48
- 4.4.1 算法流程46
- 4.4.2 算法步驟描述46-48
- 4.5 實(shí)驗(yàn)結(jié)果與分析48-50
- 4.6 本章小結(jié)50-51
- 第五章 結(jié)束語51-55
- 5.1 論文研究工作意義51-52
- 5.2 工作展望52-55
- 參考文獻(xiàn)55-59
- 致謝59-61
- 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄61
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 胡琪;郝曉燕;張興忠;陳耀文;;關(guān)鍵詞抽取策略研究[J];太原理工大學(xué)學(xué)報;2016年02期
2 王小林;陸駱勇;邰偉鵬;;基于信息熵的新的詞語相似度算法研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2015年09期
3 徐振強(qiáng);李保利;;結(jié)合詞語分布信息的TFIDF關(guān)鍵詞抽取方法研究[J];中原工學(xué)院學(xué)報;2014年06期
4 楊穎;戴彬;;基于多特征的中文關(guān)鍵詞抽取方法[J];計(jì)算機(jī)應(yīng)用與軟件;2014年11期
5 張瑾;;基于改進(jìn)TF-IDF算法的情報關(guān)鍵詞提取方法[J];情報雜志;2014年04期
6 王錦波;王蓮芝;高萬林;喻健;;一種改進(jìn)的樸素貝葉斯關(guān)鍵詞提取算法研究[J];計(jì)算機(jī)應(yīng)用與軟件;2014年02期
7 戰(zhàn)學(xué)剛;吳強(qiáng);;基于TF統(tǒng)計(jì)和語法分析的關(guān)鍵詞提取算法[J];計(jì)算機(jī)應(yīng)用與軟件;2014年01期
8 任莉莉;方元康;;基于詞匯鏈與互信息的關(guān)鍵詞抽取研究[J];池州學(xué)院學(xué)報;2013年06期
9 孫卓;;k-均值聚類算法及其應(yīng)用[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2013年07期
10 黃軒;李偉;;基于多特征的中文關(guān)鍵詞抽取方法[J];計(jì)算機(jī)與現(xiàn)代化;2013年04期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 丁卓冶;面向主題的關(guān)鍵詞抽取方法研究[D];復(fù)旦大學(xué);2013年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 牛萍;TF-IDF與規(guī)則結(jié)合的中文關(guān)鍵詞自動抽取研究[D];大連理工大學(xué);2015年
2 賈明靜;基于用戶意圖和句法角色的問句相似度計(jì)算研究[D];青島理工大學(xué);2014年
3 孫小欣;基于潛在語義分析的學(xué)科知識圖譜構(gòu)建[D];華中師范大學(xué);2013年
4 杜晨;網(wǎng)絡(luò)新聞與報紙新聞寫作過程比較研究[D];長春理工大學(xué);2013年
5 左曉飛;基于復(fù)雜網(wǎng)絡(luò)的關(guān)鍵詞提取研究[D];西安電子科技大學(xué);2013年
6 王惠勇;多策略關(guān)鍵詞抽取及快速文本主題分類研究[D];東北大學(xué);2012年
7 肖根勝;改進(jìn)TFIDF和譜分割的關(guān)鍵詞自動抽取方法研究[D];華中師范大學(xué);2012年
8 郭勇;基于《知網(wǎng)》的詞語相似度計(jì)算研究及應(yīng)用[D];湖南大學(xué);2012年
9 羅義兵;領(lǐng)域文本相似度計(jì)算方法研究[D];山東科技大學(xué);2010年
10 張永剛;基于統(tǒng)計(jì)的多文檔關(guān)鍵短語和文摘抽取研究[D];蘇州大學(xué);2010年
,本文編號:596916
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/596916.html