天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

基于新聞報(bào)道的中文關(guān)鍵詞抽取算法研究

發(fā)布時(shí)間:2017-07-31 01:28

  本文關(guān)鍵詞:基于新聞報(bào)道的中文關(guān)鍵詞抽取算法研究


  更多相關(guān)文章: 關(guān)鍵詞抽取 間距 統(tǒng)計(jì)特征 聚類 互信息 新聞報(bào)道


【摘要】:關(guān)鍵詞可以幫助用戶迅速掌握文章的主要內(nèi)容和思想,節(jié)省瀏覽時(shí)間,為用戶是否進(jìn)一步閱讀新聞內(nèi)容提供決策;ヂ(lián)網(wǎng)作為新聞傳播的重要渠道,多數(shù)新聞網(wǎng)頁(yè)沒(méi)有關(guān)鍵詞,并且網(wǎng)絡(luò)新聞已經(jīng)脫離了報(bào)紙、雜志等傳統(tǒng)新聞的寫作結(jié)構(gòu)和方式,逐漸形成了自己獨(dú)有的寫作特點(diǎn),現(xiàn)有的關(guān)鍵詞抽取方法對(duì)其并不完全適用,所以選擇適合新聞報(bào)道的關(guān)鍵詞抽取方法,可以提高查詢速度與用戶滿意度。基于以上考慮,本文在分析國(guó)內(nèi)外研究現(xiàn)狀并比較多種關(guān)鍵詞抽取方法的基礎(chǔ)上,針對(duì)新聞報(bào)道的寫作特點(diǎn),對(duì)現(xiàn)有方法進(jìn)行改進(jìn),提出適合新聞報(bào)道寫作內(nèi)容和結(jié)構(gòu)的關(guān)鍵詞抽取方法。一方面在以新聞報(bào)道寫作結(jié)構(gòu)研究的基礎(chǔ)上,對(duì)基于特征統(tǒng)計(jì)的關(guān)鍵詞抽取方法進(jìn)行改進(jìn)。一般的特征統(tǒng)計(jì)方法,主要基于位置、詞性、詞頻等方面考慮。其中的位置特征,將文章分為標(biāo)題、摘要、首尾段、正文等多個(gè)部分,并根據(jù)關(guān)鍵詞在文中的出現(xiàn)位置,為它們分配不同的參數(shù)值作為關(guān)鍵詞識(shí)別的一個(gè)特征項(xiàng)。但是對(duì)于新聞報(bào)道或網(wǎng)頁(yè)文本,很多都沒(méi)有摘要或標(biāo)題,有時(shí)也只用一個(gè)段落進(jìn)行敘述,此時(shí)這樣的位置分析并不合適。所以本文深入分析關(guān)鍵詞在文中的位置分布情況,提出了更適用其寫作特點(diǎn)的間距特征。另一方面在以新聞報(bào)道寫作內(nèi)容研究的基礎(chǔ)上,對(duì)基于聚類的關(guān)鍵詞抽取方法進(jìn)行改進(jìn)。由于新聞內(nèi)容總是報(bào)道最新、最近的事實(shí),其中自然也會(huì)囊括最新的詞匯和網(wǎng)絡(luò)用語(yǔ),而這些詞語(yǔ)都不會(huì)被及時(shí)地收錄到知識(shí)庫(kù)中,導(dǎo)致在計(jì)算詞語(yǔ)相似度時(shí)無(wú)法被識(shí)別。所以文中提出在一般聚類方法中,加入互信息的計(jì)算與篩選,同時(shí)從語(yǔ)義和詞語(yǔ)關(guān)聯(lián)度兩方面考慮,提高關(guān)鍵詞抽取的準(zhǔn)確率。最后的實(shí)驗(yàn)對(duì)比結(jié)果中,論文中所提出的方法在準(zhǔn)確率、召回率等方面性能都有所提高,表明本文針對(duì)新聞報(bào)道內(nèi)容和結(jié)構(gòu)特點(diǎn)提出的改進(jìn)算法是有效的。
【關(guān)鍵詞】:關(guān)鍵詞抽取 間距 統(tǒng)計(jì)特征 聚類 互信息 新聞報(bào)道
【學(xué)位授予單位】:太原理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1
【目錄】:
  • 摘要3-5
  • ABSTRACT5-9
  • 第一章 緒論9-15
  • 1.1 研究背景及意義9-10
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀10-12
  • 1.3 主要研究?jī)?nèi)容12-13
  • 1.4 論文組織結(jié)構(gòu)13-15
  • 第二章 中文關(guān)鍵詞抽取相關(guān)技術(shù)15-25
  • 2.1 關(guān)鍵詞相關(guān)概念15
  • 2.2 新聞報(bào)道文本特點(diǎn)15-16
  • 2.3 關(guān)鍵詞方法分類16-19
  • 2.3.1 基于統(tǒng)計(jì)的方法16-17
  • 2.3.2 基于語(yǔ)義的方法17-18
  • 2.3.3 基于機(jī)器學(xué)習(xí)的方法18-19
  • 2.4 分詞與詞性標(biāo)注19-23
  • 2.4.1 自動(dòng)分詞方法19-21
  • 2.4.2 詞性標(biāo)注方法21-23
  • 2.5 評(píng)測(cè)標(biāo)準(zhǔn)23-24
  • 2.6 本章小結(jié)24-25
  • 第三章 基于特征統(tǒng)計(jì)的新聞報(bào)道關(guān)鍵詞抽取方法25-33
  • 3.1 文本預(yù)處理25-26
  • 3.1.1 分詞與詞性標(biāo)注25
  • 3.1.2 停用詞過(guò)慮25-26
  • 3.2 特征提取26-29
  • 3.2.1 間距特征26-28
  • 3.2.2 詞頻特征28
  • 3.2.3 詞性特征28
  • 3.2.4 重要度特征28-29
  • 3.3 關(guān)鍵詞權(quán)重計(jì)算29
  • 3.4 實(shí)驗(yàn)設(shè)置與結(jié)果29-32
  • 3.4.1 實(shí)驗(yàn)平臺(tái)29
  • 3.4.2 實(shí)驗(yàn)數(shù)據(jù)29-30
  • 3.4.3 實(shí)驗(yàn)結(jié)果與分析30-32
  • 3.5 本章小結(jié)32-33
  • 第四章 基于聚類和互信息的新聞報(bào)道關(guān)鍵詞抽取方法33-51
  • 4.1 聚類分析33-42
  • 4.1.1 聚類分析相關(guān)知識(shí)33-34
  • 4.1.2 聚類距離34-37
  • 4.1.3 聚類分析方法37-42
  • 4.2 詞語(yǔ)相似度計(jì)算42-45
  • 4.3 互信息45-46
  • 4.4 聚類與互信息結(jié)合的關(guān)鍵詞提取方法46-48
  • 4.4.1 算法流程46
  • 4.4.2 算法步驟描述46-48
  • 4.5 實(shí)驗(yàn)結(jié)果與分析48-50
  • 4.6 本章小結(jié)50-51
  • 第五章 結(jié)束語(yǔ)51-55
  • 5.1 論文研究工作意義51-52
  • 5.2 工作展望52-55
  • 參考文獻(xiàn)55-59
  • 致謝59-61
  • 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄61

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 胡琪;郝曉燕;張興忠;陳耀文;;關(guān)鍵詞抽取策略研究[J];太原理工大學(xué)學(xué)報(bào);2016年02期

2 王小林;陸駱勇;邰偉鵬;;基于信息熵的新的詞語(yǔ)相似度算法研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2015年09期

3 徐振強(qiáng);李保利;;結(jié)合詞語(yǔ)分布信息的TFIDF關(guān)鍵詞抽取方法研究[J];中原工學(xué)院學(xué)報(bào);2014年06期

4 楊穎;戴彬;;基于多特征的中文關(guān)鍵詞抽取方法[J];計(jì)算機(jī)應(yīng)用與軟件;2014年11期

5 張瑾;;基于改進(jìn)TF-IDF算法的情報(bào)關(guān)鍵詞提取方法[J];情報(bào)雜志;2014年04期

6 王錦波;王蓮芝;高萬(wàn)林;喻健;;一種改進(jìn)的樸素貝葉斯關(guān)鍵詞提取算法研究[J];計(jì)算機(jī)應(yīng)用與軟件;2014年02期

7 戰(zhàn)學(xué)剛;吳強(qiáng);;基于TF統(tǒng)計(jì)和語(yǔ)法分析的關(guān)鍵詞提取算法[J];計(jì)算機(jī)應(yīng)用與軟件;2014年01期

8 任莉莉;方元康;;基于詞匯鏈與互信息的關(guān)鍵詞抽取研究[J];池州學(xué)院學(xué)報(bào);2013年06期

9 孫卓;;k-均值聚類算法及其應(yīng)用[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2013年07期

10 黃軒;李偉;;基于多特征的中文關(guān)鍵詞抽取方法[J];計(jì)算機(jī)與現(xiàn)代化;2013年04期

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條

1 丁卓冶;面向主題的關(guān)鍵詞抽取方法研究[D];復(fù)旦大學(xué);2013年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 牛萍;TF-IDF與規(guī)則結(jié)合的中文關(guān)鍵詞自動(dòng)抽取研究[D];大連理工大學(xué);2015年

2 賈明靜;基于用戶意圖和句法角色的問(wèn)句相似度計(jì)算研究[D];青島理工大學(xué);2014年

3 孫小欣;基于潛在語(yǔ)義分析的學(xué)科知識(shí)圖譜構(gòu)建[D];華中師范大學(xué);2013年

4 杜晨;網(wǎng)絡(luò)新聞與報(bào)紙新聞寫作過(guò)程比較研究[D];長(zhǎng)春理工大學(xué);2013年

5 左曉飛;基于復(fù)雜網(wǎng)絡(luò)的關(guān)鍵詞提取研究[D];西安電子科技大學(xué);2013年

6 王惠勇;多策略關(guān)鍵詞抽取及快速文本主題分類研究[D];東北大學(xué);2012年

7 肖根勝;改進(jìn)TFIDF和譜分割的關(guān)鍵詞自動(dòng)抽取方法研究[D];華中師范大學(xué);2012年

8 郭勇;基于《知網(wǎng)》的詞語(yǔ)相似度計(jì)算研究及應(yīng)用[D];湖南大學(xué);2012年

9 羅義兵;領(lǐng)域文本相似度計(jì)算方法研究[D];山東科技大學(xué);2010年

10 張永剛;基于統(tǒng)計(jì)的多文檔關(guān)鍵短語(yǔ)和文摘抽取研究[D];蘇州大學(xué);2010年

,

本文編號(hào):596916

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/596916.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2e1e6***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com