天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于新聞報道的中文關(guān)鍵詞抽取算法研究

發(fā)布時間:2017-07-31 01:28

  本文關(guān)鍵詞:基于新聞報道的中文關(guān)鍵詞抽取算法研究


  更多相關(guān)文章: 關(guān)鍵詞抽取 間距 統(tǒng)計(jì)特征 聚類 互信息 新聞報道


【摘要】:關(guān)鍵詞可以幫助用戶迅速掌握文章的主要內(nèi)容和思想,節(jié)省瀏覽時間,為用戶是否進(jìn)一步閱讀新聞內(nèi)容提供決策;ヂ(lián)網(wǎng)作為新聞傳播的重要渠道,多數(shù)新聞網(wǎng)頁沒有關(guān)鍵詞,并且網(wǎng)絡(luò)新聞已經(jīng)脫離了報紙、雜志等傳統(tǒng)新聞的寫作結(jié)構(gòu)和方式,逐漸形成了自己獨(dú)有的寫作特點(diǎn),現(xiàn)有的關(guān)鍵詞抽取方法對其并不完全適用,所以選擇適合新聞報道的關(guān)鍵詞抽取方法,可以提高查詢速度與用戶滿意度;谝陨峡紤],本文在分析國內(nèi)外研究現(xiàn)狀并比較多種關(guān)鍵詞抽取方法的基礎(chǔ)上,針對新聞報道的寫作特點(diǎn),對現(xiàn)有方法進(jìn)行改進(jìn),提出適合新聞報道寫作內(nèi)容和結(jié)構(gòu)的關(guān)鍵詞抽取方法。一方面在以新聞報道寫作結(jié)構(gòu)研究的基礎(chǔ)上,對基于特征統(tǒng)計(jì)的關(guān)鍵詞抽取方法進(jìn)行改進(jìn)。一般的特征統(tǒng)計(jì)方法,主要基于位置、詞性、詞頻等方面考慮。其中的位置特征,將文章分為標(biāo)題、摘要、首尾段、正文等多個部分,并根據(jù)關(guān)鍵詞在文中的出現(xiàn)位置,為它們分配不同的參數(shù)值作為關(guān)鍵詞識別的一個特征項(xiàng)。但是對于新聞報道或網(wǎng)頁文本,很多都沒有摘要或標(biāo)題,有時也只用一個段落進(jìn)行敘述,此時這樣的位置分析并不合適。所以本文深入分析關(guān)鍵詞在文中的位置分布情況,提出了更適用其寫作特點(diǎn)的間距特征。另一方面在以新聞報道寫作內(nèi)容研究的基礎(chǔ)上,對基于聚類的關(guān)鍵詞抽取方法進(jìn)行改進(jìn)。由于新聞內(nèi)容總是報道最新、最近的事實(shí),其中自然也會囊括最新的詞匯和網(wǎng)絡(luò)用語,而這些詞語都不會被及時地收錄到知識庫中,導(dǎo)致在計(jì)算詞語相似度時無法被識別。所以文中提出在一般聚類方法中,加入互信息的計(jì)算與篩選,同時從語義和詞語關(guān)聯(lián)度兩方面考慮,提高關(guān)鍵詞抽取的準(zhǔn)確率。最后的實(shí)驗(yàn)對比結(jié)果中,論文中所提出的方法在準(zhǔn)確率、召回率等方面性能都有所提高,表明本文針對新聞報道內(nèi)容和結(jié)構(gòu)特點(diǎn)提出的改進(jìn)算法是有效的。
【關(guān)鍵詞】:關(guān)鍵詞抽取 間距 統(tǒng)計(jì)特征 聚類 互信息 新聞報道
【學(xué)位授予單位】:太原理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1
【目錄】:
  • 摘要3-5
  • ABSTRACT5-9
  • 第一章 緒論9-15
  • 1.1 研究背景及意義9-10
  • 1.2 國內(nèi)外研究現(xiàn)狀10-12
  • 1.3 主要研究內(nèi)容12-13
  • 1.4 論文組織結(jié)構(gòu)13-15
  • 第二章 中文關(guān)鍵詞抽取相關(guān)技術(shù)15-25
  • 2.1 關(guān)鍵詞相關(guān)概念15
  • 2.2 新聞報道文本特點(diǎn)15-16
  • 2.3 關(guān)鍵詞方法分類16-19
  • 2.3.1 基于統(tǒng)計(jì)的方法16-17
  • 2.3.2 基于語義的方法17-18
  • 2.3.3 基于機(jī)器學(xué)習(xí)的方法18-19
  • 2.4 分詞與詞性標(biāo)注19-23
  • 2.4.1 自動分詞方法19-21
  • 2.4.2 詞性標(biāo)注方法21-23
  • 2.5 評測標(biāo)準(zhǔn)23-24
  • 2.6 本章小結(jié)24-25
  • 第三章 基于特征統(tǒng)計(jì)的新聞報道關(guān)鍵詞抽取方法25-33
  • 3.1 文本預(yù)處理25-26
  • 3.1.1 分詞與詞性標(biāo)注25
  • 3.1.2 停用詞過慮25-26
  • 3.2 特征提取26-29
  • 3.2.1 間距特征26-28
  • 3.2.2 詞頻特征28
  • 3.2.3 詞性特征28
  • 3.2.4 重要度特征28-29
  • 3.3 關(guān)鍵詞權(quán)重計(jì)算29
  • 3.4 實(shí)驗(yàn)設(shè)置與結(jié)果29-32
  • 3.4.1 實(shí)驗(yàn)平臺29
  • 3.4.2 實(shí)驗(yàn)數(shù)據(jù)29-30
  • 3.4.3 實(shí)驗(yàn)結(jié)果與分析30-32
  • 3.5 本章小結(jié)32-33
  • 第四章 基于聚類和互信息的新聞報道關(guān)鍵詞抽取方法33-51
  • 4.1 聚類分析33-42
  • 4.1.1 聚類分析相關(guān)知識33-34
  • 4.1.2 聚類距離34-37
  • 4.1.3 聚類分析方法37-42
  • 4.2 詞語相似度計(jì)算42-45
  • 4.3 互信息45-46
  • 4.4 聚類與互信息結(jié)合的關(guān)鍵詞提取方法46-48
  • 4.4.1 算法流程46
  • 4.4.2 算法步驟描述46-48
  • 4.5 實(shí)驗(yàn)結(jié)果與分析48-50
  • 4.6 本章小結(jié)50-51
  • 第五章 結(jié)束語51-55
  • 5.1 論文研究工作意義51-52
  • 5.2 工作展望52-55
  • 參考文獻(xiàn)55-59
  • 致謝59-61
  • 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄61

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 胡琪;郝曉燕;張興忠;陳耀文;;關(guān)鍵詞抽取策略研究[J];太原理工大學(xué)學(xué)報;2016年02期

2 王小林;陸駱勇;邰偉鵬;;基于信息熵的新的詞語相似度算法研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2015年09期

3 徐振強(qiáng);李保利;;結(jié)合詞語分布信息的TFIDF關(guān)鍵詞抽取方法研究[J];中原工學(xué)院學(xué)報;2014年06期

4 楊穎;戴彬;;基于多特征的中文關(guān)鍵詞抽取方法[J];計(jì)算機(jī)應(yīng)用與軟件;2014年11期

5 張瑾;;基于改進(jìn)TF-IDF算法的情報關(guān)鍵詞提取方法[J];情報雜志;2014年04期

6 王錦波;王蓮芝;高萬林;喻健;;一種改進(jìn)的樸素貝葉斯關(guān)鍵詞提取算法研究[J];計(jì)算機(jī)應(yīng)用與軟件;2014年02期

7 戰(zhàn)學(xué)剛;吳強(qiáng);;基于TF統(tǒng)計(jì)和語法分析的關(guān)鍵詞提取算法[J];計(jì)算機(jī)應(yīng)用與軟件;2014年01期

8 任莉莉;方元康;;基于詞匯鏈與互信息的關(guān)鍵詞抽取研究[J];池州學(xué)院學(xué)報;2013年06期

9 孫卓;;k-均值聚類算法及其應(yīng)用[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2013年07期

10 黃軒;李偉;;基于多特征的中文關(guān)鍵詞抽取方法[J];計(jì)算機(jī)與現(xiàn)代化;2013年04期

中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條

1 丁卓冶;面向主題的關(guān)鍵詞抽取方法研究[D];復(fù)旦大學(xué);2013年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 牛萍;TF-IDF與規(guī)則結(jié)合的中文關(guān)鍵詞自動抽取研究[D];大連理工大學(xué);2015年

2 賈明靜;基于用戶意圖和句法角色的問句相似度計(jì)算研究[D];青島理工大學(xué);2014年

3 孫小欣;基于潛在語義分析的學(xué)科知識圖譜構(gòu)建[D];華中師范大學(xué);2013年

4 杜晨;網(wǎng)絡(luò)新聞與報紙新聞寫作過程比較研究[D];長春理工大學(xué);2013年

5 左曉飛;基于復(fù)雜網(wǎng)絡(luò)的關(guān)鍵詞提取研究[D];西安電子科技大學(xué);2013年

6 王惠勇;多策略關(guān)鍵詞抽取及快速文本主題分類研究[D];東北大學(xué);2012年

7 肖根勝;改進(jìn)TFIDF和譜分割的關(guān)鍵詞自動抽取方法研究[D];華中師范大學(xué);2012年

8 郭勇;基于《知網(wǎng)》的詞語相似度計(jì)算研究及應(yīng)用[D];湖南大學(xué);2012年

9 羅義兵;領(lǐng)域文本相似度計(jì)算方法研究[D];山東科技大學(xué);2010年

10 張永剛;基于統(tǒng)計(jì)的多文檔關(guān)鍵短語和文摘抽取研究[D];蘇州大學(xué);2010年



本文編號:596916

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/596916.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2e1e6***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
欧美国产极品一区二区| 国产性情片一区二区三区| 亚洲精品成人午夜久久| 亚洲夫妻性生活免费视频| 丁香六月啪啪激情综合区| 欧美视频在线观看一区| 激情三级在线观看视频| 一级片二级片欧美日韩| 国产丝袜美女诱惑一区二区| 五月婷婷亚洲综合一区| 厕所偷拍一区二区三区视频| 色涩一区二区三区四区| 色婷婷日本视频在线观看| 国产精品福利精品福利| 成人日韩视频中文字幕| 日韩精品综合免费视频| 免费黄片视频美女一区| 午夜日韩在线观看视频| 精品日韩视频在线观看| 欧美三级不卡在线观线看| 微拍一区二区三区福利| 国产成人免费高潮激情电| 99久久精品午夜一区二| 日韩精品中文在线观看| 精品熟女少妇av免费久久野外| 欧美老太太性生活大片| 精品少妇人妻av一区二区蜜桃| 日韩午夜老司机免费视频| 丁香六月婷婷基地伊人| 国内欲色一区二区三区| 国产av一区二区三区麻豆| 国产欧美日韩精品一区二区| 欧美日韩免费黄片观看| 欧美一区日韩一区日韩一区| 亚洲高清中文字幕一区二三区| 午夜精品一区二区三区国产| 精品国产亚洲av久一区二区三区| 高清不卡一卡二卡区在线| 五月婷婷六月丁香亚洲| 精品亚洲一区二区三区w竹菊| 国产av天堂一区二区三区粉嫩|