天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

新聞文本關(guān)鍵詞提取算法研究與實現(xiàn)

發(fā)布時間:2021-06-25 13:26
  新聞關(guān)鍵詞的提取可以快速幫助用戶定位新聞的中心思想,了解新聞的大致內(nèi)容,給用戶判定是否要仔細(xì)查看的依據(jù),從而提高用戶體驗。然而人工去標(biāo)注關(guān)鍵詞雖然質(zhì)量可以保證,但是難以完成海量的新聞數(shù)據(jù)。本文通過對新聞文本特點進(jìn)行分析,展開對新聞關(guān)鍵詞提取算法的研究,并實現(xiàn)了一款實用的新聞關(guān)鍵詞提取系統(tǒng)。實驗表明,針對新聞領(lǐng)域文本,本文的關(guān)鍵詞提取算法無論是性能還是準(zhǔn)確度明顯優(yōu)于傳統(tǒng)的關(guān)鍵詞提取算法。本文著重研究了基于詞頻統(tǒng)計、基于詞圖模型與基于主題模型的關(guān)鍵詞提取算法,從這三個方面入手,分別對TF-IDF算法、TextRank算法與LDA主題模型算法進(jìn)行探索改進(jìn)。由于現(xiàn)有資源里沒有公開的關(guān)鍵詞數(shù)據(jù)集,本文通過爬蟲技術(shù)爬取網(wǎng)易新聞構(gòu)建關(guān)鍵詞測試集,并且對測試集的關(guān)鍵詞進(jìn)行人工交叉標(biāo)注。使用搜狗實驗室提供的新聞數(shù)據(jù)構(gòu)建語料庫。最后,實現(xiàn)了一個新聞關(guān)鍵詞提取系統(tǒng),將對新聞關(guān)鍵詞提取的改進(jìn)應(yīng)用到此系統(tǒng),系統(tǒng)具有簡潔大方,易操作,響應(yīng)快的特點。為了提高新聞關(guān)鍵詞的提取準(zhǔn)確率和運(yùn)行效率,本文圍繞上述三個方面的關(guān)鍵詞提取算法做了幾點創(chuàng)新。針對傳統(tǒng)TF-IDF算法的逆文檔頻率將一些罕見詞的概率提高問題,引入齊普夫定... 

【文章來源】:中南財經(jīng)政法大學(xué)湖北省 211工程院校 教育部直屬院校

【文章頁數(shù)】:56 頁

【學(xué)位級別】:碩士

【部分圖文】:

新聞文本關(guān)鍵詞提取算法研究與實現(xiàn)


處理后數(shù)據(jù)截圖

新聞文本關(guān)鍵詞提取算法研究與實現(xiàn)


Scrapy框架結(jié)構(gòu)圖

新聞文本關(guān)鍵詞提取算法研究與實現(xiàn)


網(wǎng)頁源碼對網(wǎng)易新聞網(wǎng)的數(shù)據(jù)爬取完后,接下來對爬取的關(guān)鍵詞使用人工二次加工

【參考文獻(xiàn)】:
期刊論文
[1]基于卡方檢驗和SVM的用戶搜索畫像技術(shù)研究[J]. 李軍政,黃海,黃瑞陽,王康利.  電子設(shè)計工程. 2017(24)
[2]基于瀑布型混合技術(shù)的異常檢測算法[J]. 王茹雪,張麗翠,劉姝岐.  吉林大學(xué)學(xué)報(信息科學(xué)版). 2017(05)
[3]自動關(guān)鍵詞抽取研究綜述[J]. 趙京勝,朱巧明,周國棟,張麗.  軟件學(xué)報. 2017(09)
[4]基于改進(jìn)TextRank的關(guān)鍵詞抽取算法[J]. 張莉婧,李業(yè)麗,曾慶濤,雷嘉麗,楊鵬.  北京印刷學(xué)院學(xué)報. 2016(04)
[5]基于詞頻統(tǒng)計的文本關(guān)鍵詞提取方法[J]. 羅燕,趙書良,李曉超,韓玉輝,丁亞飛.  計算機(jī)應(yīng)用. 2016(03)
[6]基于復(fù)雜網(wǎng)絡(luò)的文本關(guān)鍵詞提取算法研究[J]. 劉通.  計算機(jī)應(yīng)用研究. 2016(02)
[7]基于word2vec的關(guān)鍵詞提取算法[J]. 李躍鵬,金翠,及俊川.  科研信息化技術(shù)與應(yīng)用. 2015(04)
[8]中文分詞與詞性標(biāo)注研究[J]. 梁喜濤,顧磊.  計算機(jī)技術(shù)與發(fā)展. 2015(02)
[9]關(guān)鍵詞自動提取方法的研究與改進(jìn)[J]. 黃磊,伍雁鵬,朱群峰.  計算機(jī)科學(xué). 2014(06)
[10]一種投票式并行RANSAC算法及其FPGA實現(xiàn)[J]. 江潔,凌思睿.  電子與信息學(xué)報. 2014(05)

碩士論文
[1]中文文本主題關(guān)鍵短語提取算法研究[D]. 楊玥.西安理工大學(xué) 2017
[2]對TF-IDF算法的改進(jìn)及實驗研究[D]. 何曉靜.吉林大學(xué) 2017
[3]面向問答的問句關(guān)鍵詞提取技術(shù)研究[D]. 王煦祥.哈爾濱工業(yè)大學(xué) 2016
[4]面向新媒體的新聞縮寫關(guān)鍵技術(shù)研究[D]. 趙連偉.北京理工大學(xué) 2016
[5]基于云計算的多層次文本關(guān)鍵詞抽取研究與應(yīng)用[D]. 王博.西南交通大學(xué) 2015
[6]基于改進(jìn)的TFIDF關(guān)鍵詞自動提取算法研究[D]. 楊凱艷.湘潭大學(xué) 2015
[7]基于分詞技術(shù)的文本主題關(guān)鍵詞處理系統(tǒng)設(shè)計與實現(xiàn)[D]. 徐云飛.中國科學(xué)院大學(xué)(工程管理與信息技術(shù)學(xué)院) 2014
[8]專利文本聚類及關(guān)鍵短語抽取的研究[D]. 徐曉明.東北大學(xué) 2011



本文編號:3249287

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3249287.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶14175***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com