天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Word2Vec與TextRank的關(guān)鍵詞抽取研究

發(fā)布時間:2021-10-14 07:11
  自從第一次人工智能機(jī)器人打敗圍棋大師,計(jì)算機(jī)等高科技技術(shù)在每個領(lǐng)域都取得了非常好的成績和突破。網(wǎng)絡(luò)上的文本信息越來越多,結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)由于處理難易程度的大不相同,對此類文本數(shù)據(jù)的應(yīng)用和研究也大不相同。對于這兩類數(shù)據(jù),關(guān)鍵詞抽取仍然是實(shí)現(xiàn)智能文本分析的一個重要途徑。傳統(tǒng)關(guān)鍵詞主要是由專家和作者本人標(biāo)注,但是由于網(wǎng)上大量的文本,傳統(tǒng)的標(biāo)注方式越來越不能滿足效率的要求,自動關(guān)鍵詞抽取和標(biāo)注技術(shù)則成為近年來的一個重要研究熱點(diǎn)。同時,自動關(guān)鍵詞抽取技術(shù)也在許多其他領(lǐng)域蓬勃發(fā)展:例如:信息分類、信息檢索、自動文摘、個性化推薦等。本文主要基于計(jì)算機(jī)文獻(xiàn),提出一種結(jié)合Word2Vec和TextRank相結(jié)合的關(guān)鍵詞抽取模型,用以提高自動關(guān)鍵詞抽取的查全率和查準(zhǔn)率。本文最初展現(xiàn)了關(guān)鍵詞抽取技術(shù)的研究背景和現(xiàn)狀;其次介紹了關(guān)于中英文的分詞技術(shù)、文本表示方法以及Word2Vec和TextRank模型;然后基于計(jì)算機(jī)文獻(xiàn),提出結(jié)合外部文檔信息(Word2Vec模型)和內(nèi)部文檔信息(TextRank模型)進(jìn)行自動關(guān)鍵詞抽取;隨后本文通過對比傳統(tǒng)的詞頻方法-TF-IDF和詞圖方法-TextRank以及同... 

【文章來源】:華中師范大學(xué)湖北省 211工程院校 教育部直屬院校

【文章頁數(shù)】:64 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于Word2Vec與TextRank的關(guān)鍵詞抽取研究


圖2.1英文文本分詞結(jié)果??

文本,中文


碩士學(xué)位論文??MASTER'STilESIS??粉/攪拌/是/涼皮/涼皮處理/處理/不可/不可缺少/缺少/的/一步/?!?”??(2)、精確模式:可以將句子切開,其結(jié)果十分精確,主要適合文本分析;在使用??精確模式之后,上述結(jié)果變?yōu)椤懊娣郏瘮埌瑁牵瘺銎ぬ幚恚豢扇鄙伲模徊剑??(3)、搜索引擎模式:可以把較長的詞語再一次切分,對精確模式的長詞這樣處理,??可以提高召回率,搜索引擎分詞一般就是使用這種模式。使用該模式,上述結(jié)果變??為“面粉/攪拌/是/涼皮/處理/文本處理/不可/缺少/不可缺少/的/一步/!?”??為了解決新詞問題,Jieba分詞可以自己設(shè)置自定義詞典。假設(shè)載入詞典內(nèi)容為??“神丹牌、蓮花牌、土雞蛋”,其分詞結(jié)果如圖2.2所示:由此可見,網(wǎng)絡(luò)上出現(xiàn)的??新詞可以通過提前設(shè)置自定義詞典的方式來提高分詞準(zhǔn)確率。??有自定義詞^\^??圖2.2中文文本分詞結(jié)果??2.2文本表示方法??文字是人類文明傳承幾千年的智慧結(jié)晶,在人類認(rèn)知史上發(fā)揮了巨大的作用。??在計(jì)算機(jī)的世界里,我們需要把文字轉(zhuǎn)換成計(jì)算機(jī)能理解的語言,例如空間向量、??二進(jìn)制文本等,在計(jì)算機(jī)發(fā)展的許多年來,許多學(xué)者都提出了不同的文本表示模型,??接下來本文著重介紹文本的離散表示和分布表示兩大類。??2.2.1離散表示??離散表示主要是將每一個數(shù)據(jù)通過特定的方法,將其在一個維度中離散表示出??來,與連續(xù)相對。禹散表不方法主要有獨(dú)熱表不法(one-hot)、詞袋表不法(bagof??words)、N?元組表示法(N-gram)。??13??

基于Word2Vec與TextRank的關(guān)鍵詞抽取研究


圖2.3獨(dú)熱編碼表示法結(jié)果??

【參考文獻(xiàn)】:
期刊論文
[1]基于文檔主題結(jié)構(gòu)和詞圖迭代的關(guān)鍵詞抽取方法研究[J]. 孫明珠,馬靜,錢玲飛.  數(shù)據(jù)分析與知識發(fā)現(xiàn). 2019(08)
[2]基于改進(jìn)TF-IDF-CHI算法的農(nóng)業(yè)科技文獻(xiàn)文本特征抽取[J]. 杜若鵬,鮮國建,寇遠(yuǎn)濤.  數(shù)字圖書館論壇. 2019(08)
[3]基于復(fù)雜網(wǎng)絡(luò)詞節(jié)點(diǎn)移除的關(guān)鍵詞抽取方法[J]. 王安,顧益軍,李坤明,李文政.  數(shù)據(jù)分析與知識發(fā)現(xiàn). 2019(11)
[4]基于主題模型的短文本關(guān)鍵詞抽取及擴(kuò)展[J]. 曾曦,陽紅,常明芳,馮驍騁,趙妍妍,秦兵.  山西大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(02)
[5]基于Word2Vec和TextRank的時政類新聞關(guān)鍵詞抽取方法研究[J]. 劉奇飛,沈煒域.  情報(bào)探索. 2018(06)
[6]結(jié)合改進(jìn)的CHI統(tǒng)計(jì)方法的TF-IDF算法優(yōu)化[J]. 馬瑩,趙輝,李萬龍,龐海龍,崔巖.  計(jì)算機(jī)應(yīng)用研究. 2019(09)
[7]一種基于LDA和TextRank的文本關(guān)鍵短語抽取方案的設(shè)計(jì)與實(shí)現(xiàn)[J]. 郎冬冬,劉晨晨,馮旭鵬,劉利軍,黃青松.  計(jì)算機(jī)應(yīng)用與軟件. 2018(03)
[8]基于改進(jìn)TF-IDF算法的關(guān)鍵詞抽取系統(tǒng)[J]. 胡亮,夏磊,李偉.  廈門理工學(xué)院學(xué)報(bào). 2017(05)
[9]基于改進(jìn)的TF-IDF文本特征詞提取算法研究[J]. 賈強(qiáng),馮錫煒,王志峰,朱睿,秦航.  遼寧石油化工大學(xué)學(xué)報(bào). 2017(04)
[10]自動關(guān)鍵詞抽取研究綜述[J]. 趙京勝,朱巧明,周國棟,張麗.  軟件學(xué)報(bào). 2017(09)

碩士論文
[1]基于主題模型的關(guān)鍵詞抽取算法研究[D]. 劉嘯劍.合肥工業(yè)大學(xué) 2016
[2]基于隱性主題模型和新詞發(fā)現(xiàn)的關(guān)鍵詞抽取研究[D]. 袁明.北京郵電大學(xué) 2014



本文編號:3435687

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3435687.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶85d2a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
国产原创中文av在线播放| 中文字幕乱子论一区二区三区| 欧美精品一区二区三区白虎| 沐浴偷拍一区二区视频| 日本女优一区二区三区免费| 婷婷伊人综合中文字幕| 久久精品国产在热亚洲| 免费在线成人激情视频| 日韩不卡一区二区视频| 中文字幕人妻av不卡| 日韩精品一区二区毛片| 一级欧美一级欧美在线播| 国产成人亚洲欧美二区综| 国产原创中文av在线播放| 91精品国产综合久久不卡| 麻豆国产精品一区二区| 国产精品白丝一区二区| 老鸭窝老鸭窝一区二区| 国产内射一级一片内射高清视频| 国产精品午夜福利免费阅读| 欧美精品一区二区水蜜桃| 国产一区二区三区不卡| 国产成人精品一区二区在线看| 亚洲免费观看一区二区三区| 男人操女人下面国产剧情| 中文字幕精品一区二区三| 欧美国产极品一区二区| 亚洲精品美女三级完整版视频| 欧美一级片日韩一级片| 久久精品国产亚洲av久按摩| 日韩av生活片一区二区三区| 五月婷婷综合缴情六月| 久久久精品日韩欧美丰满| 色婷婷久久五月中文字幕| 国产精品视频一区麻豆专区| 久久成人国产欧美精品一区二区 | 欧美日韩亚洲国产综合网| 欧美日韩国内一区二区| 东京不热免费观看日本| 91精品国产综合久久精品| 欧美日韩精品人妻二区三区 |