基于Word2Vec與TextRank的關(guān)鍵詞抽取研究
發(fā)布時間:2021-10-14 07:11
自從第一次人工智能機(jī)器人打敗圍棋大師,計(jì)算機(jī)等高科技技術(shù)在每個領(lǐng)域都取得了非常好的成績和突破。網(wǎng)絡(luò)上的文本信息越來越多,結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)由于處理難易程度的大不相同,對此類文本數(shù)據(jù)的應(yīng)用和研究也大不相同。對于這兩類數(shù)據(jù),關(guān)鍵詞抽取仍然是實(shí)現(xiàn)智能文本分析的一個重要途徑。傳統(tǒng)關(guān)鍵詞主要是由專家和作者本人標(biāo)注,但是由于網(wǎng)上大量的文本,傳統(tǒng)的標(biāo)注方式越來越不能滿足效率的要求,自動關(guān)鍵詞抽取和標(biāo)注技術(shù)則成為近年來的一個重要研究熱點(diǎn)。同時,自動關(guān)鍵詞抽取技術(shù)也在許多其他領(lǐng)域蓬勃發(fā)展:例如:信息分類、信息檢索、自動文摘、個性化推薦等。本文主要基于計(jì)算機(jī)文獻(xiàn),提出一種結(jié)合Word2Vec和TextRank相結(jié)合的關(guān)鍵詞抽取模型,用以提高自動關(guān)鍵詞抽取的查全率和查準(zhǔn)率。本文最初展現(xiàn)了關(guān)鍵詞抽取技術(shù)的研究背景和現(xiàn)狀;其次介紹了關(guān)于中英文的分詞技術(shù)、文本表示方法以及Word2Vec和TextRank模型;然后基于計(jì)算機(jī)文獻(xiàn),提出結(jié)合外部文檔信息(Word2Vec模型)和內(nèi)部文檔信息(TextRank模型)進(jìn)行自動關(guān)鍵詞抽取;隨后本文通過對比傳統(tǒng)的詞頻方法-TF-IDF和詞圖方法-TextRank以及同...
【文章來源】:華中師范大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2.1英文文本分詞結(jié)果??
碩士學(xué)位論文??MASTER'STilESIS??粉/攪拌/是/涼皮/涼皮處理/處理/不可/不可缺少/缺少/的/一步/?!?”??(2)、精確模式:可以將句子切開,其結(jié)果十分精確,主要適合文本分析;在使用??精確模式之后,上述結(jié)果變?yōu)椤懊娣郏瘮埌瑁牵瘺銎ぬ幚恚豢扇鄙伲模徊剑??(3)、搜索引擎模式:可以把較長的詞語再一次切分,對精確模式的長詞這樣處理,??可以提高召回率,搜索引擎分詞一般就是使用這種模式。使用該模式,上述結(jié)果變??為“面粉/攪拌/是/涼皮/處理/文本處理/不可/缺少/不可缺少/的/一步/!?”??為了解決新詞問題,Jieba分詞可以自己設(shè)置自定義詞典。假設(shè)載入詞典內(nèi)容為??“神丹牌、蓮花牌、土雞蛋”,其分詞結(jié)果如圖2.2所示:由此可見,網(wǎng)絡(luò)上出現(xiàn)的??新詞可以通過提前設(shè)置自定義詞典的方式來提高分詞準(zhǔn)確率。??有自定義詞^\^??圖2.2中文文本分詞結(jié)果??2.2文本表示方法??文字是人類文明傳承幾千年的智慧結(jié)晶,在人類認(rèn)知史上發(fā)揮了巨大的作用。??在計(jì)算機(jī)的世界里,我們需要把文字轉(zhuǎn)換成計(jì)算機(jī)能理解的語言,例如空間向量、??二進(jìn)制文本等,在計(jì)算機(jī)發(fā)展的許多年來,許多學(xué)者都提出了不同的文本表示模型,??接下來本文著重介紹文本的離散表示和分布表示兩大類。??2.2.1離散表示??離散表示主要是將每一個數(shù)據(jù)通過特定的方法,將其在一個維度中離散表示出??來,與連續(xù)相對。禹散表不方法主要有獨(dú)熱表不法(one-hot)、詞袋表不法(bagof??words)、N?元組表示法(N-gram)。??13??
圖2.3獨(dú)熱編碼表示法結(jié)果??
【參考文獻(xiàn)】:
期刊論文
[1]基于文檔主題結(jié)構(gòu)和詞圖迭代的關(guān)鍵詞抽取方法研究[J]. 孫明珠,馬靜,錢玲飛. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2019(08)
[2]基于改進(jìn)TF-IDF-CHI算法的農(nóng)業(yè)科技文獻(xiàn)文本特征抽取[J]. 杜若鵬,鮮國建,寇遠(yuǎn)濤. 數(shù)字圖書館論壇. 2019(08)
[3]基于復(fù)雜網(wǎng)絡(luò)詞節(jié)點(diǎn)移除的關(guān)鍵詞抽取方法[J]. 王安,顧益軍,李坤明,李文政. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2019(11)
[4]基于主題模型的短文本關(guān)鍵詞抽取及擴(kuò)展[J]. 曾曦,陽紅,常明芳,馮驍騁,趙妍妍,秦兵. 山西大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(02)
[5]基于Word2Vec和TextRank的時政類新聞關(guān)鍵詞抽取方法研究[J]. 劉奇飛,沈煒域. 情報(bào)探索. 2018(06)
[6]結(jié)合改進(jìn)的CHI統(tǒng)計(jì)方法的TF-IDF算法優(yōu)化[J]. 馬瑩,趙輝,李萬龍,龐海龍,崔巖. 計(jì)算機(jī)應(yīng)用研究. 2019(09)
[7]一種基于LDA和TextRank的文本關(guān)鍵短語抽取方案的設(shè)計(jì)與實(shí)現(xiàn)[J]. 郎冬冬,劉晨晨,馮旭鵬,劉利軍,黃青松. 計(jì)算機(jī)應(yīng)用與軟件. 2018(03)
[8]基于改進(jìn)TF-IDF算法的關(guān)鍵詞抽取系統(tǒng)[J]. 胡亮,夏磊,李偉. 廈門理工學(xué)院學(xué)報(bào). 2017(05)
[9]基于改進(jìn)的TF-IDF文本特征詞提取算法研究[J]. 賈強(qiáng),馮錫煒,王志峰,朱睿,秦航. 遼寧石油化工大學(xué)學(xué)報(bào). 2017(04)
[10]自動關(guān)鍵詞抽取研究綜述[J]. 趙京勝,朱巧明,周國棟,張麗. 軟件學(xué)報(bào). 2017(09)
碩士論文
[1]基于主題模型的關(guān)鍵詞抽取算法研究[D]. 劉嘯劍.合肥工業(yè)大學(xué) 2016
[2]基于隱性主題模型和新詞發(fā)現(xiàn)的關(guān)鍵詞抽取研究[D]. 袁明.北京郵電大學(xué) 2014
本文編號:3435687
【文章來源】:華中師范大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2.1英文文本分詞結(jié)果??
碩士學(xué)位論文??MASTER'STilESIS??粉/攪拌/是/涼皮/涼皮處理/處理/不可/不可缺少/缺少/的/一步/?!?”??(2)、精確模式:可以將句子切開,其結(jié)果十分精確,主要適合文本分析;在使用??精確模式之后,上述結(jié)果變?yōu)椤懊娣郏瘮埌瑁牵瘺銎ぬ幚恚豢扇鄙伲模徊剑??(3)、搜索引擎模式:可以把較長的詞語再一次切分,對精確模式的長詞這樣處理,??可以提高召回率,搜索引擎分詞一般就是使用這種模式。使用該模式,上述結(jié)果變??為“面粉/攪拌/是/涼皮/處理/文本處理/不可/缺少/不可缺少/的/一步/!?”??為了解決新詞問題,Jieba分詞可以自己設(shè)置自定義詞典。假設(shè)載入詞典內(nèi)容為??“神丹牌、蓮花牌、土雞蛋”,其分詞結(jié)果如圖2.2所示:由此可見,網(wǎng)絡(luò)上出現(xiàn)的??新詞可以通過提前設(shè)置自定義詞典的方式來提高分詞準(zhǔn)確率。??有自定義詞^\^??圖2.2中文文本分詞結(jié)果??2.2文本表示方法??文字是人類文明傳承幾千年的智慧結(jié)晶,在人類認(rèn)知史上發(fā)揮了巨大的作用。??在計(jì)算機(jī)的世界里,我們需要把文字轉(zhuǎn)換成計(jì)算機(jī)能理解的語言,例如空間向量、??二進(jìn)制文本等,在計(jì)算機(jī)發(fā)展的許多年來,許多學(xué)者都提出了不同的文本表示模型,??接下來本文著重介紹文本的離散表示和分布表示兩大類。??2.2.1離散表示??離散表示主要是將每一個數(shù)據(jù)通過特定的方法,將其在一個維度中離散表示出??來,與連續(xù)相對。禹散表不方法主要有獨(dú)熱表不法(one-hot)、詞袋表不法(bagof??words)、N?元組表示法(N-gram)。??13??
圖2.3獨(dú)熱編碼表示法結(jié)果??
【參考文獻(xiàn)】:
期刊論文
[1]基于文檔主題結(jié)構(gòu)和詞圖迭代的關(guān)鍵詞抽取方法研究[J]. 孫明珠,馬靜,錢玲飛. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2019(08)
[2]基于改進(jìn)TF-IDF-CHI算法的農(nóng)業(yè)科技文獻(xiàn)文本特征抽取[J]. 杜若鵬,鮮國建,寇遠(yuǎn)濤. 數(shù)字圖書館論壇. 2019(08)
[3]基于復(fù)雜網(wǎng)絡(luò)詞節(jié)點(diǎn)移除的關(guān)鍵詞抽取方法[J]. 王安,顧益軍,李坤明,李文政. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2019(11)
[4]基于主題模型的短文本關(guān)鍵詞抽取及擴(kuò)展[J]. 曾曦,陽紅,常明芳,馮驍騁,趙妍妍,秦兵. 山西大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(02)
[5]基于Word2Vec和TextRank的時政類新聞關(guān)鍵詞抽取方法研究[J]. 劉奇飛,沈煒域. 情報(bào)探索. 2018(06)
[6]結(jié)合改進(jìn)的CHI統(tǒng)計(jì)方法的TF-IDF算法優(yōu)化[J]. 馬瑩,趙輝,李萬龍,龐海龍,崔巖. 計(jì)算機(jī)應(yīng)用研究. 2019(09)
[7]一種基于LDA和TextRank的文本關(guān)鍵短語抽取方案的設(shè)計(jì)與實(shí)現(xiàn)[J]. 郎冬冬,劉晨晨,馮旭鵬,劉利軍,黃青松. 計(jì)算機(jī)應(yīng)用與軟件. 2018(03)
[8]基于改進(jìn)TF-IDF算法的關(guān)鍵詞抽取系統(tǒng)[J]. 胡亮,夏磊,李偉. 廈門理工學(xué)院學(xué)報(bào). 2017(05)
[9]基于改進(jìn)的TF-IDF文本特征詞提取算法研究[J]. 賈強(qiáng),馮錫煒,王志峰,朱睿,秦航. 遼寧石油化工大學(xué)學(xué)報(bào). 2017(04)
[10]自動關(guān)鍵詞抽取研究綜述[J]. 趙京勝,朱巧明,周國棟,張麗. 軟件學(xué)報(bào). 2017(09)
碩士論文
[1]基于主題模型的關(guān)鍵詞抽取算法研究[D]. 劉嘯劍.合肥工業(yè)大學(xué) 2016
[2]基于隱性主題模型和新詞發(fā)現(xiàn)的關(guān)鍵詞抽取研究[D]. 袁明.北京郵電大學(xué) 2014
本文編號:3435687
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3435687.html
最近更新
教材專著