基于詞嵌入和多特征融合的自動(dòng)關(guān)鍵詞抽取算法
發(fā)布時(shí)間:2022-01-19 08:18
信息技術(shù)的飛速發(fā)展使得各個(gè)領(lǐng)域的信息呈現(xiàn)爆炸式增長(zhǎng)。為了快速有效地從海量文本中獲取所需的信息,人們通常需要借助能涵蓋文本主旨的若干重要詞匯,亦即,關(guān)鍵詞。然而,目前絕大多數(shù)文本尚未提供關(guān)鍵詞,這不利于文本信息的有效獲取和處理。為了解決這個(gè)問(wèn)題,人們提出了自動(dòng)關(guān)鍵詞抽取技術(shù),即,由計(jì)算機(jī)根據(jù)某種方法從文本中自動(dòng)抽取相應(yīng)的關(guān)鍵詞,并設(shè)計(jì)了為數(shù)眾多的關(guān)鍵詞抽取算法。然而,現(xiàn)有的關(guān)鍵詞抽取算法大多需要依賴(lài)文本語(yǔ)料數(shù)據(jù)集,而且存在計(jì)算復(fù)雜度高、適用性弱、抽取精度低等問(wèn)題。因此,針對(duì)自動(dòng)關(guān)鍵詞抽取算法的研究方興未艾,而且在大數(shù)據(jù)時(shí)代背景下獲得愈來(lái)愈多的關(guān)注;谏鲜霰尘,本文對(duì)自動(dòng)關(guān)鍵詞抽取展開(kāi)研究,主要提出了兩種自動(dòng)關(guān)鍵詞抽取算法,即,基于位置加權(quán)詞頻統(tǒng)計(jì)的關(guān)鍵詞抽取算法(PWTF)以及基于多特征融合和圖模型的關(guān)鍵詞抽取算法(MFRank)。PWTF的主要思想是利用詞語(yǔ)的統(tǒng)計(jì)特征和結(jié)構(gòu)特征來(lái)表征關(guān)鍵詞,其中,統(tǒng)計(jì)特征刻畫(huà)的是詞語(yǔ)在文本中出現(xiàn)的頻次信息,結(jié)構(gòu)特征體現(xiàn)的是詞語(yǔ)在文本中出現(xiàn)的位置信息,而且,不同位置的詞語(yǔ)具有不同的重要性...
【文章來(lái)源】:廣東技術(shù)師范大學(xué)廣東省
【文章頁(yè)數(shù)】:77 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
本論文的主要工作
2 相關(guān)理論及技術(shù)其非常重要,處理的結(jié)果的好壞直接影響到下一階段的候選關(guān)鍵詞選擇的質(zhì)量,主括對(duì)文本格式處理、詞語(yǔ)切分、詞性標(biāo)注、停用詞過(guò)濾等技術(shù)處理。其次是候選關(guān)選擇,通過(guò)研究發(fā)現(xiàn),絕大多數(shù)的關(guān)鍵詞是實(shí)詞,即具有具體含義的詞語(yǔ),主要包詞、動(dòng)詞、形容詞等,而虛詞如連詞、擬聲詞、助詞等幾乎不作為關(guān)鍵詞。通過(guò)觀現(xiàn),多次出現(xiàn)的實(shí)詞更有可能成為候選關(guān)鍵詞,故可以采用語(yǔ)言規(guī)則、統(tǒng)計(jì)規(guī)則等詞語(yǔ)挑選,形成候選關(guān)鍵詞集合。高質(zhì)量的候選詞集合可以縮減候選關(guān)鍵詞的規(guī)模少干擾項(xiàng),提高抽取率。最后是確定關(guān)鍵詞,這是關(guān)鍵詞抽取的核心問(wèn)題,對(duì)于如確定關(guān)鍵詞,需要分析了解關(guān)鍵詞的特性,設(shè)立特定規(guī)則或者組合方法去判斷候選詞為關(guān)鍵詞的特性,進(jìn)行權(quán)重計(jì)算、排序、設(shè)置將權(quán)重得分高的候選關(guān)鍵詞確定為詞。關(guān)鍵詞抽取的一般流程如圖 2-1 所示:
圖 2-2 爬蟲(chóng)流程示意圖為快速爬取實(shí)驗(yàn)文本數(shù)據(jù),本文采用 Python 實(shí)現(xiàn)的爬蟲(chóng)框架 Scrapy,Scrapy 框架功能模塊強(qiáng)大,主要有:爬蟲(chóng)引擎、解析器、項(xiàng)目管道、下載器、調(diào)度器等。Scrapy 框架具有架構(gòu)清晰,可拓展性強(qiáng),爬取數(shù)據(jù)速度快等優(yōu)點(diǎn),使其成為目前運(yùn)用最廣泛的爬蟲(chóng)框架。其中,爬蟲(chóng)引擎是 Scrapy 框架的核心,主要是用于處理整個(gè)框架的數(shù)據(jù)流、觸發(fā)事件;解析器,定義網(wǎng)頁(yè)的解析規(guī)則,解析網(wǎng)頁(yè)的響應(yīng),將獲取網(wǎng)頁(yè)數(shù)據(jù)信息定義成一個(gè)項(xiàng)目對(duì)象推送給項(xiàng)目管道,對(duì)調(diào)度器發(fā)出新的請(qǐng)求;項(xiàng)目管道,主要是負(fù)責(zé)清洗、驗(yàn)證、存儲(chǔ)解析器從網(wǎng)頁(yè)中爬取的數(shù)據(jù)信息。下載器,主要負(fù)責(zé)響應(yīng)調(diào)度器的請(qǐng)求,從Internet 中下載網(wǎng)頁(yè)信息,將獲取到的網(wǎng)頁(yè)信息返回給解析器;Scrapy 框架如圖 2-3 所示:
【參考文獻(xiàn)】:
期刊論文
[1]基于詞向量的文本分類(lèi)研究[J]. 馬力,李沙沙. 計(jì)算機(jī)與數(shù)字工程. 2019(02)
[2]基于TextRank的單文本關(guān)鍵字提取算法[J]. 朱必熙. 蘭州工業(yè)學(xué)院學(xué)報(bào). 2018(03)
[3]基于詞向量的特征詞選擇[J]. 彭昀磊,牛耘. 計(jì)算機(jī)技術(shù)與發(fā)展. 2018(06)
[4]基于Word Embedding的軟件工程領(lǐng)域語(yǔ)義相關(guān)詞挖掘方法[J]. 胡望勝. 計(jì)算機(jī)與現(xiàn)代化. 2017(09)
[5]融合多特征的TextRank關(guān)鍵詞抽取方法[J]. 李航,唐超蘭,楊賢,沈婉婷. 情報(bào)雜志. 2017(08)
[6]結(jié)合主題分布與統(tǒng)計(jì)特征的關(guān)鍵詞抽取方法[J]. 劉嘯劍,謝飛. 計(jì)算機(jī)工程. 2017(07)
[7]基于卷積神經(jīng)網(wǎng)絡(luò)和關(guān)鍵詞策略的實(shí)體關(guān)系抽取方法[J]. 王林玉,王莉,鄭婷一. 模式識(shí)別與人工智能. 2017(05)
[8]詞向量聚類(lèi)加權(quán)TextRank的關(guān)鍵詞抽取[J]. 夏天. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2017(02)
[9]基于改進(jìn)TextRank的關(guān)鍵詞抽取算法[J]. 張莉婧,李業(yè)麗,曾慶濤,雷嘉麗,楊鵬. 北京印刷學(xué)院學(xué)報(bào). 2016(04)
[10]挖掘?qū)@R(shí)實(shí)現(xiàn)關(guān)鍵詞自動(dòng)抽取[J]. 陳憶群,周如旗,朱蔚恒,李夢(mèng)婷,印鑒. 計(jì)算機(jī)研究與發(fā)展. 2016(08)
碩士論文
[1]面向慕課視頻的關(guān)鍵詞抽取研究與應(yīng)用[D]. 黃麗霞.廣東技術(shù)師范學(xué)院 2018
[2]基于深度學(xué)習(xí)的句子情感分類(lèi)[D]. 汪冉.南京理工大學(xué) 2018
[3]基于深度學(xué)習(xí)的中文微博人物關(guān)系圖譜的研究與實(shí)現(xiàn)[D]. 王超.武漢郵電科學(xué)研究院 2018
[4]基于SNM算法的大數(shù)據(jù)量中文商品清洗方法研究[D]. 張苗苗.江蘇科技大學(xué) 2018
[5]特定領(lǐng)域?qū)嶓w鏈接系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 張廣鵬.哈爾濱工業(yè)大學(xué) 2018
[6]基于詞嵌入的文本摘要系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 完顏丹丹.海南大學(xué) 2017
[7]融合LDA與TextRank算法的主題信息抽取方法[D]. 王亞坤.山西大學(xué) 2017
[8]基于詞向量的短文本主題建模研究[D]. 劉世群.吉林大學(xué) 2017
[9]基于Word Embedding的短文本特征擴(kuò)展方法研究[D]. 孟欣.吉林大學(xué) 2017
[10]基于詞向量的短文本主題建模研究[D]. 王浩然.武漢大學(xué) 2017
本文編號(hào):3596527
【文章來(lái)源】:廣東技術(shù)師范大學(xué)廣東省
【文章頁(yè)數(shù)】:77 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
本論文的主要工作
2 相關(guān)理論及技術(shù)其非常重要,處理的結(jié)果的好壞直接影響到下一階段的候選關(guān)鍵詞選擇的質(zhì)量,主括對(duì)文本格式處理、詞語(yǔ)切分、詞性標(biāo)注、停用詞過(guò)濾等技術(shù)處理。其次是候選關(guān)選擇,通過(guò)研究發(fā)現(xiàn),絕大多數(shù)的關(guān)鍵詞是實(shí)詞,即具有具體含義的詞語(yǔ),主要包詞、動(dòng)詞、形容詞等,而虛詞如連詞、擬聲詞、助詞等幾乎不作為關(guān)鍵詞。通過(guò)觀現(xiàn),多次出現(xiàn)的實(shí)詞更有可能成為候選關(guān)鍵詞,故可以采用語(yǔ)言規(guī)則、統(tǒng)計(jì)規(guī)則等詞語(yǔ)挑選,形成候選關(guān)鍵詞集合。高質(zhì)量的候選詞集合可以縮減候選關(guān)鍵詞的規(guī)模少干擾項(xiàng),提高抽取率。最后是確定關(guān)鍵詞,這是關(guān)鍵詞抽取的核心問(wèn)題,對(duì)于如確定關(guān)鍵詞,需要分析了解關(guān)鍵詞的特性,設(shè)立特定規(guī)則或者組合方法去判斷候選詞為關(guān)鍵詞的特性,進(jìn)行權(quán)重計(jì)算、排序、設(shè)置將權(quán)重得分高的候選關(guān)鍵詞確定為詞。關(guān)鍵詞抽取的一般流程如圖 2-1 所示:
圖 2-2 爬蟲(chóng)流程示意圖為快速爬取實(shí)驗(yàn)文本數(shù)據(jù),本文采用 Python 實(shí)現(xiàn)的爬蟲(chóng)框架 Scrapy,Scrapy 框架功能模塊強(qiáng)大,主要有:爬蟲(chóng)引擎、解析器、項(xiàng)目管道、下載器、調(diào)度器等。Scrapy 框架具有架構(gòu)清晰,可拓展性強(qiáng),爬取數(shù)據(jù)速度快等優(yōu)點(diǎn),使其成為目前運(yùn)用最廣泛的爬蟲(chóng)框架。其中,爬蟲(chóng)引擎是 Scrapy 框架的核心,主要是用于處理整個(gè)框架的數(shù)據(jù)流、觸發(fā)事件;解析器,定義網(wǎng)頁(yè)的解析規(guī)則,解析網(wǎng)頁(yè)的響應(yīng),將獲取網(wǎng)頁(yè)數(shù)據(jù)信息定義成一個(gè)項(xiàng)目對(duì)象推送給項(xiàng)目管道,對(duì)調(diào)度器發(fā)出新的請(qǐng)求;項(xiàng)目管道,主要是負(fù)責(zé)清洗、驗(yàn)證、存儲(chǔ)解析器從網(wǎng)頁(yè)中爬取的數(shù)據(jù)信息。下載器,主要負(fù)責(zé)響應(yīng)調(diào)度器的請(qǐng)求,從Internet 中下載網(wǎng)頁(yè)信息,將獲取到的網(wǎng)頁(yè)信息返回給解析器;Scrapy 框架如圖 2-3 所示:
【參考文獻(xiàn)】:
期刊論文
[1]基于詞向量的文本分類(lèi)研究[J]. 馬力,李沙沙. 計(jì)算機(jī)與數(shù)字工程. 2019(02)
[2]基于TextRank的單文本關(guān)鍵字提取算法[J]. 朱必熙. 蘭州工業(yè)學(xué)院學(xué)報(bào). 2018(03)
[3]基于詞向量的特征詞選擇[J]. 彭昀磊,牛耘. 計(jì)算機(jī)技術(shù)與發(fā)展. 2018(06)
[4]基于Word Embedding的軟件工程領(lǐng)域語(yǔ)義相關(guān)詞挖掘方法[J]. 胡望勝. 計(jì)算機(jī)與現(xiàn)代化. 2017(09)
[5]融合多特征的TextRank關(guān)鍵詞抽取方法[J]. 李航,唐超蘭,楊賢,沈婉婷. 情報(bào)雜志. 2017(08)
[6]結(jié)合主題分布與統(tǒng)計(jì)特征的關(guān)鍵詞抽取方法[J]. 劉嘯劍,謝飛. 計(jì)算機(jī)工程. 2017(07)
[7]基于卷積神經(jīng)網(wǎng)絡(luò)和關(guān)鍵詞策略的實(shí)體關(guān)系抽取方法[J]. 王林玉,王莉,鄭婷一. 模式識(shí)別與人工智能. 2017(05)
[8]詞向量聚類(lèi)加權(quán)TextRank的關(guān)鍵詞抽取[J]. 夏天. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2017(02)
[9]基于改進(jìn)TextRank的關(guān)鍵詞抽取算法[J]. 張莉婧,李業(yè)麗,曾慶濤,雷嘉麗,楊鵬. 北京印刷學(xué)院學(xué)報(bào). 2016(04)
[10]挖掘?qū)@R(shí)實(shí)現(xiàn)關(guān)鍵詞自動(dòng)抽取[J]. 陳憶群,周如旗,朱蔚恒,李夢(mèng)婷,印鑒. 計(jì)算機(jī)研究與發(fā)展. 2016(08)
碩士論文
[1]面向慕課視頻的關(guān)鍵詞抽取研究與應(yīng)用[D]. 黃麗霞.廣東技術(shù)師范學(xué)院 2018
[2]基于深度學(xué)習(xí)的句子情感分類(lèi)[D]. 汪冉.南京理工大學(xué) 2018
[3]基于深度學(xué)習(xí)的中文微博人物關(guān)系圖譜的研究與實(shí)現(xiàn)[D]. 王超.武漢郵電科學(xué)研究院 2018
[4]基于SNM算法的大數(shù)據(jù)量中文商品清洗方法研究[D]. 張苗苗.江蘇科技大學(xué) 2018
[5]特定領(lǐng)域?qū)嶓w鏈接系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 張廣鵬.哈爾濱工業(yè)大學(xué) 2018
[6]基于詞嵌入的文本摘要系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 完顏丹丹.海南大學(xué) 2017
[7]融合LDA與TextRank算法的主題信息抽取方法[D]. 王亞坤.山西大學(xué) 2017
[8]基于詞向量的短文本主題建模研究[D]. 劉世群.吉林大學(xué) 2017
[9]基于Word Embedding的短文本特征擴(kuò)展方法研究[D]. 孟欣.吉林大學(xué) 2017
[10]基于詞向量的短文本主題建模研究[D]. 王浩然.武漢大學(xué) 2017
本文編號(hào):3596527
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3596527.html
最近更新
教材專(zhuān)著