基于多特征的中文語義關(guān)鍵詞提取方法的研究
發(fā)布時(shí)間:2021-01-03 06:11
信息技術(shù)的快速發(fā)展促使網(wǎng)絡(luò)數(shù)據(jù)呈現(xiàn)幾何式增長,導(dǎo)致數(shù)據(jù)量越來愈大,對(duì)文本信息有效的檢索和利用也越來越困難。面對(duì)海量的信息,尤其是面對(duì)爆炸式增長的文本信息,高效的從海量文本中捕獲到有用的信息,已經(jīng)成為當(dāng)前亟需解決的問題。為了解決這一問題,需要從文本中提取能夠反映文本主題的中心詞,這些詞被稱為關(guān)鍵詞。關(guān)鍵詞很好的體現(xiàn)了作者的思想以及文章的主題,能夠使讀者快速的了解一篇文章的主要內(nèi)容,因此擁有一種熟練的自動(dòng)關(guān)鍵詞提取方法有著非常重要的研究意義。關(guān)鍵詞作為文本核心內(nèi)容地體現(xiàn),不僅要反映詞語地的重要性,還要能夠反映文本與主題之間的相關(guān)性。而現(xiàn)有的針對(duì)關(guān)鍵詞主題相關(guān)性的研究較少,而且多集中于對(duì)詞語的語言概率模型或基于詞典的研究,無法挖掘出詞語的隱式語義特征。此外,在現(xiàn)實(shí)世界中大多數(shù)文本都沒有提供標(biāo)注關(guān)鍵詞。如果采取人工標(biāo)注的方法,不僅效率低下、費(fèi)時(shí)費(fèi)力,而且人的主觀意識(shí)對(duì)標(biāo)注結(jié)果影響比較大,所以手動(dòng)分配關(guān)鍵詞是一項(xiàng)非常耗時(shí)且繁瑣的任務(wù)。綜合以上因素,本文主要針對(duì)關(guān)鍵詞的主題相關(guān)性以及標(biāo)注語料較少的問題展開了研究,研究的主要內(nèi)容如下:(1)本文提出了一種新的計(jì)算詞語與文本主題之間相關(guān)性的方法。算法首...
【文章來源】:浙江工業(yè)大學(xué)浙江省
【文章頁數(shù)】:77 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
數(shù)據(jù)保存形式
基于多特征的中文語義關(guān)鍵詞提取方法的研究49型進(jìn)行測(cè)試。為了選擇合適的算法構(gòu)建關(guān)鍵詞分類模型,本文根據(jù)幾種常用的分類算法做了多組對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表5-3所示,由表可以看出,在實(shí)驗(yàn)數(shù)據(jù)相同的條件下,SVM分類算法的準(zhǔn)確率更高。所以本文選擇SVM分類算法訓(xùn)練關(guān)鍵詞分類模型。表5-3分類算法的準(zhǔn)確率對(duì)比Table5-3.Comparisonofaccuracyratesofclassificationalgorithms分類算法訓(xùn)練集測(cè)試集PrecisionRecallFScorePrecisionRecallFScorek最近鄰(KNN)0.75380.73980.74670.71830.70350.7108決策樹(DT)0.85870.83130.84470.83290.78220.8067支持向量機(jī)(SVM)0.96930.80260.87810.87330.79180.8305邏輯回歸(LR)0.78110.86920.82280.70070.69950.7001樸素貝葉斯(NB)0.88120.86130.87110.86490.78830.82485.3.2關(guān)鍵詞提取個(gè)數(shù)不同對(duì)比關(guān)鍵詞提取的個(gè)數(shù)對(duì)提取結(jié)果的準(zhǔn)確率有一定的影響,為了考察本文方法的準(zhǔn)確率隨關(guān)鍵詞提取個(gè)數(shù)的變化情況。本文通過改變關(guān)鍵詞提取個(gè)數(shù)k(k=1,2,..,10),在系統(tǒng)上進(jìn)行了多組實(shí)驗(yàn),并將實(shí)驗(yàn)結(jié)果與傳統(tǒng)的TFIDF、TextRank、YAKE方法實(shí)驗(yàn)結(jié)果進(jìn)行了對(duì)比。(a)(b)(c)圖5-2隨關(guān)鍵詞個(gè)數(shù)的變化結(jié)果Figure5-2.Resultsofchangeswiththenumberofkeywords
?c)顯示了TFIDF方法和SFKE方法的FScore隨著關(guān)鍵詞提取個(gè)數(shù)的變化,由圖可以看出,SFKE方法總體上都比TFIDF方法的FScore要高。兩個(gè)方法都在關(guān)鍵詞個(gè)數(shù)為5的情況下取最大值,且SFKE方法較TFIDF方法結(jié)果的FScore在關(guān)鍵詞個(gè)數(shù)為5的情況下提升了0.21。5.3.3文本數(shù)量不同對(duì)比為了進(jìn)一步對(duì)融合語義特征的關(guān)鍵詞方法做進(jìn)行驗(yàn)證,本文在提取關(guān)鍵詞個(gè)數(shù)為5個(gè)的情況下,從3770篇測(cè)試文本中分別提取500篇、1000篇、1500篇、2000篇、2500篇、3000篇、3770篇文章進(jìn)行多組實(shí)驗(yàn),檢驗(yàn)文本章數(shù)量的增長對(duì)關(guān)鍵詞提準(zhǔn)確率的影響。實(shí)驗(yàn)結(jié)果如圖5-3所示。圖5-3融合語義特征的關(guān)鍵詞方法結(jié)果隨文本數(shù)量的變化Figure5-3.Theresultofkeywordmethodwithsemanticfeaturesischangedwiththenumberoftexts
【參考文獻(xiàn)】:
期刊論文
[1]基于語義擴(kuò)展的漢語全覆蓋關(guān)鍵詞提取算法[J]. 李言武,鄭勇. 控制工程. 2018(07)
[2]特征驅(qū)動(dòng)的關(guān)鍵詞提取算法綜述[J]. 常耀成,張宇翔,王紅,萬懷宇,肖春景. 軟件學(xué)報(bào). 2018(07)
[3]學(xué)術(shù)文本的結(jié)構(gòu)功能識(shí)別——在關(guān)鍵詞自動(dòng)抽取中的應(yīng)用[J]. 方龍,李信,黃永,陸偉. 情報(bào)學(xué)報(bào). 2017(06)
[4]自動(dòng)關(guān)鍵詞抽取研究綜述[J]. 趙京勝,朱巧明,周國棟,張麗. 軟件學(xué)報(bào). 2017(09)
[5]挖掘?qū)@R(shí)實(shí)現(xiàn)關(guān)鍵詞自動(dòng)抽取[J]. 陳憶群,周如旗,朱蔚恒,李夢(mèng)婷,印鑒. 計(jì)算機(jī)研究與發(fā)展. 2016(08)
[6]基于同義詞詞林和《知網(wǎng)》的短語主題提取[J]. 曾聰,張東站. 廈門大學(xué)學(xué)報(bào)(自然科學(xué)版). 2015(02)
[7]利用《知網(wǎng)》和領(lǐng)域關(guān)鍵詞集擴(kuò)展方法的短文本分類研究[J]. 李湘東,曹環(huán),丁叢,黃莉. 現(xiàn)代圖書情報(bào)技術(shù). 2015(02)
[8]基于語義的文檔關(guān)鍵詞提取方法[J]. 姜芳,李國和,岳翔. 計(jì)算機(jī)應(yīng)用研究. 2015(01)
[9]半監(jiān)督學(xué)習(xí)方法[J]. 劉建偉,劉媛,羅雄麟. 計(jì)算機(jī)學(xué)報(bào). 2015(08)
[10]基于語義的中文文本關(guān)鍵詞提取算法[J]. 王立霞,淮曉永. 計(jì)算機(jī)工程. 2012(01)
本文編號(hào):2954464
【文章來源】:浙江工業(yè)大學(xué)浙江省
【文章頁數(shù)】:77 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
數(shù)據(jù)保存形式
基于多特征的中文語義關(guān)鍵詞提取方法的研究49型進(jìn)行測(cè)試。為了選擇合適的算法構(gòu)建關(guān)鍵詞分類模型,本文根據(jù)幾種常用的分類算法做了多組對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表5-3所示,由表可以看出,在實(shí)驗(yàn)數(shù)據(jù)相同的條件下,SVM分類算法的準(zhǔn)確率更高。所以本文選擇SVM分類算法訓(xùn)練關(guān)鍵詞分類模型。表5-3分類算法的準(zhǔn)確率對(duì)比Table5-3.Comparisonofaccuracyratesofclassificationalgorithms分類算法訓(xùn)練集測(cè)試集PrecisionRecallFScorePrecisionRecallFScorek最近鄰(KNN)0.75380.73980.74670.71830.70350.7108決策樹(DT)0.85870.83130.84470.83290.78220.8067支持向量機(jī)(SVM)0.96930.80260.87810.87330.79180.8305邏輯回歸(LR)0.78110.86920.82280.70070.69950.7001樸素貝葉斯(NB)0.88120.86130.87110.86490.78830.82485.3.2關(guān)鍵詞提取個(gè)數(shù)不同對(duì)比關(guān)鍵詞提取的個(gè)數(shù)對(duì)提取結(jié)果的準(zhǔn)確率有一定的影響,為了考察本文方法的準(zhǔn)確率隨關(guān)鍵詞提取個(gè)數(shù)的變化情況。本文通過改變關(guān)鍵詞提取個(gè)數(shù)k(k=1,2,..,10),在系統(tǒng)上進(jìn)行了多組實(shí)驗(yàn),并將實(shí)驗(yàn)結(jié)果與傳統(tǒng)的TFIDF、TextRank、YAKE方法實(shí)驗(yàn)結(jié)果進(jìn)行了對(duì)比。(a)(b)(c)圖5-2隨關(guān)鍵詞個(gè)數(shù)的變化結(jié)果Figure5-2.Resultsofchangeswiththenumberofkeywords
?c)顯示了TFIDF方法和SFKE方法的FScore隨著關(guān)鍵詞提取個(gè)數(shù)的變化,由圖可以看出,SFKE方法總體上都比TFIDF方法的FScore要高。兩個(gè)方法都在關(guān)鍵詞個(gè)數(shù)為5的情況下取最大值,且SFKE方法較TFIDF方法結(jié)果的FScore在關(guān)鍵詞個(gè)數(shù)為5的情況下提升了0.21。5.3.3文本數(shù)量不同對(duì)比為了進(jìn)一步對(duì)融合語義特征的關(guān)鍵詞方法做進(jìn)行驗(yàn)證,本文在提取關(guān)鍵詞個(gè)數(shù)為5個(gè)的情況下,從3770篇測(cè)試文本中分別提取500篇、1000篇、1500篇、2000篇、2500篇、3000篇、3770篇文章進(jìn)行多組實(shí)驗(yàn),檢驗(yàn)文本章數(shù)量的增長對(duì)關(guān)鍵詞提準(zhǔn)確率的影響。實(shí)驗(yàn)結(jié)果如圖5-3所示。圖5-3融合語義特征的關(guān)鍵詞方法結(jié)果隨文本數(shù)量的變化Figure5-3.Theresultofkeywordmethodwithsemanticfeaturesischangedwiththenumberoftexts
【參考文獻(xiàn)】:
期刊論文
[1]基于語義擴(kuò)展的漢語全覆蓋關(guān)鍵詞提取算法[J]. 李言武,鄭勇. 控制工程. 2018(07)
[2]特征驅(qū)動(dòng)的關(guān)鍵詞提取算法綜述[J]. 常耀成,張宇翔,王紅,萬懷宇,肖春景. 軟件學(xué)報(bào). 2018(07)
[3]學(xué)術(shù)文本的結(jié)構(gòu)功能識(shí)別——在關(guān)鍵詞自動(dòng)抽取中的應(yīng)用[J]. 方龍,李信,黃永,陸偉. 情報(bào)學(xué)報(bào). 2017(06)
[4]自動(dòng)關(guān)鍵詞抽取研究綜述[J]. 趙京勝,朱巧明,周國棟,張麗. 軟件學(xué)報(bào). 2017(09)
[5]挖掘?qū)@R(shí)實(shí)現(xiàn)關(guān)鍵詞自動(dòng)抽取[J]. 陳憶群,周如旗,朱蔚恒,李夢(mèng)婷,印鑒. 計(jì)算機(jī)研究與發(fā)展. 2016(08)
[6]基于同義詞詞林和《知網(wǎng)》的短語主題提取[J]. 曾聰,張東站. 廈門大學(xué)學(xué)報(bào)(自然科學(xué)版). 2015(02)
[7]利用《知網(wǎng)》和領(lǐng)域關(guān)鍵詞集擴(kuò)展方法的短文本分類研究[J]. 李湘東,曹環(huán),丁叢,黃莉. 現(xiàn)代圖書情報(bào)技術(shù). 2015(02)
[8]基于語義的文檔關(guān)鍵詞提取方法[J]. 姜芳,李國和,岳翔. 計(jì)算機(jī)應(yīng)用研究. 2015(01)
[9]半監(jiān)督學(xué)習(xí)方法[J]. 劉建偉,劉媛,羅雄麟. 計(jì)算機(jī)學(xué)報(bào). 2015(08)
[10]基于語義的中文文本關(guān)鍵詞提取算法[J]. 王立霞,淮曉永. 計(jì)算機(jī)工程. 2012(01)
本文編號(hào):2954464
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2954464.html
最近更新
教材專著