天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

中文文章與主題關(guān)鍵短語提取方法研究

發(fā)布時間:2021-12-22 08:40
  隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,日益增多的網(wǎng)民所產(chǎn)生的文本信息有待及時有效的處理。因此,高效的文本挖掘技術(shù)就成為關(guān)鍵性研究課題,其中,文章關(guān)鍵短語與主題關(guān)鍵短語提取技術(shù)是文本挖掘的基礎(chǔ)研究內(nèi)容,它們共同影響著文本挖掘在各個領(lǐng)域中的應(yīng)用質(zhì)量。目前,文章關(guān)鍵短語與主題關(guān)鍵短語提取技術(shù)被廣泛應(yīng)用于許多領(lǐng)域,如:關(guān)鍵詞搜索引擎、語音識別、文本情感分析和用戶商品智能推薦等。本文的主要工作是基于統(tǒng)計(jì)、自然語言處理和機(jī)器學(xué)習(xí),在原有三種經(jīng)典算法的基礎(chǔ)上提出了改進(jìn)后的三個關(guān)鍵短語提取方案,本文的具體研究內(nèi)容和研究結(jié)果如下:(1)提出了一種基于TF-IDF與多特征約束的中文關(guān)鍵短語提取方法。首先,分析了TF-IDF統(tǒng)計(jì)量設(shè)定的局限性,根據(jù)中文詞語特點(diǎn)加入更多約束條件完成多特征約束,然后,加入了順序組合技術(shù)來彌補(bǔ)TF-IDF無法提取短語的缺陷,在此基礎(chǔ)上融入中文分詞系統(tǒng)與改進(jìn)的短語排序技術(shù)共同構(gòu)成該方案主體,并在大量實(shí)驗(yàn)中完成算法具體參數(shù)的定值。最后,給出了該方案與國內(nèi)外經(jīng)典相關(guān)算法的對比實(shí)驗(yàn)結(jié)果,從量化的數(shù)值上可以看出本方案的關(guān)鍵短語挖掘效果相對于對比算法有顯著的提升。(2)針對經(jīng)典的關(guān)鍵短語提取算法所提取關(guān)... 

【文章來源】:西安理工大學(xué)陜西省

【文章頁數(shù)】:70 頁

【學(xué)位級別】:碩士

【部分圖文】:

中文文章與主題關(guān)鍵短語提取方法研究


短語長度比例圖

性比例,先驗(yàn)概率


示每個短語的先驗(yàn)概率差別很大,如果不考慮其中的先驗(yàn)概率對于某些詞語來說存在有很大的“不公平”性。公式 3-2 中參數(shù)定值實(shí)驗(yàn)與公式 3-1 類似,具體實(shí)驗(yàn)結(jié)果如圖 3-3 所示,圖 3-3 中橫坐標(biāo) 1 到 5 依次代表短語由名詞、動詞+名詞、動詞+形容詞、動詞+形容詞+名詞、其他詞性組合而成。圖 3-3 中我們可以看出關(guān)鍵短語屬于純名詞詞性的先驗(yàn)概率是最大的,這也與我們中文表達(dá)方式密不可分。據(jù)此我們將公式 3-2 中各個參數(shù)1a 、2a 、3a 、4a 、5a 依次定為 0.47、0.28、0.15、0.07、0.03。接下來給定 3.2.5 節(jié)中 Step4 的取值,本方案通過給定參數(shù)不同數(shù)值后 F 值的走勢來確定閾值,具體實(shí)驗(yàn)結(jié)果如圖 3-4 所示,其中我們可以明顯看出當(dāng)閾值取 0.07 時,可以達(dá)到最大 F 值,因此本文閾值確定為 0.07。最終本方案將確定公式 3-9 中的參數(shù),具體實(shí)驗(yàn)思路與圖 3-4 思路類似,同樣通過參數(shù)在不同取值下 F 值的變化規(guī)律來確定參數(shù)。具體實(shí)驗(yàn)結(jié)果如表 3-2 所示。其中我們看出公式 3-9 中所定義的兩個指標(biāo)對于短語提取結(jié)果有著十分密切的聯(lián)系。從表中我們看出,當(dāng)忽視其中一個指標(biāo),過多的減少它的權(quán)重會帶來 F 值的快速下降。通過反復(fù)試驗(yàn),我們最終將1 確定為 0.6,2 確定為 0.4。至此本方案所有參數(shù)都已給定。

走勢圖,閾值


示每個短語的先驗(yàn)概率差別很大,如果不考慮其中的先驗(yàn)概率對于某些詞語來說存在有很大的“不公平”性。公式 3-2 中參數(shù)定值實(shí)驗(yàn)與公式 3-1 類似,具體實(shí)驗(yàn)結(jié)果如圖 3-3 所示,圖 3-3 中橫坐標(biāo) 1 到 5 依次代表短語由名詞、動詞+名詞、動詞+形容詞、動詞+形容詞+名詞、其他詞性組合而成。圖 3-3 中我們可以看出關(guān)鍵短語屬于純名詞詞性的先驗(yàn)概率是最大的,這也與我們中文表達(dá)方式密不可分。據(jù)此我們將公式 3-2 中各個參數(shù)1a 、2a 、3a 、4a 、5a 依次定為 0.47、0.28、0.15、0.07、0.03。接下來給定 3.2.5 節(jié)中 Step4 的取值,本方案通過給定參數(shù)不同數(shù)值后 F 值的走勢來確定閾值,具體實(shí)驗(yàn)結(jié)果如圖 3-4 所示,其中我們可以明顯看出當(dāng)閾值取 0.07 時,可以達(dá)到最大 F 值,因此本文閾值確定為 0.07。最終本方案將確定公式 3-9 中的參數(shù),具體實(shí)驗(yàn)思路與圖 3-4 思路類似,同樣通過參數(shù)在不同取值下 F 值的變化規(guī)律來確定參數(shù)。具體實(shí)驗(yàn)結(jié)果如表 3-2 所示。其中我們看出公式 3-9 中所定義的兩個指標(biāo)對于短語提取結(jié)果有著十分密切的聯(lián)系。從表中我們看出,當(dāng)忽視其中一個指標(biāo),過多的減少它的權(quán)重會帶來 F 值的快速下降。通過反復(fù)試驗(yàn),我們最終將1 確定為 0.6,2 確定為 0.4。至此本方案所有參數(shù)都已給定。

【參考文獻(xiàn)】:
期刊論文
[1]知識網(wǎng)絡(luò)情緒互信息熵檢測[J]. 涂坤,孫彬,王東.  沈陽工業(yè)大學(xué)學(xué)報(bào). 2018(03)
[2]漢語同義語素構(gòu)詞能力差異歷時演變探析[J]. 馬思奇.  北方文學(xué). 2018(05)
[3]基于改進(jìn)的TF-IDF算法及共現(xiàn)詞的主題詞抽取算法[J]. 公冶小燕,林培光,任威隆,張晨,張春云.  南京大學(xué)學(xué)報(bào)(自然科學(xué)). 2017(06)
[4]基于詞頻統(tǒng)計(jì)規(guī)律的文本數(shù)據(jù)預(yù)處理方法[J]. 池云仙,趙書良,羅燕,高琳,趙駿鵬,李超.  計(jì)算機(jī)科學(xué). 2017(10)
[5]自動關(guān)鍵詞抽取研究綜述[J]. 趙京勝,朱巧明,周國棟,張麗.  軟件學(xué)報(bào). 2017(09)
[6]詞向量聚類加權(quán)TextRank的關(guān)鍵詞抽取[J]. 夏天.  數(shù)據(jù)分析與知識發(fā)現(xiàn). 2017(02)
[7]關(guān)鍵短語抽取研究現(xiàn)狀[J]. 李珊珊,周耘立.  現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2017(02)
[8]關(guān)鍵詞自動抽取技術(shù)綜述[J]. 宋宇,真溱.  情報(bào)理論與實(shí)踐. 2016(07)
[9]基于樸素貝葉斯的文本分類研究綜述[J]. 賀鳴,孫建軍,成穎.  情報(bào)科學(xué). 2016(07)
[10]基于詞向量的中文詞匯蘊(yùn)涵關(guān)系識別[J]. 張志昌,周慧霞,姚東任,魯小勇.  計(jì)算機(jī)工程. 2016(02)

碩士論文
[1]基于層次多詞表達(dá)的文本匹配研究[D]. 趙宇.北京郵電大學(xué) 2011
[2]關(guān)鍵短語抽取及相關(guān)技術(shù)研究[D]. 姜舟.哈爾濱工業(yè)大學(xué) 2010



本文編號:3546102

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3546102.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶843a5***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com