主題詞匹配的收藏文檔標(biāo)題分類研究
發(fā)布時(shí)間:2021-07-15 08:45
在信息爆炸的背景下,信息泛濫、信息超載、信息浪費(fèi)問(wèn)題日益嚴(yán)重。對(duì)高價(jià)值信息進(jìn)行規(guī)范化管理與自動(dòng)分類,對(duì)于完善團(tuán)隊(duì)文檔管理體系、構(gòu)建個(gè)人知識(shí)體系具有重要意義。針對(duì)收藏文檔標(biāo)題短文本分類這一問(wèn)題,提出一種無(wú)監(jiān)督主題詞抽取算法,并定義主題詞表示,然后基于主題詞表示對(duì)文檔標(biāo)題進(jìn)行標(biāo)注,進(jìn)而解決自動(dòng)分類問(wèn)題。為消除分類目標(biāo)的模糊性與不同用戶的差異性,首先定義了主題詞選取規(guī)范,對(duì)主題詞選取范圍以及主題詞粒度進(jìn)行合理限定;又提出一種基于自定義富標(biāo)簽的文檔分類規(guī)范。此外,定義了共現(xiàn)項(xiàng)集、共現(xiàn)項(xiàng)關(guān)系類型概念,與候選主題詞判別條件作為主題詞抽取算法的基礎(chǔ)研究條件。主題詞抽取算法可分為4個(gè)步驟:文檔集預(yù)處理、候選主題詞選擇、主題詞集精簡(jiǎn)優(yōu)化與主題詞表示。在文檔集預(yù)處理階段,設(shè)計(jì)了一種多元短語(yǔ)提取算法,能夠高效地提取二元短語(yǔ)及高元短語(yǔ)。隨后設(shè)計(jì)了候選主題詞選擇算法,獲取候選主題詞集與主題詞的共現(xiàn)項(xiàng)集。在主題詞集精簡(jiǎn)優(yōu)化階段,先后采取精簡(jiǎn)等價(jià)特征項(xiàng)、消除完全構(gòu)成詞冗余構(gòu)成項(xiàng)、消除雙向構(gòu)成關(guān)系、消除短語(yǔ)構(gòu)成詞策略,精簡(jiǎn)主題詞集與共現(xiàn)項(xiàng)集,篩選出高質(zhì)量的主題詞,消除共現(xiàn)項(xiàng)集的冗余。在主題詞表示階段,將共現(xiàn)項(xiàng)集分解為...
【文章來(lái)源】:遼寧工程技術(shù)大學(xué)遼寧省
【文章頁(yè)數(shù)】:81 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
文本挖掘過(guò)程示意圖
遼寧工程技術(shù)大學(xué)碩士學(xué)位論文30主題詞抽取及分類階段框架圖如圖3.2所示。圖3.2主題詞抽取及分類階段框架圖Figure3.2Frameworkofsubjectextractionandclassificationstage3.3數(shù)據(jù)集預(yù)處理3.2.1節(jié)對(duì)自動(dòng)分類預(yù)處理階段進(jìn)行了全面概述,本節(jié)著重介紹短語(yǔ)提取改進(jìn)算法與基于TextRank算法的標(biāo)簽停用詞提取步驟,其他預(yù)處理步驟不再贅述。3.3.1多元短語(yǔ)提取算法2.3.1節(jié)關(guān)于關(guān)鍵詞的定義說(shuō)明了關(guān)鍵詞既可以是關(guān)鍵單詞,又可以是關(guān)鍵短語(yǔ),通過(guò)提取關(guān)鍵短語(yǔ)能夠發(fā)現(xiàn)一部分未登錄詞。gensim工具包Phrases模塊等大部分短語(yǔ)提取算法都需要指定構(gòu)成短語(yǔ)的單詞個(gè)數(shù),再分別提取二元短語(yǔ)或三元短語(yǔ)等多元短語(yǔ)。若同時(shí)提取多元短語(yǔ)則會(huì)導(dǎo)致性能低下。此外,在以本文數(shù)據(jù)集作為輸入時(shí),Phrases模塊在提取
遼寧工程技術(shù)大學(xué)碩士學(xué)位論文34如果數(shù)據(jù)規(guī)模更大,可以將閾值相應(yīng)調(diào)大,從而舍棄低頻信息。算法2:候選主題詞選擇算法流程圖如圖3.3所示:圖3.3候選主題詞選擇算法Figure3.3Candidatesubjectwordselectionalgorithm算法具體流程為:(1)算法開(kāi)始,根據(jù)預(yù)處理文檔集X,特征項(xiàng)集合t(包括特征詞與特征短語(yǔ))初始
【參考文獻(xiàn)】:
期刊論文
[1]短文本分類技術(shù)研究綜述[J]. 鄧丁朋,周亞建,池俊輝,李佳樂(lè). 軟件. 2020(02)
[2]一種基于注意力機(jī)制的中文短文本關(guān)鍵詞提取模型[J]. 楊丹浩,吳岳辛,范春曉. 計(jì)算機(jī)科學(xué). 2020(01)
[3]基于頻繁模式的長(zhǎng)尾文本聚類算法[J]. 宋中山,張廣凱,尹帆,帖軍. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2019(04)
[4]基于因子圖模型的動(dòng)態(tài)圖半監(jiān)督聚類算法[J]. 張建朋,裴雨龍,劉聰,李邵梅,陳鴻昶. 自動(dòng)化學(xué)報(bào). 2020(04)
[5]基于主題模型的短文本關(guān)鍵詞抽取及擴(kuò)展[J]. 曾曦,陽(yáng)紅,常明芳,馮驍騁,趙妍妍,秦兵. 山西大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(02)
[6]一種基于頻繁詞集表示的新文本聚類方法[J]. 張雪松,賈彩燕. 計(jì)算機(jī)研究與發(fā)展. 2018(01)
[7]微博主題發(fā)現(xiàn)研究方法述評(píng)[J]. 梁曉賀,田儒雅,吳蕾,張學(xué)福. 圖書情報(bào)工作. 2017(14)
[8]面向新聞評(píng)論的短文本增量聚類算法[J]. 劉曉琳,曹付元,梁吉業(yè). 計(jì)算機(jī)科學(xué)與探索. 2018(06)
[9]自動(dòng)關(guān)鍵詞抽取研究綜述[J]. 趙京勝,朱巧明,周國(guó)棟,張麗. 軟件學(xué)報(bào). 2017(09)
[10]融合HowNet和BTM模型的短文本聚類方法[J]. 陽(yáng)小蘭,楊威,錢程,朱福喜. 計(jì)算機(jī)工程與設(shè)計(jì). 2017(05)
博士論文
[1]面向主題的關(guān)鍵詞抽取方法研究[D]. 丁卓冶.復(fù)旦大學(xué) 2013
碩士論文
[1]基于Word2Vec的中文短文本聚類算法研究與應(yīng)用[D]. 馬存.中國(guó)科學(xué)院大學(xué)(中國(guó)科學(xué)院沈陽(yáng)計(jì)算技術(shù)研究所) 2018
[2]微博用戶興趣的提取和動(dòng)態(tài)建模[D]. 鄭磊.太原理工大學(xué) 2017
[3]TF-IDF與規(guī)則結(jié)合的中文關(guān)鍵詞自動(dòng)抽取研究[D]. 牛萍.大連理工大學(xué) 2015
本文編號(hào):3285382
【文章來(lái)源】:遼寧工程技術(shù)大學(xué)遼寧省
【文章頁(yè)數(shù)】:81 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
文本挖掘過(guò)程示意圖
遼寧工程技術(shù)大學(xué)碩士學(xué)位論文30主題詞抽取及分類階段框架圖如圖3.2所示。圖3.2主題詞抽取及分類階段框架圖Figure3.2Frameworkofsubjectextractionandclassificationstage3.3數(shù)據(jù)集預(yù)處理3.2.1節(jié)對(duì)自動(dòng)分類預(yù)處理階段進(jìn)行了全面概述,本節(jié)著重介紹短語(yǔ)提取改進(jìn)算法與基于TextRank算法的標(biāo)簽停用詞提取步驟,其他預(yù)處理步驟不再贅述。3.3.1多元短語(yǔ)提取算法2.3.1節(jié)關(guān)于關(guān)鍵詞的定義說(shuō)明了關(guān)鍵詞既可以是關(guān)鍵單詞,又可以是關(guān)鍵短語(yǔ),通過(guò)提取關(guān)鍵短語(yǔ)能夠發(fā)現(xiàn)一部分未登錄詞。gensim工具包Phrases模塊等大部分短語(yǔ)提取算法都需要指定構(gòu)成短語(yǔ)的單詞個(gè)數(shù),再分別提取二元短語(yǔ)或三元短語(yǔ)等多元短語(yǔ)。若同時(shí)提取多元短語(yǔ)則會(huì)導(dǎo)致性能低下。此外,在以本文數(shù)據(jù)集作為輸入時(shí),Phrases模塊在提取
遼寧工程技術(shù)大學(xué)碩士學(xué)位論文34如果數(shù)據(jù)規(guī)模更大,可以將閾值相應(yīng)調(diào)大,從而舍棄低頻信息。算法2:候選主題詞選擇算法流程圖如圖3.3所示:圖3.3候選主題詞選擇算法Figure3.3Candidatesubjectwordselectionalgorithm算法具體流程為:(1)算法開(kāi)始,根據(jù)預(yù)處理文檔集X,特征項(xiàng)集合t(包括特征詞與特征短語(yǔ))初始
【參考文獻(xiàn)】:
期刊論文
[1]短文本分類技術(shù)研究綜述[J]. 鄧丁朋,周亞建,池俊輝,李佳樂(lè). 軟件. 2020(02)
[2]一種基于注意力機(jī)制的中文短文本關(guān)鍵詞提取模型[J]. 楊丹浩,吳岳辛,范春曉. 計(jì)算機(jī)科學(xué). 2020(01)
[3]基于頻繁模式的長(zhǎng)尾文本聚類算法[J]. 宋中山,張廣凱,尹帆,帖軍. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2019(04)
[4]基于因子圖模型的動(dòng)態(tài)圖半監(jiān)督聚類算法[J]. 張建朋,裴雨龍,劉聰,李邵梅,陳鴻昶. 自動(dòng)化學(xué)報(bào). 2020(04)
[5]基于主題模型的短文本關(guān)鍵詞抽取及擴(kuò)展[J]. 曾曦,陽(yáng)紅,常明芳,馮驍騁,趙妍妍,秦兵. 山西大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(02)
[6]一種基于頻繁詞集表示的新文本聚類方法[J]. 張雪松,賈彩燕. 計(jì)算機(jī)研究與發(fā)展. 2018(01)
[7]微博主題發(fā)現(xiàn)研究方法述評(píng)[J]. 梁曉賀,田儒雅,吳蕾,張學(xué)福. 圖書情報(bào)工作. 2017(14)
[8]面向新聞評(píng)論的短文本增量聚類算法[J]. 劉曉琳,曹付元,梁吉業(yè). 計(jì)算機(jī)科學(xué)與探索. 2018(06)
[9]自動(dòng)關(guān)鍵詞抽取研究綜述[J]. 趙京勝,朱巧明,周國(guó)棟,張麗. 軟件學(xué)報(bào). 2017(09)
[10]融合HowNet和BTM模型的短文本聚類方法[J]. 陽(yáng)小蘭,楊威,錢程,朱福喜. 計(jì)算機(jī)工程與設(shè)計(jì). 2017(05)
博士論文
[1]面向主題的關(guān)鍵詞抽取方法研究[D]. 丁卓冶.復(fù)旦大學(xué) 2013
碩士論文
[1]基于Word2Vec的中文短文本聚類算法研究與應(yīng)用[D]. 馬存.中國(guó)科學(xué)院大學(xué)(中國(guó)科學(xué)院沈陽(yáng)計(jì)算技術(shù)研究所) 2018
[2]微博用戶興趣的提取和動(dòng)態(tài)建模[D]. 鄭磊.太原理工大學(xué) 2017
[3]TF-IDF與規(guī)則結(jié)合的中文關(guān)鍵詞自動(dòng)抽取研究[D]. 牛萍.大連理工大學(xué) 2015
本文編號(hào):3285382
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3285382.html
最近更新
教材專著