基于機(jī)器學(xué)習(xí)模型的論文自動(dòng)分類模型研究
發(fā)布時(shí)間:2021-11-25 22:39
隨著數(shù)字圖書(shū)館的發(fā)展,每年發(fā)表的論文數(shù)目也越來(lái)越大,為了方便大家查閱學(xué)習(xí),論文的分類管理成為了亟待解決的問(wèn)題。傳統(tǒng)的人工分類不僅耗費(fèi)時(shí)間,而且會(huì)由于分類工作者的主觀因素導(dǎo)致分類結(jié)果出現(xiàn)偏差。因此尋找一個(gè)合適的機(jī)器學(xué)習(xí)模型來(lái)實(shí)現(xiàn)論文的自動(dòng)分類成為了解決這一問(wèn)題的最佳方法。本文主要通過(guò)分析容易被錯(cuò)判的論文和被正確分類的論文之間的差別,尋找優(yōu)化模型的方法,以期可以得到一個(gè)理想的分類模型和論文分類管理方案。本文從中國(guó)知網(wǎng)上按照論文被索引次數(shù)的大小選取7000篇碩士論文作為樣本數(shù)據(jù)。通過(guò)Python中的分詞包對(duì)論文進(jìn)行分詞,并以TF-IDF算法計(jì)算每個(gè)特征詞的權(quán)重。隨機(jī)森林算法、支持向量機(jī)算法和AdaBoost算法是文本挖掘領(lǐng)域應(yīng)用最廣泛的三個(gè)模型,本文通過(guò)交叉驗(yàn)證的方法,并以分類的準(zhǔn)確率和模型訓(xùn)練時(shí)間為評(píng)價(jià)指標(biāo)從這三個(gè)模型中選擇出最適合的模型。在進(jìn)行初步預(yù)測(cè)后,發(fā)現(xiàn)被誤判的論文的題名、關(guān)鍵字、摘要中包含的特征詞的均較少,導(dǎo)致變量不顯著而被錯(cuò)分到比較接近的類別中去了。本文通過(guò)構(gòu)建知識(shí)圖譜模型,并引用與論文關(guān)系最接近的論文中的特征詞補(bǔ)充到論文中去。再次對(duì)優(yōu)化后的模型進(jìn)行預(yù)測(cè),預(yù)測(cè)的正確率明顯提升,...
【文章來(lái)源】:天津財(cái)經(jīng)大學(xué)天津市
【文章頁(yè)數(shù)】:58 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2.?1交叉驗(yàn)證??
.?2.?4基于知識(shí)理解篩選特征詞??將分詞后的詞語(yǔ)以列表的形式保存,并分別統(tǒng)計(jì)各個(gè)類別的詞和對(duì)應(yīng)的詞頻。分不同類別的論文做次云圖。再根據(jù)各學(xué)科領(lǐng)域的知識(shí),篩選出能代表各個(gè)學(xué)科領(lǐng)特征詞。以下是對(duì)特征詞的篩選示例。??數(shù)學(xué)是研宄數(shù)量、結(jié)構(gòu)、變化、空間以及信息等概念的一門學(xué)科。從數(shù)學(xué)類論文字詞云圖可以看出,數(shù)學(xué)論文高頻詞如全局、混合、邊值問(wèn)題、混合、分支、信息熵量、整體、方程組、導(dǎo)數(shù)、相似、積極算子、相似性、指數(shù)函數(shù)、級(jí)數(shù)、可視化、研究、微積分、最優(yōu)控制等都是數(shù)量、結(jié)構(gòu)、變化空間以及信息的范疇。其作為數(shù)論文的識(shí)別詞匯是較為合理的。數(shù)學(xué)作為一門基礎(chǔ)理論學(xué)科,在很多學(xué)科都有應(yīng)用。??此有些詞匯如傳染病、捕食者、細(xì)胞、染色、媒體報(bào)道等。應(yīng)是數(shù)學(xué)知識(shí)的應(yīng)用領(lǐng)詞匯,他們的出現(xiàn)具有偶然性,不能作為數(shù)學(xué)的專有特征,因此不能放在數(shù)學(xué)關(guān)鍵頻詞包里。??
;波導(dǎo)調(diào)制■劈熱%s辦,巧-|^itgnAb??麵探測(cè)超導(dǎo)體嘯1伊敦■■色散i藝太陽(yáng)目匕??圖3.?2物理類論文特征詞詞云圖??從地球物理類論文的關(guān)鍵字的詞云圖可以看出,如地面、重力、拾取、地表水、體??積、速度、泥沙、面向變遷、盆地、面波位場(chǎng)、壓縮、磁測(cè)、黃河、構(gòu)造、地幔、勘測(cè)??等都為都為地理類專業(yè)詞匯。如波形、磁法、電法、重力等均屬于物理學(xué)的專業(yè)詞匯。??這些詞均可以作為地球物理學(xué)的關(guān)鍵字高頻詞包。???往罌寒麵泥沙毫K靈?南》肩If場(chǎng)蔚重力??If師賴_^?篇—謹(jǐn)??巨!散__峨雜臓腿讓tefe界面任意…??&黯可舊遺警識(shí)睡澀3地?碧綐(gòu)造??圖3.?3地球物理類論文特征詞詞云圖??金融學(xué)是以融資貨幣和貨幣資金的經(jīng)濟(jì)活動(dòng)為研究對(duì)象的學(xué)科。如圖3.?4金融類論??文關(guān)鍵字詞云圖,金融類的關(guān)鍵字高頻的詞匯。如貿(mào)易、存貨、壟斷、協(xié)調(diào)效應(yīng)、匯率、??征信、貨幣等都屬于金融學(xué)的專業(yè)詞匯。其中也有一些詞如熱情、畢業(yè)生并不屬于金融??學(xué)的專業(yè)范疇。??17??
【參考文獻(xiàn)】:
期刊論文
[1]基于數(shù)據(jù)倉(cāng)庫(kù)的上海圖書(shū)館流通分析報(bào)告實(shí)踐[J]. 宋歌笙,劉靚洲. 圖書(shū)館雜志. 2015(02)
[2]基于OPAC日志用戶行為分析的圖書(shū)采購(gòu)新方法[J]. 侯志江,侯玲娟. 圖書(shū)館建設(shè). 2015(01)
[3]SVM核函數(shù)對(duì)分類精度影響的研究[J]. 劉大寧,楊永樂(lè),白林. 佳木斯大學(xué)學(xué)報(bào)(自然科學(xué)版). 2012(04)
[4]一種基于粗糙集文本自動(dòng)分類的改進(jìn)算法[J]. 張保富,施化吉. 計(jì)算機(jī)工程與應(yīng)用. 2011(24)
[5]基于概率潛在語(yǔ)義分析的中文文本分類研究[J]. 王奕. 甘肅聯(lián)合大學(xué)學(xué)報(bào)(自然科學(xué)版). 2011(04)
[6]基于粗糙集特征加權(quán)的文本分類[J]. 徐欣,黃理燦,趙玉虹. 浙江理工大學(xué)學(xué)報(bào). 2011(04)
[7]基于支持向量機(jī)的醫(yī)學(xué)期刊文章自動(dòng)分類研究[J]. 王東波,蘇新寧,朱丹浩,年洪東. 情報(bào)理論與實(shí)踐. 2011(04)
[8]SVM分類核函數(shù)及參數(shù)選擇比較[J]. 奉國(guó)和. 計(jì)算機(jī)工程與應(yīng)用. 2011(03)
[9]基于KNN算法的文本自動(dòng)分類方法研究——以學(xué)術(shù)期刊欄目自動(dòng)歸類為例[J]. 李湘東,徐朋,黃莉,沈祥興. 圖書(shū)情報(bào)知識(shí). 2010(04)
[10]基于機(jī)器學(xué)習(xí)的文本自動(dòng)分類研究進(jìn)展[J]. 張雪英. 情報(bào)學(xué)報(bào). 2006 (06)
碩士論文
[1]基于多元線性回歸模型的電影票房預(yù)測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 任丹.中山大學(xué) 2015
[2]基于RBF神經(jīng)網(wǎng)絡(luò)的時(shí)間序列預(yù)測(cè)技術(shù)的研究[D]. 沈艷.安徽農(nóng)業(yè)大學(xué) 2012
本文編號(hào):3518921
【文章來(lái)源】:天津財(cái)經(jīng)大學(xué)天津市
【文章頁(yè)數(shù)】:58 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2.?1交叉驗(yàn)證??
.?2.?4基于知識(shí)理解篩選特征詞??將分詞后的詞語(yǔ)以列表的形式保存,并分別統(tǒng)計(jì)各個(gè)類別的詞和對(duì)應(yīng)的詞頻。分不同類別的論文做次云圖。再根據(jù)各學(xué)科領(lǐng)域的知識(shí),篩選出能代表各個(gè)學(xué)科領(lǐng)特征詞。以下是對(duì)特征詞的篩選示例。??數(shù)學(xué)是研宄數(shù)量、結(jié)構(gòu)、變化、空間以及信息等概念的一門學(xué)科。從數(shù)學(xué)類論文字詞云圖可以看出,數(shù)學(xué)論文高頻詞如全局、混合、邊值問(wèn)題、混合、分支、信息熵量、整體、方程組、導(dǎo)數(shù)、相似、積極算子、相似性、指數(shù)函數(shù)、級(jí)數(shù)、可視化、研究、微積分、最優(yōu)控制等都是數(shù)量、結(jié)構(gòu)、變化空間以及信息的范疇。其作為數(shù)論文的識(shí)別詞匯是較為合理的。數(shù)學(xué)作為一門基礎(chǔ)理論學(xué)科,在很多學(xué)科都有應(yīng)用。??此有些詞匯如傳染病、捕食者、細(xì)胞、染色、媒體報(bào)道等。應(yīng)是數(shù)學(xué)知識(shí)的應(yīng)用領(lǐng)詞匯,他們的出現(xiàn)具有偶然性,不能作為數(shù)學(xué)的專有特征,因此不能放在數(shù)學(xué)關(guān)鍵頻詞包里。??
;波導(dǎo)調(diào)制■劈熱%s辦,巧-|^itgnAb??麵探測(cè)超導(dǎo)體嘯1伊敦■■色散i藝太陽(yáng)目匕??圖3.?2物理類論文特征詞詞云圖??從地球物理類論文的關(guān)鍵字的詞云圖可以看出,如地面、重力、拾取、地表水、體??積、速度、泥沙、面向變遷、盆地、面波位場(chǎng)、壓縮、磁測(cè)、黃河、構(gòu)造、地幔、勘測(cè)??等都為都為地理類專業(yè)詞匯。如波形、磁法、電法、重力等均屬于物理學(xué)的專業(yè)詞匯。??這些詞均可以作為地球物理學(xué)的關(guān)鍵字高頻詞包。???往罌寒麵泥沙毫K靈?南》肩If場(chǎng)蔚重力??If師賴_^?篇—謹(jǐn)??巨!散__峨雜臓腿讓tefe界面任意…??&黯可舊遺警識(shí)睡澀3地?碧綐(gòu)造??圖3.?3地球物理類論文特征詞詞云圖??金融學(xué)是以融資貨幣和貨幣資金的經(jīng)濟(jì)活動(dòng)為研究對(duì)象的學(xué)科。如圖3.?4金融類論??文關(guān)鍵字詞云圖,金融類的關(guān)鍵字高頻的詞匯。如貿(mào)易、存貨、壟斷、協(xié)調(diào)效應(yīng)、匯率、??征信、貨幣等都屬于金融學(xué)的專業(yè)詞匯。其中也有一些詞如熱情、畢業(yè)生并不屬于金融??學(xué)的專業(yè)范疇。??17??
【參考文獻(xiàn)】:
期刊論文
[1]基于數(shù)據(jù)倉(cāng)庫(kù)的上海圖書(shū)館流通分析報(bào)告實(shí)踐[J]. 宋歌笙,劉靚洲. 圖書(shū)館雜志. 2015(02)
[2]基于OPAC日志用戶行為分析的圖書(shū)采購(gòu)新方法[J]. 侯志江,侯玲娟. 圖書(shū)館建設(shè). 2015(01)
[3]SVM核函數(shù)對(duì)分類精度影響的研究[J]. 劉大寧,楊永樂(lè),白林. 佳木斯大學(xué)學(xué)報(bào)(自然科學(xué)版). 2012(04)
[4]一種基于粗糙集文本自動(dòng)分類的改進(jìn)算法[J]. 張保富,施化吉. 計(jì)算機(jī)工程與應(yīng)用. 2011(24)
[5]基于概率潛在語(yǔ)義分析的中文文本分類研究[J]. 王奕. 甘肅聯(lián)合大學(xué)學(xué)報(bào)(自然科學(xué)版). 2011(04)
[6]基于粗糙集特征加權(quán)的文本分類[J]. 徐欣,黃理燦,趙玉虹. 浙江理工大學(xué)學(xué)報(bào). 2011(04)
[7]基于支持向量機(jī)的醫(yī)學(xué)期刊文章自動(dòng)分類研究[J]. 王東波,蘇新寧,朱丹浩,年洪東. 情報(bào)理論與實(shí)踐. 2011(04)
[8]SVM分類核函數(shù)及參數(shù)選擇比較[J]. 奉國(guó)和. 計(jì)算機(jī)工程與應(yīng)用. 2011(03)
[9]基于KNN算法的文本自動(dòng)分類方法研究——以學(xué)術(shù)期刊欄目自動(dòng)歸類為例[J]. 李湘東,徐朋,黃莉,沈祥興. 圖書(shū)情報(bào)知識(shí). 2010(04)
[10]基于機(jī)器學(xué)習(xí)的文本自動(dòng)分類研究進(jìn)展[J]. 張雪英. 情報(bào)學(xué)報(bào). 2006 (06)
碩士論文
[1]基于多元線性回歸模型的電影票房預(yù)測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 任丹.中山大學(xué) 2015
[2]基于RBF神經(jīng)網(wǎng)絡(luò)的時(shí)間序列預(yù)測(cè)技術(shù)的研究[D]. 沈艷.安徽農(nóng)業(yè)大學(xué) 2012
本文編號(hào):3518921
本文鏈接:http://sikaile.net/tushudanganlunwen/3518921.html
最近更新
教材專著