基于機(jī)器學(xué)習(xí)的中文期刊論文自動(dòng)分類研究
本文關(guān)鍵詞:基于機(jī)器學(xué)習(xí)的中文期刊論文自動(dòng)分類研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著電子期刊的不斷增加,電子期刊論文的數(shù)量在與日俱增,電子期刊論文的合理分類成為了一個(gè)亟待解決的問題。傳統(tǒng)的人工分類在大數(shù)據(jù)環(huán)境下已經(jīng)顯得力不從心,在期刊論文分類方面人工分類也存在這個(gè)問題,將自動(dòng)分類的方法應(yīng)用于期刊論文分類方面能有效解決這個(gè)問題。 機(jī)器學(xué)習(xí)理念的出現(xiàn)讓自動(dòng)分類快速發(fā)展起來,本文將機(jī)器學(xué)習(xí)的思想運(yùn)用到期刊論文的自動(dòng)分類領(lǐng)域,選用中國知網(wǎng)的期刊論文數(shù)據(jù)作為實(shí)驗(yàn)樣本,對樣本進(jìn)行預(yù)處理后分為訓(xùn)練樣本和測試樣本,采用機(jī)器學(xué)習(xí)中的監(jiān)督學(xué)習(xí)“先學(xué)習(xí),后測試”的理念,先對訓(xùn)練樣本進(jìn)行學(xué)習(xí),然后利用學(xué)習(xí)到的分類器對測試樣本進(jìn)行分類,對比真實(shí)的類別和測試實(shí)驗(yàn)給出的類別,分析機(jī)器學(xué)習(xí)在期刊論文自動(dòng)分類方面的可行性。 本文的自動(dòng)分類實(shí)驗(yàn)選用的分類算法是支持向量機(jī)算法和BP神經(jīng)網(wǎng)絡(luò)算法,通過對這兩個(gè)算法在正確率、訓(xùn)練量和實(shí)驗(yàn)時(shí)間方面進(jìn)行比較實(shí)驗(yàn),選擇出相對更加適合本文研究對象的機(jī)器學(xué)習(xí)算法——支持向量機(jī)算法,同時(shí)通過對比實(shí)驗(yàn)選擇出適合本文研究對象的支持向量機(jī)算法參數(shù),為機(jī)器學(xué)習(xí)實(shí)驗(yàn)提供了最佳環(huán)境。 在良好的機(jī)器學(xué)習(xí)環(huán)境下,本文的實(shí)驗(yàn)樣本來源于中國知網(wǎng)的電子期刊論文數(shù)據(jù),包括論文的題名、關(guān)鍵詞和摘要等主要信息,通過對比分析知道綜合這三種特征來源更加能夠提高期刊論文自動(dòng)分類的實(shí)驗(yàn)效果,并且通過對比實(shí)驗(yàn)找到了一組相對合適的加權(quán)比重。 期刊論文的傳統(tǒng)分類方法是中國圖書館分類法,簡稱中圖法,但是中圖法存在分類繁雜、類目較多的特點(diǎn),這顯然不是自動(dòng)分類的體系,本文利用層次分類法的理念將中圖法轉(zhuǎn)化為一個(gè)三層的分類體系,分別進(jìn)行分類實(shí)驗(yàn),從第一層到第三層的實(shí)驗(yàn)正確率分別達(dá)到了95.05%、92.89%和89.02%,三層的綜合正確率也接近80%,這是一個(gè)比較可觀的實(shí)驗(yàn)結(jié)果,證明了機(jī)器學(xué)習(xí)在期刊論文的自動(dòng)分類方面的可行性,為期刊論文的分類問題提出了新的思路。
【關(guān)鍵詞】:機(jī)器學(xué)習(xí) 期刊論文 文本自動(dòng)分類 支持向量機(jī) 層次分類法
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP391.1;TP181;G254.1
【目錄】:
- 摘要5-7
- ABSTRACT7-10
- 第1章 引言10-14
- 1.1 研究背景10
- 1.2 文本自動(dòng)分類的研究現(xiàn)狀綜述10-13
- 1.3 論文結(jié)構(gòu)13-14
- 第2章 機(jī)器學(xué)習(xí)及常用分類算法概述14-28
- 2.1 機(jī)器學(xué)習(xí)14-17
- 2.1.1 機(jī)器學(xué)習(xí)概念14
- 2.1.2 機(jī)器學(xué)習(xí)類別14-16
- 2.1.3 機(jī)器學(xué)習(xí)模型16-17
- 2.2 自動(dòng)分類算法17-28
- 2.2.1 支持向量機(jī)算法18-25
- 2.2.2 BP神經(jīng)網(wǎng)絡(luò)算法25-28
- 第3章 機(jī)器學(xué)習(xí)系統(tǒng)設(shè)計(jì)和優(yōu)化28-43
- 3.1 數(shù)據(jù)準(zhǔn)備28-33
- 3.2 實(shí)驗(yàn)?zāi)P?/span>33-36
- 3.3 分類算法的選擇和優(yōu)化36-40
- 3.3.1 分類算法的選擇36-38
- 3.3.2 支持向量機(jī)算法的參數(shù)優(yōu)化38-40
- 3.4 特征來源選取標(biāo)準(zhǔn)40-43
- 第4章 基于支持向量機(jī)的中文期刊論文自動(dòng)分類43-50
- 4.1 影響分類實(shí)驗(yàn)效果的其他因素44-47
- 4.1.1 特征維度44
- 4.1.2 不同類別的數(shù)據(jù)量平衡問題44-45
- 4.1.3 樣本量影響45-46
- 4.1.4 訓(xùn)練樣本與測試樣本比例46-47
- 4.2 基于層次模型的期刊論文自動(dòng)分類47-50
- 第5章 結(jié)論50-52
- 5.1 本文總結(jié)50-51
- 5.2 不足與展望51-52
- 參考文獻(xiàn)52-55
- 致謝55
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 王奕;;基于概率潛在語義分析的中文文本分類研究[J];甘肅聯(lián)合大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年04期
2 奉國和;;SVM分類核函數(shù)及參數(shù)選擇比較[J];計(jì)算機(jī)工程與應(yīng)用;2011年03期
3 張保富;施化吉;;一種基于粗糙集文本自動(dòng)分類的改進(jìn)算法[J];計(jì)算機(jī)工程與應(yīng)用;2011年24期
4 談文蓉;楊憲澤;談進(jìn);;基于相似分類的文獻(xiàn)理解及自動(dòng)文摘系統(tǒng)研究[J];計(jì)算機(jī)科學(xué);2006年09期
5 繆建明;張全;趙金仿;;基于文章標(biāo)題信息的漢語自動(dòng)文本分類[J];計(jì)算機(jī)工程;2008年20期
6 蔣健安;陸介平;倪巍偉;孫志揮;;一種面向?qū)@墨I(xiàn)數(shù)據(jù)的文本自動(dòng)分類方法[J];計(jì)算機(jī)應(yīng)用;2008年01期
7 王怡,蓋杰,武港山,王繼成;基于潛在語義分析的中文文本層次分類技術(shù)[J];計(jì)算機(jī)應(yīng)用研究;2004年08期
8 劉大寧;楊永樂;白林;;SVM核函數(shù)對分類精度影響的研究[J];佳木斯大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年04期
9 刁倩,張惠惠,王永成,何驥;中文文獻(xiàn)自動(dòng)分類中的知識(shí)庫構(gòu)造及其仿人算法[J];情報(bào)學(xué)報(bào);2000年03期
10 何浩,楊海棠;一種基于N-Gram技術(shù)的中文文獻(xiàn)自動(dòng)分類方法[J];情報(bào)學(xué)報(bào);2002年04期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 陳玉芹;多類別科技文獻(xiàn)自動(dòng)分類系統(tǒng)[D];華中科技大學(xué);2008年
本文關(guān)鍵詞:基于機(jī)器學(xué)習(xí)的中文期刊論文自動(dòng)分類研究,由筆耕文化傳播整理發(fā)布。
,本文編號(hào):338626
本文鏈接:http://sikaile.net/wenshubaike/xingzhengshiwu/338626.html